Naposledy aktivní 1 week ago

Erreur32's Avatar Erreur32 revidoval tento gist 1 week ago. Přejít na revizi

Žádné změny

Erreur32's Avatar Erreur32 revidoval tento gist 1 week ago. Přejít na revizi

1 file changed, 17 insertions, 15 deletions

Prompt IA test .md

@@ -1,18 +1,19 @@
1 - Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses.
1 + # chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans le chat et compare les réponses.
2 2
3 3 🧠 Raisonnement (sépare les modèles "intelligents" des perroquets)
4 4
5 - Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?
5 +
6 + ## Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?
6 7
7 8 ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège.
8 9
9 - J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?
10 + ## J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?
10 11
11 12 ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste.
12 13
13 14 📐 Suivi d'instruction strict (test discipline)
14 15
15 - Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".
16 + ## Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".
16 17
17 18 ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails.
18 19
@@ -22,17 +23,17 @@ Voici un kit de prompts vraiment discriminants — chacun cible une dimension pr
22 23
23 24 🪤 Pièges classiques (test robustesse / non-blabla)
24 25
25 - Combien de "r" dans le mot "strawberry" ?
26 + ## Combien de "r" dans le mot "strawberry" ?
26 27
27 28 ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant.
28 29
29 - Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.
30 + ## Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.
30 31
31 32 ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications.
32 33
33 34 💻 Code (compare coder vs généraliste)
34 35
35 - Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.
36 + ## Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.
36 37
37 38 ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien.
38 39
@@ -42,44 +43,45 @@ Voici un kit de prompts vraiment discriminants — chacun cible une dimension pr
42 43
43 44 🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen)
44 45
45 - Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.
46 + ## Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.
46 47
47 48 ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not".
48 49
49 - Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.
50 + ## Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.
50 51
51 52 ▎ Distingue les modèles vraiment français des modèles "traduits".
52 53
53 54 📊 Format structuré (test alignement strict)
54 55
55 - Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.
56 + ## Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.
56 57
57 58 ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq.
58 59
59 - Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.
60 + ## Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.
60 61
61 62 ▎ Test syntaxe markdown + concision.
62 63
63 64 🎯 Hallucination factuelle (test honnêteté)
64 65
65 - Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.
66 + ## Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.
66 67
67 68 ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe.
68 69
69 - Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.
70 + ## Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.
70 71
71 72 ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar.
72 73
73 74 ⚡ Long contexte (utile vu que tu as 64K ctx)
74 75
75 - [Colle un texte de 5000 mots type article de blog]
76 + ## [Colle un texte de 5000 mots type article de blog]
76 77 Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ?
77 78
78 79 ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte.
79 80
80 81 🎭 Créativité contrainte
81 82
82 - Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.
83 + ## Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.
84 +
83 85
84 86 ▎ Pas mal de modèles ignorent la contrainte syllabique.
85 87

Erreur32's Avatar Erreur32 revidoval tento gist 1 week ago. Přejít na revizi

1 file changed, 98 insertions

Prompt IA test .md (vytvořil soubor)

@@ -0,0 +1,98 @@
1 + Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses.
2 +
3 + 🧠 Raisonnement (sépare les modèles "intelligents" des perroquets)
4 +
5 + Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?
6 +
7 + ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège.
8 +
9 + J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?
10 +
11 + ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste.
12 +
13 + 📐 Suivi d'instruction strict (test discipline)
14 +
15 + Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".
16 +
17 + ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails.
18 +
19 + Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu.
20 +
21 + ▎ Compte les mots, c'est binaire.
22 +
23 + 🪤 Pièges classiques (test robustesse / non-blabla)
24 +
25 + Combien de "r" dans le mot "strawberry" ?
26 +
27 + ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant.
28 +
29 + Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.
30 +
31 + ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications.
32 +
33 + 💻 Code (compare coder vs généraliste)
34 +
35 + Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.
36 +
37 + ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien.
38 +
39 + Voici un bug : `def avg(nums): return sum(nums)/len(nums)`. Liste 3 cas où ça casse, et propose une version safe.
40 +
41 + ▎ Test : sens du edge case (liste vide, mix int/float, NaN).
42 +
43 + 🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen)
44 +
45 + Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.
46 +
47 + ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not".
48 +
49 + Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.
50 +
51 + ▎ Distingue les modèles vraiment français des modèles "traduits".
52 +
53 + 📊 Format structuré (test alignement strict)
54 +
55 + Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.
56 +
57 + ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq.
58 +
59 + Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.
60 +
61 + ▎ Test syntaxe markdown + concision.
62 +
63 + 🎯 Hallucination factuelle (test honnêteté)
64 +
65 + Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.
66 +
67 + ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe.
68 +
69 + Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.
70 +
71 + ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar.
72 +
73 + ⚡ Long contexte (utile vu que tu as 64K ctx)
74 +
75 + [Colle un texte de 5000 mots type article de blog]
76 + Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ?
77 +
78 + ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte.
79 +
80 + 🎭 Créativité contrainte
81 +
82 + Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.
83 +
84 + ▎ Pas mal de modèles ignorent la contrainte syllabique.
85 +
86 + ---
87 + Protocole pratique pour comparer
88 +
89 + 1. Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case.
90 + 2. Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle.
91 + 3. Mêmes paramètres : si tu changes la température entre tests, c'est invalide.
92 + 4. Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus.
93 +
94 + Pour vraiment switcher de modèle dans Discord
95 +
96 + À vérifier dans la doc Hermes, mais regarde si tu peux faire :
97 + - @HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt
98 + - Ou créer plusieurs profiles avec leurs propres alias Discord
Novější Starší