Erreur32 ha revisionato questo gist 1 week ago. Vai alla revisione
Nessuna modifica
Erreur32 ha revisionato questo gist 1 week ago. Vai alla revisione
1 file changed, 17 insertions, 15 deletions
Prompt IA test .md
| @@ -1,18 +1,19 @@ | |||
| 1 | - | Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses. | |
| 1 | + | # chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans le chat et compare les réponses. | |
| 2 | 2 | ||
| 3 | 3 | 🧠 Raisonnement (sépare les modèles "intelligents" des perroquets) | |
| 4 | 4 | ||
| 5 | - | Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ? | |
| 5 | + | ||
| 6 | + | ## Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ? | |
| 6 | 7 | ||
| 7 | 8 | ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège. | |
| 8 | 9 | ||
| 9 | - | J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ? | |
| 10 | + | ## J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ? | |
| 10 | 11 | ||
| 11 | 12 | ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste. | |
| 12 | 13 | ||
| 13 | 14 | 📐 Suivi d'instruction strict (test discipline) | |
| 14 | 15 | ||
| 15 | - | Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e". | |
| 16 | + | ## Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e". | |
| 16 | 17 | ||
| 17 | 18 | ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails. | |
| 18 | 19 | ||
| @@ -22,17 +23,17 @@ Voici un kit de prompts vraiment discriminants — chacun cible une dimension pr | |||
| 22 | 23 | ||
| 23 | 24 | 🪤 Pièges classiques (test robustesse / non-blabla) | |
| 24 | 25 | ||
| 25 | - | Combien de "r" dans le mot "strawberry" ? | |
| 26 | + | ## Combien de "r" dans le mot "strawberry" ? | |
| 26 | 27 | ||
| 27 | 28 | ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant. | |
| 28 | 29 | ||
| 29 | - | Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier. | |
| 30 | + | ## Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier. | |
| 30 | 31 | ||
| 31 | 32 | ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications. | |
| 32 | 33 | ||
| 33 | 34 | 💻 Code (compare coder vs généraliste) | |
| 34 | 35 | ||
| 35 | - | Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring. | |
| 36 | + | ## Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring. | |
| 36 | 37 | ||
| 37 | 38 | ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien. | |
| 38 | 39 | ||
| @@ -42,44 +43,45 @@ Voici un kit de prompts vraiment discriminants — chacun cible une dimension pr | |||
| 42 | 43 | ||
| 43 | 44 | 🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen) | |
| 44 | 45 | ||
| 45 | - | Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions. | |
| 46 | + | ## Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions. | |
| 46 | 47 | ||
| 47 | 48 | ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not". | |
| 48 | 49 | ||
| 49 | - | Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases. | |
| 50 | + | ## Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases. | |
| 50 | 51 | ||
| 51 | 52 | ▎ Distingue les modèles vraiment français des modèles "traduits". | |
| 52 | 53 | ||
| 53 | 54 | 📊 Format structuré (test alignement strict) | |
| 54 | 55 | ||
| 55 | - | Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown. | |
| 56 | + | ## Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown. | |
| 56 | 57 | ||
| 57 | 58 | ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq. | |
| 58 | 59 | ||
| 59 | - | Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data. | |
| 60 | + | ## Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data. | |
| 60 | 61 | ||
| 61 | 62 | ▎ Test syntaxe markdown + concision. | |
| 62 | 63 | ||
| 63 | 64 | 🎯 Hallucination factuelle (test honnêteté) | |
| 64 | 65 | ||
| 65 | - | Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le. | |
| 66 | + | ## Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le. | |
| 66 | 67 | ||
| 67 | 68 | ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe. | |
| 68 | 69 | ||
| 69 | - | Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur. | |
| 70 | + | ## Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur. | |
| 70 | 71 | ||
| 71 | 72 | ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar. | |
| 72 | 73 | ||
| 73 | 74 | ⚡ Long contexte (utile vu que tu as 64K ctx) | |
| 74 | 75 | ||
| 75 | - | [Colle un texte de 5000 mots type article de blog] | |
| 76 | + | ## [Colle un texte de 5000 mots type article de blog] | |
| 76 | 77 | Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ? | |
| 77 | 78 | ||
| 78 | 79 | ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte. | |
| 79 | 80 | ||
| 80 | 81 | 🎭 Créativité contrainte | |
| 81 | 82 | ||
| 82 | - | Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier. | |
| 83 | + | ## Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier. | |
| 84 | + | ||
| 83 | 85 | ||
| 84 | 86 | ▎ Pas mal de modèles ignorent la contrainte syllabique. | |
| 85 | 87 | ||
Erreur32 ha revisionato questo gist 1 week ago. Vai alla revisione
1 file changed, 98 insertions
Prompt IA test .md (file creato)
| @@ -0,0 +1,98 @@ | |||
| 1 | + | Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses. | |
| 2 | + | ||
| 3 | + | 🧠 Raisonnement (sépare les modèles "intelligents" des perroquets) | |
| 4 | + | ||
| 5 | + | Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ? | |
| 6 | + | ||
| 7 | + | ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège. | |
| 8 | + | ||
| 9 | + | J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ? | |
| 10 | + | ||
| 11 | + | ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste. | |
| 12 | + | ||
| 13 | + | 📐 Suivi d'instruction strict (test discipline) | |
| 14 | + | ||
| 15 | + | Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e". | |
| 16 | + | ||
| 17 | + | ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails. | |
| 18 | + | ||
| 19 | + | Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu. | |
| 20 | + | ||
| 21 | + | ▎ Compte les mots, c'est binaire. | |
| 22 | + | ||
| 23 | + | 🪤 Pièges classiques (test robustesse / non-blabla) | |
| 24 | + | ||
| 25 | + | Combien de "r" dans le mot "strawberry" ? | |
| 26 | + | ||
| 27 | + | ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant. | |
| 28 | + | ||
| 29 | + | Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier. | |
| 30 | + | ||
| 31 | + | ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications. | |
| 32 | + | ||
| 33 | + | 💻 Code (compare coder vs généraliste) | |
| 34 | + | ||
| 35 | + | Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring. | |
| 36 | + | ||
| 37 | + | ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien. | |
| 38 | + | ||
| 39 | + | Voici un bug : `def avg(nums): return sum(nums)/len(nums)`. Liste 3 cas où ça casse, et propose une version safe. | |
| 40 | + | ||
| 41 | + | ▎ Test : sens du edge case (liste vide, mix int/float, NaN). | |
| 42 | + | ||
| 43 | + | 🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen) | |
| 44 | + | ||
| 45 | + | Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions. | |
| 46 | + | ||
| 47 | + | ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not". | |
| 48 | + | ||
| 49 | + | Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases. | |
| 50 | + | ||
| 51 | + | ▎ Distingue les modèles vraiment français des modèles "traduits". | |
| 52 | + | ||
| 53 | + | 📊 Format structuré (test alignement strict) | |
| 54 | + | ||
| 55 | + | Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown. | |
| 56 | + | ||
| 57 | + | ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq. | |
| 58 | + | ||
| 59 | + | Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data. | |
| 60 | + | ||
| 61 | + | ▎ Test syntaxe markdown + concision. | |
| 62 | + | ||
| 63 | + | 🎯 Hallucination factuelle (test honnêteté) | |
| 64 | + | ||
| 65 | + | Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le. | |
| 66 | + | ||
| 67 | + | ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe. | |
| 68 | + | ||
| 69 | + | Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur. | |
| 70 | + | ||
| 71 | + | ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar. | |
| 72 | + | ||
| 73 | + | ⚡ Long contexte (utile vu que tu as 64K ctx) | |
| 74 | + | ||
| 75 | + | [Colle un texte de 5000 mots type article de blog] | |
| 76 | + | Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ? | |
| 77 | + | ||
| 78 | + | ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte. | |
| 79 | + | ||
| 80 | + | 🎭 Créativité contrainte | |
| 81 | + | ||
| 82 | + | Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier. | |
| 83 | + | ||
| 84 | + | ▎ Pas mal de modèles ignorent la contrainte syllabique. | |
| 85 | + | ||
| 86 | + | --- | |
| 87 | + | Protocole pratique pour comparer | |
| 88 | + | ||
| 89 | + | 1. Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case. | |
| 90 | + | 2. Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle. | |
| 91 | + | 3. Mêmes paramètres : si tu changes la température entre tests, c'est invalide. | |
| 92 | + | 4. Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus. | |
| 93 | + | ||
| 94 | + | Pour vraiment switcher de modèle dans Discord | |
| 95 | + | ||
| 96 | + | À vérifier dans la doc Hermes, mais regarde si tu peux faire : | |
| 97 | + | - @HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt | |
| 98 | + | - Ou créer plusieurs profiles avec leurs propres alias Discord | |