Download ZIP

Prompt IA test .md · 4.6 KiB · Markdown Raw

# chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans le chat et compare les réponses. 🧠 Raisonnement (sépare les modèles "intelligents" des perroquets) ## Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ? ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège. ## J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ? ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste. 📐 Suivi d'instruction strict (test discipline) ## Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e". ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails. Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu. ▎ Compte les mots, c'est binaire. 🪤 Pièges classiques (test robustesse / non-blabla) ## Combien de "r" dans le mot "strawberry" ? ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant. ## Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier. ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications. 💻 Code (compare coder vs généraliste) ## Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring. ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien. Voici un bug : `def avg(nums): return sum(nums)/len(nums)`. Liste 3 cas où ça casse, et propose une version safe. ▎ Test : sens du edge case (liste vide, mix int/float, NaN). 🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen) ## Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions. ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not". ## Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases. ▎ Distingue les modèles vraiment français des modèles "traduits". 📊 Format structuré (test alignement strict) ## Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown. ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq. ## Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data. ▎ Test syntaxe markdown + concision. 🎯 Hallucination factuelle (test honnêteté) ## Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le. ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe. ## Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur. ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar. ⚡ Long contexte (utile vu que tu as 64K ctx) ## [Colle un texte de 5000 mots type article de blog] Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ? ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte. 🎭 Créativité contrainte ## Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier. ▎ Pas mal de modèles ignorent la contrainte syllabique. --- Protocole pratique pour comparer 1. Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case. 2. Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle. 3. Mêmes paramètres : si tu changes la température entre tests, c'est invalide. 4. Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus. Pour vraiment switcher de modèle dans Discord À vérifier dans la doc Hermes, mais regarde si tu peux faire : - @HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt - Ou créer plusieurs profiles avec leurs propres alias Discord

chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans le chat et compare les réponses.

🧠 Raisonnement (sépare les modèles "intelligents" des perroquets)

Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?

▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège.

J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?

▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste.

📐 Suivi d'instruction strict (test discipline)

Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".

▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails.

Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu.

▎ Compte les mots, c'est binaire.

🪤 Pièges classiques (test robustesse / non-blabla)

Combien de "r" dans le mot "strawberry" ?

▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant.

Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.

▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications.

💻 Code (compare coder vs généraliste)

Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.

▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien.

Voici un bug : def avg(nums): return sum(nums)/len(nums). Liste 3 cas où ça casse, et propose une version safe.

▎ Test : sens du edge case (liste vide, mix int/float, NaN).

🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen)

Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.

▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not".

Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.

▎ Distingue les modèles vraiment français des modèles "traduits".

📊 Format structuré (test alignement strict)

Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.

▎ Vérifie : pas de ```json, exactement les bons types, valide à jq.

Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.

▎ Test syntaxe markdown + concision.

🎯 Hallucination factuelle (test honnêteté)

Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.

▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe.

Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.

▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar.

⚡ Long contexte (utile vu que tu as 64K ctx)

[Colle un texte de 5000 mots type article de blog]

Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ?

▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte.

🎭 Créativité contrainte

Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.

▎ Pas mal de modèles ignorent la contrainte syllabique.

Protocole pratique pour comparer

Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case.
Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle.
Mêmes paramètres : si tu changes la température entre tests, c'est invalide.
Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus.

Pour vraiment switcher de modèle dans Discord

À vérifier dans la doc Hermes, mais regarde si tu peux faire :

@HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt
Ou créer plusieurs profiles avec leurs propres alias Discord