Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses. 🧠 Raisonnement (sépare les modèles "intelligents" des perroquets) Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ? ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège. J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ? ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste. 📐 Suivi d'instruction strict (test discipline) Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e". ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails. Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu. ▎ Compte les mots, c'est binaire. 🪤 Pièges classiques (test robustesse / non-blabla) Combien de "r" dans le mot "strawberry" ? ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant. Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier. ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications. 💻 Code (compare coder vs généraliste) Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring. ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien. Voici un bug : `def avg(nums): return sum(nums)/len(nums)`. Liste 3 cas où ça casse, et propose une version safe. ▎ Test : sens du edge case (liste vide, mix int/float, NaN). 🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen) Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions. ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not". Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases. ▎ Distingue les modèles vraiment français des modèles "traduits". 📊 Format structuré (test alignement strict) Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown. ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq. Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data. ▎ Test syntaxe markdown + concision. 🎯 Hallucination factuelle (test honnêteté) Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le. ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe. Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur. ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar. ⚡ Long contexte (utile vu que tu as 64K ctx) [Colle un texte de 5000 mots type article de blog] Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ? ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte. 🎭 Créativité contrainte Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier. ▎ Pas mal de modèles ignorent la contrainte syllabique. --- Protocole pratique pour comparer 1. Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case. 2. Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle. 3. Mêmes paramètres : si tu changes la température entre tests, c'est invalide. 4. Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus. Pour vraiment switcher de modèle dans Discord À vérifier dans la doc Hermes, mais regarde si tu peux faire : - @HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt - Ou créer plusieurs profiles avec leurs propres alias Discord