Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses.

  🧠 Raisonnement (sépare les modèles "intelligents" des perroquets)

  Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?

  ▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège.

  J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?

  ▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste.

  📐 Suivi d'instruction strict (test discipline)

  Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".

  ▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails.

  Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu.

  ▎ Compte les mots, c'est binaire.

  🪤 Pièges classiques (test robustesse / non-blabla)

  Combien de "r" dans le mot "strawberry" ?

  ▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant.

  Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.

  ▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications.

  💻 Code (compare coder vs généraliste)

  Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.

  ▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien.

  Voici un bug : `def avg(nums): return sum(nums)/len(nums)`. Liste 3 cas où ça casse, et propose une version safe.

  ▎ Test : sens du edge case (liste vide, mix int/float, NaN).

  🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen)

  Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.

  ▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not".

  Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.

  ▎ Distingue les modèles vraiment français des modèles "traduits".

  📊 Format structuré (test alignement strict)

  Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.

  ▎ Vérifie : pas de ```json, exactement les bons types, valide à jq.

  Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.

  ▎ Test syntaxe markdown + concision.

  🎯 Hallucination factuelle (test honnêteté)

  Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.

  ▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe.

  Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.

  ▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar.

  ⚡ Long contexte (utile vu que tu as 64K ctx)

  [Colle un texte de 5000 mots type article de blog]
  Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ?

  ▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte.

  🎭 Créativité contrainte

  Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.

  ▎ Pas mal de modèles ignorent la contrainte syllabique.

  ---
  Protocole pratique pour comparer

  1. Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case.
  2. Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle.
  3. Mêmes paramètres : si tu changes la température entre tests, c'est invalide.
  4. Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus.

  Pour vraiment switcher de modèle dans Discord

  À vérifier dans la doc Hermes, mais regarde si tu peux faire :
  - @HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt
  - Ou créer plusieurs profiles avec leurs propres alias Discord