Revision of Prompt IA test .md

Erreur32 revidoval tento gist 1 week ago. Přejít na revizi

Žádné změny

Erreur32 revidoval tento gist 1 week ago. Přejít na revizi

1 file changed, 17 insertions, 15 deletions

Prompt IA test .md

			@@ -1,18 +1,19 @@
1		-	Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses.
	1	+	# chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans le chat et compare les réponses.
2	2
3	3		🧠 Raisonnement (sépare les modèles "intelligents" des perroquets)
4	4
5		-	Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?
	5	+
	6	+	## Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?
6	7
7	8		▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège.
8	9
9		-	J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?
	10	+	## J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?
10	11
11	12		▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste.
12	13
13	14		📐 Suivi d'instruction strict (test discipline)
14	15
15		-	Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".
	16	+	## Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".
16	17
17	18		▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails.
18	19
			@@ -22,17 +23,17 @@ Voici un kit de prompts vraiment discriminants — chacun cible une dimension pr
22	23
23	24		🪤 Pièges classiques (test robustesse / non-blabla)
24	25
25		-	Combien de "r" dans le mot "strawberry" ?
	26	+	## Combien de "r" dans le mot "strawberry" ?
26	27
27	28		▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant.
28	29
29		-	Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.
	30	+	## Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.
30	31
31	32		▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications.
32	33
33	34		💻 Code (compare coder vs généraliste)
34	35
35		-	Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.
	36	+	## Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.
36	37
37	38		▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien.
38	39
			@@ -42,44 +43,45 @@ Voici un kit de prompts vraiment discriminants — chacun cible une dimension pr
42	43
43	44		🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen)
44	45
45		-	Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.
	46	+	## Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.
46	47
47	48		▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not".
48	49
49		-	Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.
	50	+	## Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.
50	51
51	52		▎ Distingue les modèles vraiment français des modèles "traduits".
52	53
53	54		📊 Format structuré (test alignement strict)
54	55
55		-	Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.
	56	+	## Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.
56	57
57	58		▎ Vérifie : pas de ```json, exactement les bons types, valide à jq.
58	59
59		-	Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.
	60	+	## Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.
60	61
61	62		▎ Test syntaxe markdown + concision.
62	63
63	64		🎯 Hallucination factuelle (test honnêteté)
64	65
65		-	Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.
	66	+	## Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.
66	67
67	68		▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe.
68	69
69		-	Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.
	70	+	## Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.
70	71
71	72		▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar.
72	73
73	74		⚡ Long contexte (utile vu que tu as 64K ctx)
74	75
75		-	[Colle un texte de 5000 mots type article de blog]
	76	+	## [Colle un texte de 5000 mots type article de blog]
76	77		Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ?
77	78
78	79		▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte.
79	80
80	81		🎭 Créativité contrainte
81	82
82		-	Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.
	83	+	## Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.
	84	+
83	85
84	86		▎ Pas mal de modèles ignorent la contrainte syllabique.
85	87

Erreur32 revidoval tento gist 1 week ago. Přejít na revizi

1 file changed, 98 insertions

Prompt IA test .md (vytvořil soubor)

		@@ -0,0 +1,98 @@
1	+	Voici un kit de prompts vraiment discriminants — chacun cible une dimension précise où les modèles divergent. Copie-colle direct dans Discord et compare les réponses.
2	+
3	+	🧠 Raisonnement (sépare les modèles "intelligents" des perroquets)
4	+
5	+	Une batte de baseball et une balle coûtent 1.10€ ensemble. La batte coûte 1.00€ de plus que la balle. Combien coûte la balle ?
6	+
7	+	▎ Mauvaise réponse : 0.10€ (piège System 1). Bonne : 0.05€. Petits modèles tombent souvent dans le piège.
8	+
9	+	J'ai 3 ampoules dans une pièce et 3 interrupteurs hors de la pièce. Je peux entrer 1 seule fois. Comment savoir quel interrupteur correspond à quelle ampoule ?
10	+
11	+	▎ Test : raisonnement physique (chaleur). Modèles faibles oublient cette piste.
12	+
13	+	📐 Suivi d'instruction strict (test discipline)
14	+
15	+	Liste 7 fruits, un par ligne, par ordre alphabétique inverse, sans la lettre "e".
16	+
17	+	▎ Quasi-impossible si le modèle ne contrôle pas sa génération. Compte les fails.
18	+
19	+	Réponds en exactement 17 mots, ni plus ni moins. Sujet : pourquoi le ciel est bleu.
20	+
21	+	▎ Compte les mots, c'est binaire.
22	+
23	+	🪤 Pièges classiques (test robustesse / non-blabla)
24	+
25	+	Combien de "r" dans le mot "strawberry" ?
26	+
27	+	▎ Bonne réponse : 3. Beaucoup de modèles disent 2 par tokenisation foireuse. Très discriminant.
28	+
29	+	Pierre lit le journal à Jean. Qui tient le journal ? Réponds en une phrase, sans justifier.
30	+
31	+	▎ Mesure coréférence. Réponse : Pierre. Modèles confus partent en explications.
32	+
33	+	💻 Code (compare coder vs généraliste)
34	+
35	+	Écris une fonction Python `lcs(a, b)` qui renvoie la plus longue sous-chaîne commune à 2 strings, en O(n*m) avec DP. Code only, 15 lignes max, sans docstring.
36	+
37	+	▎ Le profile coder (Qwen3-Coder-30B) devrait écraser le default ici. Sinon c'est que le coder ne sert à rien.
38	+
39	+	Voici un bug : `def avg(nums): return sum(nums)/len(nums)`. Liste 3 cas où ça casse, et propose une version safe.
40	+
41	+	▎ Test : sens du edge case (liste vide, mix int/float, NaN).
42	+
43	+	🌍 Multilingue / nuance française (Mistral-Nemo vs Qwen)
44	+
45	+	Traduis "I'm not sure whether he meant it ironically or not" en français, italien, et japonais. Donne juste les 3 traductions.
46	+
47	+	▎ Mistral-Nemo natif français devrait briller. Qwen3:4b va probablement passer par l'anglais et perdre la nuance "whether...or not".
48	+
49	+	Quelle est la différence entre "second" et "deuxième" en français ? Réponse en 2 phrases.
50	+
51	+	▎ Distingue les modèles vraiment français des modèles "traduits".
52	+
53	+	📊 Format structuré (test alignement strict)
54	+
55	+	Donne-moi un JSON valide avec exactement ces clés : name (string), age (int), tags (array de 2 strings), active (bool). Rien d'autre, pas de markdown.
56	+
57	+	▎ Vérifie : pas de ```json, exactement les bons types, valide à jq.
58	+
59	+	Tableau markdown comparant Python et Rust sur : vitesse, courbe d'apprentissage, gestion mémoire. 3 colonnes, 3 lignes de data.
60	+
61	+	▎ Test syntaxe markdown + concision.
62	+
63	+	🎯 Hallucination factuelle (test honnêteté)
64	+
65	+	Qui a gagné le prix Nobel de littérature en 2025 ? Si tu n'es pas sûr, dis-le.
66	+
67	+	▎ Modèles entraînés avant 2025 doivent dire "je ne sais pas". S'ils inventent un nom = mauvais signe.
68	+
69	+	Cite 3 papiers de recherche sur les LLM publiés en 2024 par DeepMind, avec titre exact et premier auteur.
70	+
71	+	▎ Test brutal d'hallucination. Beaucoup inventent des références plausibles. Tu peux vérifier sur arxiv/scholar.
72	+
73	+	⚡ Long contexte (utile vu que tu as 64K ctx)
74	+
75	+	[Colle un texte de 5000 mots type article de blog]
76	+	Question : à quel pourcentage du texte l'auteur mentionne-t-il pour la première fois le mot "X" ?
77	+
78	+	▎ Test "needle in haystack" — modèles mémorisent ou pas le milieu du contexte.
79	+
80	+	🎭 Créativité contrainte
81	+
82	+	Écris un haïku (5-7-5 syllabes strict) sur le silicium et les LPDDR5X. Compte les syllabes pour vérifier.
83	+
84	+	▎ Pas mal de modèles ignorent la contrainte syllabique.
85	+
86	+	---
87	+	Protocole pratique pour comparer
88	+
89	+	1. Crée une grille : 5 prompts × 3 modèles. Note 1-5 sur chaque case.
90	+	2. Switch modèle entre runs : sur Discord, redirige vers le profile coder via hermes --profile coder côté CLI, ou crée un alias Discord par modèle.
91	+	3. Mêmes paramètres : si tu changes la température entre tests, c'est invalide.
92	+	4. Faits ≠ goût : sur le raisonnement et le format, la réponse est binaire. Sur la créativité, c'est subjectif → ne tire pas de conclusion là-dessus.
93	+
94	+	Pour vraiment switcher de modèle dans Discord
95	+
96	+	À vérifier dans la doc Hermes, mais regarde si tu peux faire :
97	+	- @HermesBot --provider llamacpp-jarvis --model qwen3-coder-30b votre prompt
98	+	- Ou créer plusieurs profiles avec leurs propres alias Discord

Novější Starší