L’art du prompting selon Lee Boonstra (Tech Lead chez Google)

On a tendance à croire que tout repose sur le modèle. GPT, Gemini, Mistral, Claude, LLaMA… Comme si la magie venait d’eux seuls. Et si ce n’était pas (que) le cas ? Si la vraie différence se jouait dans la façon de leur parler ? C’est l’idée centrale du document publié par Lee Boonstra, tech lead chez Google, qui livre une véritable méthode pour dialoguer avec un LLM. Et spoiler : on est loin des prompts "magiques" trouvés sur LinkedIn.

Ce qu'il faut retenir :

Les performances d’un LLM dépendent autant de ses paramètres que de la qualité du prompt fourni.
Des réglages comme la temperature, le top-K ou le top-P influencent fortement la cohérence ou la créativité des réponses.
Des techniques comme le zero-shot, few-shot, ou le Chain of Thought permettent de guider plus finement le raisonnement de l’IA.
Google propose désormais une véritable méthode de travail pour structurer, tester et documenter ses prompts de manière professionnelle.
Des approches avancées comme Tree of Thoughts ou Self-consistency ouvrent la voie à des usages plus complexes et fiables.

Comprendre les leviers de génération d’un LLM

Temperature : votre curseur de créativité

Vous aimez les réponses stables, sans surprise ? Ou vous préférez un soupçon de folie dans la sortie d’un modèle ? C’est là que le paramètre "temperature" entre en jeu.

Plus la valeur est basse (autour de 0), plus le modèle devient prévisible, presque robotique. Pratique pour des tâches comme le calcul, la classification ou la rédaction réglementaire. À l’inverse, une temperature autour de 0.8–1 injecte de la variété dans les propositions. Idéal pour écrire un poème, un email accrocheur ou générer plusieurs variantes de meta descriptions.

Pas de bon ou mauvais réglage, juste une question d’intention.

Top-K et top-P : comment limiter (ou élargir) le champ des possibles

Ces deux paramètres filtrent les choix du modèle avant qu’il décide quel mot écrire ensuite.

Top-K : le modèle choisit parmi les K mots les plus probables. K=1 ? Il choisit toujours le plus probable. K=40 ? Il a plus de marge pour innover.
Top-P : ici, on ne fixe pas un nombre de mots, mais un seuil de probabilité cumulative. P=0.9 signifie que le modèle ne peut puiser que dans un ensemble de mots dont les probabilités totalisent 90 %.

Ces réglages influencent directement la tonalité des réponses. Et leur combinaison avec la temperature peut créer… de la magie ou un chaos bavard.

Longueur de sortie : le piège silencieux

Un modèle ne “devine” pas quand s’arrêter. C’est vous qui fixez un nombre maximal de tokens à générer. Trop court, et la réponse est coupée. Trop long, et le modèle peut radoter ou partir hors sujet. Ce point est crucial pour des techniques comme ReAct ou Chain of Thought, où chaque étape du raisonnement compte.

On a les bases. Maintenant, voyons comment utiliser ces leviers à travers les techniques de prompting les plus efficaces.

Maîtriser les techniques de prompting

Zero-shot : l'approche directe, sans filet

C’est le format brut : une consigne, aucun exemple. Utile quand la tâche est simple ou standard. Mais attention, le modèle peut interpréter de travers.

Un prompt comme :

Classifie ce commentaire : "Ce film est lent, mais touchant."

…peut donner des résultats aléatoires. Le modèle hésite, il manque de repères.

Few-shot : montrer la voie par l’exemple

Vous fournissez 2 ou 3 cas similaires bien ficelés, et le modèle s’aligne sur ce modèle. C’est particulièrement utile pour des formats normés (JSON, tableaux, etc.) ou des tâches métier précises. Un peu comme montrer un exemple à un collègue avant de lui demander de faire la suite.

Derniers événements

Derniers Articles