Est-ce que ChatGPT comprend vraiment ce qu'on lui dit ?

Non. Un LLM convertit les mots en vecteurs numériques et effectue des milliards de calculs statistiques pour prédire le prochain mot le plus probable.

Qu'est-ce que la tokenisation dans un LLM ?

Le texte est découpé en petits morceaux appelés tokens, puis chaque token reçoit un identifiant numérique unique.

C'est quoi un embedding ou vecteur dans l'IA ?

Un embedding transforme un mot en une longue liste de nombres qui encode son sens dans un espace mathématique à plusieurs milliers de dimensions.

Qu'est-ce que le Cache KV ?

Le Cache KV stocke les vecteurs déjà calculés pour éviter de tout recalculer à chaque nouveau mot, accélérant drastiquement la génération.

Qu'est-ce que TurboQuant ?

Un algorithme Google (ICLR 2026) qui compresse le cache KV de 32 à 3 bits sans perte, divisant par 6 la mémoire nécessaire.

Non, ChatGPT ne vous comprend pas — Comment fonctionnent les LLM

Ils rédigent des mails impeccables, résument des rapports de 200 pages, écrivent du code et font même des blagues. Les « IA » comme ChatGPT, Gemini ou Claude ont envahi notre quotidien. Mais comprennent-elles réellement ce qu'elles disent ? La réponse, catégorique, est non.

Commençons par tordre le cou à un terme galvaudé. Ce que le grand public appelle « intelligence artificielle » n'en est pas une. Pas au sens où vous l'entendez. Un grand modèle de langage — un LLM, pour Large Language Model — ne pense pas, ne ressent rien, et n'a aucune conscience du monde dans lequel il évolue. Il ne sait pas qu'il existe. Il ne sait même pas ce qu'est un mot.

Ce qu'il sait faire, en revanche, c'est du calcul. Des milliards d'opérations mathématiques, enchaînées à une vitesse vertigineuse, pour produire un résultat statistiquement plausible. L'illusion est bluffante. Mais ça reste de l'illusion. Pour comprendre pourquoi, il faut ouvrir la boîte.

Un processeur ne parle aucune langue

La première chose à intégrer est brutale dans sa simplicité : un ordinateur, qu'il soit dans votre poche ou qu'il occupe un hangar entier chez Google, ne manipule que des courants électriques. Des 0 et des 1. Le binaire. Il n'a pas d'yeux pour lire, pas d'oreilles pour écouter, pas de vécu pour interpréter. Si vous lui envoyez le mot « Pomme », il ne voit pas un fruit juteux et croquant. Il voit une suite de caractères, chacun encodé en chiffres.

Le défi fondamental de la discipline est donc celui-ci : comment faire « comprendre » du langage humain à une machine qui ne connaît que l'arithmétique ? La réponse tient en trois étapes, et chacune d'elles est un petit tour de force d'ingénierie.

Étape 1 — Le hachoir à mots

Quand vous tapez une phrase dans ChatGPT, la première chose qui se passe n'a rien de glamour. Votre texte est découpé en petits morceaux appelés tokens. Un token peut être un mot entier, un bout de mot, parfois juste une lettre. C'est ce qu'on appelle la tokenisation.

Le modèle dispose d'un immense dictionnaire — son vocabulaire — qui associe un numéro d'identification unique à chaque token. C'est exactement comme un catalogue de bibliothèque : chaque livre a sa cote, chaque fragment de mot a son ID.

À ce stade, votre belle phrase poétique est réduite à une liste de numéros de catalogue. Mais ces identifiants bruts posent un problème de taille : le numéro 892 (« pomme ») n'a aucun lien mathématique avec le numéro 304 (« rouge »). Pour la machine, ces deux nombres sont aussi éloignés que « pomme » et « supraconductivité ». Il manque une pièce essentielle : le sens.

Étape 2 — Quand les mots deviennent de la géométrie

C'est ici que les choses deviennent fascinantes. Pour donner du « sens » aux tokens, le modèle va transformer chaque identifiant en un vecteur — c'est-à-dire une très longue liste de nombres à virgule. Ce processus porte un nom : l'embedding (ou plongement lexical, pour les puristes).

Pour comprendre l'idée, imaginez qu'on vous demande de décrire n'importe quel concept en lui attribuant des notes sur 10. Est-ce que ça se mange ? Est-ce vivant ? Est-ce rouge ? Avec trois critères, vous obtenez trois nombres. C'est un vecteur à trois dimensions.

Dans notre exemple, « Pomme » et « Cerise » ont des vecteurs très proches — logique, ce sont deux fruits rouges comestibles. « Voiture » est loin dans cet espace. Le modèle n'a pas besoin de « savoir » ce qu'est une pomme. Il lui suffit de constater que les deux premiers vecteurs sont mathématiquement voisins.

Dans un vrai LLM, il n'y a pas 3 dimensions, mais entre 4 000 et 12 000. Et ces dimensions ne correspondent pas à des questions humaines. Ce sont des concepts mathématiques abstraits, découverts automatiquement par le modèle au fil de son entraînement sur des milliards de pages web. Personne, pas même les chercheurs, ne sait exactement ce que représente la dimension n° 7 834.

Vecteur(Roi) − Vecteur(Homme) + Vecteur(Femme) ≈ Vecteur(Reine)

C'est la propriété la plus spectaculaire de ces espaces vectoriels : les relations sémantiques se traduisent en opérations arithmétiques. Non pas parce que le modèle comprend la monarchie, mais parce que les statistiques de co-occurrence dans les textes d'entraînement dessinent cette géométrie.

Étape 3 — L'attention, ou comment un mot « regarde » les autres

Les vecteurs donnent du sens aux mots pris isolément. Mais une phrase, ce n'est pas une collection de mots jetés en vrac. Le mot « banque » n'a pas le même sens dans « la banque de la rivière » et « la banque est fermée ». Comment la machine fait-elle la différence ?

C'est le rôle du mécanisme d'attention, le cœur de l'architecture Transformer qui propulse tous les LLM modernes. Pour chaque mot, le modèle fabrique trois vecteurs dérivés :

Query (Q) — La requête : ce que le mot cherche chez les autres.
Key (K) — La clé : ce que le mot propose, son « étiquette ».
Value (V) — La valeur : le contenu réel que le mot transmettra une fois la correspondance établie.

Le modèle compare ensuite la Query de chaque mot avec les Keys de tous les autres. Quand il détecte un « match », il récupère les Values associées pour affiner le contexte. C'est comme ça que « banque » finit par être interprété correctement.

Comment génère-t-il du texte ?

Un LLM produit du texte de la manière la moins romantique qui soit : un mot à la fois. C'est ce qu'on appelle la génération autorégressive. Le modèle prend tout ce qui précède et calcule quel est le prochain token le plus probable. Puis il recommence.

Ce processus pose un problème technique colossal. Pour un texte de 1 000 mots, le modèle devrait recalculer les vecteurs Q, K et V des 1 000 mots précédents à chaque nouveau mot. Un gaspillage monumental.

Le Cache KV — la mémoire de travail express

La solution porte un nom : le Cache KV (Key-Value Cache). Puisque le texte déjà traité ne change pas, les Keys et les Values des mots précédents restent identiques. Le modèle les stocke en mémoire. Pour chaque nouveau mot, il ne calcule que ses propres Q, K, V et consulte les clés et valeurs mises de côté.

L'analogie du détective : imaginez un enquêteur qui relit un dossier de 100 pages à chaque page ajoutée. Avec le Cache KV, il prend des notes structurées et ne consulte que ses notes pour la page suivante. Infiniment plus rapide.

Mais le Cache KV a un coût : la mémoire. Stocker des milliers de vecteurs pour chaque mot d'une conversation exige d'énormes quantités de VRAM. C'est pourquoi les modèles capables de lire des documents très longs nécessitent des serveurs hors du commun.

La grande illusion

À aucun moment le modèle n'a « compris » quoi que ce soit. Il a calculé que, statistiquement et géométriquement, la suite de nombres qu'il a produite était la réponse mathématique la plus probable à la suite de nombres que vous lui avez envoyée. C'est de la haute voltige statistique. Pas de l'intelligence.

Est-ce que cela diminue l'utilité de ces outils ? Absolument pas. Un calculateur de trajectoire n'a pas besoin de « comprendre » la gravité pour envoyer une sonde sur Mars. Mais confondre l'outil avec la pensée, c'est s'exposer à des erreurs de jugement sur ce qu'on peut confier à ces machines.

TurboQuant : quand Google compresse l'IA sans perdre une miette

Ce problème de mémoire lié au Cache KV, les chercheurs de Google viennent d'y apporter une réponse élégante. TurboQuant, présenté à la conférence ICLR 2026, s'attaque au goulot d'étranglement de la mémoire par la quantification vectorielle : au lieu de stocker chaque nombre en 32 bits, TurboQuant n'en garde que 3 — sans perte mesurable.

Comment ça fonctionne

TurboQuant procède en deux temps. D'abord, PolarQuant effectue une rotation des données pour simplifier leur géométrie et appliquer une compression de haute qualité en coordonnées polaires. Ensuite, QJL (Quantized Johnson-Lindenstrauss) corrige les erreurs résiduelles avec un seul bit supplémentaire.

Les résultats : 6× moins de mémoire pour le Cache KV, 8× plus rapide sur GPU H100, le tout avec 0 % de perte de précision. Testé sur Gemma et Mistral, TurboQuant maintient des performances identiques au modèle original — y compris sur des tâches exigeantes comme retrouver une information noyée dans un document de milliers de mots.

En clair : des modèles plus légers, plus rapides, moins énergivores — sans sacrifier la moindre capacité. Une avancée invisible pour l'utilisateur, mais qui pourrait rendre les LLM de demain accessibles sur des appareils moins puissants.

Un outil formidable, pas un collègue

Les LLM sont des outils extraordinairement puissants — pour résumer, reformuler, explorer des idées, générer du code. Mais ils ne raisonnent pas. Ils ne vérifient pas leurs sources. Ils ne savent pas quand ils se trompent. Et ils n'ont aucune notion de vérité : seulement de probabilité.

Utilisons-les pour ce qu'ils sont — des calculatrices de langage surpuissantes — et gardons l'esprit critique pour ce qu'aucune machine ne sait encore faire : penser.

Non, ChatGPT ne vous comprend pas. Et c'est fascinant.