Glossaire de l’IA générative

Les termes essentiels, expliqués pour décider — pas pour coder. Ce glossaire rassemble les termes que tout dirigeant, indépendant ou artisan doit comprendre pour s’y retrouver dans l’IA générative. Chaque définition tient en deux à trois phrases et privilégie l’usage et l’enjeu plutôt que la technique pure. Les termes sont regroupés en neuf thématiques.

1. Les fondations

Les mots pour comprendre de quoi on parle vraiment.

Intelligence artificielle (IA)

Ensemble de techniques permettant à une machine d’exécuter des tâches qui demandent normalement de l’intelligence humaine : comprendre, raisonner, créer. C’est un terme parapluie : « faire de l’IA » ne veut rien dire de précis tant qu’on n’a pas dit laquelle.

IA générative

Catégorie d’IA capable de produire du contenu nouveau (texte, image, son, vidéo, code) plutôt que de seulement classer ou prédire. C’est la famille à laquelle appartiennent ChatGPT, Claude ou Midjourney.

IA prédictive

IA qui analyse des données existantes pour classer, détecter ou prévoir (un spam, un risque de panne, une fraude) sans rien créer. À ne pas confondre avec le génératif : deux usages très différents.

Machine learning (apprentissage automatique)

Méthode où la machine apprend des régularités à partir d’exemples au lieu d’être programmée règle par règle. C’est le socle de la quasi-totalité de l’IA moderne.

Deep learning (apprentissage profond)

Forme avancée de machine learning utilisant de grands réseaux de neurones empilés en couches. C’est ce qui a rendu possible la génération de texte et d’images réaliste.

Réseau de neurones

Modèle informatique vaguement inspiré du cerveau, fait de « neurones » artificiels reliés entre eux qui s’ajustent à l’entraînement. La brique de base du deep learning.

LLM (grand modèle de langage)

Modèle entraîné sur d’énormes quantités de texte pour comprendre et générer du langage. ChatGPT, Claude et Gemini reposent dessus. C’est le terme central de l’IA générative textuelle.

Modèle de fondation

Très grand modèle entraîné de façon généraliste, réutilisable pour de multiples tâches sans tout réapprendre. On bâtit des applications par-dessus plutôt que de partir de zéro.

Multimodal

Se dit d’un modèle qui gère plusieurs types de contenu à la fois (texte, image, audio, parfois vidéo). Vous pouvez lui montrer une photo et lui poser une question dessus.

AGI (intelligence artificielle générale)

IA hypothétique capable d’égaler l’humain sur n’importe quelle tâche intellectuelle. Elle n’existe pas aujourd’hui ; méfiez-vous de quiconque prétend la vendre.

IA faible / IA forte

« Faible » = spécialisée dans une tâche (toutes les IA actuelles). « Forte » = compréhension générale et conscience, purement théorique. Distinction utile pour dégonfler les fantasmes.

Algorithme

Suite d’instructions qui transforme une entrée en résultat. En IA, l’algorithme n’est pas écrit à la main mais en grande partie appris à partir des données.

Données (data)

Matière première de l’IA. La qualité, la quantité et la légalité des données déterminent ce que le modèle sait faire — et ses défauts.

2. Modèles & acteurs

Qui fait quoi sur le marché, et selon quel modèle de distribution.

GPT

Famille de modèles de langage développée par OpenAI, à l’origine de ChatGPT. « GPT » est devenu un quasi-synonyme grand public d’IA générative.

ChatGPT

Interface grand public d’OpenAI donnant accès aux modèles GPT. À distinguer du modèle lui-même : ChatGPT est le produit, GPT le moteur.

Claude

Famille de modèles développée par Anthropic, orientée raisonnement, rédaction longue et usage professionnel. Concurrent direct de GPT et Gemini.

Gemini

Famille de modèles de Google, intégrée à son écosystème (recherche, Workspace, Android).

Mistral

Éditeur français de modèles, dont plusieurs en open weight. Argument de souveraineté et d’hébergement européen.

Llama

Famille de modèles de Meta, distribuée en open weight, très utilisée pour héberger sa propre IA.

Modèle propriétaire (closed source)

Modèle dont le fonctionnement interne et les poids ne sont pas publics ; on y accède via abonnement ou API. Plus simple, mais vous dépendez de l’éditeur.

Modèle open source / open weight

Modèle dont les poids sont téléchargeables et exécutables chez soi. Plus de contrôle et de confidentialité, mais à vos frais techniques. Nuance : « open weight » n’est pas tout à fait « open source ».

Modèle frontier

Les modèles les plus puissants du moment, à la frontière de l’état de l’art. Les plus chers et les plus surveillés.

SLM (petit modèle de langage)

Modèle compact, moins puissant mais rapide et peu coûteux, exécutable sur un serveur modeste voire un téléphone. Souvent suffisant pour des tâches ciblées.

Distillation

Technique consistant à entraîner un petit modèle pour imiter un gros. On gagne en coût et en vitesse en perdant un peu de finesse.

3. Sous le capot

Comment ça marche, sans les mathématiques.

Token (jeton)

Unité de base que le modèle manipule — un morceau de mot, environ trois quarts d’un mot en français. Tout se compte et se facture en tokens : c’est l’unité de mesure de l’IA.

Tokenisation

Découpage d’un texte en tokens avant traitement. Explique pourquoi le modèle « compte » le texte différemment d’un humain.

Paramètres / poids

Les milliards de valeurs internes ajustées pendant l’entraînement, qui encodent ce que le modèle « sait ». Plus de paramètres ne veut pas toujours dire mieux.

Entraînement (training)

Phase où le modèle ajuste ses paramètres en analysant des données. Très coûteuse en calcul ; elle a lieu une fois, avant l’usage.

Pré-entraînement

Première phase, généraliste, où le modèle apprend le langage sur d’immenses corpus. La base avant toute spécialisation.

Fine-tuning (affinage)

Réentraînement ciblé d’un modèle existant sur vos propres données pour le spécialiser (votre ton, votre métier). Utile, mais un RAG suffit souvent et coûte moins cher.

Embedding (vecteur sémantique)

Traduction d’un texte en une série de nombres qui capture son sens. Permet à la machine de mesurer si deux textes parlent de la même chose.

Base vectorielle

Base de données stockant des embeddings pour retrouver l’information par le sens plutôt que par mot-clé. Cœur technique du RAG.

Fenêtre de contexte (context window)

Quantité maximale de texte que le modèle peut « garder en tête » en une fois (question + documents + réponse). Au-delà, il oublie le début.

Température

Réglage du degré de hasard dans les réponses. Basse = factuel et répétable ; haute = créatif et imprévisible.

Inférence

Le moment où le modèle, déjà entraîné, produit une réponse. C’est cette étape que vous payez à chaque usage.

RLHF (renforcement par retour humain)

Méthode d’ajustement où des humains notent les réponses pour rendre le modèle plus utile et moins toxique. Explique en partie le comportement « poli » des assistants.

Knowledge cutoff (date de connaissance)

Date après laquelle le modèle n’a plus rien appris. Au-delà, il ignore l’actualité — sauf s’il peut chercher sur le web.

4. Parler à l’IA

Le prompt et l’art de formuler une demande.

Prompt

L’instruction ou la question que vous donnez à l’IA. La qualité du prompt conditionne directement la qualité de la réponse.

Prompt engineering

L’art de formuler des prompts efficaces : contexte, rôle, exemples, format attendu. Une compétence concrète, pas un gadget.

System prompt (instruction système)

Consigne de cadrage fixée en amont, invisible pour l’utilisateur final, qui définit le rôle et les règles de l’IA. C’est là qu’on « configure » un assistant.

Zero-shot

Demander une tâche sans fournir d’exemple. Rapide, mais résultats plus variables.

Few-shot

Fournir quelques exemples dans le prompt pour guider le modèle. Améliore nettement la régularité des réponses.

Chain of thought (raisonnement pas à pas)

Demander au modèle de détailler son raisonnement avant de conclure. Réduit les erreurs sur les tâches complexes.

Contexte

L’ensemble des informations dont dispose le modèle à un instant donné : votre message, l’historique, les documents fournis. Hors contexte, il ne sait rien.

Itération

Affiner une réponse par allers-retours successifs plutôt que tout obtenir du premier coup. C’est le mode de travail normal avec une IA.

Persona / rôle

Consigne demandant à l’IA d’adopter un point de vue ou un métier (« agis comme un juriste »). Oriente le ton et le niveau de réponse.

5. Créer du contenu

La génération d’image, de vidéo et de voix.

Text-to-image

Génération d’une image à partir d’une description textuelle. Le cœur d’outils comme Midjourney ou DALL·E.

Text-to-video

Génération d’une vidéo à partir d’un texte. Technologie récente, spectaculaire mais encore inégale.

Text-to-speech (TTS)

Conversion d’un texte en voix synthétique, de plus en plus naturelle.

Speech-to-text (transcription)

Conversion de la parole en texte écrit. Base des comptes rendus de réunion automatiques.

Modèle de diffusion

Technique dominante de génération d’images : partir d’un bruit aléatoire et le « débruiter » progressivement jusqu’à l’image. Le moteur derrière la plupart des générateurs visuels.

GAN (réseau antagoniste génératif)

Ancienne approche où deux réseaux s’affrontent : l’un crée, l’autre juge. À l’origine des premiers deepfakes, aujourd’hui en partie supplantée par la diffusion.

Inpainting

Régénérer une zone précise d’une image (effacer un objet, remplacer un fond) sans toucher au reste.

Outpainting / extension générative

Étendre une image au-delà de ses bords en inventant la suite de façon cohérente.

Upscaling (super-résolution)

Augmenter la définition d’une image en reconstruisant les détails. Utile pour l’impression.

Seed (graine)

Nombre de départ qui détermine le hasard d’une génération. Réutiliser la même seed permet de reproduire ou décliner un résultat.

Prompt négatif

Liste de ce que l’on ne veut pas voir dans une image générée. Outil de contrôle fréquent en génération visuelle.

Clonage vocal

Reproduction synthétique d’une voix réelle à partir d’échantillons. Puissant et juridiquement sensible : consentement, usurpation.

6. L’IA qui agit

L’étage au-dessus : l’IA branchée à vos données et capable d’actions.

RAG (génération augmentée par récupération)

Technique où l’IA va d’abord chercher l’info dans vos documents avant de répondre. Réduit les hallucinations et ancre les réponses dans vos données. Souvent préférable au fine-tuning.

Agent IA

IA qui ne se contente pas de répondre mais enchaîne des actions pour atteindre un objectif : chercher, décider, utiliser des outils. Le sujet chaud du moment — et le plus survendu.

Function calling / tool use (appel d’outils)

Capacité du modèle à déclencher des actions externes : envoyer un mail, interroger une base, lancer un calcul. Ce qui transforme un assistant en exécutant.

MCP (Model Context Protocol)

Standard ouvert qui permet de brancher une IA sur des outils et des données externes de façon normalisée. Une sorte de « prise universelle » pour connecter l’IA à votre système.

Automatisation

Exécution d’une tâche sans intervention humaine. Couplée à l’IA, elle passe de règles fixes à des décisions plus souples.

Workflow

Enchaînement structuré d’étapes pour accomplir un processus. L’IA s’y insère comme une étape parmi d’autres.

Orchestration

Coordination de plusieurs modèles, outils ou agents pour mener une tâche complexe. L’étage de pilotage au-dessus des briques individuelles.

No-code IA

Outils permettant d’intégrer de l’IA sans programmer, par glisser-déposer ou connecteurs. Démocratise l’accès, au prix d’un certain plafond de personnalisation.

API

Porte d’entrée technique pour brancher l’IA dans vos propres logiciels. Facturée à l’usage, c’est ce qu’utilisent les développeurs là où le grand public utilise une interface.

Copilote

Assistant IA intégré dans un logiciel existant (traitement de texte, code, CRM) pour épauler en continu. Le mot est devenu un terme marketing générique.

7. Limites & pièges

Ce qu’il faut savoir avant de faire confiance à une réponse.

Hallucination

Quand l’IA invente une information fausse en la présentant avec assurance. Le risque numéro un : une IA ne « sait » pas qu’elle se trompe. Vérification humaine obligatoire.

Biais

Reproduction par l’IA des préjugés présents dans ses données d’entraînement (genre, origine, etc.). Conséquences juridiques et réputationnelles réelles.

Deepfake

Contenu truqué (visage, voix) ultra-réaliste généré par IA. Enjeu majeur de fraude et de désinformation.

Boîte noire

Le fait qu’on ne sache pas expliquer précisément pourquoi un modèle a produit telle réponse. Problème pour les décisions devant être justifiées.

Dérive (drift)

Dégradation des performances d’un modèle dans le temps, quand la réalité s’éloigne de ses données d’entraînement.

Sycophantie (complaisance)

Tendance de l’IA à vous donner raison pour vous plaire plutôt qu’à donner la réponse juste. À surveiller quand on cherche un avis critique.

Surconfiance

Le ton assuré de l’IA pousse à la croire sur parole. La forme impeccable ne garantit jamais le fond.

Surapprentissage (overfitting)

Modèle qui a « trop appris par cœur » ses exemples et généralise mal sur des cas nouveaux.

Empreinte environnementale

Coût énergétique et en eau de l’entraînement et de l’usage des modèles. De plus en plus scruté.

8. Cadre, droit & éthique

Le terrain réglementaire, souvent sous-estimé par les dirigeants.

RGPD

Règlement européen sur les données personnelles. Toute IA traitant des données de clients ou de salariés y est soumise — y compris ce que vous collez dans un prompt.

IA Act

Règlement européen encadrant l’IA par niveau de risque. Premier cadre juridique mondial du genre ; impose des obligations selon l’usage.

Propriété intellectuelle / droit d’auteur

Questions ouvertes sur la titularité des contenus générés et la légalité des données d’entraînement. Zone grise juridique encore mouvante.

Données d’entraînement

Corpus utilisé pour entraîner un modèle. Leur origine soulève des litiges sur le consentement et le droit d’auteur.

Souveraineté numérique

Capacité à maîtriser ses données et ses outils sans dépendre d’acteurs étrangers. Argument central des offres européennes.

Confidentialité

Enjeu de ce que deviennent les informations envoyées à une IA. Selon l’offre, vos données peuvent servir ou non à entraîner le modèle — à vérifier avant d’y mettre du sensible.

Consentement

Accord requis pour utiliser des données personnelles, des voix ou des visages. Pierre angulaire en clonage vocal et en images.

Transparence / explicabilité

Capacité à rendre compte du fonctionnement et des décisions d’une IA. Exigée dans les contextes réglementés.

Filigrane / watermark

Marquage, visible ou invisible, signalant qu’un contenu a été généré par IA. Piste contre la désinformation, encore imparfaite.

9. Pratique & économie

Ce qui finit sur la facture et conditionne vos choix.