L’IA générative s’est diffusée très vite, chez les particuliers comme dans les organisations : rédaction, synthèse, support client, recherche documentaire, aide au développement, automatisation. Avec elle, une question revient sans cesse : que deviennent les données que l’on saisit dans ces outils ?
Sont-elles stockées, réutilisées, transférées hors de l’Union européenne, et qui porte la responsabilité au regard du RGPD ? La réponse n’est jamais vraiment oui ou non : elle dépend du fournisseur, du type d’offre, des réglages, et surtout des garanties contractuelles et techniques. Dans un contexte où le RGPD demeure le cadre central, et où l’AI Act renforce progressivement les exigences de gouvernance, l’enjeu n’est pas d’interdire l’IA, mais d’en faire un usage utile, proportionné et surtout sécurisé.
Un outil comme ChatGPT ou Gemini repose sur un modèle d’IA : on peut l’imaginer comme un moteur capable de produire du texte à partir d’une question. Concrètement, ce moteur a appris à repérer des régularités dans des textes (des tournures, des liens entre mots, des structures de phrases) et à proposer, à chaque étape, la suite la plus cohérente. Il ne comprend pas comme un humain : il calcule des probabilités à partir de ce qu’il a déjà appris, puis génère une réponse. C’est ce qui fait sa force (il reformule, résume, rédige très vite) et aussi sa limite : il peut se tromper, inventer des éléments ou donner une réponse plausible mais fausse.
La première phase, c’est la création du modèle. Un fournisseur conçoit l’architecture, choisit une stratégie d’entraînement, prépare une infrastructure (serveurs, sécurité, supervision) et définit des règles de filtrage et de contrôle. C’est la fabrication du moteur : on ne parle pas encore de vos prompts, mais de la construction du système.
La deuxième phase, c’est l’entraînement. À ce moment-là, le modèle apprend à partir de grands volumes de données. Ces données peuvent venir de sources diverses : contenus accessibles en ligne, corpus sous licence, jeux de données spécialisés, données synthétiques (créées pour l’entraînement), ou parfois données internes dans des projets d’IA métier. Avant d’être utilisées, elles sont généralement traitées : on nettoie, on filtre, on trie, on annote, on teste. L’objectif est d’améliorer la qualité et d’éviter certains comportements indésirables (biais, contenus dangereux, incohérences). Sur le plan de la protection des données, c’est aussi une phase sensible : public ne signifie pas sans règles, et les questions de licéité, de minimisation, de traçabilité et de sécurité restent centrales.
La troisième phase, c’est l’utilisation au quotidien, qu’on appelle souvent l’inférence.
C’est là que vous intervenez : vous écrivez une question (le prompt), vous joignez parfois un document (un PDF, un mail, un tableau), et le modèle génère une réponse à partir de ce qu’il a appris lors de son entraînement.
Important : dans beaucoup de cas, le modèle ne se modifie pas en direct à chaque question. Autrement dit, votre prompt sert d’entrée pour produire une sortie, mais il ne devient pas automatiquement une nouvelle leçon intégrée au modèle.
En revanche, ce qui change tout, c’est ce que le service fait des données que vous lui fournissez.
Il existe généralement plusieurs niveaux possibles.
Selon le fournisseur, l’offre (grand public ou entreprise) et les réglages, la réutilisation peut être activée par défaut, optionnelle, ou explicitement exclue. Certaines offres entreprise prévoient par exemple que les données clients ne seront pas utilisées pour entraîner les modèles, alors que des offres grand public peuvent prévoir des usages d’amélioration plus larges, avec des mécanismes d’opposition ou de paramétrage.
D’un point de vue protection des données, le sujet n’est donc pas seulement « est-ce que j’ai donné une information ? », mais « qui peut la voir, combien de temps est-elle conservée, où est-elle traitée, et peut-elle être réutilisée pour entraîner ou améliorer le système ? ». Il est nécessaire de vérifier systématiquement la politique du service, les paramètres de confidentialité, et en entreprise les clauses contractuelles.
Enfin, dans les entreprises, on voit de plus en plus des systèmes hybrides : l’IA ne répond pas seulement avec ce qu’elle a appris, elle va aussi chercher dans une base documentaire interne (procédures, contrats types, notes, FAQ) puis rédige une réponse à partir des documents trouvés. Cette approche peut être plus sûre si elle est bien conçue (accès limités, documents filtrés, traçabilité), mais elle peut aussi créer de nouveaux risques si trop de documents sont accessibles, mal triés, ou consultables par des personnes qui ne devraient pas y accéder.
Pour un particulier, le principal risque est simple : ce que vous saisissez peut contenir bien plus que vous ne le pensez. Un prompt peut révéler une identité, une situation familiale, un problème de santé, des coordonnées, des informations financières, ou des éléments très intimes. Si l’outil conserve un historique, si un compte est compromis, ou si des données sont utilisées au-delà de la seule réponse immédiate, l’exposition augmente. Dans certains cas, un contenu que l’on croyait anodin peut permettre une réidentification, notamment lorsqu’il combine plusieurs détails.
Un autre risque vient de la confusion entre conseil et vérité. Les modèles peuvent produire des réponses convaincantes mais fausses (hallucinations), ou trop affirmatives sur des sujets sensibles (santé, juridique, finance).
Les bons réflexes, côté particulier, reposent sur la minimisation et le contrôle : éviter de partager des données sensibles ou identifiantes, préférer des descriptions anonymisées, vérifier les paramètres de confidentialité et l’historique, sécuriser le compte (mot de passe robuste, MFA quand disponible), cocher l’option « ne pas entrainer le modèle » lorsqu’elle vous est proposée, et garder en tête qu’une IA n’est ni un coffre-fort ni un professionnel soumis au secret. Enfin, si une plateforme offre des mécanismes d’opposition ou de gestion des données (suppression d’historique, contrôle de l’utilisation pour amélioration), il faut les activer quand cela est possible et pertinent.
En entreprise, les risques sont à la fois juridiques, organisationnels et opérationnels.
Le plus fréquent est la fuite d’informations confidentielles par des usages banals : copier-coller un contrat, un échange client, une note interne, un ticket support ou un document RH. Même sans incident de sécurité, cela peut contrevenir à des obligations de confidentialité, au secret des affaires, à des clauses contractuelles ou au RGPD si des données personnelles sont transmises sans base légale et sans encadrement.
Le deuxième risque majeur est la « Shadow AI » : des outils utilisés sans validation, parfois via des comptes personnels, sans cartographie, sans DPA, sans paramétrage et sans contrôle des transferts. À cela s’ajoutent des risques de gouvernance : incapacité à tracer les usages, à limiter les accès...
L’objectif n’est pas de bloquer, mais de rendre les équipes autonomes dans un cadre clair : ce que je peux saisir, ce que je dois anonymiser, et quand je dois utiliser une solution encadrée plutôt qu’un outil public.
Enfin, la sécurité et la formation font la différence au quotidien. Côté sécurité, on privilégie les accès maîtrisés (SSO, MFA), la gestion des rôles, la journalisation, et des mesures de prévention des fuites adaptées au niveau de sensibilité. Côté humain, une sensibilisation efficace doit être très concrète : exemples de prompts interdits, techniques d’anonymisation, bons réflexes de minimisation, et procédure simple de signalement en cas de doute.
C’est souvent au clavier que se joue la conformité.
Pour ce qui est des entreprises qui développent / fournissent des systèmes d’intelligence artificielle, l’ère du tout est permis est bel et bien révolue.
Le cadre réglementaire se façonne et se durcit de jour en jour, avec des règles qui viennent enfin encadrer ce qu’il est possible de déployer comme type de système d’IA.
Entre le RGPD et l’IA Act, il devient parfois difficile de naviguer et de créer un système d’IA qui respecte les exigences légales. Ce sujet fera l’objet d’un futur article reprenant les exigences réglementaires qui s’appliquent aux entreprises qui développent des systèmes d’IA.