Intelligence artificielle : Qu’est-ce que c’est et que fait-elle vraiment de vos données ?

Technologie

Intelligence artificielle : Qu’est-ce que c’est et que fait-elle vraiment de vos données ?

Mickael Chevenement Publié il y a 1 mois

Les points principaux

Un modèle d’IA, c'est quoi ? Le fonctionnement Les risques

Le fonctionnement des IA génératives et les enjeux de protection des données qu’elles soulèvent pour les particuliers comme pour les entreprises

L’IA générative s’est diffusée très vite, chez les particuliers comme dans les organisations : rédaction, synthèse, support client, recherche documentaire, aide au développement, automatisation. Avec elle, une question revient sans cesse : que deviennent les données que l’on saisit dans ces outils ?

Sont-elles stockées, réutilisées, transférées hors de l’Union européenne, et qui porte la responsabilité au regard du RGPD ? La réponse n’est jamais vraiment oui ou non : elle dépend du fournisseur, du type d’offre, des réglages, et surtout des garanties contractuelles et techniques. Dans un contexte où le RGPD demeure le cadre central, et où l’AI Act renforce progressivement les exigences de gouvernance, l’enjeu n’est pas d’interdire l’IA, mais d’en faire un usage utile, proportionné et surtout sécurisé.

Reprenons les bases et demandons-nous ce qu’est un modèle d’IA, comment il est entraîné et comment il fonctionne.

Un outil comme ChatGPT ou Gemini repose sur un modèle d’IA : on peut l’imaginer comme un moteur capable de produire du texte à partir d’une question. Concrètement, ce moteur a appris à repérer des régularités dans des textes (des tournures, des liens entre mots, des structures de phrases) et à proposer, à chaque étape, la suite la plus cohérente. Il ne comprend pas comme un humain : il calcule des probabilités à partir de ce qu’il a déjà appris, puis génère une réponse. C’est ce qui fait sa force (il reformule, résume, rédige très vite) et aussi sa limite : il peut se tromper, inventer des éléments ou donner une réponse plausible mais fausse.

Pour bien comprendre, il faut distinguer plusieurs phases très différentes.

La première phase, c’est la création du modèle. Un fournisseur conçoit l’architecture, choisit une stratégie d’entraînement, prépare une infrastructure (serveurs, sécurité, supervision) et définit des règles de filtrage et de contrôle. C’est la fabrication du moteur : on ne parle pas encore de vos prompts, mais de la construction du système.

La deuxième phase, c’est l’entraînement. À ce moment-là, le modèle apprend à partir de grands volumes de données. Ces données peuvent venir de sources diverses : contenus accessibles en ligne, corpus sous licence, jeux de données spécialisés, données synthétiques (créées pour l’entraînement), ou parfois données internes dans des projets d’IA métier. Avant d’être utilisées, elles sont généralement traitées : on nettoie, on filtre, on trie, on annote, on teste. L’objectif est d’améliorer la qualité et d’éviter certains comportements indésirables (biais, contenus dangereux, incohérences). Sur le plan de la protection des données, c’est aussi une phase sensible : public ne signifie pas sans règles, et les questions de licéité, de minimisation, de traçabilité et de sécurité restent centrales.

La troisième phase, c’est l’utilisation au quotidien, qu’on appelle souvent l’inférence.

C’est là que vous intervenez : vous écrivez une question (le prompt), vous joignez parfois un document (un PDF, un mail, un tableau), et le modèle génère une réponse à partir de ce qu’il a appris lors de son entraînement.

Important : dans beaucoup de cas, le modèle ne se modifie pas en direct à chaque question. Autrement dit, votre prompt sert d’entrée pour produire une sortie, mais il ne devient pas automatiquement une nouvelle leçon intégrée au modèle.

En revanche, ce qui change tout, c’est ce que le service fait des données que vous lui fournissez.

Il existe généralement plusieurs niveaux possibles.

Premier niveau : les données sont utilisées uniquement pour répondre, puis supprimées rapidement, ou conservées uniquement de manière technique et temporaire (par exemple le temps de traiter la requête).

Deuxième niveau : les échanges sont conservés pendant une durée déterminée pour fournir un historique à l’utilisateur, assurer la sécurité (détection d’abus, prévention de fraude), permettre le support, ou réaliser des diagnostics en cas d’erreur.

Troisième niveau, le plus sensible : les données d’usage (prompts, fichiers, réponses, ou parfois certaines métadonnées) peuvent être réutilisées pour améliorer le service ou le modèle. Concrètement, cela peut vouloir dire qu’elles servent à entraîner de nouvelles versions, à ajuster le modèle (fine-tuning), à entraîner des filtres de sécurité, ou à évaluer la qualité des réponses. Dans ce cas, vos données ne servent plus seulement à vous répondre : elles deviennent une matière première potentielle pour faire évoluer l’outil.

Selon le fournisseur, l’offre (grand public ou entreprise) et les réglages, la réutilisation peut être activée par défaut, optionnelle, ou explicitement exclue. Certaines offres entreprise prévoient par exemple que les données clients ne seront pas utilisées pour entraîner les modèles, alors que des offres grand public peuvent prévoir des usages d’amélioration plus larges, avec des mécanismes d’opposition ou de paramétrage.

D’un point de vue protection des données, le sujet n’est donc pas seulement « est-ce que j’ai donné une information ? », mais « qui peut la voir, combien de temps est-elle conservée, où est-elle traitée, et peut-elle être réutilisée pour entraîner ou améliorer le système ? ». Il est nécessaire de vérifier systématiquement la politique du service, les paramètres de confidentialité, et en entreprise les clauses contractuelles.

Enfin, dans les entreprises, on voit de plus en plus des systèmes hybrides : l’IA ne répond pas seulement avec ce qu’elle a appris, elle va aussi chercher dans une base documentaire interne (procédures, contrats types, notes, FAQ) puis rédige une réponse à partir des documents trouvés. Cette approche peut être plus sûre si elle est bien conçue (accès limités, documents filtrés, traçabilité), mais elle peut aussi créer de nouveaux risques si trop de documents sont accessibles, mal triés, ou consultables par des personnes qui ne devraient pas y accéder.

Les risques pour les particuliers et les règles de prudence

Pour un particulier, le principal risque est simple : ce que vous saisissez peut contenir bien plus que vous ne le pensez. Un prompt peut révéler une identité, une situation familiale, un problème de santé, des coordonnées, des informations financières, ou des éléments très intimes. Si l’outil conserve un historique, si un compte est compromis, ou si des données sont utilisées au-delà de la seule réponse immédiate, l’exposition augmente. Dans certains cas, un contenu que l’on croyait anodin peut permettre une réidentification, notamment lorsqu’il combine plusieurs détails.

Un autre risque vient de la confusion entre conseil et vérité. Les modèles peuvent produire des réponses convaincantes mais fausses (hallucinations), ou trop affirmatives sur des sujets sensibles (santé, juridique, finance).

Les bons réflexes, côté particulier, reposent sur la minimisation et le contrôle : éviter de partager des données sensibles ou identifiantes, préférer des descriptions anonymisées, vérifier les paramètres de confidentialité et l’historique, sécuriser le compte (mot de passe robuste, MFA quand disponible), cocher l’option « ne pas entrainer le modèle » lorsqu’elle vous est proposée, et garder en tête qu’une IA n’est ni un coffre-fort ni un professionnel soumis au secret. Enfin, si une plateforme offre des mécanismes d’opposition ou de gestion des données (suppression d’historique, contrôle de l’utilisation pour amélioration), il faut les activer quand cela est possible et pertinent.

Les risques en entreprise et les bonnes pratiques à appliquer

En entreprise, les risques sont à la fois juridiques, organisationnels et opérationnels.

Le plus fréquent est la fuite d’informations confidentielles par des usages banals : copier-coller un contrat, un échange client, une note interne, un ticket support ou un document RH. Même sans incident de sécurité, cela peut contrevenir à des obligations de confidentialité, au secret des affaires, à des clauses contractuelles ou au RGPD si des données personnelles sont transmises sans base légale et sans encadrement.

Le deuxième risque majeur est la « Shadow AI » : des outils utilisés sans validation, parfois via des comptes personnels, sans cartographie, sans DPA, sans paramétrage et sans contrôle des transferts. À cela s’ajoutent des risques de gouvernance : incapacité à tracer les usages, à limiter les accès...

La première bonne pratique consiste à cadrer les usages avant de les multiplier. Une politique d’usage de l’IA en interne doit définir ce qui est autorisé, ce qui est interdit, et ce qui exige un circuit de validation. Elle doit surtout préciser les catégories de données à exclure (données sensibles, informations stratégiques, secrets d’affaires, données clients non nécessaires) et imposer des principes de minimisation.

L’objectif n’est pas de bloquer, mais de rendre les équipes autonomes dans un cadre clair : ce que je peux saisir, ce que je dois anonymiser, et quand je dois utiliser une solution encadrée plutôt qu’un outil public.

La deuxième pratique, indispensable, est la cartographie. Il faut savoir qui utilise quoi, pour quels cas d’usage, avec quelles données, et où elles transitent. Sans cette visibilité, il est impossible de tenir un registre à jour, de qualifier les rôles, de vérifier les transferts, et difficile de prioriser les mesures de sécurité.

La troisième pratique relève du contractuel et du pilotage fournisseur. Lorsqu’un outil traite des données personnelles pour le compte de l’entreprise, un accord de sous-traitance (DPA) solide est nécessaire, avec des clauses claires sur la conservation, la sécurité, les sous-traitants ultérieurs, les transferts hors UE, l’assistance (droits des personnes, violation), la suppression. Spécifiquement pour l’IA, il faut encadrer explicitement la question de la réutilisation des données à des fins d’amélioration ou d’entraînement : périmètre, options, exceptions et preuves.

Enfin, la sécurité et la formation font la différence au quotidien. Côté sécurité, on privilégie les accès maîtrisés (SSO, MFA), la gestion des rôles, la journalisation, et des mesures de prévention des fuites adaptées au niveau de sensibilité. Côté humain, une sensibilisation efficace doit être très concrète : exemples de prompts interdits, techniques d’anonymisation, bons réflexes de minimisation, et procédure simple de signalement en cas de doute.

C’est souvent au clavier que se joue la conformité.

Et les fournisseurs ?

Pour ce qui est des entreprises qui développent / fournissent des systèmes d’intelligence artificielle, l’ère du tout est permis est bel et bien révolue.

Le cadre réglementaire se façonne et se durcit de jour en jour, avec des règles qui viennent enfin encadrer ce qu’il est possible de déployer comme type de système d’IA.

Entre le RGPD et l’IA Act, il devient parfois difficile de naviguer et de créer un système d’IA qui respecte les exigences légales. Ce sujet fera l’objet d’un futur article reprenant les exigences réglementaires qui s’appliquent aux entreprises qui développent des systèmes d’IA.

Nom	Fournisseur	Expiration	Type
dna_consent	DNA	13 mois	HTML
Stocke l'autorisation d'utilisation de cookies pour le domaine actuel par l'utilisateur.
dna_type	DNA	10 minutes	HTML
Ce cookie est utilisé pour distinguer les humains des robots.
dna_contact	DNA	10 minutes	JSON
Ce cookie est utilisé pour préremplir le formulaire de la page contact en fonction des actions de l'utilisateur.
SERVERID	OVH	Session	HTML
Un cookie technique utilisé par notre hébergeur pour faire de la répartition de charge serveur.

Nom	Fournisseur	Expiration	Type
_pk.id	DNA - MATOMO	13 mois	html
Utilisé pour stocker quelques détails à propos de l'utilisateur tel que son identifiant unique.
_pk.ses	DNA - MATOMO	30 minutes	HTML
Cookie à courte vie utilisé pour stocker temporaire des données sur la visite.
mtm_cookie_consent	DNA - MATOMO	12 mois	HTML
Est créé pour se souvenir du consementement de l'utilisateur pour stocker et utiliser des cookies statistiques.

Technologie

Intelligence artificielle : Qu’est-ce que c’est et que fait-elle vraiment de vos données ?

Technologie