À l’ère de l’IA générative, nos données personnelles ne sont plus seulement collectées et stockées : elles peuvent aussi être intégrées, analysées, et même répliquées par des modèles entraînés à grande échelle. Dans ce contexte, un droit fondamental garanti par le RGPD semble mis à rude épreuve : le droit à l’effacement, aussi appelé droit à l’oubli. Mais peut-on encore « désentraîner » un modèle d’IA ? Que signifie "effacer ses données" quand celles-ci ont été digérées par un réseau neuronal ? Décryptage.
L’article 17 du Règlement général sur la protection des données (RGPD) consacre le « droit à l’effacement », ou « droit à l’oubli », permettant à toute personne concernée de demander à un responsable du traitement l’effacement de ses données personnelles « dans les meilleurs délais ».
Ce droit, bien que fondamental, n’est pas absolu : il s’exerce sous certaines conditions prévues au paragraphe 1 de l’article 17, qui énumère six hypothèses dans lesquelles l’effacement doit être effectué. Les principales sont :
« Les données à caractère personnel ne sont plus nécessaires au regard des finalités pour lesquelles elles ont été collectées ou traitées »
👉 Exemple : un service a collecté des données pour un accès temporaire ou un service limité dans le temps, mais continue de les stocker indéfiniment sans justification.
« La personne concernée retire le consentement sur lequel est fondé le traitement […] et il n’existe pas d’autre fondement juridique au traitement »
👉 C’est notamment le cas pour des traitements marketing, ou pour des traitements basés uniquement sur le consentement libre et éclairé (ex : newsletter, cookies, etc.).
« La personne concernée s’oppose au traitement […] et il n’existe pas de motif légitime impérieux pour le traitement »
👉 Ce cas concerne en particulier les traitements fondés sur l’intérêt légitime de l’entreprise. Si la personne s’y oppose, et qu’aucun intérêt supérieur ne le justifie, les données doivent être supprimées.
« Les données à caractère personnel ont fait l’objet d’un traitement illicite »
👉 C’est souvent le cas en cas de collecte non conforme (sans information, sans base légale, avec des finalités trompeuses ou étendues).
« Les données doivent être effacées pour respecter une obligation légale […] en vertu du droit de l’Union ou du droit de l’État membre »
👉 Exemple : des obligations de suppression dans des secteurs sensibles (santé, mineurs, droit au déréférencement, etc.).
« Les données ont été collectées dans le cadre de l’offre de services de la société de l’information à un enfant »
👉 Renforcement spécifique pour protéger les mineurs, dont le consentement est plus vulnérable.
Le problème ? Les modèles génératifs comme GPT, LLaMA ou Gemini n’enregistrent pas des données sous forme brute. Ils sont entraînés sur des corpus massifs, où les informations personnelles sont diluées puis encodées sous forme de pondérations internes.
Autrement dit, vos données ne sont plus directement accessibles… mais elles peuvent ressurgir.
On a vu des cas documentés où des modèles regénéraient des données personnelles (emails, adresses, noms), même après obfuscation du jeu d'entraînement. Le problème devient juridiquement complexe :
L’irréversibilité de l'entraînement
Les modèles actuels ne peuvent pas facilement "désapprendre". L'effacement post-entraînement est techniquement coûteux, voire impossible, sauf à réentraîner l’ensemble du modèle.
L’absence de traçabilité individuelle
Il est extrêmement difficile de prouver que tel contenu personnel a été absorbé par le modèle, à moins de disposer des données exactes d’entraînement – ce que peu d’acteurs divulguent.
Les limites de l’auditabilité
Même si un utilisateur fait une demande d’effacement, comment prouver que le modèle respecte cette requête ? Les outils d’audit des IA sont encore immatures.
Si, en théorie, chacun devrait pouvoir demander la suppression de ses données personnelles, comment faire valoir ce droit quand ces données ont été absorbées, transformées et dispersées dans les milliards de paramètres d’un modèle d’IA ?
Face à cette tension croissante entre les exigences juridiques et les réalités techniques, plusieurs pistes sont explorées. Mais aucune ne permet aujourd’hui de concilier pleinement IA générative et conformité RGPD.
Ce désapprentissage consisterait à retirer l’influence d’un échantillon d’entraînement sans avoir à réentraîner l’ensemble du modèle depuis zéro — une opération souvent coûteuse, voire impossible, dans le cas de modèles de très grande taille.
Mais en pratique, cela se heurte à plusieurs limites majeures :
En résumé : l’unlearning est une promesse de demain, mais pas une solution pour aujourd’hui.
Autre approche : mettre en place des filtres en sortie du modèle pour empêcher la régénération d’informations sensibles.
Par exemple, empêcher une IA de générer une adresse email ou un numéro de sécurité sociale par des règles prédéfinies, des blacklists ou du post-traitement algorithmique.
C’est la technique utilisée par de nombreux fournisseurs de LLM commerciaux pour éviter les fuites accidentelles, notamment dans les versions grand public.
Mais cette méthode reste cosmétique :
Une solution juridiquement élégante serait de ne plus entraîner les modèles que sur des données expressément consenties ("opt-in").
En théorie, cela respecterait l'article 6 du RGPD (base légale du traitement), éviterait tout contentieux, et garantirait un niveau d’éthique élevé.
Mais cette approche se heurte à des contraintes pratiques importantes :
Des projets open source comme BLOOM ou RedPajama tentent cette voie avec des jeux de données éthiques, mais ils restent très loin des performances de modèles comme GPT ou Claude.
Face à ces limites techniques, la réponse devra aussi venir du droit lui-même. Le RGPD a été pensé à une époque où l’on pouvait isoler et supprimer un fichier. L’IA générative demande de repenser la notion même de "donnée personnelle" et de "traitement".
Plusieurs pistes sont évoquées :
Les autorités européennes prennent progressivement conscience de l’enjeu. Le Comité européen de la protection des données (CEPD) élabore actuellement des lignes directrices spécifiques à l’IA générative, notamment :
L’AI Act, quant à lui, entre en vigueur par étapes à partir de 2025. Il prévoit :
Le droit à l’effacement n’a pas disparu, mais il est désormais confronté à une mutation profonde du rapport à la donnée.
Effacer un contenu d’un serveur est une chose. Le retirer d’un modèle qui a appris à l’utiliser sans jamais le mémoriser littéralement en est une autre.
La vraie question n’est peut-être plus : “comment supprimer mes données d’une IA ?”, mais plutôt :
“comment limiter l’impact algorithmique que mes données peuvent avoir sur le monde”.
Dans ce contexte, transparence, documentation, traçabilité et régulation ex ante deviennent les nouveaux piliers d’un droit à l’oubli réellement effectif.