Guide d’introduction à la donnée synthétique

Cet article reprend une partie des informations présentées dans différents postes en anglais publiés ici et sur le blog de Statice. Il répond aux points suivants :

Qu’est-ce que la donnée synthétique ? Définition, origine et typologies

Comment génère-t-on des données synthétiques ?

Quelles sont les applications de la donnée synthétique ?

La donnée synthétique comme outil d’anonymisation des données personnelles

Qu’est-ce que la donnée synthétique

La donnée synthétique, synthetic data en anglais, est une donnée générée artificiellement. Cette approche se différencie de la collecte et production de données “réelles”, par exemple la collecte de données utilisateurs ou de données de santé. Un jeu de données synthétique est ainsi généré via des programmes informatiques.

Il peut s’agir d’un jeu de données complet, on parlera alors de données entièrement synthétiques, ou fully synthetic data. La donnée synthétique peut également venir compléter un jeu de données “réelles” existant, ou en en remplacer uniquement les éléments sensibles. On parlera alors de données partiellement synthétiques, ou partially synthetic data.

Origine de la donnée synthétique

Bien qu’il date des années 90, le concept de la donnée synthétique a largement gagné en popularité ces dernières années. Le phénomène a été particulièrement accentué avec la popularisation de nouveaux algorithmes génératifs permettant de produire des données synthétiques de qualité à plus grande échelle.

Toutefois, on retrouve le concept dès les années 90, dans les travaux du bureau de recensement des États-Unis. Des chercheurs, dont Donald Rubin, John Abowd et Jerry Reiter, introduisent alors la donnée synthétique comme une méthode permettant de partager les données du recensement décennal américain sans divulguer d’informations sensibles.

Types de données synthétiques

Aujourd’hui, on trouve trois grands types de données synthétiques :

  • Les microdonnées: des données structurées tabulaires utilisées à des fins statistiques
  • Le texte : des données textuelles utilisées dans le traitement automatique du langage naturel (Natural Language Processing, ou NLP)
  • Les médias : des images, vidéos ou sons utilisés, par exemple, pour entraîner des algorithmes de reconnaissance.

Comment génère-t-on des données synthétiques

Les méthodes vont différer selon que la donnée synthétique est basée ou non sur un jeu de données existant. Le type de données synthétisées va également influencer l’approche choisie. Enfin, les qualités recherchées vont également venir déterminer la technique.

Par exemple, pour certains cas de synthétisation de microdonnées, la donnée synthétique devra reproduire au mieux la distribution et les propriétés statistiques d’un jeu de données d’origine existant.

Pour d’autres types, comme les données de texte synthétique, il faut que les propriétés soient réalistes, au sens où elles pourraient exister dans un jeu de données réel. Dans ce cas, elles ne seront pas créées à partir d’un jeu de données existant.

Modélisation à base d’agents

Pour générer des données synthétiques non basées sur des données existantes, un ensemble de règles et relations est défini à partir d’observations d’un système. Les données synthétiques sont ensuite générées à partir du modèle.

C’est ce que propose par exemple la méthode de modélisation à base d’agents, ou Agent-based modelling (ABM), permettant de capturer de façon réaliste les dynamiques d’interaction d’un système. Cette méthode est utilisée par exemple en finance pour générer des données marchés réalistes qui serviront à construire des projections et analyses.

Distribution statistique et modèles deep learning

Dans les cas où la donnée synthétique est une reproduction d’une donnée existante, il est possible d’en observer la distribution statistique afin de construire un modèle qui reproduira ces caractéristiques dans une version synthétique du jeu de données.

Pour ce scénario, l’utilisation de méthodes de deep learning gagne en popularité. Deux modèles se distinguent notamment : le modèle d’auto-encodeur variationnel, ou Variational Autoencoder (VAE) et les réseaux antagonistes génératifs, ou Generative Adversarial Networks (GANs).

Mécanismes de protection : la differential privacy

Lorsque la finalité est de protéger la confidentialité de données d’origines, comme c’était déjà le cas dans les travaux du bureau de recensement américain, on va ajouter au processus de synthétisation des mécanismes garantissant l’anonymat.

Depuis quelques années des travaux sur la donnée structurée synthétique comme méthode d’anonymisation choisissent d’intégrer la définition de differential privacy. En partie grâce à l’ajout de “bruit” dans la donnée, cette norme d’analyse mathématique vise à permettre l’extraction d’informations statistiques sans exposer de détails sur les individus initialement présents dans la donnée. Cette approche, d’ailleurs utilisée pour le recensement décennal américain, permet de garantir la confidentialité de la donnée synthétique. Elle introduit toutefois un compromis sur l’utilité de la donnée.

Quelles sont les applications de la donnée synthétique

L’idée sous-jacente derrière l’utilisation de la donnée synthétique est que la “vraie” donnée n’est pas toujours disponible et ce, pour différentes raisons :

  • La donnée est confidentielle, ou contient des informations à caractère personnel régulées par des lois comme le Règlement général de protection des données (RGPD), et donc complexe à exploiter.
  • La donnée est trop coûteuse à collecter ou à produire.
  • Le volume de données existant n’est pas suffisant pour l’application souhaitée.
  • La donnée n’existe pas.
  • La donnée est difficilement accessible au sein de l’organisation, à cause de formats complexes à exploiter ou de silos dans l’infrastructure.

La donnée synthétique va permettre de répondre à ces différents problèmes du fait qu’elle soit plus simple d’accès, moins onéreuse, anonymisée (lorsque les mécanismes adéquats ont été utilisés) et peut être produite en grands volumes.

Donnée synthétique et machine learning

On retrouvera ainsi de nombreuses utilisations, par exemple l’entraînement de modèles de machine learning. Développer des modèles d’apprentissage requiert des volumes de données importants, données que l’entreprise ne possède pas forcément. Dans ce cas-là, pouvoir générer de larges volumes de données réalistes à moindre coût est un atout.

La donnée synthétique est ainsi utilisée pour entraîner les applications de reconnaissance visuelle dont les algorithmes de machine learning requièrent beaucoup de données pour produire des résultats fiables. Cette approche a par exemple été utilisée pour entraîner WildEyes AI Rhino Detector, système de reconnaissance visuelle d’une application anti-braconnage.

La qualité des données est également primordiale. Les données synthétiques peuvent ainsi ici avoir plus de valeur que des données originales qui auraient été tronquées car trop sensibles pour être exploitées par exemple. En plus de prévenir une brèche de confidentialité, les données synthétiques peuvent produire des modèles aux performances similaires à ceux entraînés sur de “vraie” données.

Donnée synthétique et partage de données

Une autre application qui vient répondre à cette problématique de sensibilité des données est celle du partage et de la mise à disposition de données. Qu’il soit interne ou externe, le partage des données est vecteur d’innovation.

Dans le secteur de la santé, par exemple, la collaboration et la mise à disposition de données peut être crucial. Mais le caractère sensible des données et les protections législatives qui les entourent restreignent ces applications. Des données synthétiques confidentielles sont une alternative intéressante.

Ainsi, en Angleterre, des jeux de données synthétiques ont été générés par des agences de santé publiques pour soutenir le développement de la recherche médicale contre le coronavirus.

Donnée synthétique pour environnements de test

La production de données synthétiques pour des environnements de test est une autre application. Un manque de données fiables peut ralentir le développement et entraver la réalisation de tests en QA par exemple. Les données synthétiques représentent une alternative aux données de production, parfois trop sensibles ou non disponibles.

La donnée synthétique comme méthode d’anonymisation des données personnelles

Comme mentionné plus haut, la donnée synthétique peut être utilisée dans les cas où la donnée originale est trop sensible pour être utilisée. Plusieurs éléments importants entrent en jeu dans ce contexte : les données desquelles est issu le jeu de données synthétiques, les mécanismes de protection et de confidentialité mis en place et le cadre législatif en vigueur.

La donnée personnelle

La donnée synthétique est utilisée comme méthode d’anonymisation sur des jeux de données contenant des informations personnelles. Depuis l’entrée en vigueur de la RGPD, sont considérés comme données personnelles les identifiants uniques (noms, prénom, numéro de sécurité social, etc) mais aussi les quasi-identifiants, ou quasi-identifiers, qui, recoupées avec d’autres informations, permettraient d’identifier un individu. Par exemple, en recoupant une date et lieu de naissance avec une profession, il serait possible de déterminer l’identité d’une personne.

L’anonymisation aux yeux de la loi

Il existe toutefois un cas où la donnée personnelle peut être utilisée plus extensivement : dans le cas où elle a été anonymisée. Le législateur a défini l’anonymisation comme un processus éliminant toutes les possibilités de ré-identification.

Le terme “d’anonymisation” est très souvent employé à tort pour faire référence à des méthodes qui en fait n’éliminent pas toutes les possibilités de ré-identification. Les experts de la Commission nationale de l’informatique et des libertés (CNIL) rappellent ainsi que les méthodes de “pseudonymisation” des données visant à remplacer ou enlever les points à caractère personnel, n’équivalent pas à de l’anonymisation.

Extrait des résultats d’audits présentés par Monir Azraoui, ingénieur expert au service de l’expertise technologique à la CNIL, lors d’un atelier organisé par l’Agence Européenne de ‘cyber-sécurité’.

D’autres méthodes plus avancées peuvent, elles aussi, présenter des risques. Ce qu’a démontré une équipe de l’Université Catholique de Louvain. Les chercheurs ont prouvé qu’il était possible de réidentifier des données “anonymes” en les recoupant avec seulement quinze autres attributs démographiques.

Garantir la confidentialité de données synthétiques

Donc pour permettre l’utilisation de données personnelles en dehors du cadre définis par la RGPD, il faut que la donnée synthétique générée soit anonyme. Pour cela, plusieurs mécanismes peuvent intervenir.

Par nature, la synthétisation génère de nouvelles données, ce qui offre un premier niveau de distanciation avec le jeu de données originel. Ensuite, il est possible d’entraîner le modèle qui génère ces données synthétiques afin qu’il réponde à la définition de la differential privacy présentée plus haut. Cela garantit un niveau supplémentaire de confidentialité. Enfin, il est possible d’ajouter des évaluations supplémentaires comme le proposent de nombreux vendeurs dont Statice. Il est possible de venir supprimer systématiquement les données qui pourraient révéler un élément statistique singulier du jeu de données original.

Capture d’écran d’un Tweet
Capture d’écran d’un Tweet
Commentaire d’Aymeric Pontvianne, Conseiller Finance & innovation pour la Direction de la conformité sur les méthodes d’anonymisation et la donnée synthétique lors du Forum Fintech ACPR — AMF

La donnée synthétique représente aujourd’hui une méthode d’anonymisation relativement sûre. Les données synthétiques peuvent ainsi permettre d’utiliser des données pour diverses applications, sans les contraintes légales s’appliquant aux données personnelles, mais tout en garantissant une protection de la vie privée des individus.

Tech enthusiast, digital marketing manager. Working at Statice, startup specialized in synthetic data for privacy-preserving data applications 👉 www.statice.ai

Tech enthusiast, digital marketing manager. Working at Statice, startup specialized in synthetic data for privacy-preserving data applications 👉 www.statice.ai