Digital Society Forum Digital Society Forum
Entretien 14/04/2020

Données personnelles : les promesses de la confidentialité différentielle

Le professeur en informatique Benjamin Nguyen, spécialiste de sécurité des données et des systèmes.
Le débat sur l'usage des données personnelles dans le cadre de la lutte contre le coronavirus fait rage. Comment concilier le respect de la vie privée et les connaissances que l'on pourrait tirer des données massives ? Comme nous l'explique le chercheur en informatique Benjamin Nguyen, Professeur à l'INSA Centre Val de Loire et directeur du Laboratoire d'Informatique Fondamentale d'Orléans (LIFO) , il n'existe pas de solution parfaite : "on ne peut pas avoir une analyse de qualité maximale et une protection intégrale des individus, c’est impossible." La privacy est donc toujours la recherche d'un compromis acceptable, entre ce que l'on divulgue et ce que l'on veut savoir. Une approche récente, la confidentialité différentielle (désignée comme technologie révolutionnaire de 2020 par la prestigieuse revue MIT Tech Review), ouvre des pistes prometteuses pour tirer le meilleur de cette équation.

Depuis que le gouvernement a annoncé que des solutions de traçage numérique (contact tracing) étaient à l’étude pour préparer le déconfinement, le débat fait rage. Même si la solution étudiée par l’exécutif est beaucoup moins invasive que celle adoptée par d’autres pays, elle n’en soulève pas moins de fortes oppositions.
Les partisans des solutions numériques affirment que des formes de traçage, qui peuvent être anonymisées et sécurisées, sont indispensables pour lutter contre l’épidémie et la comprendre. Leurs opposants refusent des atteintes à la vie privée trop grandes et pointent le risque que ces dispositifs restent en place après l’état d’urgence sanitaire.
Ce débat met de nouveau en lumière la tension centrale des débats autour de l’usage des données, particulièrement dans le champ très sensible des données de santé. Elle n’est pas aisément soluble, comme nous l’explique le professeur en informatique Benjamin Nguyen, spécialiste de sécurité des données et des systèmes. Il faut constamment faire des arbitrages entre précision des analyses et anonymisation des données : la « privacy » est toujours un compromis.
Nous avons demandé au professeur Nguyen de nous en dire plus sur cette tension inhérente au champ des data science, les contraintes de l’anonymisation et les promesses d’une approche de protection des données extrêmement prometteuse : la confidentialité différentielle.

Est-il possible d’avoir une solution technique qui permettrait de suivre les personnes et les contacts de personnes contaminées sans faire courir de risque à la protection de la vie privée ?

Dans le cadre de l’épidémie, on va s'intéresser aux traces des interactions sociales (qui j’ai rencontré) ou à celles des mobilités (où je suis allé). Or on sait que les traces humaines sont très, très spécifiques. Comme l’a montré Yves-Alexandre de Montjoye , il suffit de connaître quatre points géographiques dans le temps (de savoir où un individu était à un moment T) pour identifier cet individu dans un ensemble de traces. C’est un risque inhérent à la donnée : toutes les traces sont extrêmement uniques et facilement identifiables avec seulement quelques points.
Si on sait où vit un individu et où il travaille, même si on n’a pas d’autres informations sur lui, il devient possible de le retrouver dans un ensemble de données. C’est pour ça qu’en protection de la vie privée, on cherche à modifier ces données-là, pour réduire la possibilité de tomber sur la donnée précise, fortement identifiante.

"C’est un risque inhérent à la donnée : toutes les traces sont extrêmement uniques et facilement identifiables avec seulement quelques points".



Donc, est-on capable de donner un certain nombre de traces avec des garanties de protection de la vie privée ? Oui, mais on perdra beaucoup en qualité. Car on introduira du bruit dans ces données, ce qui veut dire qu’on générera des données potentiellement fausses. Par exemple, une technique de protection consiste à générer des données un peu aléatoires, par exemple inventer des contacts que vous auriez eu ou en supprimer s’ils étaient trop identifiants. Dans le cadre de l’usage pour l’épidémie, cela produirait des faux positifs ou des faux négatifs : on préviendrait des gens avec qui je n’ai pas été en contact ou à l’inverse, des gens que j’ai côtoyés ne seraient pas avertis.

Les approches qui utilisent des données agrégées, comme l’étude récemment produite par Orange en partenariat avec l’Inserm, à partir des données téléphoniques pour étudier les déplacements des Parisiens, mettent en avant l’anonymisation des données. Quels sont les risques que présente cette approche en termes de réidentification des gens ?

Ca dépend du nombre de personnes que vous agrégez ensemble. Si vous en agrégez cent, l’individu sera caché parmi cent personne, si vous en agrégez mille, il sera caché parmi mille. Le risque est donc quantifiable et peut devenir acceptable à partir d’un certain seuil, si le groupe est assez grand. Mais ce seuil dépend des individus : certains s’estimeront bien cachés dans un groupe de dix personnes, d’autres voudront être cachés dans un groupe d’un million. Or plus le groupe est grand, moins les trajectoires que vous pourrez suivre seront précises.
L’étude d’Orange, pour reprendre cet exemple, ne s’intéresse pas aux trajectoires particulières mais aux départs de Paris : en ce cas, on peut sans problèmes agréger beaucoup d’individus sans garder la trace de leurs déplacements individuels. Mais si vous cherchez combien d’individus sont passés par la porte d’Orléans puis ont pris l’A6, puis combien ont pris telle ou telle bretelle d’autoroute, vous ne pourrez agréger qu’un plus petit groupe d’individus, et donc les résultats pourraient permettre une identification plus rapide.

Vous dites que la privacy, la protection des données personnelles, résulte toujours d’un compromis entre les risques que l’on prend et le bénéfice qu’on peut tirer du traitement de données...

C’est un compromis entre le risque de réidentification et l’utilité qu’on va tirer de cette analyse. Il faut donc pouvoir être capable d’estimer le gain qu’on va tirer du traitement des données pour l’analyse, puis le risque que prennent les individus sur leurs données. Car on ne peut pas avoir une analyse de qualité maximale et une protection intégrale des individus, c’est impossible.
Selon les contextes, on pourra estimer que le risque de réidentification en vaut la chandelle. Si on prend l’exemple du coronavirus, on pourra dire qu’on est prêt à accepter d’être identifié à 100% pour réduire le risque de contamination de ses proches ou le nombre de morts en France.
Là, nous chercheurs en protection de la vie privée n’amenons pas de réponse. C’est une discussion de sociologues ou de philosophes, de décideurs ou de comités d’éthique, pour déterminer ce qui est acceptable et souhaitable.

"Car on ne peut pas avoir une analyse de qualité maximale et une protection intégrale des individus, c’est impossible."



Il n’y a donc pas de solution d’anonymisation idéale, qu’on pourrait appliquer à tous les cas ?

Oui, c’est la difficulté. Pour reprendre l’exemple de l’agrégation de données : faut-il agréger par groupe de dix, de cent, de mille ? Ca dépendra des contextes. C’est pourquoi on commence souvent par déterminer un certain degré de protection des données et on cherche ensuite à maximiser l’utilité des données qu’on pourra tirer. On pourrait aussi travailler dans l’autre sens : commencer par déterminer la qualité et la précision de l’analyse recherchée, pour trouver ensuite le degré de protection maximale qu’on pourra atteindre.

Comment peut-on calculer l’utilité de l’analyse ?

Ca se calcule difficilement d’un point de vue mathématique, mais ça peut s’évaluer expérimentalement.
Par exemple, en IA, on travaille avec des réseaux de neurones. Ils travaillent sur des jeux de données pour se constituer, et utilisent ensuite le modèle qu’ils ont construit pour faire des prédictions. L’utilité sera ici représentée par la précision de la prédiction de ces modèles.
Si vous construisez votre modèle en utilisant des données brutes, la précision sera par exemple de 90% de prédictions correctes. Si vous modifiez les données et utilisez ces données agrégées ou bruitées pour construire votre modèle, votre réseau de neurones risque de perdre en qualité et vous allez obtenir une précision de prédiction de 80%, par exemple. Vous pouvez donc mesurer la perte de qualité.
Dans le cas du Covid, imaginons que vous avez un modèle mathématique qui permet de calculer l’expansion de l’épidémie en fonction de telle ou telle mesure : vous pouvez voir la différence de précision du modèle selon que vous avez utilisé des données exactes ou des données bruitées pour effectuer votre apprentissage ou votre prédiction.

Quand on parle de la santé des gens, la précision devient très importante. Si vous pouvez prédire la survenue d’une maladie à 90% avec des données brutes et à 89% avec des données bruitées, beaucoup de gens préféreront certainement gagner 1% de précision.
Au fond, la question est le coût que l’on associe à la vie privée, par rapport au 1% de personnes qu’on pourra sauver, ou non. C’est une question de société complexe, sur laquelle tout le monde ne sera pas d’accord.

On parle de plus en plus de confidentialité différentielle. Qu’est-ce que c’est ?

C’est un modèle mathématique qui permet de quantifier le gain en sécurité que vous aurez quand vous publiez des données.
L’intérêt de la confidentialité différentielle, c’est qu’on ne fait pas d’hypothèse sur ce que peut connaître un attaquant qui chercherait à vous désanonymiser. On paramètre l’algorithme pour que les personnes soient identifiables à 1%, par exemple.
On peut atteindre la confidentialité différentielle de plusieurs façons. C’est une contrainte à respecter, et il existe différentes méthodes et divers algorithmes.
Parmi les techniques utilisées, l’une consiste à ajouter du bruit. Je prends un exemple : on vous demande quel est votre âge. Vous pouvez donner la valeur exacte, ou bien décider de mentir. Pour ça vous allez ajouter du « bruit ». Vous pouvez choisir d’ajouter un bruit qui ne changera pas beaucoup votre donnée ou au contraire la modifiera beaucoup. Si vous lancez un dé à six faces et que vous ajoutez la valeur du dé à votre âge, vous ne le modifierez pas beaucoup. On dit que le bruit est de faible amplitude. Si vous lancez un dé à cinquante faces, vous augmentez l’amplitude. Par contre, vous avez toujours autant de chances de le changer de 1 an que de 50 ans.
Quand on veut avoir des données de qualité, on essaie de ne pas trop changer l’âge, mais néanmoins on veut que l’amplitude du bruit ne soit pas trop petite. Le bruit aura alors une certaine « forme » qui correspond à la forme de la distribution statistique qui représente ce bruit, qui fera que vous avez plus de chances de donner la bonne valeur (ou une valeur proche) que de donner une valeur qui sera très loin de la vérité.
L’idée c’est de modifier la réponse donnée par un individu, tout en connaissant exactement la fonction qui a généré l’aléa qui a été ajouté, de façon à pouvoir le soustraire ensuite quand toutes les données auront été agrégées.

"L’idée c’est de modifier la réponse donnée par un individu, tout en connaissant exactement la fonction qui a généré l’aléa qui a été ajouté, de façon à pouvoir le soustraire ensuite quand toutes les données auront été agrégées."


Mais si ces données sont un peu inexactes, ou bien statistiquement exactes mais individuellement inexactes, comment restent-elles utilisables pour les chercheurs, par exemple ?

Si on reprend l’exemple où on ajoute la valeur d’un dé aux âges des personnes, la moyenne des âges sera la même que si vous aviez posé la question directement, parce que la moyenne des aléas va s’annuler.
Si on cherche la moyenne de l’âge des gens, on n’a pas besoin de connaître leur âge exact, et on peut donc les protéger en ajoutant du bruit. Par contre, si on cherche l’âge d’un individu en particulier, la donnée ne sera plus correcte.

"Car selon la question, on pourra apporter des garanties de sécurité aussi importantes qu’on veut, mais au prix d’une perte de précision sur la réponse."


Il faut donc partir de ce que les chercheurs veulent calculer. En fonction de cet objectif, nous pouvons ensuite proposer une méthode de protection adaptée et efficace. Car selon la question, on pourra apporter des garanties de sécurité aussi importantes qu’on veut, mais au prix d’une perte de précision sur la réponse.

Pourquoi tant d’enthousiasme sur la confidentialité différentielle ? Quels avantages offre-t-elle par rapport aux approches existantes ?

La confidentialité différentielle offre une meilleure sécurité, car il y a moins de risques de fuite de données ou d’attaque de réidentification via l’utilisation de données annexes.
Prenons l’exemple d’une base de données de santé. Mettons que pour l’anonymiser, vous changez juste le nom des individus et la publiez. Toute personne qui saurait, par exemple, la date d’entrée d’un individu à l’hôpital, sa date de naissance et son code postal, pourrait assez facilement le retrouver dans la base de données et aller lire le diagnostic.
La confidentialité différentielle, introduite à partir de 2006, propose des garanties de confidentialité sans qu’il soit besoin de faire des hypothèses sur ce que connaît l’adversaire. Cette approche offre donc une meilleure sécurité que les approches basées sur une étude de risque et une estimation de ce que pourrait connaître un attaquant (date de naissance, code postal...). Car si vous vous trompez dans votre étude de risque, votre système s’écroule de lui-même.

Comment cette méthode pourrait être utilisé dans le cadre de l’usage des données pour mieux comprendre l’épidémie actuelle ?

L’exemple de plus grande envergure couramment cité, c’est celui du prochain Census américain. C’est un recensement qui comporte des informations comme le revenu, par exemple, un peu comme le fait l’Insee. L’équipe du Census (le Census Bureau américain) a prévu d’utiliser une approche de confidentialité différentielle : chaque microdonnée, chaque ligne du recensement, aura donc été un peu bruitée avant d’être publiée.
Mais dans le cas de l’épidémie, on va plutôt chercher des données de réseaux sociaux. Lors d’un précédent travail sur la propagation de rumeurs sur les réseaux sociaux, nous avions été capables d’identifier des individus fortement propagateurs, tout en garantissant qu’on ne connaisse pas leurs voisins. Ainsi, dans un réseau à risque, on peut identifier un individu particulièrement à risque d’être contaminant, mais pas les personnes avec qui elle est en contact.
Je n’ai pas connaissance de système qui permettraient d’avoir une garantie de confidentialité différentielle totale et qui permettraient aussi de contacter les gens. Si vous voulez réidentifier les individus, vous sortez du cadre des données anonymes pour entrer dans le cadre de la gestion des données personnelles et du RGPD.

"Car avec des données anonymes, vous ne rentrez pas dans le cadre du RGPD, vous pouvez faire ce que vous voulez avec, vous n’avez pas de compte à rendre aux individus qui figuraient initialement dans la base de données."

C’est pour ça que ces techniques intéressent les entreprises qui font du traitement de données : parce qu’elles n’ont plus besoin de demander aux gens leur accord. D’ailleurs, quand on leur demande, souvent les gens refusent. D’où l’importance d’avoir une confidentialité forte car si l’anonymisation est mal faite, vous vous retrouvez à faire du traitement de données personnelles illicite.

Est-ce qu’on peut dire que ces approches de confidentialité différentielle sont utiles sur des gros jeux de données, par exemple pour observer des évolutions épidémiologiques dans la population, mais que pour des applications plus précises, type diagnostic, la confidentialité différentielle sera moins opérante ?

Absolument. Ca permet de dégager des tendances, ou des règles qui seraient vraies. Par exemple, on pourrait dégager une corrélation entre l’âge des personnes et leur statut épidémiologique. Ce qui, en revanche, ne marchera pas, c’est à partir des données, remonter et contacter une personne dont on sait qu’elle a le coronavirus pour lui proposer un traitement. Ce sera impossible, car la donnée de l’étude pourra être faussée par le bruit : peut-être que la personne n’a pas vraiment le Covid, peut-être que son âge a été énormément bruité etc.

Collaborez-vous avec des médecins ?

Nous essayons depuis longtemps de trouver des façons de travailler avec eux. Les épidémiologistes trouvent ces approches très intéressantes mais ils aimeraient qu’il soit possible de désanonymiser les données, pour pouvoir retrouver des personnes ayant participé à une étude et leur proposer un traitement, par exemple. Mais c’est impossible quand on applique les principes de confidentialité différentielle.
Les enjeux sont encore plus importants quand les données sont vouées à être exploitées par d’autres acteurs. C’est notamment le cas du projet de Health Data Hub : l’idée c’est que ces données de santé massives puissent être exploitées par des entreprises tech, pour chercher des modèles prédictifs en appliquant des techniques Big Data ou des IA.
De mon point de vue, les garanties d’anonymisation sont encore insuffisantes. Quand on travaille avec des médecins, on sait qu’ils ont une éthique, qu’ils sont sensibles au secret professionnel. Des entreprises n’auront pas forcément la même éthique ou la même façon de travailler. C’est pourquoi à mon sens, il faut proposer des garanties très fortes en matière de sécurité des données avant de les partager.

La confidentialité différentielle est-elle utilisée en France dans d’autres secteurs ?

Nous avons beaucoup discuté avec l’Insee de la possibilité d’ajouter de l’anonymisation dans les statistiques générées. C’est une problématique qu’on retrouve aussi avec l’open data : toutes les collectivités territoriales ont l’injonction de publier des données. Mais certaines, comme la consommation de l’eau, sont personnelles et identifiantes et il existe un vrai risque de fuite. On essaie donc d’évangéliser toutes les personnes qui travaillent sur les statistiques pour leur proposer de travailler un peu autrement.
Mais c’est compliqué. Qu’il s’agisse des médecins ou de l’Insee, ils déploient beaucoup d’efforts et de moyens pour recueillir les données les plus précises possibles. Et ensuite nous on arrive pour dire qu’il faut bruiter ces données. Il y a un choc des cultures.

"Ce que nous arguons, c’est qu’il existe un point intermédiaire, de rencontre entre une certaine utilité et ce qui peut être socialement acceptable par le plus grand nombre. "


Pourtant, l’idée n’est pas forcément d’utiliser des données bruitées pour les analyses — mais de dire qu’à partir du moment où on les partage et on les publie, qu’on les laisse en libre accès pour que des chercheurs s’en emparent, on ne peut plus faire d’hypothèses de confiance sur la personne qui traitera les données. Il faut que celles-ci soient anonymes, ou a minima mieux protégées. Ce que nous arguons, c’est qu’il existe un point intermédiaire, de rencontre entre une certaine utilité et ce qui peut être socialement acceptable par le plus grand nombre.



Les commentaires

Pour réagir à cet article, je me connecte Je m’inscris

Soyez le premier à réagir !

S’inscrire et participer

Inscrivez vous sur le Digital Society Forum pour commenter et réagir sur les articles et être informé des événements à venir

DSF