Digital Society Forum Digital Society Forum
Focus 02/04/2020

Coronavirus : comment utiliser les données de santé sans sacrifier la vie privée ?

Pas d'intelligence artificielle sans données massives. En santé, celles-ci sont un enjeu particulièrement crucial : elles peuvent permettre d'éclairer les épidémies — mais aussi identifier les personnes et mettre à mal les libertés individuelles.

Cet article est la deuxième partie d'une enquête sur ce que peut l'intelligence artificielle dans la crise du coronavirus. Après nous être intéressés au rôle possible des IA dans la médecine , nous abordons maintenant la question de l'usage des données de santé, crucial du point de vue de la recherche et extrêmement sensible du point de vue des libertés.

Information et logistique : fonction support en temps de crise



Mais les utilisations de l’IA face au coronavirus ne se limitent pas au domaine strictement médical.
La pandémie actuelle a révélé le rôle crucial de la logistique dans les situations de crise sanitaire .

Sur le blog Impact AI, François Rugy, CTO dans le cabinet de conseil stratégique Arthur D Little Paris , qui développe des projets de data science, estime que l’IA a un rôle important à jouer « sur les sujets de logistique : gestion des stocks, allocation de ressources, anticipation des besoins. Les guerres, pour reprendre la métaphore du chef de l’État français, se gagnent d’abord sur les questions logistiques. Par exemple, aux États-Unis, la société CloudMedx propose des systèmes d’agrégation de données médicales, matériels, administratives au sein d’un établissement hospitalier. En s’appuyant sur des techniques de traitement automatisé du langage, la solution de CloudMedx peut détecter des pics de pathologies et permettre alors d’anticiper et de mieux gérer les stocks. »
Mais François Rugy souligne que l’efficacité des solutions d’IA dépend des données disponibles, et il pointe un manque de données et d’interopérabilité entre les systèmes d’informations dans les hôpitaux. « De nombreuses techniques d’IA s’appuient sur l’utilisation de données
d’entraînement et la forte obsolescence des systèmes informatiques de santé ou le fait qu’ils ne communiquent pas entre eux, ne permet pas de disposer de ces données. Dans cette situation, l’IA, aussi performante soit-elle, ne peut pas faire office de baguette magique. » estime-t-il. « Comment, par exemple, anticiper les besoins de lits en réanimation avec de l’IA quand tant d’hôpitaux n’ont même pas de système d’inventaire des lits ? Il conviendrait donc de commencer par rénover les systèmes d’information dans les hôpitaux afin d’aboutir à un environnement favorable au déploiement de l’IA et bénéficier, ainsi, des dernières avancées dans le domaine. »

Sortie de crise et anticipation : modéliser les épidémies


Les données peuvent permettre de mieux connaître la diffusion de l’épidémie et de dimensionner le système de soins pour y répondre.
C’est notamment le cas des données de télécommunications, des réseaux sociaux et des flux satellites. Ainsi, comme le rappelle le Gov Lab de l’université de New York , les données de télécommunications ont été utilisées par le passé dans les cas d’épidémies d’Ebola en Afrique et de grippe porcine au Mexique, les données des réseaux sociaux comme Facebook ont été utilisées pour étudier la perception publique du virus Zika, etc.
Mais pour ces spécialistes du big data appliqué à la santé, les efforts de coopération internationale entre les différents pays sont encore insuffisants et les cadres juridiques trop contraignants. « Il n’y a pas de stratégie pour faire se rencontrer l’énergie, l’expertise et les ressources disponibles aujourd’hui, et les transformer en une approche utilisant les données pour faire face aux menaces à venir, parmi lesquelles les crises climatiques et les crises sanitaires. »
Malgré l’appel à l’ouverture et l’échange des données, les initiatives restent encore isolées et ponctuelles. (l’institut Open Data Watch en répertorie de nombreuses ici .)

En France, Orange a conclu un partenariat avec l’Inserm pour permettre l’exploitation des données de déplacement anonymisées et agrégées de leurs clients en téléphonie mobile. Le but de cette étude était d’identifier les mouvements de population pré et post-confinement, pour y adapter au mieux le système de soin. Une première exploitation des données a montré qu’un peu moins de 20% de la population parisienne avait quitté la capitale , tandis que la population de l’île de Ré augmentait de 30% dans le même temps.

La limite : données peu fiables ou manquantes


Ces approches sont prometteuses mais elles sont aussi dépendantes de la qualité des données recueillies et de leur diffusion.
C’est ici que l’on sort du cadre de la technique pure (à supposer que cela existe), car les données sont toujours liées à des phénomènes sociaux. Une donnée n’est jamais un chiffre brut : c’est un élément socialement fabriqué, sélectionné, identifié, recueilli et stratégiquement partagé. La fiabilité des données dépend donc aussi de facteurs politiques et sociaux.

La situation récente a rappelé combien les chiffres donnés par les gouvernements ne sont pas toujours fiables – qu’ils soient volontairement sous-estimés ou simplement indisponibles.
Certains gouvernements sous-estiment le nombre de malades ou de morts : on sait ainsi qu’en Chine, les premières données sur les contaminations ont d’abord été cachées par le gouvernement. Aujourd’hui, de nombreux commentateurs mettent en doute la véracité des données chinoises disponibles sur le nombre de morts du coronavirus dans le pays.
Les chiffres annoncés dans les médias, autre source de données largement utilisés, peuvent aussi être sous-estimés ou surestimés.
Les trous dans les données peuvent aussi être liés à des difficultés à identifier les cas pertinents ou simplement au manque de données brutes.
En France, le nombre de décès annoncé chaque jour par le directeur de la santé n’inclut pas les morts survenues dans les Ehpad ou à domicile .
En Afrique par exemple, très peu de données sont disponibles : seuls six laboratoires sur le continent sont en mesure d’effectuer des dépistages .
Ce manque de données de terrain avait déjà été pointé par les chercheurs lors des épidémies d’Ebola : sur les cartes, certaines zones semblaient dépourvues de cas, mais c’était en réalité parce qu’il n’y avait pas assez de données les concernant.

Géolocalisation : outil de sortie de crise ou ligne rouge ?


Certains estiment que l’on pourrait aller plus loin pour suivre la propagation de l’épidémie, notamment en suivant les déplacements des individus contaminés.
C’est déjà le cas à Taiwan, où les personnes placées en quarantaine sont surveillées via leur smartphone et menacées d’une amende conséquente si elles éteignent ce dernier ou s’éloignent de leur domicile.
En France, en conformité avec les réglementations de la CNIL et du RGPD, le PDG d’Orange s’est dit opposé aux utilisations de traçage individuel. Sur Europe 1, il a estimé que « techniquement, ce serait possible. On sait le faire, grâce à une application et à la géolocalisation, par exemple. Mais ce n’est pas souhaitable chez nous. Le but c’est de savoir, par anticipation, comment les moyens hospitaliers doivent être dimensionnés et répartis. »

Pourtant, la pratique du « backtracking », qui consisterait à suivre à la trace les personnes contaminées, figure parmi les options étudiées par le CARE, le nouveau comité consultatif d'experts réuni par Emmanuel Macron pour préparer la sortie de crise. Le communiqué annonçant sa création précisait que celui-ci « accompagnera par ailleurs la réflexion des autorités sur la doctrine et la capacité à réaliser des tests ainsi que sur l’opportunité de la mise en place d’une stratégie numérique d’identification des personnes ayant été au contact de personnes infectées ».
Défenseurs des libertés privées et numériques craignent que l’état d’urgence sanitaire ne permette de faire passer des mesures de surveillance invasives et dérogatoires au RGPD, qui pourraient ensuite rester en place. A l’occasion de l’examen de la loi mettant en place l’état d’urgence au Sénat, les élus républicains Bruno Retailleau et Patrick Chaize ont ainsi déposé un amendement pour autoriser pendant six mois « toute mesure visant à permettre la collecte et le traitement de données de santé et de localisation ». L’amendement a été rejeté par le gouvernement. Mais un peu partout dans le monde, des mesures similaires sont déjà en place : en Israël, en Grande-Bretagne, à Taiwan et Singapour.

Vers des solutions de "tracing" volontaire et non-identifiant ?



Mercredi 1er avril, le Premier Ministre Edouard Philippe a indiqué que la France examinait la possibilité de recourir à des applications permettant d’identifier avec qui des personnes contaminées auraient pu être en contact. Le gouvernement s’orienterait ainsi vers une solution proche de celle adoptée par Singapour, où le pays a choisi « une surveillance centrée sur l’utilisateur et plus respectueuse des libertés publiques. », rapporte Mediapart . A Singapour, les citoyens sont incités à télécharger l’application TraceTogether, non pour géolocaliser mais utiliser la fonction Bluetooth pour identifier les téléphones situés à proximité. Les données ne sont pas transmises mais chiffrées et stockées dans le téléphone. Si l’utilisateur se sait contaminé par le virus, il doit contacter les autorités sanitaires et transmettre le fichier contenant les identifiants des téléphones qu’il a croisés.

Edouard Philippe a précisé que, si la France avait recours à une telle application, celle-ci se ferait sur la base du « volontariat ».

Un groupe de 130 chercheurs de 8 pays européens, dont la France, travaille déjà sur la conception d’une telle application. La plateforme, baptisée Pan-European Privacy Preserving Proximity Tracing, utiliserait aussi la technologie Bluetooth, pour stocker sur le téléphone des usagers et non un serveur distant, les identifiants des téléphones croisés pendant une période de deux semaines. Ces données seraient fortement encryptées et uniquement téléchargeables par les autorités de santé locales. Sur son site, la plateforme assure que ses services reposent sur le volontariat, garantissent l’anonymat et l’absence d’usage de données identifiantes ainsi que d’informations de géolocalisation, et respectent le cadre du RPDG.

Une étude menée par un institut de l’université d’Oxford estime cependant qu’il faudrait qu’environ 60% de la population accepte d’utiliser une telle application pour que celle-ci soit efficace dans la prévention d’une « seconde vague » d’épidémie.

D’autres approches respectueuses des libertés individuelles existent, comme la confidentialité différentielle , qui consiste à injecter des éléments inexacts dans une base de données, pourraient aussi permettre d’utiliser les données sans exposer les individus.

Mais ces techniques sont encore à l’état de développement et il faut rester vigilant. Or il sera impossible de bâtir une réelle démocratie en santé et d’accomplir les promesses offertes par l’IA et les données massives dans le domaine de la santé publique, sans garantir l’anonymat des premiers concernés.

La crise du coronavirus est donc révélatrice des promesses et des limites de l’IA actuelle : des pistes intéressantes se dessinent, les scientifiques collaborent... mais pour l’instant, les grandes réussites annoncées se font attendre. Car l’IA n’est pas uniquement une question technique : son efficacité dépend d’agencements humains et géopolitiques, et de débats publics.


Les commentaires

Pour réagir à cet article, je me connecte Je m’inscris

Soyez le premier à réagir !

S’inscrire et participer

Inscrivez vous sur le Digital Society Forum pour commenter et réagir sur les articles et être informé des événements à venir

DSF