L’apprentissage automatique peut en apprendre beaucoup sur vous, y compris certaines de vos informations les plus sensibles. Par exemple, il peut prédire votre orientation sexuelle, si vous êtes enceinte, si vous quitterez votre emploi et si vous êtes susceptible de mourir bientôt. Les chercheurs peuvent prédire la race en fonction des préférences de Facebook, et les responsables chinois utilisent la reconnaissance faciale pour identifier et suivre les Ouïghours, un groupe ethnique minoritaire.
Maintenant, est-ce que les machines «savent» réellement ces choses sur vous, ou font-elles seulement des suppositions éclairées? Et, s’ils font une déduction à votre sujet, comme tout humain que vous connaissez pourrait le faire, y a-t-il vraiment quelque chose qui cloche à ce qu’ils soient si astucieux?
Examinons quelques cas:
Aux États-Unis, l’histoire de Target prédisant qui est enceinte est probablement l’exemple le plus célèbre d’un algorithme faisant des inférences sensibles sur les personnes. En 2012, un article du New York Times sur la façon dont les entreprises peuvent exploiter leurs données comprenait une anecdote sur un père apprenant que sa fille adolescente était enceinte parce que Target lui a envoyé des coupons pour des articles pour bébé dans un acte de prémonition apparent. Bien que l’histoire de l’adolescent puisse être apocryphe – même si cela s’était produit, cela aurait probablement été une coïncidence, et non une analyse prédictive qui était responsable des coupons, selon le processus de Target détaillé par l’histoire du New York Times – il y a un réel risque pour la vie privée à la lumière de ce projet prédictif. Après tout, si le service marketing d’une entreprise prédit qui est enceinte, il a vérifié des données médicalement sensibles et non volontaires que seul le personnel de santé est normalement formé pour gérer et protéger correctement.
Un accès mal géré à ce type d’information peut avoir des conséquences considérables sur la vie d’une personne. Comme une citoyenne inquiète a posté en ligne, imaginez que «le travail d’une femme enceinte est fragile et que [son] état d’incapacité n’est pas encore configuré correctement… la divulgation pourrait entraîner le coût de détail d’une naissance (environ 20 000 $), les paiements d’invalidité pendant congé (environ 10 000 $ à 50 000 $), et même son travail. »
Ce n’est pas un cas de mauvaise gestion, de fuite ou de vol de données. Il s’agit plutôt de la génération de nouvelles données – la découverte indirecte de vérités non volontaires sur les gens. Les organisations peuvent prédire ces informations puissantes à partir de données inoffensives existantes, comme si elles les créaient à partir de rien.
Alors, ironiquement, sommes-nous confrontés à un inconvénient lorsque les modèles prédictifs fonctionnent trop bien? Nous savons qu’il y a un coût lorsque les modèles prédisent de manière incorrecte, mais y a-t-il également un coût lorsqu’ils prédisent correctement?
Même si le modèle n’est pas très précis, en soi, incentive il peut toujours être sûr de ses prédictions pour un certain groupe de les personnes enceintes. Disons que 2% des clientes âgées de 18 à 40 ans sont enceintes. Si le modèle identifie des clientes, disons trois fois plus susceptibles que la moyenne d’être enceintes, seules 6% des personnes identifiées seront effectivement enceintes. C’est une remontée de trois. Mais si vous regardez un groupe beaucoup plus petit et ciblé, disons les 0,1% les plus susceptibles d’être enceintes, vous pourriez avoir une augmentation beaucoup plus élevée de, disons, 46, ce qui rendrait les femmes de ce groupe 92% susceptibles d’être enceintes. Dans ce cas, le système serait capable de révéler ces femmes comme très susceptibles d’être enceintes.
Le même concept s’applique lors de la prédiction de l’orientation sexuelle, de la race, de l’état de santé, de l’emplacement et de vos intentions de quitter votre emploi. Même si un modèle n’est pas très précis en général, il peut toujours révéler avec une grande confiance – pour un groupe limité – des choses comme l’orientation sexuelle, la race ou l’appartenance ethnique. Ceci est dû au fait que, généralement, il est plus facile de prévoir une petite partie de la population. Maintenant, il se peut que seulement pour prédire avec confiance pour un groupe relativement petit, mais même seulement le 0,1% supérieur d’une population d’un million, cela signifierait que 1 000 individus ont été identifiés en toute confiance.
Il est facile de penser aux raisons pour lesquelles les gens ne voudraient pas que quelqu’un sache ces choses. À partir de 2013, Hewlett-Packard évaluait de manière prédictive ses plus de 300 000 employés avec la probabilité de quitter leur emploi – HP appelait cela le score de risque de vol, et il a été remis aux responsables. Si vous prévoyez de partir, votre patron sera probablement la dernière personne que vous voudriez savoir avant que ce soit officiel.
Autre exemple, les technologies de reconnaissance faciale peuvent servir de moyen de suivre l’emplacement, réduisant la liberté fondamentale de se déplacer sans divulgation, car, par exemple, des caméras de sécurité placées publiquement peuvent identifier des personnes à des moments et à des endroits spécifiques. Je ne condamne certainement pas catégoriquement la reconnaissance faciale, mais je sais que les PDG de Microsoft et de Google se sont prononcés pour cela raison.
Dans un autre exemple encore, un cabinet de conseil modélisait la perte d’employés pour un service des ressources humaines et a remarqué qu’il pouvait en fait modéliser les décès d’employés, car c’est une façon de perdre un employé. Les responsables des ressources humaines ont répondu: «Ne nous montrez pas!» Ils ne voulaient pas la responsabilité de savoir quels employés risquaient de mourir bientôt.
La recherche a montré que les modèles prédictifs peuvent également discerner d’autres attributs personnels – tels que la race et l’ethnicité – en fonction, par exemple, des likes de Facebook. Une préoccupation ici est la manière dont les spécialistes du marketing peuvent utiliser ce type de prédictions. Comme l’a dit Latanya Sweeney, professeur de gouvernement et de technologie à Harvard, «En fin de compte, la publicité en ligne est une question de discrimination. Vous ne voulez pas que les mères ayant des nouveau-nés reçoivent des publicités pour des cannes à pêche, et vous ne voulez pas que les pêcheurs reçoivent des publicités pour les couches. La question est de savoir quand cette discrimination franchit-elle la ligne du ciblage des clients à un impact négatif sur tout un groupe de personnes? » En effet, une étude de Sweeney a montré que les recherches sur Google pour les noms «à consonance noire» étaient 25% plus susceptibles d’afficher une annonce suggérant que la personne avait un dossier d’arrestation, même si l’annonceur n’avait personne avec ce nom dans sa base de données d’arrestations. .
«Si vous créez une technologie qui peut classer les gens selon une ethnie, quelqu’un l’utilisera pour réprimer cette ethnie», déclare Clare Garvie, associée principale au Center on Privacy and Technology de Georgetown Law.
Ce qui nous amène en Chine, où le gouvernement applique la reconnaissance faciale pour identifier et suivre les membres des Ouïghours, un groupe ethnique systématiquement opprimé par le gouvernement. Il s’agit du premier cas connu d’un gouvernement utilisant l’apprentissage automatique pour établir un profil par appartenance ethnique. Ce signalement d’individus par groupe ethnique est conçu spécifiquement pour être utilisé comme facteur de décisions discriminatoires – c’est-à-dire fondées au moins en partie sur une classe protégée. Dans ce cas, les membres de ce groupe, une fois identifiés, seront traités ou considérés différemment en raison de leur appartenance ethnique. Une start-up chinoise évaluée à plus d’un milliard de dollars a déclaré que son logiciel pouvait reconnaître «des groupes de personnes sensibles». Son site Internet disait: «Si à l’origine un Ouïghour vit dans un quartier et que dans les 20 jours, six Ouïghours apparaissent, il envoie immédiatement des alarmes» aux forces de l’ordre.
La mise en œuvre du traitement différentiel d’un groupe éthique basé sur la technologie prédictive prend les risques à un tout autre niveau. Jonathan Frankle, chercheur en apprentissage profond au MIT, prévient que ce potentiel s’étend au-delà de la Chine. «Je ne pense pas qu’il soit exagéré de traiter cela comme une menace existentielle pour la démocratie. Une fois qu’un pays adopte un modèle dans ce mode autoritaire lourd, il utilise des données pour imposer la pensée et les règles de manière beaucoup plus profonde… Dans cette mesure, il s’agit d’une crise urgente dans laquelle nous entrons lentement en somnambulisme. »
C’est un véritable défi de tracer la ligne pour déterminer quels objectifs prédictifs poursuivis avec l’apprentissage automatique sont contraires à l’éthique, et encore moins contre lesquelles il faudrait légiférer, le cas échéant. Mais, à tout le moins, il est important de rester vigilant lorsque l’apprentissage automatique sert à renforcer une pratique contraire à l’éthique préexistante, et également lorsque cela génère des données qui doivent être traitées avec précaution.