AfI/IAf #2: “Machines are objective” / “La machine est objective” (2/2)

This week, it’s Part II of the second article in the Artifakal Intelligence / Intelligence Artifaussielle series. I’ll keep discussing the idea that: “machines are logical, hence they are objective“. Today, we’ll focus more on examples and possible solutions.

This article is also available on Medium.

To learn more about this project, read the introductory article.

Last week, we saw why the concept of “objectivity” is sometimes complex to define. I also gave some examples of issues that can arise from the datasets and how these can determine unexpected and unwanted behaviors for the AIs. In this second part, we’re going to take a look at some real-life applications of AI where biases had a direct impact.

Why biased machines have an impact on our lives

Nowadays, lots of people are aware that robots and AI are everywhere – even when it is not obvious to the eye. What we can then wonder about is: how do the aforementioned issues transfer to our usage of AIs in the real world? Can these theoretical biases be harmful in practice?

Is Minority Report already here?

In my last article, I briefly mentioned the famous Philip K. Dick novel, The Minority Report. In this book, the sci-fi author imagines a world where the police is “tooled” with the precogs, a group of 3 mutants that can see the future and predict who is going to commit a crime. The police therefore send units only in “the necessary spots”… until, of course, the head of the Precrime unit himself is incriminated for a to-be-committed crime and starts to question the whole system.

Many people have wondered recently whether Minority Report was still science-fiction or was already part of our reality. In L.A., two cousins of Predcrime called “PredPol” and “LASER” have been tested this past decade before being abandoned due to public’s distrust. R. Booth also wrote an article for the Guardian last October about Bristol’s own “people incivility probability prediction” algorithm.

Today, a quarter of the population of Bristol (about 170,000 people) is concerned by this program that gathers data from the police, National Health Service (NHS), Department for Work and Pensions and the local authority. By collecting and analyzing info about your various incivilities, antisocial behavior or drug and alcohol problems, the algorithm can apparently predict if a 11 or 12-year-old child will turn out to be a Neet – not in employment, education or training. And in truth, the program has had some impressively conclusive results that helped the police redirect its resources towards unprivileged neighborhoods. By analyzing an ensemble of factors, it was able to sketch out way faster than any human someone’s “risk assessment”.

The algorithm was mostly developed by the council and they aim for complete transparency on this. For example, although you might not automatically access your results, anyone in the program is allowed to ask for their own data (as legally required by the GDPR). Moreover, the AI prediction is in theory only the first step in the process and this “piece of advice” should then be conveyed to the right persons for further decisions and actions. As pointed out by the ex-police chief officer Gary Davies, the algorithm “is not replacing professional judgment [but giving] us information that has been sunk in organisations’ memories”. If this program is indeed “skilled” enough at this task, it could drastically change the way the police works and perhaps even be used to decide where to send officers, just like in Dick’s novel.

However, this is but one example among many. Nowadays, lots of private companies offer similar tools, sometimes with less outstanding results. Some districts like North Tyneside have ended a contract after an algorithm had wrongly framed some inhabitants as “risky”, hence delaying their social aids. Because these AIs oversimplify the problem, you are faced with the issues I mentioned before: a lack of data, surprising (and perhaps unwanted) relationships, overall mixups… This sensible data can also be hacked and retrieved by ill-intentioned people.

In any case, the public must have a say in whether or not their lives can be examined and maybe controlled by an AI.

Another crucial and yet ethically complex question is: since the algorithm needs data to train accurately, should the council prevent the predicted crimes, or should it instead let it happen in order to get more training data? Is there a moral obligation to act on the potential harm?

Note: a similar issue was raised in May 2016 with the COMPAS algorithm that was developed by Northpointe of Michigan (now Equivant, of Canton, Ohio) and that was used by judges in Florida to predict a “risk score” for accused persons. An in-depth study by the news website ProPublica revealed that it was heavily biased against black defendants.

When the American health care system (unwillingly?) discriminates Afro-Americans

In October, Nature published an article (by H. Ledford) about how the UnitedHealth Group’s “Impact Pro” algorithm is taking decisions in favor of white people over Afro-Americans. As is also explained in this article by I. Farhi, the info originally came to light after four scientists wrote an article in the Science journal (Obermeyer and al.) to reveal that the algorithm took unfair decisions and would generally discriminate black people to refuse them access to appropriate health care.

“Impact Pro” is used by hospitals and insurers to decide of the medical supervision of roughly 200 million people in the US each year. Still, the researchers discovered a quite obvious flaw in the algorithm that leads it to assign a lower risk score to black people than to white people in the same condition. Thus Afro-Americans are less likely to be provided with properly personalized health care.

It seems to be reproducing and virtually transferring to the world of AI the systemic racism that is sadly still current in the US. In other words, given those data, as the article states: “black people had to be sicker than white people before being referred for additional help”. The scientists even predicted that, should the algorithm be corrected of this bias, 46.5% of the patients that receive extra care would be black, rather than the current 17.7%.

A ‘sexist’ credit card

Last November, there was a scandal after David Heinemeier Hansson and even Steve Wozniak (the co-founder of Apple) himself pointed out Apple’s credit card “sexist” behavior. All things being equal, it seemed that the algorithms in charge of setting the credit limit were heavily biased towards men and would give them a higher limit than to women. Mr. Hansson was thus offered a limit 20 times the one of his wife.

Here, the “black box issue” that I’ve mentioned multiple times in the past clearly shows. Without access to Goldman Sachs’ computers, it is impossible to know exactly why this happened and how the algorithms came to this conclusion. A possible explanation is that the AI was trained with a biased dataset where, due to our current history, way more men than women had taken loans, or women generally have lower credit limits… In any case, this discrimination on sex is a legal violation of the law and ongoing investigations are trying to determine if Apple or Goldman Sachs should be incriminated.

How to detect and correct unfair algorithms?

Since most of the algorithms are proprietary and well-secured, studies on these biased algorithms are rare. Another Nature article focuses specifically on the issue of “making algorithms fair”. One of the biggest issues here is the explainability and accountability of AIs: since most of our algorithms currently are “black boxes” (with an analysis process that we can’t actually understand), it is difficult to assess if they base their decisions on biased patterns.

Note: the most remarkable case of unexplainability is when you train an AI for a specific task and then ask it to work on something quite different (for example you train it for image classification with 3 classes A, B, C, and then ask this trained model to predict 5 classes V, W, X, Y, Z); you can unexpectedly get really good results! In the subfield of “Bayesian meta-learning”, we try to get model-agnostic results (see for example this article by Kim and al.) that aren’t so tailored for a specific case but rather aim at getting general solutions. It suggests that machines could spot patterns that we are unaware of and therefore build models that are beyond our understanding…

In the article, Kate Crawford, co-founder of the AI Now Institute, says that “what concerns [her] most is the idea that we’re coming up with systems that are supposed to ameliorate problems [but] that might end up exacerbating them”. Today, there already are discrimination and biases in many of our social systems: the risk is that the data we currently have would “teach” our AIs to reproduce these clichés and simply perpetuate an unfair system – we don’t actually have examples of ideal cases without biases to give our algorithms so that they learn the proper patterns.

How could we fix this issue? Obermeyer states that it is usually hard to do because you need to find and change “the right variable” to get rid of the bias. There are however several solutions that we can think of, such as:

  • getting a greater diversity of AI researchers and programmers: if all programmers “think the same”, it might be harder to design new systems that don’t reproduce the old problems but instead search for or discover new patterns; this question was raised for example by Ruha Benjamin, sociologist at Princeton University in New Jersey
  • as suggested by Rayid Ghani (a computer scientist at Carnegie Mellon University in Pittsburgh): doing more test runs to try and spot the possible biases before the algorithm has actually become a product and been sold on the market; this audits would be an opportunity to compare the results of the machine- and the human-decision making in order to assess for fairness
  • educating people about the advantages but also the limits of AI so that the final consumers of these algorithms are (at least a bit more) aware of the possible dangers of applying it to their current situation

It is worth nothing though that Ghani did unpublished studies that showed people could be just as or even more biased than algorithms. So there still is this great unknown about whether biased algorithms are truly “worse” than ourselves and our inherent biases…

To conclude

Be it in hiring processes, trials, medical diagnostics or social projects organization, we use AI more and more. Even though it is a great analysis tool, we should remember that it is completely determined by the input data. We must always be careful that we understand the limitations and possible biases of the model and we must be wary of taking decisions based solely on an algorithm.

Still, we shouldn’t totally discard the idea of “improving fairness” thanks to machines: it has been proven that we humans are very biased on many topics, despite our best efforts; on the other hand, we might find a way to mitigate the biases in our algorithms in particular if we provide them with well-prepared data that has been scrupulously “cleaned up”. The question is, though: can we trust ourselves to know when this “cleaning” is done?

It is easy to be overconfident in what AI can do when faced with the amazing results it has already had in so many fields (finance, image classification, voice recognition, video games…). However, I feel like lots of problems might arise from boldness and that we should try and remember AI is but a tool: it can be used in a good or a bad way, it cannot answer each and every question and it has to be handled by people that know the dos and don’ts.

Cette semaine, c’est la deuxième partie de l’article du deuxième article de la série Artifakal Intelligence / Intelligence Artifaussielle. Je vais continuer à discuter de la phrase : “les machines sont logiques, donc elles sont objectives“. Aujourd’hui, nous allons voir des exemples et évoquer des solutions possibles.

La semaine dernière, nous avons vu pourquoi le concept “d’objectivité” peut être difficile à définir. J’ai aussi donné quelques exemples de problèmes qui peuvent survenir dans des jeux de données et la façon dont ils peuvent conduire à des comportements inattendus et parfois non voulus de la part des IAs. Dans cette seconde partie, nous allons nous intéresser à des applications de l’IA dans la vie réelle où ces biais ont eu un impact direct.

Pourquoi une machine biaisée influe sur nos vies

Aujourd’hui, beaucoup de gens sont au courant que les robots et l’IA sont partout – même quand ils ne sont pas juste sous nos yeux. On peut alors se demander : comment les problèmes évoqués plus haut sont-ils transférés à l’usage que nous faisons des IAs dans la vie réelle ? Ces biais théoriques peuvent-ils avoir des conséquences néfastes en pratique ?

Est-ce que Minority Report est déjà là ?

Dans mon dernier article, je mentionnais brièvement le fameux roman de Philip K. Dick, The Minority Report. Dans ce livre, l’auteur de science-fiction imagine un monde où la police est “équipée” de precogs, un groupe de 3 mutants qui peuvent voir l’avenir et prédire qui va commettre un crime. La police n’envoie donc des unités qu’aux “endroits nécessaires”… jusqu’à ce que, bien sûr, le chef de l’unité Predcrime soit lui-même incriminé pour un futur crime et commence à s’interroger sur le système.

Beaucoup de personnes se sont posées la question récemment de savoir si Minority Report était encore de la science-fiction ou si c’était déjà notre réalité. A Los Angeles, deux cousins de Predcrime appelés “PredPol” et “LASER” ont été testés pendant la dernière décennie avant d’être abandonnés à cause de l’inquiétude de la population. R. Booth a aussi écrit un article pour le Guardian en octobre dernier à propos de l’algorithme de “prédiction de la probabilité d’incivilité de la population” de Bristol.

Aujourd’hui, un quart de la population de Bristol (environ 170 000 personnes) est concerné par ce programme qui rassemble des informations de la police, le National Health Service (NHS), le Département du Travail et des Retraites et les autorités locales. En collectant et en analysant des données sur les incivilités, les comportements antisociaux ou les problèmes de drogue et d’alcool, l’algorithme peut apparemment prédire si un enfant de 11 ou 12 ans deviendra un Neet – quelqu’un qui ne travaille pas et n’est pas en apprentissage (not in employment, education or training). Et à dire vrai, le programme a eu des résultats impressionnants et concluants qui ont aidé la police à rediriger ses ressources vers des quartiers défavorisés. En analysant un ensemble de facteurs, il a pu établir le “score de risque” de quelqu’un bien plus vite que n’importe quel humain.

L’algorithme a principalement été développé par la municipalité et elle vise à une transparence totale sur le sujet. Par exemple, même si on n’a pas directement accès à ses résultats, toute personne dans le programme peut demander à récupérer ses informations (comme requis légalement par la RGPD). De plus, la prédiction de l’IA est en théorie seulement la première étape dans le processus et ce “conseil” doit ensuite être transmis aux bonnes personnes pour prendre les décisions et les actions subséquentes. Comme le fait remarquer l’ex-chef de la police Gary Davies, l’algorithme “ne remplace pas le jugement d’un professionnel [mais] nous donne des informations qui étaient enfouies dans la mémoire des divers organismes”. Si le programme est en effet assez “doué” pour accomplir cette tâche, cela pourrait changer drastiquement la façon dont la police travaille et peut-être même être utilisé pour décider de l’endroit où envoyer les policiers, comme dans le roman de Dick.

Néanmoins, ce n’est qu’un exemple parmi d’autres. Actuellement, beaucoup d’enterprises privées proposent des outils similaires, parfois avec des résultats moins irréprochables. Certains districts comme North Tyneside ont arrêté un contrat parce que leur algorithme avait identifié à tort des habitants comme “à risque”, retardant de fait leurs aides sociales. Parce que ces IAs sur-simplifient le problème, on fait face à certains problèmes dont j’ai parlé plus haut : un manque de données, des relations surprenantes (et peut-être gênantes), des mélanges variés… Les données sensibles peuvent aussi être hackées et récupérées par des personnes mal intentionnées.

De toute façon, le public doit avoir son mot à dire quant au fait que leurs vies sont ou non examinées et peut-être contrôlées par une IA.

Une autre question essentielle et pourtant complexe du point de vue de l’éthique est : étant donné que l’algorithme a besoin d’informations pour s’entraîner et s’améliorer, la municipalité doit-elle éviter les crimes prédits ou doit-elle au contraire les laisser arriver pour obtenir plus de données d’entraînement ? Y a-t-il une obligation morale à empêcher un dommage potentiel ?

Note : un problème similaire a eu lieu en mai 2016 à propos de l’algorithme COMPAS développé par Northpointe au Michigan (aujourd’hui Equivant à Canton, Ohio) qui était utilisé par des juges en Floride pour prédire un “score de risque” pour les accusés. Une étude approfondie du journal ProPublica a révélé que le programme était très biaisé contre les inculpés afro-américains.

Quand le système de santé américain discrimine (sans le vouloir ?) les afro-américains

En octobre, Nature a publié un article (de H. Ledford) sur le fait que l’algorithme “Impact Pro” du UnitedHealth Group prend des décisions en faveur des Blancs américains plutôt que des afro-américains. Comme cela est également expliqué dans cet article par I. Farhi, l’information vient au départ de quatre scientifiques qui ont écrit un article dans le journal Science (Obermeyer et al.) pour dévoiler le fait que l’algorithme prend des décisions injustes et discrimine en général les Noirs américains en leur refusant l’accès à des soins appropriés.

“Impact Pro” est utilisé par des hôpitaux et des assureurs pour décider de la supervision médicale d’à peu près 200 millions de personnes aux Etats-Unis chaque année. Pourtant, les chercheurs ont découvert une faille assez évidente dans l’algorithme qui le conduit à assigner un risque plus bas aux Noirs américains qu’aux Blancs américains dans la même condition. Donc, les afro-américains ont moins de chance de recevoir une aide médicale personnalisée.

Cela semble reproduire et basiquement transférer dans le monde de l’IA le racisme systémique qui a malheureusement toujours lieu aux US. En d’autres termes, au vu de ces données, comme le dit l’article : “les Noirs doivent être plus malades que les Blancs pour se voir attribuer des soins supplémentaires”. Les scientifiques évaluent même que si l’algorithme était corrigé de ce biais, 46.5% des patients qui reçoivent des aides additionnelles seraient des afro-américains, contre 17.7% dans la situation actuelle.

Une carte de crédit “sexiste”

En novembre dernier, il y a eu un scandale après que David Heinemeier Hansson et même Steve Wozniak (le co-fondateur d’Appel) ont mis l’accent sur le comportement “sexiste” de la carte de crédit d’Apple. Toutes choses égales par ailleurs, il semble que l’algorithme en charge de déterminer la limite de crédit est très biaisé envers les hommes et leur donne une limite plus élevée qu’aux femmes. Il a ainsi proposé à M. Hansson une limite 20 fois supérieure à celle proposée à sa femme.

Ici, le “problème de la boîte noire” que j’ai mentionné plusieurs fois par le passé apparaît clairement. A moins d’avoir un accès aux ordinateurs de Goldman Sachs, il est impossible de savoir exactement ce qu’il s’est passé et comment l’algorithme en est arrivé à cette conclusion. Une explication possible est que l’IA a été entraînée avec un jeu de données biaisé où, à cause de notre historique dans le domaine, beaucoup plus d’hommes que de femmes ont fait des prêts et que les femmes ont généralement eu des limites de crédits plus basses… De toute façon, cette discrimination lié au sexe est une violation de la loi et des enquêtes sont en cours pour essayer de déterminer si Apple ou la Goldman Sachs doivent être inculpés.

Comment détecter et corriger les algorithmes injustes ?

Parce que la plupart des algorithmes sont propriétaires et bien protégés, les études sur les algorithmes biaisés sont rares. Un autre article de Nature s’intéresse spécifiquement à la problématique de “rendre les algorithmes équitables”. Un des plus gros problèmes pour cela est l’explicabilité et la responsabilité des IAs : puisque nos algorithmes sont aujourd’hui majoritairement des “boîtes noires” (dont on ne comprend pas réellement le procédé d’analyse), il est difficile d’évaluer s’ils basent leur décisions sur des schémas biaisés ou non.

Note : un cas remarquable “d’inexplicabilité” arrive quand on entraîne une IA pour une tâche donnée et qu’on lui ensuite de travailler sur un autre contexte (par exemple on l’entraîne à classer des images en 3 classes A, B, C et on demande ensuite au modèle entraîné de prédire V, W, X, Y, Z) ; on peut de manière inattendue obtenir de très bons résultats ! Dans le champ de “meta-apprentissage bayésien”, on essaie d’obtenir des résultats qui ne dépendent pas des modèles (voir par exemple cet article par Kim et al.) qui ne sont pas taillés précisément pour un cas mais essaient au contraire d’avoir des solutions générales. Cela suggère que les machines pourraient repérer des schémas que nous ne percevons pas et ainsi construire des modèles qui dépassent notre entendement…

Dans l’article, Kate Crawford, co-fondatrice du AI Now Institute, dit que “ce qui [l’]inquiète le plus serait que l’on fabrique des modèles censés résoudre nos problème [mais qui] ne feraient en fait que les accroître”. A l’heure actuelle, il y a déjà des discriminations et des biais dans beaucoup de nos systèmes sociaux : le risque est que les données que nous avons actuellement en notre possession “apprendraient” à notre IA à reproduire ces clichés et ne feraient que répéter ce système inéquitable – nous n’avons pas réellement d’exemples de cas parfaits sans ces biais pour nourrir nos algorithmes avec les bons patterns.

Comment pourrait-on résoudre ce problème ? Obermeyer insiste sur le fait qu’il est souvent complexe de trouver et modifier “la bonne variable” pour se débarrasser du biais. Il y a cependant quelques pistes de réflexion, comme par exemple :

  • avoir une plus grande diversité dans la communauté de chercheurs et programmeurs en IA : si tous les programmeurs “pensent de la même manière”, il pourrait être plus difficile de créer des systèmes nouveaux qui ne reproduisent pas les anciens problèmes mais au contraire cherchent des nouveaux schémas ; cette problématique a par exemple été soulevée par Ruha Benjamin, sociologiste à la Princeton University dans le New Jersey
  • comme suggéré par Rayid Ghani (un informaticien à la Carnegie Mellon University, Pittsburgh) : faire plus de tests et essayer de repérer les biais possibles avant que l’algorithme ne soit en production et vendu sur le marché ; ces audits pourraient être une occasion de comparer les résultats de la décision humaine ou la décision machine pour étudier l’équité des deux
  • éduquer les gens sur les avantages mais aussi les limites de l’IA pour que les utilisateurs finaux de ces algorithmes aient (au moins un peu plus) conscience des possibles dangers de les appliquer à leur cas

Notons cependant que Ghani a réalisé des études non publiées qui ont montré que les humains pouvaient être aussi, voir plus, biaisés que les algorithmes. Il reste donc ce grand doute : est-ce que les algorithmes biaisés sont vraiment pire que nous et nos propres biais ?…

Pour conclure

Que ce soit dans les processus de recrutement, les procès, les diagnostics médicaux ou l’organisation de projets sociaux, on utilise l’IA de plus en plus. Même si c’est un outil d’analyse exceptionnel, nous ne devons pas oublier qu’elle dépend complètement des entrées qu’on lui fournit. Il faut toujours faire attention à bien cerner les limites et les potentiels biais de notre modèle et se méfier de prendre toutes nos décisions en se basant seulement sur les réponses de l’algorithme.

En même temps, il ne faut pas non plus totalement occulter l’idée “d’améliorer l’équité” à l’aide de machines : il a été montré que nous, les humains, sommes très biaisés sur beaucoup de sujets malgré tous nos efforts ; à l’inverse, nous pourrions trouver un moyen d’atténuer les inégalités dans nos algorithmes en particulier en leur donnant des données mieux préparées et scrupuleusement “nettoyées”. La question est alors : peut-on se faire confiance pour savoir quand le “nettoyage” est terminé ?

Il est aisé d’être trop confiant dans l’IA quand on voit tous les résultats incroyables qu’elle a déjà eu dans de nombreux domaines (finance, classification d’image, reconnaissance vocal, jeux vidéos…). Cependant, j’ai l’impression que cette audace peut causer de nombreux problèmes et qu’il faut tâcher de se rappeler que l’IA n’est qu’un outil : il peut être utilisé de la bonne ou de la mauvaise façon, il ne peut pas résoudre toutes les situations et il doit être manipulé par ceux qui savent ce pour quoi il peut être utilisé.

REFERENCES / SOURCES
  1. AI Now Institute’s website: https://ainowinstitute.org/
  2. E. R. Moravec, “Do Algorithms Have a Place in Policing?” (https://www.theatlantic.com/politics/archive/2019/09/do-algorithms-have-place-policing/596851/), Sept. 2019. [Online; last access 8-January-2020].
  3. R. Booth, “How Bristol assesses citizens’ risk of harm – using an algorithm” (https://www.theguardian.com/uk-news/2019/oct/15/bristol-algorithm-assess-citizens-risk-harm-guide-frontline-staff), Oct. 2019. [Online; last access 8-January-2020].
  4. J. Angwin, J. Larson, S. Mattu and L. Kirchner (ProPublica), “Machine Bias” (https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing), May 2016. [Online; last access 8-January-2020].
  5. H. Ledford, “Millions of black people affected by racial bias in health-care algorithms” (https://www.nature.com/articles/d41586-019-03228-6), Oct. 2019. [Online; last access 8-January-2020].
  6. I. Farhi, “NY Action Against UnitedHealth Algorithm” (https://consumer.jenner.com/2019/11/ny-action-against-unitedhealth-algorithm.html), Nov. 2019. [Online; last access 8-January-2020].
  7. Z. Obermeyer, B. Powers, C. Vogeli, S. Mullainathan, “Dissecting racial bias in an algorithm used to manage the health of populations” (https://science.sciencemag.org/content/366/6464/447), Oct. 2019. [Online; last access 8-January-2020].
  8. BBC News, “Apple’s ‘sexist’ credit card investigated by US regulator” (https://www.bbc.com/news/business-50365609), Nov. 2019. [Online; last access 8-January-2020].
  9. R. Courtland, “Bias detectives: the researchers striving to make algorithms fair” (https://www.nature.com/articles/d41586-018-05469-3), June 2018. [Online; last access 8-January-2020].
  10. T. Kim, J. Yoon, O. Dia, S. Kim, Y. Bengio, S. Ahn, “Bayesian Model-Agnostic Meta-Learning” (https://arxiv.org/abs/1806.03836), Nov. 2018. [Online; last access 8-January-2020].
  11. I. Wikimedia Foundation, “The Minority Report” (https://en.wikipedia.org/wiki/The_Minority_Report), Oct. 2019. [Online; last access 8-January-2020].

Leave a Reply

Your email address will not be published. Required fields are marked *