Automated discourse analysis / Analyse automatique du discours

Over the past few years, artificial intelligence has been used in lots of applications. Its history is already paved of several milestones such as the golden years in the 70s, the fall in the 80s, the boom of big data, the rise of deep learning or more recently, better-than-human strategy game players. The past two years are considered by several AI prominent figures like Yann Le Cun to be the latest revolution in AI, with a focus on natural language processing (or NLP). Indeed, in 2019, OpenAI kicked the anthill once more on the topic of NLP when they released an AI capable of generating amazingly realistic text. They even decided to refrain from publishing the code – contrary to most of their projects – because they were worried it could be used to create fake news more easily.

For a few months, I’ve encountered or discussed NLP in various contexts. So much so that I decided I would finally dive into my grandfather’s work and read a bit what he published in the 1970s and the 1980s on discourse analysis. Michel Pêcheux was a philosopher who was interested in how language works, how it is structured, and who looked into the emerging computer science of his time (when the AI we see now was still very young) for new arms for automatic discourse analysis. He investigated the unique properties of programs as a discourse analysis tool. His most remarkable contribution is the development of an empirical process for said discourse analysis. He also pondered the possible future of the nascent AI and wondered what benefits or drawbacks could emerge from it. Among other things, he called out the possible biases it could bring if applied for “mass consumption” – as he pointed out, natural language processing should not be regarded as “transparent” as previous bibliographic techniques.

In 1969, Michel published a core book in his activities as a researcher: Automated Discourse Analysis (hence nicknamed “ADA69” in the field). Last year, the publication celebrated its 50th birthday. Despite having been written half a century ago, it is quite impressive to see that it already questioned current issues and that Michel had in his toolbox and in his mind some seeds of today’s AI.

Note: Michel’s work has been published in various languages – French, English, German, Portuguese… If you’re an english-speaker and you’re interested in a high-overview of his work, I found a 2007 article by N. Helsloot and T. Hak that provides a summary of his contribution to discourse analysis, mostly with the ADA69 publication.

I’d also like to point out that his career has seen many evolutions and that I’ve only started to discover his work recently – I’ve only scratched the surface with ADA69 and a few complementary texts written by Michel or others on his thought. The remarks I write down here may therefore be naive or incomplete if we consider the entire set of his publications. But to be honest, it’s mostly about reacting to these strange feelings I have reading this man I never had the chance to meet and yet have plenty in common with…

Another publication from 1982 (in French, by M. Pêcheux, J. Léon, S. Bonnafous, J. Marandin) that reflects upon ADA69 and the evolutions in Michel’s work between the 60s and the 80s rightly points out that ADA69 treated some questions or situations that were already out-of-date in the 1980s. On the other hand, the 1982 text suggests that this article gives valuable results and can help us shape a new project to continue it. ADA69 was a first draft – that remained quite theoretical – of the practical discourse analysis tool Michel worked to build. He himself says that this book was written in a “theoretical urgency” and ends with a “temporary” conclusion. In the following years, he reconsidered, refined, corrected and revised various aspects of it (in particular in 1975, in collaboration with Catherine Fuchs).

Cover of Automatic Discourse Analysis by M. Pêcheux, published at Dunod in 1969

With the ADA69 and subsequent publications, Michel worked on developing an automated process for discourse analysis. In other words, his goal was to take a discourse as input and extract meaning from it as output. As is quite clear in this book, he was keen on limiting as much as possible the necessity to “read and understand” for the agent that processes the text; his idea was that, if the person or the system that “cuts down” and effectively analyzes the text does not rely on semantic but on syntax and structure to do it, it will be less prone to tainting it with ideology or a priori. Throughout all of his articles and books, the notion of context is paramount: as he often recalls, a discourse is produced by someone, for someone, about something; and each participant in the discussion has their own knowledge and ideas on these 3 characteristics of the discourse at a given time. This makes for a somewhat shifting “meaning” of the text that is dependent on the conditions in which the discourse was produced. Hence the need to go one step “lower” and focus more on relationships between words than between concepts – this way, we can hope that the analysis does not add a “filter” on the original discourse.

Note: the 1982 retrospective article cited above recalls that the tools proposed in ADA69 were specifically designed for the study and analysis of ideological or political discourses.

It is worth noting though that the article from 1969 presents a tool that is not truly as “automatic” as what we might think nowadays. In our day and age, we are more and more used to having this big black box called “an AI” that we feed our text to and expect a simple readable output from. In ADA69, Michel developed a systematic process that should be applied to specifically formed inputs, in a precise way, to create results that then need a particular analysis to be clearly understandable.

As I was reading the ADA69, I was struck to see how we can transfer some of Michel’s ideas into today’s AI paradigms while some others have been tested and rejected since his time. Below are some notions that this reading reminded me of and how, in my own (personal!) opinion, Michel’s work forecasts, fits or diverges from our current approach of artificial intelligence.

Mixing maths, computers and literature

In some of my previous articles, I mentioned a few times that, at least in France, school has a habit of hermetically separating “hard science” from “soft science”; in particular, students are usually supposed to choose between maths and literature and avoid as much as possible any porosity of the two. While this is beginning to change, groups like the OuLiPo prove it can work and some post-graduate formations try and build bridges between those domains, I still feel like it is rare to see people that are actually working in both.

I recently came across an HBR article entitled “How Mindfulness Can Help Engineers Solve Problems” (published in January 2019) that turns the spotlight on a common issue in the field of engineering: the difficulty to “think outside the box”. Most engineering formations teach you to answer a given situation with a particular process or a specific theoretical solution – this might be a good first step, but it sometimes prevents you from tackling the issue from a new angle and perhaps coming up with brand new ideas. On the other hand, media are often admiring of scientist-artist collaborations: be it because art allows for a nicer communication public or because science helps explain the “magic” of some artwork, the fields continuously interfere in a thrilling ping-pong game. This 2016 article from Forbes for example points out how one regularly interacts with the other to create new tools. And we keep on reading news on “AI applied to art” (like the work of Refik Anadol that “turns data into art”). I believe that, overall, science and art are two visions of the world that are not incompatible; on the contrary, inquiring both when trying to answer a question is generally quite beneficial and gives you unexpected insights on the problem at hand.

In my opinion, the fact that Michel collaborated and drew inspiration from linguists, historians, sociologists but also mathematicians (Paul Henry) or psychologists (Michel Plon) is indicative of the necessity of associating multiple domain, of blending various skillsets into a coherent whole to work on such a complex project.

In the case of ADA69, Michel wanted to design a practical algorithmic process to extract the significance of a text. There was a clear ambition of making use of the new technologies to facilitate some old techniques and also to create new ones. He was fascinated by machines and scientific instruments. With this project, Michel aimed at combining knowledge from linguistics, sociology, maths, computer science… I see in ADA69 and the rest of this work a will to harmoniously infuse some mathematical concepts or structures into the world of literature. In that respect, the formal equivalent representations of sentences as automata, graphs or simple one-line expressions that are given in ADA69  are symptomatic of the valuable contributions of combinatorics, logic and theoretical computer science to Michel’s demonstration. I also strongly believe that one of the core ideas of the process described in ADA69, this idea of preparing a general “canvas” that would be valid for any statement and would then be filled with the specifics of your own instance at the moment of the analysis, is nowadays a way of thinking that is more widespread among scientific than literary persons (if we bluntly consider the tags people are given).

Note: linguistics are, however, defined on Wikipedia as the “scientific study of language”. This field thus has this inherent property of taking a very analytic and descriptive approach of literature, being a great middle-ground between those two sadly-too-divided domains.

To me, the task of discourse analysis looks daunting at first because it seems hard to “encode” what a word means. NLP developments have shown time and again that our AIs “think” more in terms of syntax than semantic – they learn relationships between characters, words, sentences, paragraphs but not between ideas. In this regard, Michel’s automatic discourse analysis’ algorithm was a pioneer of what we do today. But it still begs the question: do these AI understand meaning? Or are they only “copying” really well, essentially simulating some sort of human writing skills, so perfectly that we are unaware of the fact that they don’t truly grasp semantic?

I think we are once again faced with the issue of unexplainability in AI – the problem that amazingly efficient neural networks may give outstanding results, yet we can’t really get how their parameters are tuned and therefore extract its “reasoning process”. However, the question of explainability is tightly bound to the type of AI system we use and it’s a good opportunity to recall that AI does not necessarily equal neural networks. Other forms of artificial intelligence existed prior those: though they were theorized in the 1940s, we started to really implement and use neural networks in the 1970s with the emergence of backpropagation. Among those “old forms of AI”, there were expert systems.

Expert systems: when you give your program not only data, but also rules

As I mentioned earlier, Michel’s “automatic” process partly relies on a neat preparation of the text as input. Dissecting discourses properly has to be done by following various rules – ADA69 contains a few chapters devoted to identifying and formulating those rules. This can be linked to the concept of “expert systems” that had been around for some years at this time and was thought to be one of the answers to artificial intelligence.

Expert systems are part of a branch of artificial intelligence that focuses on programs trying to mimic the brain and knowledge of a human expert by applying a system of predefined rules to the current situation to produce outputs. They mostly rely on basic logic to infer new facts from a set of known facts and if-then rules. The idea is to emulate human decision making from a knowledge base.

Predecessors of these expert systems appeared in the 50s for medical diagnosis: at this time, people had already started to realize how powerful computers could be and were searching for real-life applications. In the field of medicine, researchers conceived simple diagnostic systems that were able to process the patient’s symptoms and laboratory test results to produce a basic diagnostic. A recent study by J. Yanase and E. Triantaphyllou presents a comprehensive survey of 251 publications about computer-aided medical diagnosis.

Expert systems were truly named and developed in late 60s and the 70s, in particular by Edward Feigenbaum (who is sometimes called “the father of expert systems”!). In PhD thesis, under the supervision of Herbert A. Simon, he created one of the first computer model of human learning and memory, EPAM (Elementary Perceiver And Memorizer). Feigenbaum and other key contributors in the field quickly identified that the important thing was the initial knowledge base of the system, far more than the rules themselves. Multiple systems were developed in the following decades but it wasn’t until 1978 that one was a true commercial success; Xcon (the eXpert CONfigurer) was a program that helped the Digital Equipment Corporation (DEC) computer company with ordering the best computer parts based on the customer’s needs. A few years later, in 1982, another expert system helped them with design and production at a large scale: the SID (or Synthesis of Integral Design) was a piece of software able to generate CPU logic gates – it even expanded on the rules given by the expert users and therefore “invented” new design patterns that outperformed the initial ones.

These systems thus had significant results, saved the DEC tens of millions of dollars and overall achieved some amazing breakthroughs. At the same time, from a research point of view, they allowed for easy prototyping and maintenance – you just need to enter a few rules to begin and test your system, whereas most IT projects require at least a few days of coding before producing a result. Expert systems also offered a great advantage in terms of explainability: if your rules were well-formulated then at the end of the process any user could simply read which ones had been used by the system and understand the logic that had lead to this outcome.

Expert systems use both a knowledge base and a set of rules

Why then aren’t expert systems the gold standard in AI? On the one hand, some of their principles have actually integrated seamlessly in the current programming paradigms (e.g. the rules engine); on the other hand, they have failed to deliver on the very high hopes researchers had for them at the beginning while becoming increasingly expensive. This is why the second AI winter in the 1990s saw a slowdown in the development and usage of expert systems.

In particular, one of the big questions today about expert systems is whether they could be adaptable enough to efficiently mimic human reasoning. They suppose that you answer many problematics during the conception phase. For example: how do you define the system of rules? Are you sure it encompasses all the possible cases? Conversely, are you sure it is not too restrictive? Nowadays, the new approaches aim generally at producing more flexible systems that can update themselves – however, as soon your system contains a high number of rules, some of which have been added automatically, you face the risk of not completely understanding the “intelligence” in it anymore (and we are back to the black box issue…). These programs are very sensitive to out-of-the-box data, too: when fed “surprising” inputs, they tend to give off completely crazy results.

A big drawback of expert systems is that they need both an initial knowledge base and an initial rules engine. The knowledge base has to be acquired with as much difficulties and precautions as in any other AI software development, plus it may contain biases that will affect the expert systems further down the road (I recently published an article about biases in AI that are primarily due to wrong data collection or treatment but have a large impact on the program’s results). As for the set of logic rules, you must have a profound understanding of the situation to solve. The early forms of expert systems I mentioned before for medical diagnosis suffered this problem as well: as explained in this 1959 article “Reasoning Foundations of Medical Diagnosis” by R. S. Ledley and L. B. Lusted, building these programs first required specialists to analyze how a diagnosis is done. This sort of goes “against the current” of many AI programs today that could supposedly tackle problems we don’t fully understand and help us extract knowledge on them as an ensemble of rules, a logic, that we hadn’t identified yet. Moreover, it requires a preliminary step of knowledge acquisition with experts and some preprocessing of all the collected rules to create a standardized system.

Another disadvantage of expert systems is that, as the number of rules grows, the system will take longer and longer to check all of them and will therefore increase its computation time. Worse: some rules can be inconsistent – and insuring the satisfiability of the entire system is an NP-complex problem, meaning that the verification grow exponentially with the number of rules and it quickly becomes intractable in practice. Finally, we may face the same issues as in other AI branches such as overfitting or over-generalization. These problems can be somehow mitigated by prioritizing the rules for example, but this means even more preprocessing!

Still, expert systems can be applied to multiple situations, ranging from interpretation of sensor data to product design or workflow control. They are usually quite effective in a well-controlled environment, for problems that are well-defined but too complex to solve by hand.

Let’s remember however that Michel’s goal was, among other things, to try and avoid the impact of the analysis on the actual meaning of the text. From this perspective, expert systems are subjected to the same issues as other forms of AI and we can wonder if it is really possible to have unbiased software.

Unbiased software?

My last article in the Artifakal Intelligence / Intelligence Artifaussielle series focused specifically on the big issue of objectivity for AI software and on the consequences biases can have in real-life applications. The key idea I discussed is that in AI, bias is in the data, not in the algorithms. In that sense, we shouldn’t say (like plenty of articles do) that “algorithms are biased” but that “data (and its collection/processing) is biased”. This is due partly to us living in a world that itself contains lots of stereotypes and unfairness, which tend to be transferred directly into the representations we feed our AIs; but also to us introducing other misleading patterns by having too few examples, missing values, unrepresentative subsets… We therefore present the world to our programs through some weirdly shaped windows.

In the case of ADA69, however, we have to note that if there were to be an expert system it would apply to the preliminary syntactical slicing process and not to the interpretation of the results. Biases would therefore intervene in this first phase rather than during what we associate with the final “semantical analysis” part. Perhaps we can then hope that the (inescapable) distortions in the software don’t have too big an effect on the object of studies.

Other notes & Conclusion

Even if I didn’t spend time on this, it is interesting to see that Michel’s automatic discourse analysis insists on the importance of corpus analysis, too. According to ADA69, the study of the meaning of a text should take into account the conditions of production of this discourse but also the rest of the texts that could have been produced by these conditions. By contrast, in my own experience, current NLP AIs “learn syntax” with a corpus of initial reference texts but hardly ever work on multiple texts at once after having been trained.

Michel’s views still have repercussions on discourse analysis today and the numerous translations or seminars around his work show that the theories he inherited and the ones he helped develop can help lay the foundation of many other projects, though sometimes indirectly.

This was just a small overview of the thoughts the reading of ADA69 brought me. There is a lot more to say on this topic and on the links Michel’s theories had with our current approach of artificial intelligence. I will certainly write other articles on this topic, so don’t hesitate to tell me if you like it and if there are some perspectives that you would like me to discuss!

Ces dernières années, l’intelligence artificielle a été utilisée pour de nombreuses applications. Son histoire est déjà pavée de plusieurs jalons comme l’âge d’or des années 70, les reculs des années 80s, le boom du big data, l’essor du deep learning ou, plus récemment, des joueurs de jeux de stratégie surhumains. Les deux dernières années sont perçues par plusieurs figures importantes de l’IA telles que Yann Le Cun comme la dernière révolution en intelligence artificielle, avec un accent sur le traitement informatique du langage naturel (en anglais natural language processing, NLP). En effet, en 2019, OpenAI a donné un nouveau coup de pied dans la fourmilière sur le sujet du NLP quand ils ont révélé une IA capable de générer des textes incroyablement convaincants. Ils ont même décidé de ne pas publier le code – contrairement à la plupart de leurs projets – car ils s’inquiétaient du fait qu’elle puisse être utilisée à mauvais escient, par exemple pour créer de fausses nouvelles plus simplement.

Depuis quelques mois, j’entends parler et je discute du NLP dans divers contextes. Tant et si bien que je me suis finalement décidée à plonger dans les travaux de mon grand-père et de lire un peu ce qu’il a publié dans les années 1970 et 1980 sur l’analyse du discours. Michel Pêcheux était un philosophe qui s’est intéressé au fonctionnement de la langue, à sa structure, et qui a cherché dans l’informatique balbutiante de l’époque (alors que l’IA dont on parle aujourd’hui était encore très jeune) de nouvelles armes pour l’analyse automatique du discours. Il a notamment examiné les propriétés uniques des programmes en tant qu’outil d’analyse du discours. Sa contribution la plus remarquable est le développement d’un processus empirique pour cette analyse. Il s’est également interrogé sur le possible futur de l’IA naissante et s’est demandé quels bénéfices ou désavantages pourraient en émerger. Entre autres, il a mis en garde contre les possibles biais qu’elle pourrait amener si elle était appliquée pour une “consommation de masse” – comme il le faisait remarquer, le traitement du langage naturel ne doit pas être vu comme aussi “transparent” que les techniques bibliographiques antérieures.

En 1969, Michel a publié un ouvrage essentiel dans son activité de chercheur : Analyse automatique du discours (qui a été surnommé “AAD69” dans le domaine). L’an dernier, cette publication célébrait donc ses 50 ans. Il est impressionnant de voir qu’il y a un demi-siècle, ce livre questionnait déjà des problématiques actuelles et que Michel avait dans sa boîte à outils et dans sa tête quelques graines de l’IA d’aujourd’hui.

Note : les oeuvres de Michel ont été publiées dans plusieurs langues – français, anglais, allemand, portugais… si vous parlez anglais et que vous vous intéressez à un bref aperçu de ses travaux, j’ai trouvé cet article de 2007 de N. Helsloot et T. Hak qui donne un résumé de ses contributions à l’analyse du discours, notamment avec l’AAD69.

Je tiens aussi à préciser que la carrière de Michel a vu de nombreuses évolutions et que je n’ai découvert son travail que récemment – je n’ai que gratté la surface avec AAD69 et quelques textes complémentaires écrits par Michel ou par d’autres sur sa pensée. Les remarques que je fais ici sont donc peut-être naïves ou incomplètes si l’on considère l’ensemble de ses publications. Mais, à la vérité, il s’agissait surtout de réagir à ces étranges sentiments que j’ai à lire un homme que je n’ai jamais eu la chance de rencontrer et avec qui j’ai pourtant beaucoup en commun…

Une autre publication datant de 1982 (en français, par M. Pêcheux, J. Léon, S. Bonnafous, J. Marandin) qui se penche sur l’AAD69 et les évolutions dans les travaux de Michel entre les années 60 et les années 80 fait justement remarquer que l’AAD69 traite certaines questions ou situations qui étaient déjà dépassées dans les années 1980. D’un autre côté, le texte de 82 suggère que l’article fournit des résultats intéressants et peut nous aider à mettre en forme un nouveau projet dans sa continuité. AAD69 restait encore une première ébauche – relativement théorique – de l’outil pratique d’analyse du discours de Michel. Il disait lui-même que ce livre avait été écrit dans une “urgence théorique” et le termine par une conclusion “provisoire”. Dans les années qui suivirent, il en reprit, affina, corrigea et révisa différents points (en particulier dans un ouvrage de 1975, en collaboration avec Catherine Fuchs).

Couverture de l’Analyse automatique du discours par M. Pêcheux, publié chez Dunod en 1969

Avec l’AAD69 et ses publications suivantes, Michel a travaillé à développer un processus automatique pour l’analyse du discours. En d’autres termes, son but était de prendre un discours comme entrée et d’en extraire le sens comme sortie. Comme montré clairement dans le livre, il s’attachait à limiter autant que possible la nécessité pour l’agent qui analyse le texte de “lire et comprendre” ; l’idée est que, si la personne ou le système qui “découpe” et analyse effectivement le texte ne se repose pas sur la sémantique mais sur la syntaxe et la structure, il sera moins soumis au risque de l’altérer avec une idéologie ou un a priori. A travers toute l’oeuvre de Michel, la notion de contexte est centrale : comme il le rappelle fréquemment, un discours est produit par quelqu’un, pour quelqu’un, à propos de quelque chose ; et chaque participant dans cette discussion a ses propres connaissances et idées sur ces 3 caractéristiques du discours à un moment donné. C’est pour cela qu’il faut “descendre” d’un niveau et se concentrer plutôt sur le relations entre les mots qu’entre les concepts – de cette façon, on peut espérer que l’analyse n’ajoute pas un “filtre” au discours originel.

Note : l’article rétrospectif de 1982 cité plus haut rappelle que les outils proposés dans l’AAD69 étaient spécifiquement destinés à l’étude et l’analyse de discours politiques ou idéologiques.

Il convient de noter cependant que l’article de 1969 présente un outil qui n’est pas réellement “automatique” au sens où l’imagine aujourd’hui. A notre époque, on s’habitue de plus en plus à avoir une grande boîte noire qu’on appelle “IA”, à laquelle on donne notre texte et dont on s’attend à obtenir une sortie lisible. Dans l’AAD69, Michel a développé un processus systématique qui doit être appliqué à des entrées sous une forme spécifique, de manière précise, pour créer des résultats qu’il faut ensuite étudier de manière particulière pour être clairement compréhensible.

Pendant que je lisais l’AAD69, j’ai été frappée de voir comment on peut transférer certaines idées de Michel aux paradigmes actuels en IA, tandis que d’autres ont été testées et rejetées depuis son époque. Ci-dessous, j’ai listé quelques notions que cette lecture m’a rappelées et en quoi selon moi (mais ce n’est que mon opinion personnelle !) le travail de Michel annonce, correspond ou diverge de notre approche actuelle de l’intelligence artificielle.

Mélanger les maths, les ordinateurs et la littérature

Dans certains de mes articles précédents, j’ai mentionné quelques fois que, en tout cas en France, l’école avait l’habitude de séparer les “sciences dures” des “sciences humaines” de manière étanche ; en particulier, les élèves sont souvent supposés choisir entre mathématiques et littérature et éviter au maximum toute porosité entre les deux. Même si cela commence à changer, que des collectifs comme l’OuLiPo montrent que l’inverse peut fonctionner et que certaines formations post-bac essaient de construire des ponts entre ces domaines, j’ai encore l’impression que l’on voit rarement des personnes dont le travail fusionne réellement ces deux champs.

J’ai récemment lu un article de HBR intitulé “How Mindfulness Can Help Engineers Solve Problems” (Comment l’ouverture d’esprit peut aider les ingénieurs à trouver des solutions, publié en janvier 2019) qui met en lumière un problème usuel dans l’ingénierie : la difficulté à penser différemment, à “penser en-dehors de la boîte” (en anglais, think outside the box). La plupart des formations d’ingénieur nous apprennent à répondre à une situation donnée par un processus particulier ou un solution théorique spécifique – ce peut être une bonne première étape mais cela peut parfois vous empêcher d’approcher le problème sous un angle nouveau et de trouver des idées radicalement nouvelles. En parallèle, les médias admirent souvent des collaborations entre scientifiques et artistes : que ce soit parce que l’art permet une communication plus agréable au public ou parce que la science aide à expliquer la “magie” de certaines oeuvres, ces champs sont en constante interférence et jouent un merveilleux jeu de ping-pong. Par exemple, cet article de 2016 du Forbes pointe du doigt comment l’un interagit régulièrement avec l’autre pour créer de nouveaux outils. Et on continue de lire des articles sur “l’IA appliquée à l’art” (comme les travaux de Refik Anadol qui “transforme la donnée en art”). Je crois que, de manière générale, la science et l’art sont deux visions du monde qui ne sont pas incompatibles ; au contraire, interroger les deux quand on cherche à trouver la solution à une question est souvent bénéfique et nous donne des perceptions inattendues de la situation étudiée.

A mon avis, le fait que Michel ait collaboré avec et cite des linguistes, des historiens, des sociologues mais aussi des mathématiciens (Paul Henry) et des psychologues (Michel Plon) est révélateur de la nécessité d’associer plusieurs domaines, de combiner diverses compétences en un tout cohérent pour travailler sur un projet aussi complexe.

Dans le cas de l’AAD69, Michel a voulu concevoir un processus algorithmique concret pour extraire la signification d’un texte. Il y avait une ambition claire d’utiliser les nouvelles technologies pour faciliter d’anciennes techniques et aussi en créer de nouvelles. Il était fasciné par les machines et les instruments scientifiques. Avec ce projet, Michel voulait associer les connaissances en linguistique, en sociologie, en maths, en informatique… Je vois dans l’AAD69 et le reste de ses oeuvres une volonté de transfuser harmonieusement certains concepts ou structures mathématiques dans le monde de la littérature. A cet égard, les représentations formelles équivalentes des phrases en automates, en graphes ou en simples expressions qui sont données dans l’AAD69 sont symptomatiques des précieuses contributions de la combinatoire, la logique et la théorie informatique dans la démonstration de Michel. Je pense aussi fermement que l’une des idées centrales du processus décrit dans l’AAD69, l’idée de préparer un “gabarit” général qui serait valide pour n’importe quel énoncé et serait ensuite rempli avec les particularités de l’instance au moment de l’analyse, est de nos jours plutôt une façon de penser que l’on retrouve chez les scientifiques que les littéraires (si l’on considère crûment ces étiquettes que l’on donne aux gens).

Note : la linguistique est néanmoins définie sur Wikipédia comme “une discipline scientifique s’intéressant à l’étude du langage”. Ce domaine a donc en lui-même cette propriété d’avoir une manière très analytique et descriptive d’approcher la littérature ce qui en fait un compromis entre ces champs malheureusement trop divisés.

Pour moi, la tâche d’analyse du discours semble intimidante au premier abord car il paraît difficile “d’encoder” la signification d’un mot. Les développements en NLP ont montré à de nombreuses reprises que les IAs “réfléchissent” plus en termes de syntaxe que de sémantique – elles apprennent des relations entre les caractères, les mots, les phrases, les paragraphes mais pas entre les idées. En ce sens, l’algorithme d’analyse automatique du discours de Michel était pionnier pour ce que l’on fait aujourd’hui. Mais cela pose tout de même la question : est-ce que ces IAs comprennent le sens du texte ? Ou bien ne font-elles que “copier” admirablement, simulant en fait une sorte de capacité humaine d’écriture, si parfaitement que l’on ne réalise pas qu’elles ne saisissent pas la sémantique ?

Je pense qu’encore une fois, nous sommes confrontés au problème de l’explicabilité en IA – ce problème actuel qui nous permet de créer des réseaux de neurones incroyablement efficaces aux résultats phénoménaux sans pour autant vraiment comprendre de quelle façon leurs paramètres sont ajustés et donc quel “raisonnement” ils ont. Pourtant, la question de l’explicabilité est très fortement liée au type de système d’IA que l’on utilise et c’est une bonne occasion de rappeler que l’IA ne se limite pas aux réseaux de neurones. D’autres formes d’intelligence artificielle existaient auparavant : même s’ils ont été théorisés dans les années 1940, les réseaux de neurones n’ont réellement été implémentés et utilisés que dans les années 1970 avec l’apparition de la backpropagation. Parmi ces “vieilles formes d’IA”, il y avait les systèmes experts.

Systèmes experts : quand on donne à son programme non seulement des données, mais aussi des règles

Comme je l’ai dit plus tôt, le processus “automatique” de Michel s’appuie en partie sur une préparation soigneuse du texte en entrée. Disséquer les discours proprement doit être fait en suivant certaines règles – l’AAD69 contient quelques chapitres dédiés à l’identification et la formulation de ces règles. Cela peut être associé au concept de “systèmes experts” qui étaient déjà là depuis plusieurs années à l’époque et étaient vus comme l’une des réponses au problème de l’intelligence artificielle.

Les systèmes experts font partie d’une branche de l’intelligence artificielle qui se concentre sur les programmes tentant d’imiter le fonctionnement du cerveau et la connaissance d’un expert humain en appliquant un système de règles prédéfinies à la situation actuelle pour produire des résultats. Ils reposent principalement sur la logique de base pour déduire de nouveaux faits d’un ensemble de faits connus et de règles “si-alors” (des if-then rules). L’idée est d’émuler le processus de décision humain à partir d’une base de connaissances.

Les prédécesseurs de ces systèmes experts sont apparus dans les années 50 pour le diagnostic médical : à cette époque, on a commencé à réaliser à quel point les ordinateurs pouvaient être puissants et on cherchait à en trouver des applications dans la vie réelle. Dans le champ de la médecine, des chercheurs ont conçu de simple systèmes de diagnostic qui pouvait évaluer les symptômes d’un patient et les résultats des tests en laboratoire pour produire un diagnostic basique. Une étude récente par J. Yanase et E. Triantaphyllou présente une biblographie complète de 251 publications sur les diagnostics médicaux assistés par ordinateur.

Les systèmes experts ont été réellement nommés et développés à la fin des années 60 et dans les années 70, en particulier par Edward Feigenbaum (qui est parfois appelé “le père des systèmes experts” !). Dans sa thèse, sous la direction de Herbert A. Simon, il a créé l’un des premiers modèles informatiques du processus d’apprentissage et de mémoire humain, EPAM (en anglais: Elementary Perceiver And Memorizer). Feigenbaum et d’autres contributeurs clés dans le domaine ont vite identifié que la chose importante était la base de connaissances initiale du système, bien plus que les règles elles-mêmes. De nombreux systèmes ont été développés dans les décennies suivantes mais ce n’est qu’en 1978 que l’un d’eux a été un vrai succès commercial ; XCON (pour eXpert CONfigurer) était un programme qui a aidé l’entreprise d’informatique Digital Equipment Corporation (DEC) à commander les meilleurs composants d’ordinateur pour les besoins de leurs clients. Un peu plus tard, en 1982, un autre système expert les a aidés à concevoir et produire à grande échelle : le SID (ou Synthesis of Integral Design) était un programme qui pouvait générer des portes logiques pour CPU – il a même étendu les règles données par les experts et a ainsi “inventé” de nouveaux schémas qui étaient meilleurs que ceux fournis initialement.

Ces systèmes ont donc eu des résultats significatifs, ont permis à DEC d’économiser des dizaines de millions de dollars et ont globalement fait des percées formidables. Dans le même temps, du point de vue de la recherche, ils étaient faciles à prototyper et à maintenir – il suffisait d’entrer quelques règles pour commencer à tester le système alors que la plupart des projets d’informatique nécessitent au moins quelques jours avant de produire un résultat. Les systèmes experts offraient aussi un énorme avantage en terme d’explicabilité : si les règles sont bien formulées, alors lorsque le processus est terminé il suffit à l’utilisateur de lire celles qui ont été utilisées par le système pour comprendre quelle logique a produit ce résultat.

Les systèmes experts utilisent à la fois une base de connaissances et un ensemble de règles

Pourquoi, dans ce cas, les systèmes experts ne sont-ils pas la référence absolue en IA ? D’un côté, certains de leurs principes ont en réalité été intégrés de manière fluide dans des paradigmes de programmation actuels (par exemple l’idée d’un moteur de règles) ; d’un autre côté, ils ont échoué à atteindre les objectifs très élevés qui avaient été initialement fixés par les chercheurs tout en devenant de plus en plus coûteux. C’est pourquoi le second hiver de l’IA des années 90 a vu un ralentissement dans le développement et l’utilisation des systèmes experts.

En particulier, l’une des grandes questions aujourd’hui à leur sujet est : peuvent-ils être suffisamment adaptables pour imiter le raisonnement d’un humain efficacement ? Ils impliquent de répondre à de nombreuses problématiques lors de leur conception. Par exemple : comment doit-on définir le systèmes de règles ? Est-on sûr de bien traiter tous les cas ? A l’inverse, est-on sûr de ne pas être trop restrictif ? De nos jours, les nouvelles approches essaient généralement de produire des systèmes plus flexibles qui peuvent se mettre à jour eux-mêmes – cependant, dès que le système contient un grand nombre de règles, certaines ayant été ajoutées automatiquement, on court le risque de ne plus complètement comprendre son “intelligence” (et on en revient au problème de boîte noire…). Ces programmes sont de plus très sensibles aux exemples inhabituels : quand on leur donne des entrées “inattendues”, ils donnent souvent des résultats totalement absurdes.

Un désavantage notable des systèmes experts est la nécessité de leur donner à la fois une base de connaissances et un ensemble de règles. Les connaissances doivent être collectées avec les mêmes difficultés et précautions que pour tout autre programme d’IA, et peut de plus contenir des biais qui auront un impact sur l’IA par la suite (j’ai récemment publié un article sur les biais en IA qui sont principalement dûs à une mauvaise récolte ou préparation des données mais influent fortement sur l’algorithme). En ce qui concerne les règles de logique, il faut comprendre en profondeur la situation étudiée. Les premières formes de systèmes experts mentionnées plus haut pour le diagnostic médical souffraient de ce problème également : comme expliqué dans cet article de 1959 “Reasoning Foundations of Medical Diagnosis” (Fondements du raisonnement pour le diagnostic médical) par by R. S. Ledley and L. B. Lusted, construire ces programmes obligeait d’abord des spécialistes à analyser comment on effectue un diagnostic. Cela va un peu “à l’encontre” du courant actuel de beaucoup de programmes d’IA qui pourraient soi-disant s’attaquer à des problématiques que nous ne comprenons pas tout à fait et nous aider à mieux les comprendre, en y trouvant des relations et une logique que nous n’avions pas encore identifiées. De plus, cela nécessite une étape préliminaire d’acquisition du savoir auprès d’experts et de prétraitement des règles collectées pour créer un système normalisé.

Un autre inconvénient des systèmes experts est que, à mesure que le nombre de règles augmente, le système prend de plus en plus de temps à toutes les vérifier et a donc un temps de calcul accru. Pire encore : certaines règles peuvent être incohérentes – et assurer la satisfiabilité de tout le système est un problème NP-complet, autrement dit le temps de vérification grandit exponentiellement par rapport au nombre de règles et devient vite impraticable. Enfin, on peut être confronté aux mêmes problèmes que dans d’autres branches de l’IA tels que l’overfitting ou la sur-généralisation. Ces difficultés peuvent être plus ou moins atténuées en hiérarchisant les règles par exemple, mais cela demande encore plus de prétraitement !

Malgré tout, les systèmes experts peuvent être appliqués à de nombreuses situations allant de l’interprétation de données de capteurs à la conception d’un produit ou le contrôle d’un processus de travail. Ils sont souvent assez efficaces dans un environnement bien contrôlé, pour résoudre des problèmes bien définis mais trop difficiles à résoudre à la main.

Souvenons-nous cependant que le but de Michel était, entre autres, d’essayer d’éviter que l’analyse ait un impact sur le sens réel du texte. De ce point de vue, les systèmes experts sont sujets aux mêmes problèmes que les autres formes d’IA et on peut se demander s’il est vraiment possible d’avoir des programmes non biaisés.

Des programmes non biaisés ?

Mon dernier article dans la série Artifakal Intelligence / Intelligence Artifaussielle s’intéressait spécifiquement au grand problème de l’objectivité en IA et aux conséquences que les biais peuvent avoir dans les applications du monde réel. L’idée clé dont j’ai parlé était que, en IA, les biais sont dans les données et pas dans les algorithmes. Il ne faudrait donc pas (comme de nombreux articles le font) se demander si “les algorithmes sont biaisés” mais plutôt si “les données (et leur collecte/prétraitement) sont biaisées”. Ceci est en partie lié au fait que nous vivons dans un monde qui contient lui-même beaucoup de stéréotypes et d’injustices qui tendent à être directement transférés dans les représentations que nous fournissons à nos IAs ; mais nous ajoutons aussi d’autres erreurs quand nous n’avons pas assez d’exemples, des valeurs manquantes, des sous-ensembles non représentatifs… On présente donc le monde à nos programmes à travers des fenêtres aux formes bien étranges.

Dans le cas d’AAD69, cependant, il faut remarquer que, si système expert il devait y avoir, celui-ci s’appliquerait au processus de découpage syntaxique préliminaire et non à l’interprétation des résultats. Les biais interviendraient donc durant cette première phase et non durant ce que l’on associe plutôt à la partie “d’analyse sémantique” finale. Peut-être peut-on alors espérer que les (inévitables) distorsions présentes dans le programme aient un effet relativement peu important sur l’objet d’étude.

Autres notes & Conclusion

Même si je n’ai pas détaillé cela, il est intéressant de voir que l’analyse automatique du discours de Michel insistait aussi sur l’importance de l’analyse du corpus. Dans l’AAD69, il est dit qu’étudier le sens d’un texte doit prendre en considération les conditions de production du discours mais aussi le reste des textes qui auraient pu être produits par ces conditions. En revanche, d’après mon expérience personnelle, les IAs actuelles en NLP “apprennent” la syntaxe sur un corpus de références initiales mais ne travaillent ensuite que rarement sur plusieurs textes à la fois, une fois l’entraînement terminé.

La vision de Michel a encore des répercussions sur l’analyse du discours aujourd’hui et les nombreuses traductions ou conférences autour de son travail montrent que les théories dont il a hérité et qu’il a aidé à développer aident à poser les bases de bien d’autres projets, même indirectement.

Cet article était seulement un petit aperçu des pensées suscitées chez moi par la lecture d’AAD69. Il y aurait beaucoup plus à dire dessus, et sur les liens des théories de Michel avec notre approche actuelle de l’intelligence artificielle. J’écrirai sûrement d’autres fois sur ce sujet, donc n’hésitez pas à me dire si cela vous plaît et s’il y a certains angles de discussions qu’il vous intéresserait que je développe !

REFERENCES / SOURCES
  1. OpenAI’s Dota 2 project: https://openai.com/blog/dota-2/
  2. OpenAI’s text generation project: https://openai.com/blog/better-language-models/
  3. M. Pêcheux, Analyse automatique du discours, 1969 (Dunod). [Online; last access 9-February-2020].
  4. N. Helsloot and T. Hak, “Pêcheux’s Contribution to Discourse Analysis” (http://www.qualitative-research.net/index.php/fqs/article/view/242/535), May 2007. [Online; last access 9-February-2020].
  5. M. Pêcheux, J. Leon, S. Bonnafous and J-M. Marandin, Présentation de l’analyse automatique du discours (AAD69) : théories, procédures, résultats, perspectives (in French, https://www.persee.fr/doc/mots_0243-6450_1982_num_4_1_1053), 1982 (Mots). [Online; last access 9-February-2020].
  6. J. Yanase and E. Triantaphyllou, “A systematic survey of computer-aided diagnosis in medicine: Past and present developments” (https://www.sciencedirect.com/science/article/pii/S0957417419305238), Dec. 2019. [Online; last access 9-February-2020].
  7. R. S. Ledley and L. B. Lusted, “Reasoning Foundations of Medical Diagnosis” (https://science.sciencemag.org/content/130/3366/9), July 1959. [Online; last access 9-February-2020].
  8.  B. Rieken, S. Shapiro, S. Gilmartin and S. D. Sheppard, “How Mindfulness Can Help Engineers Solve Problems” (https://hbr.org/2019/01/how-mindfulness-can-help-engineers-solve-problems?utm_medium=social&utm_campaign=hbr&utm_source=facebook), Jan. 2019. [Online; last access 9-February-2020].
  9. Forbes (Quora contributor), “Why Art And Science Are More Closely Related Than You Think” (https://www.forbes.com/sites/quora/2016/03/16/why-art-and-science-are-more-closely-related-than-you-think/), Mar. 2016. [Online; last access 9-February-2020].
  10. T. Simonite, “Artist Refik Anadol Turns Data Into Art, With Help From AI” (https://www.wired.com/story/artist-refik-anadol-turns-data-art-help-ai/?utm_source=facebook&utm_medium=social&utm_campaign=onsite-share&utm_brand=wired&utm_social-type=earned), Jan. 2020. [Online; last access 9-February-2020].
  11. D. Bean, “What coders can do to fight bias in their algorithms, according to two experts. Plus, more from the week in software engineering.” (https://www.linkedin.com/pulse/what-coders-can-do-fight-bias-algorithms-according-two-daniel-bean/?trackingId=NTPfEFo5T2yu9miauVUegQ%3D%3D), Feb. 2020. [Online; last access 9-February-2020].
  12. I. Wikimedia Foundation, “Linguistics” (https://en.wikipedia.org/wiki/Linguistics), Feb. 2020. [Online; last access 9-February-2020].
  13. I. Wikimedia Foundation, “Backpropagation” (https://en.wikipedia.org/wiki/Backpropagation), Feb. 2020. [Online; last access 9-February-2020].
  14. I. Wikimedia Foundation, “Expert system” (https://en.wikipedia.org/wiki/Expert_system), Jan. 2020. [Online; last access 9-February-2020].
  15. I. Wikimedia Foundation, “Edward Feigenbaum” (https://en.wikipedia.org/wiki/Edward_Feigenbaum), Nov. 2019. [Online; last access 9-February-2020].
  16. I. Wikimedia Foundation, “EPAM” (https://en.wikipedia.org/wiki/EPAM), July 2017. [Online; last access 9-February-2020].
  17. I. Wikimedia Foundation, “Xcon” (https://en.wikipedia.org/wiki/Xcon), June 2019. [Online; last access 9-February-2020].
  18. I. Wikimedia Foundation, “AI winter” (https://en.wikipedia.org/wiki/AI_winter), Jan. 2020. [Online; last access 9-February-2020].
  19. I. Wikimedia Foundation, “Satisfiability” (https://en.wikipedia.org/wiki/Satisfiability), Jan. 2020. [Online; last access 9-February-2020].

Leave a Reply

Your email address will not be published. Required fields are marked *