Home / Intelligence Artificielle / Test de Turing – Un test pour mesurer l’intelligence artificielle

Test de Turing – Un test pour mesurer l’intelligence artificielle

Le test de Turing est un test permettant de vérifier la capacité d’une machine à faire preuve de signes d’intelligence humaine. Encore aujourd’hui, ce test fait figure de standard pour déterminer l’intelligence d’une machine, en dépit de nombreuses critiques formulées au fil des années.

Le principe du Test de Turing est simple. Un évaluateur humain est chargé de juger une conversation textuelle entre un humain et une machine. L’évaluateur sait que l’un des deux participants est une machine, mais ne sait pas lequel. S’il n’est pas en mesure de discerner l’homme de la machine après 5 minutes de conversation, la machine a passé le test avec succès. Le test ne mesure pas la capacité d’une machine à répondre correctement à une question, mais à quel point ses réponses ressemblent à celles que fournirait un humain.

Alan Turing, le créateur du test de Turing

Ce test fut créé par Alan Turing, professeur à l’Université de Manchester, en 1950. Il fut présenté pour la première fois dans l’article « Computing Machinery and Intelligence ». L’objectif était de définir si les machines sont capables de penser. Ce test fut à la fois très critiqué et très influent. Au fil des années, il est devenu un concept très important dans le domaine de la philosophie de l’intelligence artificielle.

Dix ans avant le commencement des recherches sur l’intelligence artificielle, en 1956, les chercheurs britanniques s’intéressaient déjà à l’intelligence des machines. Il s’agissait d’un sujet régulièrement abordé par les membres du Ratio Club, rassemblant des chercheurs en cybernétique et en électroniques britanniques, et notamment Alan Turing.

Dès 1941, Turing abordait la notion d’intelligence des machines, et mentionna l’intelligence d’ordinateur en 1947. Dans son rapport intitulé « Intelligent Machinery », il cherche à savoir s’il est possible pour une machine de présenter un comportement intelligent. Ce rapport semble préfigurer le test de Turing.

L’article « Computing Machinery and Intelligence », daté de 1950, fut le premier de Turing à se focaliser exclusivement sur l’intelligence des machines. C’est dans cet article que l’homme se demande si les machines peuvent penser, et qu’il propose un test inspiré par le jeu des imitations, l’« Imitation Game ». Dans ce jeu, régulièrement joué lors de fêtes britanniques de l’époque, un homme et une femme se cachent dans deux pièces différentes, et doivent convaincre les invités qu’ils sont l’autre. Pour ce faire, ils répondent à l’écrit à des questions posées par les invités. Ainsi, son test consiste à remplacer l’un des deux humains par une machine. Par la suite, une seconde version du test consistant à remplacer les invités par un juge unique, fut présentée.

Une troisième version du test fut proposée en 1952. Dans cette version, un jury pose des questions à un ordinateur, et la machine doit persuader le plus de membres du jury possible qu’elle est humaine. C’est cette version qui est couramment utilisée aujourd’hui.

ELIZA et PARRY, les deux premiers programmes capables de passer le Test de Turing

En 1966, Joseph Weizenbaum a créé un programme capable de passer le test de Turing. Baptisé ELIZA, ce programme était en mesure d’examiner un texte à la recherche de mots-clés pour formuler une réponse cohérente. Si aucun mot-clé n’est trouvé, ELIZA répond de façon générique. Le programme était également conçu pour imiter le comportement d’un psychothérapeute rogérien, lui permettant d’assumer le fait qu’il ne connaît quasiment rien du monde réel. Grâce à ces subterfuges, ELIZA parvint à convaincre de nombreuses personnes qu’il était une vraie personne. Ce programme est considéré comme le premier à parvenir à passer le Test de Turing.

En 1972, Kenneth Colby créa PARRY, un programme similaire à ELIZA, imitant le comportement d’un schizophrène paranoïaque. Pour évaluer ce programme, une variante du Test de Turing fut utilisée. Un groupe de psychiatres fut chargé d’analyser des patients humains et des ordinateurs faisant tourner PARRY. Un autre groupe de 33 psychiatres reçut les transcriptions de ces conversations. Les deux groupes furent chargés d’identifier quels patients étaient humains, et lesquels étaient des ordinateurs. 52% du temps, les psychiatres furent trompés.

De nos jours, de tels programmes, baptisés chatbots, continuent à tromper les êtres humains. Dans certains cas, ces programmes avancés peuvent être utilisés à des fins malhonnêtes. Par exemple, le malware CyberLover cherche à convaincre les internautes de révéler des informations sur leur identité ou à visiter un site web contenant des virus. Ce programme traque les personnes cherchant des relations amoureuses en ligne afin de collecter leurs données personnelles.

Le contre-argument de la chambre chinoise

Dans un article daté de 1980, intitulé Minds, Brains, and Programs, John Searle affirme que le Test de Turing ne peut être utilisé pour déterminer si une machine peut penser. Selon lui, des logiciels comme ELIZA peuvent passer le test en manipulant des symboles sans pour autant les comprendre. Cette intelligence artificielle n’est donc pas capable de penser.

Le chercheur prend l’exemple d’une chambre dans laquelle une personne ne comprenant pas le chinois serait enfermée. À condition d’avoir accès à un ensemble de règles suffisamment précises, la personne pourrait produire des réponses en chinois, et converser avec une personne sinophone, sans avoir besoin de comprendre le chinois.

Cette personne se contenterait de simuler la compréhension du chinois. Pour John Searle, c’est exactement la méthode adoptée par ELIZA et d’autres programmes pour passer le test de Turing. Ces intelligences artificielles se contentent de simuler l’intelligence humaine.

Les arguments comme ceux de Searle ont entrainé un débat plus profond sur la nature de l’intelligence, la possibilité d’une intelligence des machines, et la valeur du Test de Turing. Le postulat de Searle lui-même fut vivement critiqué. Ce débat s’est poursuivi jusqu’à la fin des années 1990.

Le Prix Loebner, grande compétition des chatbots

Chaque année depuis novembre 1991, le Prix Loebner met des intelligences artificielles en compétition pour passer le Test de Turing. Créée par Hugh Loebner, cette compétition a pour but de faire avancer les recherches dans le domaine de l’intelligence artificielle.

De 1991 à 2003, le Prix a été organisé par le Cambridge Center for Behavorial Studies du Massachusetts, aux États-Unis. La première édition du tournoi a mené à une nouvelle discussion sur la fiabilité du Test de Turing. Le Prix a été emporté par un programme dépourvu d’intelligence, néanmoins parvenu à tromper des interrogateurs naïfs en imitant des fautes de frappe dignes d’un humain. Les limites du test ont ainsi été démontrées. De fait, certains chercheurs ont commencé à penser que ce test avait pour seul effet de freiner la recherche dans le domaine de l’IA.

Chaque année, une médaille de bronze a été décernée au programme informatique démontrant le comportement conversationnel le plus proche d’un humain. En revanche, le prix d’argent, basé uniquement sur du texte, et le prix d’or, basé sur le visuel et l’audio, n’ont jamais été remportés.

En 2000, 2001 et 2004, la médaille a été remportée par A.L.I.C.E (Artificial Linguistic Internet Computer Entity), tandis que Jabberwacky l’a remportée en 2005 et 2006. Le Prix Loebner teste l’intelligence conversationnelle, et est généralement remporté par des chatbots ou des ACE (Artificial Conversational Entities).

Au commencement, les conversations étaient restreintes à un seul sujet, et les interrogateurs ne pouvaient poser qu’une question. Les règles ont été assouplies à partir de 1995, et ont depuis beaucoup varié d’une édition à l’autre. En 2003, les interactions pouvaient durer 5 minutes. De 2004 à 2007, elles pouvaient durer plus de 20 minutes.

En 2008, les organisateurs Kevin Warwick et Huma Shah ont décidé de revenir à une durée de 5 minutes, conformément à l’article original de 1950. Notons que le vainqueur de l’édition 2008, Elbot, n’imite pas un humain. Sa personnalité est celle d’un robot. Il est cependant parvenu à tromper trois interrogateurs humains. En 2009, le temps de conversation a été de nouveau étendu à 10 minutes. En 2010, il a été prolongé à 25 minutes.

En 2014, pour commémorer le 60ème anniversaire de la mort de Turing, une compétition a été organisée à Royal Society London par Huma Shah et Kevin Warwick. Ce grand tournoi a été remporté par le chatbot russe Eugene Goostman. Cette IA est parvenue à convaincre 33% des juges qu’elle était humaine.

Aux yeux des organisateurs de cette compétition, c’est au cours de cet événement que le test a réellement été passé pour la première fois. En effet, jamais auparavant autant de tests simultanés n’avaient été effectués et vérifiés indépendamment. De plus, pour la première fois, les conversations n’étaient aucunement restreintes.

Le test de Turing vise à répondre à une question philosophique profonde

La question de savoir si une machine est capable de penser tourmente les philosophes depuis des centaines, voire des milliers d’années, et se posait déjà de façon sous-jacente avant même l’invention de la robotique. Cette question est au cœur de la distinction entre le dualisme et le matérialisme de l’esprit humain?

En effet, dès 1637, dans le Discours de la Méthode, René Descartes s’interroge sur des problématiques similaires. Le philosophe pointe du doigt la capacité des automates à réagir aux interactions humaines, mais souligne également leur incapacité à répondre aux paroles prononcées en leur présence de la même manière qu’un humain. C’est pour lui la principale différence entre l’Homme et la machine. Cependant, Descartes ignorait que les automates du futur dépasseraient cette barrière. De fait, il se contente de préfigurer le cadre conceptuel du Test de Turing.

Dans Pensées philosophiques, Denis Diderot quant à lui évoque les mêmes critères d’intelligence que le test de Turing. Il affirme que si un perroquet est capable de répondre à toutes les questions, ce volatile pourra sans hésitation être considéré comme intelligent. La capacité à converser était donc déjà considérée comme une preuve d’intelligence par les matérialistes.

Selon les dualistes, l’esprit n’est pas physique et ne peut donc pas être expliqué en termes purement physiques. Pour les matérialistes, l’esprit peut être expliqué physiquement, et il est donc possible de produire des esprits de manière artificielle.

En 1936, le philosophe Alfred Ayer s’est demandé comment peut-on savoir que les autres humains ont la même conscience que soi-même. Dans son livre Language, Truth and Logic, Ayer suggère un protocole pour distinguer un humain conscient d’une machine inconsciente. Selon lui, la seule façon de procéder est d’utiliser un test empirique pour déterminer la présence ou l’absence de conscience.

Forces et faiblesses du Test de Turing

Les forces du Test de Turing

Le principal atout du Test de Turing est sa simplicité. Au fil des siècles, les philosophes, scientifiques et autres psychologues ne sont jamais parvenus à définir précisément la notion d’intelligence et de pensée.

De fait, il est difficile de définir l’intelligence artificielle. Malgré ses imperfections, le Test de Turing permet au moins de mettre en place un étalon de mesure. Il se présente donc comme une approche pragmatique d’une question philosophique complexe.

Par ailleurs, ce test permet de mesurer les différents critères de l’intelligence artificielle. Pour passer le test avec succès, l’IA doit utiliser le langage naturel, la raison, la connaissance et l’apprentissage. Il est également possible d’ajouter des entrées vidéo au test, forçant la machine à utiliser la technologie de vision par ordinateur.

Un autre point intéressant du Test de Turing est qu’il n’évalue nullement les connaissances techniques d’une intelligence artificielle. Pour passer ce test, la machine ne doit pas résoudre une équation complexe ou un problème scientifique. Elle doit simplement parvenir à gagner un jeu mondain consistant à se faire passer pour une personne du sexe opposé.

De fait, ce ne sont pas les capacités de traitement de l’information ou d’accumulation de savoir qui sont mises à l’épreuve, mais plutôt la faculté à faire preuve d’empathie. La machine doit démontrer qu’elle comprend le rôle de la femme, et faire preuve de sensibilité esthétique.

En effet, comme beaucoup de spécialistes modernes de l’intelligence artificielle, Turing avait le pressentiment que l’empathie et l’intelligence émotionnelle seraient les clés permettant de développer des IA bienveillantes. Une nécessité pour éviter un éventuel soulèvement des machines digne des films de science-fiction les plus terrifiants.

Les faiblesses du test de Turing

Depuis sa création, le Test de Turing a été critiqué à maintes reprises par de nombreux philosophes et scientifiques. La fiabilité du jugement de l’interrogateur, la valeur de la comparaison entre le comportement d’un homme et d’une machine, comptent parmi les nombreux points remis en cause par les sceptiques.

On peut reprocher à ce test de ne pas vérifier directement l’intelligence d’une machine, mais plutôt sa faculté à se comporter comme un être humain. Or, le comportement humain n’est pas nécessairement un comportement intelligent. Dans certains cas, on pourrait parler de stupidité artificielle, plutôt que d’une intelligence artificielle. Par exemple, la première IA à gagner le Loebner Prize est parvenue à tromper les interrogateurs en mimant les fautes de frappe.

De même, certains comportements intelligents ne sont pas humains. Par exemple, si une machine se montre plus intelligente qu’un humain, en résolvant un problème mathématique complexe, elle risque d’échouer au test, car les interrogateurs la soupçonneront d’être une machine. C’est la raison pour laquelle plusieurs alternatives, permettant de mesurer la super-intelligence, ont été suggérées.

Par ailleurs, le Test de Turing évalue uniquement la façon dont la machine se comporte. Une machine peut passer le test en simulant un comportement intelligent ou conscient, sans pour autant comprendre la conversation. C’est le cas d’ELIZA. Ainsi, comme l’affirme John Searle, le test ne permet pas de vérifier si l’IA pense réellement ou simule la pensée. Toutefois, Turing considérait qu’il fallait d’abord déterminer la possibilité pour une machine de penser, avant de tenter d’élucider les mystères de la conscience.

Dans la pratique, les résultats du test peuvent facilement être influencés par la naïveté d’un interrogateur. Certains interrogateurs d’ELIZA ne savaient même pas qu’ils étaient éventuellement en train d’agir avec une machine. Pour remédier à ce problème, depuis 2004, les organisateurs du Loebner Prize font appel à des philosophes, des informaticiens, et des journalistes pour faire office d’interrogateurs. Malgré tout, certains continuent d’être trompés par les machines.

Un autre problème, souligné par Michael Shermer, est l’anthropomorphisme. Les êtres humains ont tendance à considérer un objet inhumain comme un humain dès qu’ils en ont la possibilité. Les Hommes parlent à leur voiture, prêtent une volonté aux forces naturelles, et prient le soleil comme un être humain. Même des statues religieuses inanimées seraient donc en mesure de passer le test.

En outre, il arrive fréquemment que les interrogateurs prennent les humains pour des machines. Pour cause, certaines réponses fournies par les humains ne sont pas toujours typiquement humaines. Ce phénomène peut favoriser les machines et leur permettre de passer le test. Autre problème, si la machine reste silencieuse pendant une conversation, l’interrogateur n’est pas en mesure d’identifier sa nature.

Face à tous ces problèmes, de nombreux chercheurs considèrent que le Test de Turing ralentit la recherche dans le domaine de l’intelligence artificielle. Il existe plusieurs méthodes plus simples pour tester des programmes, dont les objectifs sont souvent moins ambitieux que de rivaliser avec l’intelligence humaine. Ainsi, il suffit de soumettre à la machine la tâche pour laquelle elle est conçue pour vérifier son efficacité. Comme le suggèrent habilement Russell et Norvig, les avions sont testés sur leur capacité à voler, ils ne sont pas comparés à des oiseaux.

About Bastien L

Check Also

google ia feu électricité

Google – l’IA est aussi importante que le feu et l’électricité pour l’humanité

Selon Google, l’intelligence artificielle est aussi importante pour l’humanité que le feu et l’électricité. Cette …