Comment le cerveau prend ses décisions
Certains types de prise de décision sont difficiles à simuler et limitent les progrès effectués dans le développement de modèles informatiques du cerveau. Or, des chercheurs de l’EPFL ont créé une nouvelle simulation de prise de décision complexe, et l’ont validée grâce à des humains et à des ordinateurs dernier cri. Ils ont ainsi dévoilé des détails fascinants sur ce qui influence nos prises de décision et notre capacité à en tirer des leçons.
La prise de décision est un champ qui suscite un grand intérêt dans les domaines tels que la psychologie, les neurosciences, la robotique et même l’économie, et on ne compte plus les modèles et logiciels de simulation de l’esprit humain. Ceux-ci sont toutefois limités à un type de prise de décision, qui s’intéresse uniquement à chaque étape décisionnelle isolée, sans prendre en compte les pas précédents qui y ont mené, autrement dit, l’expérience acquise. Or, un article publié par PLoS One annonce que des scientifiques de l’EPFL et de l’Université de Berne ont désormais affiné un modèle capable de simuler avec une précision surprenante ce type de prise de décision ainsi que les conditions d’apprentissage y relatives.
Décisions, feedback et apprentissage
La prise de décision peut être divisée en deux groupes: le type markovien et le non-markovien, du nom du mathématicien Andrey Markov (1856-1922). En termes simples, le pas suivant d’une décision markovienne dépend entièrement de l’état actuel des choses. Par exemple, un joueur de backgammon agira d’après la disposition en cours du plan de jeu, en non des coups précédents. Ce processus très direct a été simulé de nombreuses fois par les machines et ordinateurs.
La prise de décision non markovienne est plus complexe. Le pas suivant y est influencé par d’autres facteurs, comme des contraintes externes et les décisions prises antérieurement. Ainsi, l’objectif d’un individu peut être de voyager en train, mais ce qui va arriver une fois sur le quai dépend de s’il a ou non pris son billet. Autrement dit, la suite des événements découle du « comment en sommes-nous arrivés là ». Sans titre de transport, l’infortuné ne pourra atteindre son but. En neurosciences, l’étape dite « d’achat du billet » est dite commutateur d’état.
Un nouveau modèle de prise de décision
Or, une équipe dirigée par Michael Herzog de l’EPFL et Walter Senn de l’UNIBE a développé la première simulation biologiquement plausible qui maîtrise la prise de décision non markovienne. Ce modèle, créé pour une étude antérieure, a été testé avec des humains et des simulations informatiques, et a été validé par deux tests mis au point par Aaron Michael Clarke et Elisa Tartaglia dans le laboratoire de Herzog. Ces épreuves ont été passées par des individus et trois ordinateurs à la capacité d’apprentissage variable. Les chercheurs y ont également soumis une simulation de cerveau avancée appelée « réseau de neurones impulsionnels », qui prend des décisions lorsque la majorité des neurones d’une population donnée lance un signal ou une « impulsion », et qui considérée comme une reproduction particulièrement réaliste des performances humaines.
La première expérience a testé l’impact du commutateur d’état sur la prise de décision et sur l’apprentissage des individus. Pour ce faire, les utilisateurs ont dû jouer à un jeu d’ordinateur où ils avaient à naviguer entre huit icônes (une arme à feu, une voiture etc.) pour atteindre leur objectif (appelé « Yeah! »). Chaque icône était accompagnée de trois boutons, chacun menant à une route différente, et l’utilisateur devait décider quel chemin prendre. Même si la distance était au final relativement courte entre la première icône et l’objectif final, ce dernier était impossible à atteindre si l’utilisateur ne commençait pas par une icône de commutation d’état – ici, l’image d’un ordinateur. Les cobayes ont répété le jeu plusieurs fois, s’améliorant au fur et à mesure dans leurs choix: la plupart ont d’abord eu besoin de 80 clicks pour le terminer, et moins de 10 après 40 essais.
Le deuxième test avait pour objectif d’analyser de quelle manière un feedback différé affecte la prise de décision et l’apprentissage. Dans ce cas, les utilisateurs ont été confrontés à une série d’images, et on leur a dit que chacune appartenait à la catégorie numéro un ou deux. Chaque catégorie correspondait soit à la flèche de gauche, soit à celle de droite du clavier, sans que les participants ne sachent au préalable quelle direction associer à quelle image. Les utilisateurs ont ensuite visualisé une icône à la fois, et ont dû appuyer soit sur la flèche de droite, soit sur celle de gauche en fonction de la catégorie supposée de chacune. En réponse, un JUSTE ou FAUX s’affichait sur l’écran. Au fil du test, ce feedback était donné de plus en plus tardivement, jusqu’à arriver après celui de l’icône suivante.
La dynamique décisionnelle
Les résultats obtenus ont permis de tirer trois conclusions majeures. Primo, la prise de décision humaine est aussi performante que les modèles informatiques les plus sophistiqués du moment dans des conditions non markoviennes et en présence d’un commutateur d’état. C’est une découverte clé pour la simulation du cerveau humain et le développement de systèmes d’intelligence artificielle.
Deuxio, le feedback reporté péjore fortement la prise de décision humaine et l’apprentissage, mais n’a aucune influence sur la performance des modèles informatiques, les ordinateurs ayant une mémoire absolue. Dans la seconde expérience, les participants humains ont eu besoin de dix fois plus d’essais pour se rappeler correctement des flèches et les attribuer. Le feedback est donc un élément crucial de la prise de décision et de l’apprentissage. Nous fixons un but, prenons une décision de comment y arriver, nous comportons en fonction, puis découvrons si nous avons pu atteindre notre objectif. Dans certains cas, p.ex. l’apprentissage du vélo, les retours concernant chacune des décisions prises pour maintenir notre équilibre, pédaler, freiner etc. sont instantanés: soit nous restons debout et avançons, soit nous tombons. Dans la plupart des cas toutefois, comme au backgammon, le feedback est passablement reporté: cela peut être long de découvrir si chaque coup nous a conduits (ou non) à la victoire.
Tertio, les chercheurs ont observé que les modèles de neurones impulsionnels correspondaient et décrivaient très bien les performances humaines. C’est un pas fondamental, même s’il faut rester très prudent, car la prise de décision non markovienne a déjà donné du fil à retordre aux modèles informatiques. « Il s’agit ici d’une démonstration de faisabilité, » explique Michael Herzog. « Mais cette étude va fortement nous aider à comprendre et simuler précisément le cerveau humain, voire à le surpasser par le biais de l’intelligence artificielle. »
Cette étude est collaboration entre l’Institut Brain Mind de l’EPFL et l’UNIBE.
Source
Clarke AM, Friedrich J, Tartaglia EM, Marchesotti S, Senn W, Herzog MH. Human and Machine Learning in Non-Markovian Decision Making.PLoS One 21 April 2015. 10(4): e0123105. DOI:10.1371/ journal.pone.0123105