Dilemme du prisonnier, Golden Balls

Ah la théorie des jeux. Loin de la neutralité absolue habituelle des mathématiques se cachent dans ces outils des affects agressifs comme la méfiance, l’incrédulité, la recherche implacable de l’intérêt, la menace, la concession arrachée face à la bienveillance, dans un monde où la non-collaboration semble toujours primer sur la collaboration.
Prenons comme premier exemple le très classique dilemme du prisonnier :
Deux suspects d’un crime sont arrêtés et enfermés chacun dans une cellule où ils ne peuvent communiquer avec l’autre. Par manque de preuve on leur propose de dénoncer leur complice . Le marché est le suivant : Si l’un des détenus dénonce l’autre, il ressort libre tandis que l’autre reçoit une peine de 10 ans de prisons. Si les deux se dénoncent ils sont tous deux condamnés à une peine de 5 ans. Enfin si les deux se taisent, chacun aura une peine de un an.

dilemmaSMBC

Les valeurs sont arbitraires, seul l’ordre relatif des peines importe. Il apparaît rapidement que dans l’intérêt commun, il est préférable de se taire pour obtenir une peine réduite. Mais pour chacun des prisonniers réfléchissant de son côté, le raisonnement est :
– S’il me dénonce et que je me tais, je prends 10 ans de peine.
– S’il me dénonce et que je parle, je ne prends que 5 ans.
– S’il se tait et que je me tais, je prends 1 an de peine.
– S’il se tait et que je parle, je suis libre.

Ainsi en y voyant un avantage à parler quelle que soit la réaction de son complice, par cette logique chaque prisonnier va vraisemblablement choisir de le dénoncer, écopant ainsi une peine supérieure à celle qu’ils aurait eue en se taisant tous les deux.
La situation où chacun dénonce l’autre est un équilibre de Nash, c’est à dire que les deux prisonniers n’ont pas intérêt à dévier de leur choix lorsqu’ils connaissent celui de l’autre. Mais cet équilibre est sous-optimal car il est dominé par le choix où chacun se taît. Celui-là est dit Pareto-optimal, car aucun des joueurs ne peut améliorer sa position dans détériorer celle de l’autre. Mais passons les subtilités techniques.

Voyons maintenant un autre exemple plus concret.
Le jeu anglais Golden Balls présente une application légèrement différente du dilemme du prisonnier. Au cours de cette émission télévisée, divers participants s’affrontent et s’éliminent tout en amassant une certaine somme. Se retrouvent en finale deux candidats qui doivent se partager l’argent. Leur sont proposés à chacun les choix de partager (Split) ou de voler (Steal). La règle est simple : Si chacun des deux Split, ils repartent chacun avec une part égale. Celui qui Steal quand l’autre Split gagne le tout. Si les deux Steal, les deux repartent les mains vides.

A la différence du dilemme du prisonnier classique, on voit que l’équilibre où chacun « dénonce », ici Steal, est plus faible car si votre adversaire choisit Steal, votre choix n’affectera pas vos propres gains qui seront toujours nuls. Ainsi dans l’intérêt personnel choisir Steal est aussi bien, et parfois même mieux, que de choisir Split.
Regardons plus en détails les différents paramètres qui interviennent dans ces décisions, à travers l’étude Split or Steal? Cooperative Behavior When the Stakes Are Large réalisée en septembre 02011 par Martijn J. Van den Assem, Dennie Van Dolder et Richard H. Thaler. Cette étude utilise les émissions de 287 épisodes diffusés entre juin 02007 et décembre 02009.

Dans cet échantillon, 53% des joueurs choisissent individuellement de Split. Sur l’ensemble des parties analysées, 31% se sont terminées par un partage (les deux candidats ont Split), 44% par un gain total (un seul a Steal), 25% par un gain nul (les deux ont Steal). De nombreux paramètres influencent ces résultats.

La présence du public et la diffusion nationale de l’émission ont un effet non négligeable, mais il est difficile de prouver quelle conséquence cela a sur les candidats. L’un ne voudra pas passer pour un salaud en volant son adversaire et choisira Split, ou l’autre pour un faible en se faisant piquer tout son argent et choisira Steal. Également par la forme « faible » du dilemme du prisonnier, puisque ça ne fait aucune différence pour soi-même dans le cas où son adversaire Steal, on pourra choisir de Split pour apparaître comme une bonne personne aux yeux de tous.

Lors du dilemme du prisonnier les deux finalistes ont un bref moment de délibération où chacun peut expliquer son futur choix et tenter de convaincre l’autre de partager.
53% des candidats font ainsi la promesse (claire et non-ambiguë) qu’ils vont partager. L’étude montre alors que ceux qui s’engagent ainsi ont 31% de plus de chance de partager. Cependant si une promesse est un signe fort de coopération, un candidat dont l’adversaire fait une telle promesse n’a pas plus tendance à partager. Au contraire même, on trouve dans ce cas-là une légère diminution (8%) des chances de coopérer. De façon générale les candidats ne semblent pas baser leur choix sur leur interprétation de la décision de leur adversaire.

Quand suite à de belles paroles on a convaincu l’autre qu’on va partager, il est si tentant de voler soi-même. La vidéo ci-dessous en est un cruel exemple :

Greed obviously knows no boundaries.

La moyenne des sommes en phase finale est 13 416 £ (pouvant monter jusqu’à 168 100 £), mais il faut tenir compte des deux étapes précédentes du jeu. En effet, au départ s’affrontent 4 candidats à qui sont données 4 boules représentant des sommes d’argent différentes, allant de 10 £ à 75 000 £ (le jeu utilise également des boules spéciales « killer ball » mais je ne rentrerai  pas en détail là-dessus). Chaque joueur aura 2 de leurs boules montrées à tous, et 2 face cachée et dont ils sont donc les seuls à connaître la valeur. S’ensuit alors une phase de discussion où chacun annoncera les sommes qu’il a de cachées, puis de vote où l’un de candidat sera éliminé du jeu. Sachant que les boules des trois autres joueurs serviront à construire le butin final, il convient dans l’intérêt global d’éliminer le joueur qui a les boules les plus faibles – ou qui a le plus de killer ball – (en tenant compte des 2 affichées et des 2 qu’il prétend avoir).
Ces votes, anonymes mais où il est le plus souvent facile de déduire qui a voté contre soi, semblent avoir un effet sur la décision finale lors du dilemme du prisonnier. En effet, par effet de vengeance ou par méfiance, les chances qu’un candidat coopère (Split) lors de la finale sont diminuées de 21% si son adversaire a voté contre lui lors d’une phase antérieure du jeu.

D’autres paramètres rentrent en jeu. L’âge et le sexe des participants semblent influencer les résultats. L’étude montre par exemple que les jeunes hommes coopèrent moins que les jeunes femmes (chez les moins de 30 ans, 34% des hommes contre 47% des femmes choisissent de Split), mais cette tendance s’inverse avec l’âge (chez les plus de 50 ans, 77% des hommes contre 53% des femmes choisissent de Split). D’autres caractéristiques démographiques comme le niveau de vie, la race ou l’éducation sont étudiées, mais ils semblent avoir peu d’influence.

Un des points importants à la décision finale relève de la somme en jeu. Il apparaît clairement que les candidats ont plus tendance à choisir de coopérer lorsque les sommes sont faibles. Pour des sommes inférieures à 500 £, le partage s’effectue 73% du temps. Ce taux chute ensuite aux alentours de 45% et reste stable même pour de larges montants.
Si l’on ajoute le fait que l’émission soit en public, les candidats semblent ainsi estimer que ça n’en vaut simplement pas la peine de risquer leur réputation quand l’enjeu est trop faible.

Enfin, l’étude ne semble pas l’envisager, compte tenu du caractère faible de l’équilibre du jeu, une autre approche pourrait être envisagée. Après tout, si lorsqu’un candidat choisit de Steal, la décision de son adversaire n’importe plus dans son résultat, on pourrait ainsi lui forcer la main en lui faisant comprendre que de toute façon, il n’aura rien, alors autant qu’il choisisse de Split. Lui signaler qu’on effectuera un partage à la sortie de l’émission peut servir d’élément motivateur.
C’est ainsi qu’a procédé un des candidats lors de l’émission suivante (je peux fournir une traduction si nécessaire) :

Les commentaires youtube semblent (pour une fois) d’accord pour affirmer que c’était une stratégie plutôt efficace et intelligente. C’est à se demander pourquoi chacun ne l’utiliserait pas :p La réaction de son adversaire lors de la révélation des boules en vaut le coup d’œil.

Bon j’ai réussi à écrire tout ça sans mauvais jeu de mot sur boule, ce serait dommage de craquer maintenant.

Publicités
Cet article, publié dans Théorie des jeux, est tagué , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s