1 mai 2021 9:04

Inducție înapoi

Ce este inducerea înapoi?

Inducerea înapoi în teoria jocurilor este un proces iterativ de raționament înapoi în timp, de la sfârșitul unei probleme sau situații, pentru a rezolva forma extinsă finită și jocurile secvențiale și a deduce o secvență de acțiuni optime.

Inducerea înapoi explicată

Inducerea înapoi a fost utilizată pentru a rezolva jocurile de când John von Neumann și Oskar Morgenstern au stabilit teoria jocurilor ca subiect academic atunci când și-au publicat cartea, Teoria jocurilor și comportamentul economic în 1944.

În fiecare etapă a jocului, inducerea înapoi determină strategia optimă a jucătorului care face ultima mișcare în joc. Apoi, se determină acțiunea optimă a ultimului jucător în mișcare, luând acțiunea ultimului jucător așa cum a fost dată. Acest proces continuă înapoi până când se determină cea mai bună acțiune pentru fiecare moment. Efectiv, se determină echilibrul Nash al fiecărui sub-joc al jocului original.

Cu toate acestea, rezultatele deduse din inducerea înapoi nu reușesc adesea să prezică jocul real al omului. Studiile experimentale au arătat că un comportament „rațional” (așa cum se prezice prin teoria jocurilor) este rar prezentat în viața reală. Jucătorii iraționali pot ajunge să obțină de fapt recompense mai mari decât cele prevăzute de inducerea înapoi, așa cum se arată în jocul centipede.

În jocul centipede, doi jucători au alternativ o șansă de a lua o cotă mai mare dintr-un pot din ce în ce mai mare de bani sau de a trece potul către celălalt jucător. Recompensele sunt aranjate astfel încât, dacă potul este transmis adversarului și adversarul ia potul în runda următoare, acesta primește puțin mai puțin decât dacă ar fi luat potul în această rundă. Jocul se încheie de îndată ce un jucător primește pastrarea, jucătorul obținând porțiunea mai mare, iar celălalt jucător primind porțiunea mai mică.

Exemplu de inducție înapoi

De exemplu, să presupunem că Jucătorul A este primul și trebuie să decidă dacă ar trebui să „ia” sau să „treacă” stocul, care în prezent se ridică la 2 USD. Dacă ia, atunci A și B primesc 1 $ fiecare, dar dacă A trece, decizia de a lua sau de a trece acum trebuie luată de Jucătorul B. Dacă B ia, ea primește 3 $ (adică stash-ul anterior de 2 $ + 1 $) iar A primește 0 USD. Dar dacă B trece, A ajunge acum să decidă dacă să ia sau să treacă și așa mai departe. Dacă ambii jucători aleg întotdeauna să treacă, fiecare primește o recompensă de 100 USD la sfârșitul jocului.

Scopul jocului este dacă A și B cooperează și continuă să treacă până la sfârșitul jocului, primesc plata maximă de 100 USD fiecare. Dar dacă nu se încred în celălalt jucător și se așteaptă ca aceștia să „profite” cu prima ocazie, echilibrul Nash prezice că jucătorii vor primi cea mai mică pretenție posibilă (1 dolar în acest caz).

Echilibrul Nash al acestui joc, în care niciun jucător nu are un stimulent să se abată de la strategia aleasă după ce a luat în considerare alegerea adversarului, sugerează că primul jucător ar lua potul chiar în prima rundă a jocului. Cu toate acestea, în realitate, relativ puțini jucători o fac. Ca rezultat, obțin o plată mai mare decât cea prevăzută de analiza echilibrelor.

Rezolvarea jocurilor secvențiale folosind inducția înapoi

Mai jos este un simplu joc secvențial între doi jucători. Etichetele cu Jucătorul 1 și Jucătorul 2 din ele sunt seturi de informații pentru jucătorii unul sau, respectiv, doi. Numerele din paranteze din partea de jos a arborelui sunt recompensele la fiecare punct respectiv. Jocul este, de asemenea, secvențial, astfel încât jucătorul 1 ia prima decizie (stânga sau dreapta), iar jucătorul 2 ia decizia după jucătorul 1 (sus sau jos).

Inducția înapoi, ca orice teorie de joc, folosește ipotezele de raționalitate și maximizare, ceea ce înseamnă că jucătorul 2 își va maximiza recompensa în orice situație dată. La ambele seturi de informații avem două opțiuni, patru în total. Eliminând opțiunile pe care jucătorul 2 nu le va alege, ne putem restrânge arborele. În acest fel, vom marca liniile în albastru care maximizează recompensa jucătorului la setul de informații date.

După această reducere, jucătorul 1 își poate maximiza recompensele acum, după ce alegerile jucătorului 2 sunt făcute cunoscute. Rezultatul este un echilibru găsit prin inducerea înapoi a jucătorului 1 alegând „corect” și a jucătorului 2 alegând „sus”. Mai jos este soluția jocului cu calea de echilibru cu caractere aldine.

De exemplu, s-ar putea configura cu ușurință un joc similar celui de mai sus folosind companiile ca jucători. Acest joc ar putea include scenarii de lansare a produsului. Dacă Compania 1 ar dori să lanseze un produs, ce ar putea face Compania 2 ca răspuns? Va lansa Compania 2 un produs similar concurent? Prin prognozarea vânzărilor acestui nou produs în diferite scenarii, putem crea un joc pentru a prezice modul în care evenimentele s-ar putea desfășura. Mai jos este un exemplu al modului în care s-ar putea modela un astfel de joc.