Meta raziskovalci ustvarjajo umetno inteligenco, ki obvlada diplomacijo tako, da preslepi človeške igralce

Posnetek zaslona Diplomacy, ki ga je zagotovil raziskovalec CICERO.
Porast / Posnetek zaslona spletne igre Diplomacijavključno z aktivnim pogovornim oknom za klepet, ki ga je zagotovil raziskovalec Cicero.

V torek je Meta AI napovedal razvoj Cicero, za katerega trdi, da je prvi AI, ki dosega zmogljivost na človeški ravni v strateški družabni igri Diplomacija. To je pomemben dosežek, saj igra zahteva globoke veščine medosebnega pogajanja, kar pomeni, da je Cicero pridobil določeno obvladanje jezika, ki je potrebno za zmago v igri.

Še preden je Deep Blue v šahu premagal Garija Kasparova leta 1997družabne igre so bile a uporaben ukrep dosežke AI. Leta 2015 je padla še ena ovira, ko je AlphaGo premagan Pojdi mojster Lee Sedol. Obe igri sledita razmeroma jasnim nizom analitičnih pravil (čeprav so pravila igre Go običajno poenostavljena za računalniško umetno inteligenco).

Ampak z diplomacija, Velik del igranja vključuje socialne veščine. Igralci morajo pokazati empatijo, uporabljati naravni jezik in graditi odnose, da zmagajo – težka naloga za računalniškega igralca. S tem v mislih je Meta vprašala: “Ali lahko zgradimo bolj učinkovite in prilagodljive agente, ki lahko uporabljajo jezik za pogajanja, prepričevanje in delo z ljudmi za doseganje strateških ciljev, podobnih temu, kako delujejo ljudje?”

Po mnenju Mete je odgovor pritrdilen. Cicero se je naučil svojih veščin igranja spletne različice Diplomacija on webDiplomacy.net. Sčasoma je postal mojster v igri, saj naj bi dosegel “več kot dvakrat večjo povprečno oceno” človeških igralcev in se uvrstil med 10 odstotkov najboljših ljudi, ki so igrali več kot eno igro.

Da bi ustvarila Cicero, je Meta združila modele AI za strateško razmišljanje (podobno AlphaGo) in obdelavo naravnega jezika (podobno GPT-3) in jih združil v enega agenta. Med vsako igro si Cicero ogleda stanje igralne plošče in zgodovino klepeta ter napove, kako se bodo vedli drugi igralci. Ustvari načrt, ki ga izvede prek jezikovnega modela, ki lahko ustvari človeški dialog, kar mu omogoča usklajevanje z drugimi igralci.

Blok dijagram Cicerona, bota koji igra <em>Diplomacija</em>zagotovila Meta.” src=”https://cdn.arstechnica.net/wp-content/uploads/2022/11/Visual_UnderTheHood-640×907.jpg” width=”640″ height=”907″ srcset=”https : //cdn.arstechnica.net/wp-content/uploads/2022/11/Visual_UnderTheHood-1280×1813.jpg 2x”/></a><figcaption class=
Porast / Blok diagram Cicerona, Diplomacija-game bot, ki ga je zagotovila Meta.

Ciljni AI

Meta imenuje Ciceronove naravne jezikovne sposobnosti “obvladljiv model dialoga”, ki je srce Ciceronove osebnosti. Tako kot GPT-3 Cicero črpa iz velikega korpusa internetnih besedil, prenesenih s spleta. “Za izgradnjo modela dialoga, ki ga je mogoče nadzorovati, smo začeli s parametrom 2,7 milijarde BART– kot jezikovni model, ki je vnaprej usposobljen za besedilo iz interneta in natančno prilagojen za več kot 40.000 človeških iger na webDiplomacy.net,” pravi Tarča.

Nastali model je obvladal zapletenost kompleksne igre. »Cicero lahko na primer ugotovi, da bo kasneje v igri potreboval podporo določenega igralca,« pravi Meta, »in nato oblikuje strategijo, kako pridobiti naklonjenost te osebe – in celo prepozna tveganja in priložnosti, ki jih igralec vidi v njihova posebna izhodiščna točka.”

Meta’s Cicero Research pojavil v reviji Science z naslovom “Human-Level Play in the Game of Diplomacy by Combining Language Models with Strategic Reasoning.”

Kar zadeva širše aplikacije, Meta predlaga, da bi njegova raziskava Cicero lahko “lajšala komunikacijske ovire” med ljudmi in umetno inteligenco, kot je vodenje dolgotrajnega pogovora, da bi nekoga naučili nove veščine. Lahko pa poganja videoigro, v kateri lahko NPC govorijo tako kot ljudje, razumejo motivacijo igralca in se med potjo prilagajajo.

Hkrati bi lahko to tehnologijo uporabili za manipulacijo ljudi z lažnim predstavljanjem in zavajanjem na potencialno nevarne načine, odvisno od konteksta. V zvezi s tem Meta upa, da bodo drugi raziskovalci lahko gradili na njegovi kodi “na odgovoren način” in pravi, da je sprejel korake za odkrivanje in odstranjevanje “strupenih sporočil v tej novi domeni”, kar se verjetno nanaša na dialog, ki se ga je Cicero naučil iz spleta besedila, ki jih je pogoltnil –vedno tveganje za velike jezikovne modele.

Tarčo je posredoval a podrobno spletno mesto da pojasni, kako Cicero deluje in ima odprtokodno kodo Cicero na GitHubu. Na spletu Diplomacija oboževalci – in morda celo mi ostali – bi morda želeli upoštevati.

Leave a Reply

Your email address will not be published. Required fields are marked *