Inteligência artificial. Inteligência artificial aprende a arte do “bluff” a jogar póquer

publico.pt - 18 dez. 20:00

Inteligência artificial. Inteligência artificial aprende a arte do “bluff” a jogar póquer

O póquer é o jogo perfeito para ensinar a inteligência artificial a pensar de forma furtiva, e saber omitir informação durante negociações estratégicas, dizem investigadores.

A inteligência artificial já sabe fazer bluff e enganar humanos até à vitória. Pelo menos, no póquer: foi em Janeiro de 2017, que o Libratus – um programa de computador criado por um duo de investigadores na Pensilvânia, EUA – provou ser capaz de vencer os melhores do mundo no póquer num torneio de 20 dias.

Agora, doze meses mais tarde, os investigadores explicam como ensinaram o programa de computador. Num artigo publicado esta semana pela revista Science, Tuomas Sandholm, um professor de ciências da computação da Universidade de Carnegie Mellon, e Noam Brown, um estudante de doutoramento no mesmo departamento, explicam como criaram uma “inteligência artificial sobrehumana”. Não foi tarefa fácil.

Apesar das vitórias da inteligência artificial em vários jogos de estratégia – do xadrez, às damas, ao Go – o póquer sempre foi uma área mais complicada. Contrariamente a muitos jogos de tabuleiro, há elementos escondidos nos jogos de cartas. “Nos sistemas de informação perfeita, ambos os jogadores sabem o estado do jogo a qualquer ponto”, lê-se no relatório sobre o projecto. É o caso do xadrez, por exemplo. Em contraste, em jogos com informação imperfeita – como é o caso do póquer – parte do jogo está escondida nas cartas de alguns jogadores.

É o que torna aquele o jogo de cartas perfeito para ensinar a inteligência artificial a pensar de forma furtiva, e saber omitir informação durante negociações estratégicas. “A informação escondida faz parte do mundo real. Está em todo o lado, em acordos de negócios, no mundo da finanças, cibersegurança, e aplicações militares”, escrevem os autores.

Em vez de decifrar a melhor sequência de acções, um sistema de inteligência artificial para "jogos de informação imperfeitos" tem de aprender a equilibrar as suas acções. "O adversário nunca pode aprender demasiada informação. Aprender a fazer bluff é uma funcionalidade necessária em qualquer estratégia de póquer competitivo", lê-se no relatório.

A aprendizagem do Libratus baseia-se em três módulos: o primeiro ensina uma versão simplificada do jogo ao programa (levando o sistema a considerar 10161 hipóteses possíveis de decisão). A partir daí o sistema cria um mapa da estratégia que tem de seguir. Depois, no segundo módulo, o programa consegue aprender a partir de jogadas que não estão incluídas na versão simplificada do jogo.

O terceiro módulo dedica-se ao “auto-aperfeiçoamento” do programa, mas sem se aproveitar das fraquezas do adversário. “Geralmente, em jogos, a inteligência artificial aprende a basear-se no jogo do adversário e encontrar falhas na sua estratégia (por exemplo, abandonar demasiadas rodadas) e explorar esses erros”, escrevem os autores. “O problema é que ao explorar os oponentes, a inteligência artificial abre-se a ser, ela mesma, enganada.”

Se o adversário mudar de estratégia, a inteligência artificial nem sempre está preparada. Por isso, o terceiro módulo do Libratus dedica-se a analisar o tamanho das apostas dos seus oponentes para detectar possíveis buracos na “estratégia” do jogo e saber se estão a fazer bluff. Ou seja, além de aprender a fazer bluff – ao apresentar algumas jogadas de forma aleatória para confundir os adversários – o Libratus tem de interpretar, correctamente, informação enganosa para conseguir ganhar.

Foi assim que, num torneio que durou 20 dias, o computador venceu quatro dos melhores jogadores do mundo: Dong Kim, Jason Les, Jimmy Chou and Daniel McAulay. Porém, para os académicos de Carnegia Mellon, o Libratus vai além do universo dos jogos de cartas.

“As técnicas que desenvolvemos são independentes do domínio e podem ser utilizadas noutros sistemas de informação, incluindo aplicações que não são meramente recreativas,” escrevem os autores nas conclusões. É o caso, por exemplo, de negociações económicas ou programas de cibervigilância. “Acreditamos que o paradigma introduzido com o Libratus poderá ser importante para o futuro e difusão das aplicações de inteligência artificial.”

NewsItem [
pubDate=2017-12-18 21:00:11.0
, url=https://www.publico.pt/2017/12/18/tecnologia/noticia/a-inteligencia-artificial-aprendeu-a-fazer-bluff-com-poquer-1796459
, host=www.publico.pt
, wordCount=613
, contentCount=1
, socialActionCount=0
, slug=2017_12_18_646940192_inteligencia-artificial-inteligencia-artificial-aprende-a-arte-do-bluff-a-jogar-poquer
, topics=[inteligência artificial]
, sections=[ciencia-tecnologia]
, score=0.000000]