carregando

Aguarde por gentileza.
Isso pode levar alguns segundos...

 

Conhecimento que transforma a vida.

AlphaZero: a última conquista da inteligência artificial
Erick Muzart Fonseca dos Santos


AlphaZero: a última conquista da inteligência artificial - Erick Muzart Fonseca dos Santos

   Um mês e meio depois de o AlphaGo Zero se tornar praticamente imbatível no complexo jogo de tabuleiro Go, a inteligência artificial (IA) chamada Alpha Zero aprendeu a jogar xadrez sozinha e já começa a derrotar outras IAs com mais tempo de carreira. Dados preliminares indicam que, em apenas 24 horas, o AlphaZero atingiu níveis de conhecimento capazes de enfrentar os melhores enxadristas do mundo.

   DeepMind, o laboratório de inteligência artificial (IA) da Google, desenvolveu o AlphaGo, primeiro programa de computador capaz de derrotar jogadores profissionais de Go. Go é um jogo estratégico para tabuleiro, praticado de forma continua e intensa na Ásia por cerca de 2.500 anos. Muito mais complexo que o xadrez (com 10 elevado a 170 possíveis posições, comparadas com 10 elevado a 50 posições para o xadrez), trata-se do jogo estratégico mais estudado e praticado pela humanidade.

   Assim, foi uma considerável surpresa quando, em 2015, o AlphaGo venceu o campeão europeu. Em 2016, derrotou o campeão coreano e, finalmente, o campeão mundial. O premiado documentário AlphaGo, lançado em 2017, retoma os dramas humanos envolvidos nessa história (disponível no Netflix).

   O que já era incrível torna-se surreal quando, no final do ano passado, o DeepMind publica uma nova versão, AlphaZero, baseada em um algoritmo genérico de aprendizado por reforço. Diferentemente do AlphaGo, que foi treinado inicialmente sobre uma base histórica de partidas entre grandes mestres do jogo, o AlphaZero foi assim nomeado devido ao seu treinamento ter sido realizado a partir do zero, sem utilizar qualquer referência a jogadas humanas ou qualquer outra fonte de informação, além das regras do jogo.

   Seu treinamento é realizado unicamente com o ganho de experiência do algoritmo jogando contra si mesmo, técnica denominada aprendizado por reforço. Utilizando essa técnica, conjuntos de jogadas que contribuíram para uma vitória levam ao reforço das representações internas do algoritmo que determinaram a seleção dessas jogadas. Ao inverso, as variáveis internas que indicavam jogadas que contribuíram para derrotas em outras partidas têm sua importância progressivamente reduzida. Apesar desse modo de treinamento ser bastante simples, ele pode contribuir para desenvolver um jogador artificial extremamente poderoso.

   Não bastasse a proeza de aprender a jogar por si mesmo, o algoritmo do AlphaZero foi construído para ser genérico o suficiente para aprender a jogar três jogos distintos: Go, xadrez e shogi (uma variante japonesa do xadrez, com peças e regras de movimentação diferentes).

   Mas são os resultados obtidos que comprovam o caráter extraordinário da inovação: em apenas 4 horas de treinamento na rede de computadores da Google, o algoritmo desenvolveu por si só um nível de habilidade que supera o desempenho humano; e, após três dias de treinamento, o algoritmo derrotou sua própria versão anterior, AlphaGo, por 100 a 0.

   Dado o nível super-humano de desempenho, o Alpha Zero foi avaliado jogando 100 partidas contra o melhor programa existente em cada um dos três jogos. No caso do xadrez, AlphaZero derrotou o programa Stockfish com 28 vitórias, 72 empates e nenhuma derrota. Além das estatísticas de jogos vencidos, o DeepMind publicou o conteúdo de dez partidas vencidas pelo AlphaZero que revelam um estilo próprio de jogar xadrez, de forma bem diferente dos demais programas que utilizam inteligência artificial mais tradicional, demonstrando características que sugerem verdadeira criatividade.

   Adicionalmente, para atingir esse nível de desempenho, o algoritmo requereu um menor número de partidas de treinamento jogando contra si próprio, do que suas versões anteriores e, finalmente, após concluir seu treinamento, o algoritmo utilizou menor capacidade computacional do que seus programas adversários.

   Cada um dos pontos acima, isoladamente, já representaria uma inovação digna de destaque. A combinação de todos eles revela algo novo: a compreensão do domínio do problema e de suas possíveis soluções é mais ampla e profunda do que aquilo que a humanidade foi capaz de descobrir em milênios de pesquisa e experimentação.

   Segundo David Silver, seu programador principal, "o Alpha Zero é mais poderoso do que as abordagens anteriores porque, ao não usar dados humanos, ou conhecimentos humanos de qualquer forma, removemos as restrições do conhecimento humano, tornando o algoritmo capaz de criar o próprio conhecimento."

   Para aprofundar a compreensão do quão relevante é o AlphaZero, recomendo a leitura do artigo “The Strange Loop in AlphaGo Zero’s Self-play”.

   O fato de não requerer amplas bases de conhecimento prévio remove um dos principais obstáculos à aplicação de IA em novos problemas: a disponibilidade de dados em quantidade e qualidade suficientes para treinar um novo algoritmo específico.

   Porém, o sucesso desse algoritmo nos jogos acima ainda não foi expandido para jogos mais abertos e de informação parcial como StarCraft, em que ainda não se consegue superar os melhores jogadores humanos. Essa área de pesquisa continua em andamento, mas já apresenta resultados, como com a recém-publicada IA, da universidade Carnegie Mellon, que foi capaz de derrotar jogadores profissionais de poker, na modalidade No-limit Texas Hold'em.

   O DeepMind apresentou sua visão de futuro para a IA: pretende aplicar algoritmos genéricos de aprendizado no desenvolvimento da ciência e, particularmente, na pesquisa em IA, de forma a que a IA possa contribuir para seu próprio aperfeiçoamento!

     Fonte: Erick Muzart Fonseca dos Santos, Centro de Pesquisa e Inovação/ISC/TCU.

 

 

Psicólogo em Brasília - Clínica Brasília de Psicologia Brasília, DF BR SCN Qd 2 Bloco D, Shopping Liberty Mall, Torre A, Sala 1205. CEP: 70.712-903
Copyright® 2015-2024 - Clínica Brasília de Psicologia. Todos os direitos reservados.