IA Joga Super Mario: Um Novo Benchmark?

04/03/2025 Inteligência Artificial

Esqueça Pokémon, alguns pesquisadores acham que Super Mario Bros. é o verdadeiro desafio para a IA! O Hao AI Lab da UC San Diego colocou modelos de IA contra o jogo clássico, e os resultados foram surpreendentes.

Claude Assume a Liderança: O Claude 3.7 da Anthropic se destacou no desafio, com o Claude 3.5 logo atrás. O Gemini 1.5 Pro do Google e o GPT-4o da OpenAI, no entanto, tiveram dificuldades para acompanhar a ação acelerada.

Framework GamingAgent: As IAs não apenas pularam em um NES original. Elas jogaram por meio de um emulador, usando o GamingAgent de Hao. Essa estrutura forneceu instruções básicas como "desviar de obstáculos" e alimentou a IA com capturas de tela. A IA então usou código Python para controlar Mario.

Raciocínio vs. Reflexos: O Hao Lab descobriu algo interessante. Modelos de raciocínio, que resolvem problemas passo a passo, não se saíram tão bem quanto modelos de não raciocínio. O tempo é fundamental em Super Mario Bros, e os modelos de raciocínio levam mais tempo para tomar decisões.

A "Crise de Avaliação": Andrej Karpathy da OpenAI levantou preocupações sobre confiar demais nos benchmarks de jogos. Os jogos são abstratos e oferecem dados infinitos, ao contrário do mundo real. As habilidades em jogos são realmente indicativas do progresso geral da IA? Talvez não, mas é divertido ver a IA tentar!

1 Imagem de IA Super Mario:

Source: TechCrunch