
IA Joga Super Mario: Um Novo Benchmark?
Esqueça Pokémon, alguns pesquisadores acham que Super Mario Bros. é o verdadeiro desafio para a IA! O Hao AI Lab da UC San Diego colocou modelos de IA contra o jogo clássico, e os resultados foram surpreendentes.
Claude Assume a Liderança: O Claude 3.7 da Anthropic se destacou no desafio, com o Claude 3.5 logo atrás. O Gemini 1.5 Pro do Google e o GPT-4o da OpenAI, no entanto, tiveram dificuldades para acompanhar a ação acelerada.
Framework GamingAgent: As IAs não apenas pularam em um NES original. Elas jogaram por meio de um emulador, usando o GamingAgent de Hao. Essa estrutura forneceu instruções básicas como "desviar de obstáculos" e alimentou a IA com capturas de tela. A IA então usou código Python para controlar Mario.
Raciocínio vs. Reflexos: O Hao Lab descobriu algo interessante. Modelos de raciocínio, que resolvem problemas passo a passo, não se saíram tão bem quanto modelos de não raciocínio. O tempo é fundamental em Super Mario Bros, e os modelos de raciocínio levam mais tempo para tomar decisões.
A "Crise de Avaliação": Andrej Karpathy da OpenAI levantou preocupações sobre confiar demais nos benchmarks de jogos. Os jogos são abstratos e oferecem dados infinitos, ao contrário do mundo real. As habilidades em jogos são realmente indicativas do progresso geral da IA? Talvez não, mas é divertido ver a IA tentar!
Source: TechCrunch