Benchmark IA Minecraft

Minecraft como Benchmark de IA: Abordagem Criativa para Avaliação de Modelos

Os métodos tradicionais de benchmarking de IA estão a ter dificuldades em acompanhar os rápidos avanços na IA generativa. Como resultado, os desenvolvedores estão a explorar abordagens inovadoras para avaliar as capacidades destes modelos. Uma dessas abordagens envolve o uso de Minecraft, o popular jogo de construção em mundo aberto pertencente à Microsoft.

MC-Bench: Modelos de IA Enfrentam-se no Minecraft

O site Minecraft Benchmark (MC-Bench) é uma plataforma colaborativa onde os modelos de IA competem na criação de construções de Minecraft com base em prompts fornecidos. Os usuários podem votar em qual modelo tem um melhor desempenho, revelando a IA por trás de cada criação somente após votar.

Adi Singh, um estudante do ensino médio e o criador do MC-Bench, destaca a familiaridade do Minecraft como sua principal vantagem. Como o jogo de vídeo mais vendido de todos os tempos, mesmo aqueles que não estão familiarizados com o jogo podem facilmente avaliar a qualidade de uma representação de abacaxi em blocos.

“Minecraft permite que as pessoas vejam o progresso [do desenvolvimento de IA] muito mais facilmente”, disse Singh ao TechCrunch. “As pessoas estão acostumadas com o Minecraft, acostumadas com o visual e a vibe.”

O MC-Bench tem atualmente oito contribuidores voluntários. Empresas como Anthropic, Google, OpenAI e Alibaba apoiam o projeto, subsidiando o uso de seus produtos para executar prompts de benchmark. No entanto, eles não têm outra afiliação com o projeto.

Singh prevê expandir o MC-Bench além de construções simples para incorporar tarefas mais complexas e orientadas para objetivos. Ele acredita que os jogos oferecem um ambiente mais seguro e controlável para testar o raciocínio agentic em comparação com cenários da vida real.

“Os jogos podem ser apenas um meio para testar o raciocínio agentic que é mais seguro na vida real e mais controlável para fins de teste, tornando-o mais ideal aos meus olhos”, disse Singh.

Os Desafios dos Benchmarks Tradicionais de IA

Outros jogos como Pokémon Red, Street Fighter e Pictionary também foram usados como benchmarks experimentais de IA, destacando as dificuldades nos benchmarks tradicionais de IA.

As avaliações padronizadas geralmente fornecem aos modelos de IA uma vantagem injusta devido ao seu treinamento. Os modelos se destacam em tarefas de resolução de problemas específicas e restritas, particularmente aquelas que envolvem memorização mecânica ou extrapolação básica.

Por exemplo, a alta pontuação do GPT-4 no LSAT contrasta fortemente com sua incapacidade de contar o número de "R"s em "strawberry". Da mesma forma, o forte desempenho do Claude 3.7 Sonnet em um benchmark de engenharia de software é prejudicado pelo seu fraco desempenho ao jogar Pokémon.

MC-Bench: Um Benchmark Mais Acessível

O MC-Bench funciona como um benchmark de programação, exigindo que os modelos escrevam código para criar construções com base em prompts como "Frosty the Snowman" ou "uma charmosa cabana de praia tropical."

No entanto, a natureza visual do Minecraft torna mais fácil para os usuários avaliarem a qualidade de uma construção em comparação com a análise de código. Este apelo mais amplo permite que o MC-Bench colete mais dados sobre quais modelos têm um melhor desempenho de forma consistente.

A correlação entre as pontuações do MC-Bench e a utilidade da IA no mundo real permanece um tópico de discussão. No entanto, Singh acredita que as pontuações fornecem informações valiosas.

“O ranking atual reflete de perto minha própria experiência de usar esses modelos, o que é diferente de muitos benchmarks de texto puro”, disse Singh. “Talvez [MC-Bench] possa ser útil para as empresas saberem se estão indo na direção certa.”

2 Imagens de Benchmark IA Minecraft:

Source: TechCrunch