
Modelos de IA de Raciocínio da OpenAI Enfrentam Desafios de Alucinação
Os mais recentes modelos de IA da OpenAI, o o3 e o4-mini, demonstraram capacidades de ponta. No entanto, esses novos modelos exibem uma desvantagem significativa: o aumento das alucinações, ou a tendência de fabricar informações. Surpreendentemente, eles alucinam com mais frequência do que alguns dos modelos mais antigos da OpenAI.
As alucinações continuam sendo um problema persistente e desafiador na IA, afetando até mesmo os sistemas mais avançados. Embora os modelos anteriores geralmente mostrassem melhorias na redução das alucinações, o o3 e o4-mini parecem ser uma exceção.
De acordo com as avaliações internas da OpenAI, esses modelos de raciocínio alucinam com mais frequência do que seus antecessores, incluindo o1, o1-mini e o3-mini, bem como modelos tradicionais como o GPT-4o. A causa subjacente para esse aumento nas alucinações permanece obscura, mesmo para a OpenAI.
O Mistério por Trás do Aumento das Alucinações
Em seu relatório técnico, a OpenAI reconhece que "mais pesquisa é necessária" para entender por que as alucinações estão piorando à medida que os modelos de raciocínio são ampliados. Embora o o3 e o4-mini se destaquem em áreas como codificação e matemática, sua tendência de fazer mais afirmações no geral leva a declarações mais precisas e mais imprecisas.
Por exemplo, o o3 alucinou em resposta a 33% das perguntas no PersonQA, o benchmark da OpenAI para avaliar o conhecimento sobre indivíduos. Isso é aproximadamente o dobro da taxa de alucinação de o1 (16%) e o3-mini (14,8%). O o4-mini teve um desempenho ainda pior, alucinando 48% das vezes.
Testes de terceiros realizados pela Transluce, um laboratório de pesquisa de IA sem fins lucrativos, corroboram essas descobertas. A Transluce observou o o3 fabricando ações que supostamente tomou para chegar às respostas. Em um caso, o o3 alegou ter executado código em um MacBook Pro de 2021 "fora do ChatGPT" e, em seguida, copiado os resultados em sua resposta, o que é impossível dadas as capacidades do modelo.
Possíveis Explicações e Implicações
Neil Chowdhury, pesquisador da Transluce e ex-funcionário da OpenAI, sugere que o aprendizado por reforço usado para os modelos da série o pode amplificar problemas que são normalmente mitigados pelos processos de pós-treinamento. Sarah Schwettmann, cofundadora da Transluce, observa que a alta taxa de alucinação do o3 pode diminuir sua utilidade geral.
Apesar desses desafios, Kian Katanforoosh, professor adjunto de Stanford e CEO da Workera, relata que sua equipe descobriu que o o3 está um passo à frente da concorrência nos fluxos de trabalho de codificação. No entanto, ele também observa que o o3 tende a alucinar links de sites quebrados.
Embora as alucinações possam contribuir para o "pensamento" criativo, elas representam um problema para as empresas onde a precisão é fundamental. Setores como escritórios de advocacia não podem tolerar modelos que introduzem erros factuais.
Possíveis Soluções e Direções Futuras
Uma abordagem promissora para aumentar a precisão envolve a integração de recursos de pesquisa na web em modelos de IA. O GPT-4o da OpenAI com pesquisa na web atinge 90% de precisão no SimpleQA. A pesquisa na web pode potencialmente reduzir as taxas de alucinação em modelos de raciocínio, desde que os usuários estejam dispostos a compartilhar prompts com um provedor de pesquisa terceirizado.
Se a ampliação dos modelos de raciocínio continuar a exacerbar as alucinações, encontrar uma solução se tornará cada vez mais urgente. O porta-voz da OpenAI, Niko Felix, enfatiza que o tratamento das alucinações é uma área de pesquisa contínua, e a empresa está empenhada em melhorar a precisão e a confiabilidade de seus modelos.
A indústria de IA mudou recentemente seu foco para modelos de raciocínio, pois os métodos tradicionais de melhoria de modelos de IA mostraram retornos decrescentes. O raciocínio melhora o desempenho do modelo sem exigir computação e dados extensivos durante o treinamento. No entanto, o potencial para aumento das alucinações apresenta um desafio significativo.
Fonte: TechCrunch