
Microsoft Busca Rastrear Influência dos Dados de Treinamento de IA
A Microsoft está embarcando em um projeto de pesquisa com o objetivo de rastrear a influência de exemplos de treinamento específicos em modelos de IA generativa. Esta iniciativa, revelada em um anúncio de emprego de dezembro, procura entender como dados particulares, como fotos e livros, contribuem para as saídas desses modelos.
O objetivo do projeto é desenvolver métodos para estimar de forma eficiente e útil o impacto de pontos de dados individuais no conteúdo gerado por IA. O anúncio de emprego enfatiza a atual falta de transparência nas arquiteturas de redes neurais em relação às fontes de suas criações, destacando a necessidade de mudança. Essa mudança pode potencialmente levar a um sistema de incentivos, reconhecimento e até mesmo pagamento para indivíduos que contribuem com dados valiosos para futuros modelos de IA.
O Dilema dos Direitos Autorais
Esta pesquisa surge em um momento crucial, uma vez que os geradores de texto, código, imagens, vídeo e música movidos a IA estão enfrentando inúmeras ações judiciais de propriedade intelectual. Muitas empresas de IA treinam seus modelos em vastos conjuntos de dados extraídos da internet, alguns dos quais são materiais protegidos por direitos autorais. Embora essas empresas frequentemente invoquem a doutrina do "uso justo" para justificar suas práticas, os criativos estão se manifestando contra o uso potencialmente ilegal de seu conteúdo.
A Microsoft não está imune a esses desafios legais. O New York Times processou a Microsoft e a OpenAI, alegando violação de direitos autorais devido ao uso de milhões de artigos do Times no treinamento de seus modelos. Além disso, desenvolvedores de software processaram a Microsoft pelo uso de seu código no treinamento do GitHub Copilot.
Dignidade de Dados e o Futuro da IA
O esforço de pesquisa da Microsoft, apelidado de "proveniência em tempo de treinamento", envolve Jaron Lanier, um proeminente tecnólogo e cientista da Microsoft Research. Lanier é um defensor da "dignidade de dados", que enfatiza a conexão entre o conteúdo digital e os indivíduos que o criaram.
Lanier visualiza um sistema onde os contribuintes mais significativos para uma saída gerada por IA são reconhecidos e recompensados. Por exemplo, se um modelo de IA criar uma peça de conteúdo única, os artistas, escritores ou outros criadores cujo trabalho influenciou fortemente a saída seriam reconhecidos e potencialmente compensados.
Várias empresas já estão explorando conceitos semelhantes. A Bria, uma desenvolvedora de modelos de IA, pretende compensar os proprietários de dados com base em sua "influência geral". A Adobe e a Shutterstock também oferecem pagamentos aos colaboradores do conjunto de dados. No entanto, esses programas ainda não são a norma, com muitos grandes laboratórios optando por mecanismos de opt-out em vez de compensação de colaboradores.
Embora este projeto possa ser apenas uma prova de conceito, ele ressalta a crescente importância de abordar as considerações éticas e legais em torno dos dados de treinamento de IA. Outros laboratórios, incluindo Google e OpenAI, defenderam o enfraquecimento das proteções de direitos autorais para o desenvolvimento de IA. Se a pesquisa da Microsoft levará a mudanças significativas, resta ver, mas sinaliza uma potencial mudança em direção a maior transparência e justiça no mundo da IA.
Source: TechCrunch