O Washington Post revela preocupações com sites usados para alimentar IA de chatbots
O jornal Washington Post, em conjunto com pesquisadores do Instituto Allen para IA, realizou uma investigação que analisou os tipos de sites utilizados para alimentar a inteligência artificial dos chatbots. O estudo utilizou o conjunto de dados C4 do Google, composto por 15 milhões de sites, para instruir grandes modelos linguísticos em inglês, incluindo T5 do Google e LLaMA do Facebook.
De acordo com o estudo, cerca de um terço dos sites não puderam ser categorizados por não estarem mais disponíveis na internet. Dentre os sites encontrados, alguns levantam sérias preocupações com a privacidade dos usuários. Dois deles, coloradovoters.info e flvoters.com, continham cópias privadas de bancos de dados estaduais de registro de eleitores e estavam listados entre os 100 principais.
Alguns dos maiores sites pareciam ter sido escolhidos arbitrariamente para alimentar os chatbots, como o fórum de jogadores do World of Warcraft (wowhead.com), o produto de combate ao esgotamento fundado por Arianna Huffington (thriveglobal.com) e pelo menos 10 sites que vendem lixeiras para construção.
A categoria de negócios e indústria representou a maior parte do conteúdo categorizado, liderada pelo site fool.com, que fornece conselhos financeiros. Outros exemplos incluem kickstarter.com (crowdfunding) e patreon.com (plataforma destinada a ajudar criadores a receberem mensalmente uma forma de pagamento exclusiva).
O conjunto de dados apresentou mais de 200 milhões de vezes o símbolo de direito autoral, o que pode indicar futuros embates em torno do uso indevido desses conteúdos pelas plataformas repletas de IA e chatbots disponíveis no mercado. A equipe alerta sobre possíveis riscos associados à distribuição involuntária ou propositalmente distorcida da informação por meio dessas máquinas.
Fato | Detalhes |
---|---|
Popularidade dos chatbots de IA | Explodiu nos últimos quatro meses |
Habilidades dos chatbots | Imitam a fala humana, mas não têm capacidade para pensar como os humanos |
Fonte de informações para alimentar a IA | Grande parte proveniente da internet |
Estudo sobre dados e informações utilizados para alimentar a IA | Analisou tipos de sites proprietários, pessoais e muitas vezes ofensivos |
Categorização dos sites analisados | Feita com dados da SimilarWeb |
Conjunto de dados C4 do Google | Composto por 15 milhões de sites usados para instruir grandes modelos linguísticos em inglês |
Sites encontrados no dataset | Wikipedia, Scribd, site para peças automotivas, entre outros |
Preocupações com privacidade dos usuários | Dois sites na lista dos 100 principais continham cópias hospedadas privadamente de bancos de dados estaduais de registro de eleitores |
Maiores sites escolhidos arbitrariamente | Wowhead.com, thriveglobal.com e pelo menos 10 sites que vendem lixeiras para construção |
Categoria de negócios e indústria | Representou a maior parte do conteúdo categorizado, liderada pelo site fool.com |
Desafios legais | O símbolo de direito autoral aparece nesse conjunto de dados mais de 200 milhões de vezes, o que pode indicar futuros embates em torno do uso indevido desses conteúdos pelas plataformas repletas de IA e chatbots disponíveis no mercado |
Riscos associados à distribuição involuntária ou propositalmente distorcida da informação por meio das máquinas | Alerta da equipe responsável pelo estudo |
Com informações do site The Washington Post.