Fresh concerns raised over sources of training material for AI systems
O uso de inteligência artificial tem crescido exponencialmente, mas com isso surgem preocupações sobre a procedência dos dados usados para treinar esses sistemas. Recentemente, várias investigações expuseram fontes fascistas, pirateadas e maliciosas de onde esses dados são coletados.
Um dos maiores conjuntos de dados é o Colossal Clean Crawled Corpus (C4), compilado pelo Google a partir de mais de 15 milhões de sites e utilizado para treinar a IA LaMDA do mecanismo de busca, bem como o concorrente GPT da Meta, LLaMA.
Embora seja público, a escala do conjunto de dados torna difícil examinar seu conteúdo. Ele é uma versão “limpa” do Common Crawl, com conteúdo “ruidoso”, linguagem ofensiva e insultos racistas removidos. No entanto, uma investigação do Washington Post revelou que a “limpeza” do C4 é apenas superficial.
Alguns sites menos respeitáveis foram encontrados no banco de dados, como o site nacionalista branco VDARE e o site de notícias da extrema direita Breitbart. Além disso, o site russo apoiado pelo estado RT é um dos cem maiores provedores de dados para treinamento do corpus C4. Poucos dos sites deram consentimento explícito para serem incluídos.
Embora haja questões levantadas pela investigação do Washington Post, conjuntos de dados enormes são importantes para criação de IA. As grandes modelos linguísticas que dão suporte a ferramentas como o ChatGPT precisam desses imensos conjuntos de dados para melhorar.
Algumas empresas de IA optam por não aplicar a “limpeza” aos dados para acessar ainda mais informações para seus sistemas aprenderem. A Stability AI com sede em Londres lançou sua nova LLM, StableLM, treinada no Pile – um conjunto imenso que inclui todo o Common Crawl não limpo e 2 milhões de ebook piratas do BitTorrent Bibliotik, além de outras fontes bem específicas.
Embora pesquisadores de IA escolham pedir perdão em vez de permissão, argumentando que suas criações são cobertas pelas defesas do “uso justo” dos direitos autorais, é importante garantir a transparência e confiança na IA. A empresa afirmou que suas criações são open source, permitindo que organizações públicas e privadas adaptem os modelos para suas próprias aplicações sem compartilhar dados sensíveis ou perder o controle de suas capacidades de IA.
O Google foi contatado para comentar as novas investigações.
Notícia: | Novos receios surgiram sobre o material de treinamento utilizado em alguns dos maiores e mais poderosos modelos de inteligência artificial, pois várias investigações expuseram as fontes fascistas, pirateadas e maliciosas das quais os dados são coletados. |
---|---|
Conjunto de dados: | Colossal Clean Crawled Corpus (C4) |
Fontes no C4: | VDARE, Breitbart, RT, b-ok.org (anteriormente Bookzz) |
Respeito ao consentimento: | Alguns sites não deram consentimento explícito para serem incluídos, mas Common Crawl respeita solicitações para serem deixados fora da busca. |
Importância dos conjuntos de dados: | Grandes modelos linguísticos precisam desses imensos conjuntos de dados para melhorar. |
Uso justo: | Muitos pesquisadores de IA escolhem pedir perdão em vez de permissão, argumentando que suas criações são cobertas pelas defesas do “uso justo” dos direitos autorais. |
StableLM: | Lançada pela Stability AI, treinada no Pile – um conjunto imenso que inclui todo o conjunto de dados Common Crawl não limpo e 2 milhões de ebook piratas do BitTorrent Bibliotik, além 100 GB de informações coletadas do site GitHub e outras fontes bem específicas. |
Com informações do site The Guardian.