Ferramentas de IA generativa enfrentam dificuldades em tarefas simples, como escrever e contar
Ferramentas de IA generativa, como Midjourney, Stable Diffusion e DALL-E 2, têm nos surpreendido com sua capacidade de produzir imagens notáveis em questão de segundos. No entanto, apesar de suas conquistas, ainda há uma disparidade intrigante entre o que os geradores de imagens de IA podem produzir e o que nós podemos. Por exemplo, essas ferramentas muitas vezes não fornecem resultados satisfatórios para tarefas aparentemente simples, como contar objetos e produzir texto preciso. Então por que a IA generativa enfrenta dificuldades mesmo em tarefas que um estudante do ensino fundamental poderia realizar?
Limitações da IA na escrita
Nós, humanos, facilmente reconhecemos símbolos textuais (como letras, números e caracteres) escritos em diferentes fontes e caligrafias. Também conseguimos produzir texto em diferentes contextos e entender como o contexto pode alterar o significado. Os geradores de imagens de IA atuais não possuem essa compreensão inerente. Eles não têm uma verdadeira compreensão do significado dos símbolos textuais. Esses geradores são baseados em redes neurais artificiais treinadas em grandes quantidades de dados de imagens, dos quais eles “aprendem” associações e fazem previsões.
Combinações de formas nas imagens de treinamento estão associadas a várias entidades. Por exemplo, duas linhas voltadas para dentro que se encontram podem representar a ponta de um lápis ou o teto de uma casa. Mas quando se trata de texto e quantidades, as associações devem ser incrivelmente precisas, uma vez que até mesmo pequenas imperfeições são notáveis. Nossos cérebros podem ignorar pequenas variações na ponta de um lápis ou em um telhado, mas não tanto quando se trata de como uma palavra está escrita ou do número de dedos em uma mão.
Um dos principais motivos para isso é a falta de dados de treinamento suficientes. Os geradores de imagens de IA exigem muito mais dados de treinamento para representar com precisão texto e quantidades do que para outras tarefas.
Limitações da IA com mãos
Outro problema surge ao lidar com objetos menores que exigem detalhes intrincados, como mãos. Nas imagens de treinamento, as mãos costumam ser pequenas, segurando objetos ou parcialmente obscurecidas por outros elementos. Torna-se desafiador para a IA associar o termo “mão” com a representação exata de uma mão humana com cinco dedos. Consequentemente, as mãos geradas pela IA muitas vezes parecem deformadas, têm dedos adicionais ou menos dedos, ou têm mãos parcialmente cobertas por objetos como mangas ou bolsas.
Vemos um problema semelhante quando se trata de quantidades. Os modelos de IA não possuem uma compreensão clara de quantidades, como o conceito abstrato de “quatro”. Assim, um gerador de imagens pode responder a um comando para “quatro maçãs” baseando-se no aprendizado proveniente de inúmeras imagens com várias quantidades de maçãs e retornar uma saída com a quantidade incorreta. Em outras palavras, a grande diversidade de associações nos dados de treinamento afeta a precisão das quantidades nas saídas.
Futuro da IA na escrita e contagem
É importante lembrar que a conversão de texto para imagem e vídeo é um conceito relativamente novo na IA. As plataformas gerativas atuais são versões de “baixa resolução” do que podemos esperar no futuro. Com avanços nos processos de treinamento e na tecnologia da IA, é provável que futuros geradores de imagens de IA sejam muito mais capazes de produzir visualizações precisas.
Também vale mencionar que a maioria das plataformas de IA acessíveis ao público não oferece o mais alto nível de capacidade. A geração precisa de texto e quantidades demanda redes altamente otimizadas e personalizadas, então assinaturas pagas para plataformas mais avançadas podem ser necessárias.
Relatório sobre a limitação das ferramentas de Inteligência Artificial Generativa | ||
---|---|---|
Introdução: | ||
Ferramentas de IA generativa, como Midjourney, Stable Diffusion e DALL-E 2, têm nos surpreendido com sua capacidade de produzir imagens notáveis em questão de segundos. No entanto, apesar de suas conquistas, ainda há uma disparidade intrigante entre o que os geradores de imagens de IA podem produzir e o que nós podemos. Por exemplo, essas ferramentas muitas vezes não fornecem resultados satisfatórios para tarefas aparentemente simples, como contar objetos e produzir texto preciso. Então por que a IA generativa enfrenta dificuldades mesmo em tarefas que um estudante do ensino fundamental poderia realizar? | ||
Limitações da IA na escrita: | ||
Nós, humanos, facilmente reconhecemos símbolos textuais (como letras, números e caracteres) escritos em diferentes fontes e caligrafias. Também conseguimos produzir texto em diferentes contextos e entender como o contexto pode alterar o significado. Os geradores de imagens de IA atuais não possuem essa compreensão inerente. Eles não têm uma verdadeira compreensão do significado dos símbolos textuais. Esses geradores são baseados em redes neurais artificiais treinadas em grandes quantidades de dados de imagens, dos quais eles “aprendem” associações e fazem previsões. | ||
Limitações da IA com mãos: | ||
Outro problema surge ao lidar com objetos menores que exigem detalhes intrincados, como mãos. Nas imagens de treinamento, as mãos costumam ser pequenas, segurando objetos ou parcialmente obscurecidas por outros elementos. Torna-se desafiador para a IA associar o termo “mão” com a representação exata de uma mão humana com cinco dedos. Consequentemente, as mãos geradas pela IA muitas vezes parecem deformadas, têm dedos adicionais ou menos dedos, ou têm mãos parcialmente cobertas por objetos como mangas ou bolsas. | ||
Futuro da IA na escrita e contagem: | ||
É importante lembrar que a conversão de texto para imagem e vídeo é um conceito relativamente novo na IA. As plataformas gerativas atuais são versões de “baixa resolução” do que podemos esperar no futuro. Com avanços nos processos de treinamento e na tecnologia da IA, é provável que futuros geradores de imagens de IA sejam muito mais capazes de produzir visualizações precisas. |
Com informações do site The Conversation.