Google AI atualiza Linguagem Universal de Fala para reconhecer mais de 100 idiomas
A Google AI lançou uma nova atualização para sua Linguagem Universal de Fala (USM), apoiando a Iniciativa de 1.000 Línguas. O novo modelo supera o desempenho do OpenAI Whisper em todos os segmentos da automação de reconhecimento de fala.
A USM é um modelo de aprendizado de máquina que reconhece e compreende a linguagem falada em diferentes línguas e sotaques. Com 2 bilhões de parâmetros treinados em 12 milhões de horas de fala e 28 bilhões de frases de texto, abrange mais de 300 idiomas e pode realizar reconhecimento automático da fala (ASR) em línguas com poucos recursos e em línguas muito faladas.
O treinamento inicial envolve aprendizagem não supervisionada no áudio da fala de vários idiomas. Posteriormente, a qualidade do modelo e a cobertura da linguagem podem ser melhoradas por meio de pré-treinamento opcional com dados textuais. A USM alcança desempenho superior com esse segundo estágio. Na etapa final, tarefas downstream como reconhecimento automático da voz ou tradução automática da fala são ajustadas utilizando dados supervisionados mínimos.
Os principais desafios no Reconhecimento Automático da Fala (ASR) são escalabilidade e eficiência computacional. Métodos tradicionais supervisionados têm dificuldade para construir modelos de alta qualidade, especialmente para línguas sem representação adequada. No entanto, aprendizagem auto-supervisionada é um método melhor para escalar ASR em numerosos idiomas já que pode fazer uso dos dados somente com áudio mais acessíveis.
A USM é um dos modelos mais completos do mundo em reconhecimento da fala, permitindo que pessoas que falam línguas minoritárias ou menos conhecidas interajam com a tecnologia de forma mais significativa. As linguagens universais da fala têm papel crucial na facilitação dos gestos naturais entre máquinas e humanos, com enorme potencial para diversas aplicações, como assistentes virtuais, dispositivos ativados por voz, tradução de língua natural e transcrição texto-voz.
O que? | A Google AI lançou uma nova atualização para sua Linguagem Universal de Fala (USM) para apoiar a Iniciativa de 1.000 Línguas. |
Como? | O novo modelo tem melhor desempenho que o OpenAI Whisper em todos os segmentos da automação de reconhecimento de fala. |
Por quê? | Para permitir que pessoas que falam línguas minoritárias ou menos conhecidas interajam com a tecnologia de forma mais significativa e criar uma internet mais inclusiva e acessível. |
Com informações do SITE InfoQ.com.