A Meta, empresa por trás de plataformas como Facebook, Instagram e WhatsApp, revelou hoje uma nova tecnologia que promete revolucionar a transcrição e tradução de textos usando inteligência artificial (IA).
Chamada de SeamlessM4T, essa ferramenta é a primeira no mundo a ser multimodal, ou seja, capaz de lidar tanto com textos escritos quanto com falas, realizando a conversão entre esses formatos enquanto executa a tradução para outro idioma, algo que, até agora, apenas serviços separados eram capazes de fazer.
O SeamlessM4T já trabalha com mais de 100 idiomas de entrada e 35 línguas para a conversão desde o seu lançamento. A Meta compara essa inovação ao “Peixe Babel”, o tradutor universal da série de ficção científica “O Guia do Mochileiro das Galáxias”, de Douglas Adams, mas reconhece que essa tecnologia representa apenas “um passo significativo nessa jornada”.
A Meta afirma ter utilizado “dezenas de bilhões de frases” e “quatro milhões de horas” de materiais de repositórios públicos para treinar as capacidades de reconhecimento de voz, tradução e composição de texto da IA. Recentemente, a empresa também apresentou um serviço para transformar texto em música e um modelo de linguagem desenvolvido em parceria com a Microsoft.
Essa nova tecnologia é capaz de executar as seguintes ações em questão de segundos:
- Reconhecer voz e convertê-la em texto.
- Transformar texto em áudio.
- Traduzir áudio para texto em outro idioma.
- Traduzir áudio para áudio em outro idioma.
- Traduzir texto para texto em outro idioma.
Além de permitir a comunicação entre pessoas que falam línguas diferentes, a Meta afirma que a plataforma possui menos erros e atrasos ao fornecer resultados, tornando-se valiosa para produtividade, trabalho e pesquisa.
Testando o “tradutor universal” da Meta
Atualmente, o SeamlessM4T não possui um site ou aplicativo próprio. A Meta disponibilizou o código-fonte da ferramenta e a base de dados através do GitHub para licenciamento por parte de pesquisadores e desenvolvedores.
No entanto, é possível testar uma versão demonstrativa da tecnologia através de um link fornecido, permitindo que os usuários gravem uma frase em um idioma específico, como o português do Brasil, e escolham até três idiomas de saída para gerar o conteúdo em texto e áudio.