• Olá Visitante, se gosta do forum e pretende contribuir com um donativo para auxiliar nos encargos financeiros inerentes ao alojamento desta plataforma, pode encontrar mais informações sobre os várias formas disponíveis para o fazer no seguinte tópico: leia mais... O seu contributo é importante! Obrigado.

IA do Google imita perfeitamente a voz humana

kokas

GF Ouro
Entrou
Set 27, 2006
Mensagens
40,723
Gostos Recebidos
3
O Google anunciou seu novo sistema Tacotron 2, que traduz texto em fala e reivindica precisão quase humana ao imitar o áudio de uma pessoa.


google-computador-voz-humana.jpg






O sistema é a segunda geração da tecnologia, que consiste em duas redes neurais profundas.



A primeira traduz o texto em um espectrograma (pdf), uma maneira visual de representar frequências de áudio ao longo do tempo. Esse espectrograma é então alimentado no WaveNet, um sistema do laboratório de pesquisa de inteligência artificial (IA) da Alphabet, DeepMind, que lê o gráfico e gera os elementos de áudio correspondentes em conformidade.




Você pode ouvir duas amostras abaixo. Uma das frases é gerada pela IA, e a outra por uma mulher contratada pelo Google. Não se sabe com certeza qual é qual.




“George Washington was the first President of the United States” (em tradução, “George Washington foi o primeiro presidente dos Estados Unidos”).



Tocador de áudio
00:00

00:00
Use as setas para cima ou para baixo para aumentar ou diminuir o volume.






Tocador de áudio
00:00

00:00





Use as setas para cima ou para baixo para aumentar ou diminuir o volume.










“That girl did a video about Star Wars lipstick” (em tradução, “Aquela garota fez um vídeo sobre o batom Star Wars”).





Tocador de áudio
00:00

00:00
Use as setas para cima ou para baixo para aumentar ou diminuir o volume.


Tocador de áudio
00:00

00:00
Use as setas para cima ou para baixo para aumentar ou diminuir o volume.


[h=2]Vantagens[/h]

Os pesquisadores também demonstraram que o Tacotron 2 pode lidar com palavras e nomes difíceis de pronunciar, além de alterar a forma como enuncia com base na pontuação.




Por exemplo, palavras em letra maiúscula são mais tonalizadas, como alguém faria ao indicar que aquele termo específico é importante na frase.



“The buses aren’t the problem, they actually provide a solution” (em tradução, “Os ônibus não são o problema, eles na verdade oferecem uma solução”).
Tocador de áudio
00:00

00:00
Use as setas para cima ou para baixo para aumentar ou diminuir o volume.









“The buses aren’t the PROBLEM, they actually provide a SOLUTION” (em tradução, “Os ônibus não são o PROBLEMA, eles na verdade oferecem uma SOLUÇÃO”).
Tocador de áudio
00:00

00:00





Use as setas para cima ou para baixo para aumentar ou diminuir o volume.











Essa tecnologia é imediatamente útil para o Google. O WaveNet, anunciado pela primeira vez em 2016, já é usado para gerar voz no Google Assistant. Quando pronto, o Tacotron 2 poderia ser uma adição ainda mais poderosa ao serviço.




Por enquanto, o sistema só é treinado para imitar uma única voz feminina.



logo.svg
 
Topo