PROVOZ: Produção, Identificação e Reconhecimento de Voz

Objetivos e resultados esperados

O projeto PROVOZ visa especificar uma plataforma de hardware e implementar um software para síntese, identificação e reconhecimento de voz, baseado nas técnicas de processamento digital de sinais e inteligência artificial. O desenvolvimento deste projeto foi dividido em duas partes. Primeiramente, foram realizadas a análise e a implementação de vários métodos para síntese de voz. Na segunda etapa, foi realizado um estudo das técnicas  de reconhecimento de padrões de voz. A síntese funciona como uma transformação de um texto em som, enquanto o reconhecimento faz o papel inverso.
As aplicações de sistemas de síntese de voz são inúmeras. Aqui estão alguns exemplos: 

   Serviços de telecomunicações: Sistemas de síntese de voz tornam possível o acesso a informações textuais  pelo telefone. Um estudo recente revelou que 70 % das chamadas telefônicas atuais requerem pouca interatividade. O texto a ser falado pode variar de simples mensagens, tais como locais de eventos culturais, até grandes mensagens, tais como um sistema de checagem de e-mail pelo telefone. 

     Ajuda a deficientes visuais. Aqui o sistema serve como uma ótima ferramenta de ajuda, permitindo aos cegos o acesso a diversas informações de uma forma bastante natural. 

     Monitoramento/controle oral Em alguns casos, informação oral é mais eficiente que mensagens escritas, principalmente em sistemas de controle que envolvem constante atenção visual que não pode ser desviada para outro local. 

Descrição de projeto 

A geração automática de voz a partir de um texto, denominadatext-to-speech  (TTS)  tem dado origem a diferentes técnicas e implementações para a produção de sistemas TTS de alta qualidade.

O objetivo atual dos sistemas para síntese de voz é a leitura de qualquer texto, seja diretamente introduzido no computador pelo usuário, ou adquirido através de um scanner e submetido a um sistema de reconhecimento óptico de caracteres (OCR).

Existe uma diferença fundamental entre tais sistemas e um sistema de resposta por voz o qual produz voz artificial simplesmente concatenando palavras isoladas ou partes de sentenças. Este último é aplicável apenas quando o vocabulário a ser falado é limitado (atualmente não mais que 100 palavras) e quando as sentenças a serem faladas possuem uma estrutura simples, como, por exemplo, em estações de trem. No contexto de TTS, é impossível gravar e armazenar todas as palavras da linguagem utilizada. Assim, a definição de text-to-speech seria a produção de voz por máquinas, através de uma associação do tipo grafema-fonema da sentença a ser falada.

A leitura de texto deve ser de forma automática e para qualquer texto. O sistema deve ser capaz de realizar duas etapas: primeiro, fazer uma análise  do texto para saber o que ele deve falar e,  segundo, fazer a produção do som propriamente dita.