Você sabe o que é Speech Recognition? Caso não saiba, fique comigo até o final deste artigo, pois, além de explicar o que é e como surgiu essa tecnologia, ainda vou citar 6 tipos de aplicações que já estão presentes no seu dia a dia.
Speech Recognition ou Reconhecimento de Fala é o processo que permite um computador ou algum dispositivo eletrônico reconher e processar a fala humana em formato escrito. É possível que você encontre outras terminologias como: Automatic Speech Recognition (ASR) - Reconhecimento Automático de Fala, Computer Speech Recognition - Reconhecimento de Fala por Computador ou até mesmo Speech to Text (STT) - Fala para Texto, em suma, todas elas se referem a mesma tecnologia.
Ao contrário do que muitos podem pensar, os estudos nesta área não são recentes. Nesse sentido, podemos destacar a Audrey, uma máquina de reconhecimento automático de dígitos criada pela Bell Labs em 1952. A Audrey conseguia reconhecer dígitos de 0 a 9 com precisão maior do que 90%, quando seu criador HK Davis falava. Já quando a comunicação era feita por outros locutores, ela mantinha uma precisão entre 70% e 80%.
Nas décadas de 60 e 70, a área de reconhecimento de fala seguiu evoluindo. Em 1962, a IBM apresentou a Shoebox. Assim como a Audrey, a Shoebox conseguia reconhecer dígitos falados de 0 a 9, no entanto, além dos números, ela era capaz de reconhecer palavras como: menos, mais, subtotal, total, falso e desligado. Com o intuito de avançar ainda mais, em 1971, os pesquisadores de ciência da computação da Universidade Carnegie Mellon, através do Programa de Pesquisa de Compreensão da Fala (SUR) financiado pelo Departamento de Defesa dos Estados Unidos, desenvolveram a Harpy. A Harpy era uma uma máquina de reconhecimento de fala que compreendia 1.011 palavras.
A década de 80, por sua vez, ganha destaque com relação aos primeiros passos em direção ao reconhecimento de fala contínuo. Graças a união do professor Fred Jelinek com a IBM, foi possível criar a Tangora - uma máquina de escrever ativada por voz com um vocabulário de 20.000 palavras. O grande diferencial era que seu funcionamento baseava-se em uma abordagem estatística, a qual utilizava dados para prever padrões de fala.
Chegando em 1997, tivemos o lançamento do Dragon Naturally Speaking que era um software de ditado contínuo capaz de reconhecer 100 palavras por minuto. Na época, ele provocou uma grande revolução, já que os sistemas de reconhecimento de fala que existiam eram capazes de reconhecer somente 1 palavra por vez. A partir dos anos 2000, graças aos avanços que tivemos na área de machine learning, foi possível treinar os computadores para aprender as diferentes variações da linguagem humana como: sotaque, pronúncia e o contexto da fala.
Além disso, é importante destacar que, em 2008, com o lançamento do Google Mobile App (GMA) - aplicativo criado para o iPhone, o qual permitia que os usuários realizassem buscas por voz - o Google conseguiu coletar grandes conjuntos de dados a partir das consultas de pesquisa realizadas no aplicativo. Dessa forma, com o resultado da análise desses dados, o Google foi capaz de implementar reconhecimento de fala personalizado em telefones Android. Nesse sentido, tanto a Apple quanto a Microsoft não ficaram muito atrás, pois, algum tempo depois, criaram suas próprias assistentes virtuais, a Siri e a Cortana respectivamente.
Agora que já conhecemos um pouco da cronologia do Reconhecimento de Fala, vamos falar sobre 6 tipos de aplicações que existem nos dias de hoje:
Assistentes virtuais: como acabamos de mencionar, as assistentes virtuais como a Siri, a Alexa e a Google Assistant são exemplos bem difundidos. Elas utilizam reconhecimento de fala para entender os comandos de voz do usuário e realizar tarefas como: enviar mensagens, fazer chamadas, tocar música ou até fornecer informações.
Transcrição Automática: as ferramentas de transcrição automática também se utilizam da tecnologia de reconhecimento de fala. Tendo o potencial de garantir a transcrição do conteúdo na íntegra, otimizar a mão de obra reduzindo trabalhos operacionais e promover maior foco durante as reuniões, aulas e/ou consultas médicas, a transcrição automática pode ser útil em diversas áreas como: empresarial, educação, saúde, jurídica…
Controle de Dispositivos: quando pensamos no conceito de smart home ou casa inteligente, a qual pode ser controlada de forma remota, por meio de um tablet ou smartphone, é inevitável pensar na integração de sistemas de reconhecimento de fala. Portanto, temos aqui mais uma aplicação desta tecnologia para realizar o controle de dispositivos inteligentes como luzes, termostatos, portas e janelas, simplesmente, através de comandos de voz.
Acessibilidade e inclusão: com o objetivo de ajudar pessoas com deficiências na fala a se comunicar, o reconhecimento de fala pode ser utilizado para converter as suas palavras faladas em texto. No documentário The Age of A.I. (disponível no Youtube) é mostrado o caso do ex-jogador da NFL Tim Shaw, o qual foi diagnosticado com ELA (esclerose lateral amiotrófica). Por conta da doença, sua capacidade de falar ficou bem reduzida, dessa forma, o grupo Google AI desenvolveu 2 modelos de speech to text, o primeiro utilizando uma base de dados somente com a voz do Tim e um segundo com voz de outros participantes do ALS TDI (ALS Therapy Development Institute é uma organização de pesquisa em biotecnologia sem fins lucrativos focada em encontrar tratamentos para a Esclerose Lateral Amiotrófica - ELA).
Reconhecimento de Emoções: o reconhecimento de fala pode ser utilizado também para detectar emoções em uma conversa, ajudando a entender o humor ou estado emocional de uma pessoa. Pensando no contexto empresarial, essa tecnologia pode trazer insights riquíssimos nas áreas de atendimento ao cliente, principalmente, quando agregamos um trabalho de speech analytics*. Além disso, é possível desenvolver aplicações na área da saúde ou até mesmo da segurança pública.
Tradução Automática: talvez você não soubesse desse detalhe, mas, quando apertamos o microfone no Google Translate e ele realiza a tradução automática do que nós falamos, temos a tecnologia de speech recognition funcionando ali por trás.
Bom pessoal, depois desses 6 exemplos, finalizamos por aqui. Gostaria de ressaltar que este artigo teve um caráter mais introdutório, em que o objetivo era explicar o que é o Speech Recognition, falar um pouco dos avanços tecnológicos ocorridos na área ao longo dos anos e citar suas principais aplicações no dia a dia. Espero que a leitura tenha sido útil.
Até o próximo post!
*Speech Analytics é o processo de análise de gravações de voz ou chamadas ao vivo de clientes para call centers com software de reconhecimento de fala para encontrar informações úteis e fornecer garantia de qualidade. O software de análise de fala identifica palavras e analisa padrões de áudio para detectar emoções e estresse na voz do interlocutor - definição extraída do site Evollo.
Fontes: