Neste artigo, a dataholic Liz Marques fará a continuação e aprofundamento do artigo “Biometria de Voz e suas aplicabilidades”. Caso você ainda não tenha lido, é só clicar aqui. A leitura desse primeiro artigo é fundamental, pois ele traz conceitos iniciais sobre a biometria de voz que facilitarão a compreensão do que será abordado a seguir.
Através do artigo anterior, ficou evidente que a tecnologia de biometria de voz pode ser aplicada em segmentos como: centrais de relacionamento com o cliente, autenticação de apps e validação de transações financeiras. Dessa forma, é possível obter mais segurança, prevenir fraudes, reduzir custos e melhorar a experiência do usuário. No entanto, talvez você esteja se perguntando como saímos de um arquivo de áudio para a identificação de uma pessoa, ou seja, qual é a tecnologia por trás dessa ferramenta? Como ela de fato verifica a voz e retorna para o usuário se ele está ou não autenticado? Bom, é isso que vamos entender a partir de agora.
A voz é um elemento único e com características específicas, logo, ela se torna intransferível e pode ser utilizada como uma identidade. A forma como uma pessoa pronuncia as palavras, o timbre, o formato da boca, o sotaque, a velocidade e a respiração são alguns dos fatores que ajudam a identificar a voz de um indivíduo. E, através do espectrograma, podemos extrair diversas características do som, fazendo assim, com que seja possível verificar se determinada voz é ou não de uma pessoa.
Para que nós possamos compreender como é feito o processo de verificação do locutor (biometria de voz), vamos a um exemplo. Digamos que João esteja querendo se autenticar no aplicativo do seu banco para fazer uma transação bancária, ou seja, o locutor João está tentando se verificar como o locutor João. Ao enviar o áudio solicitado, o verificador utiliza a chave de identificação do João para comparar o áudio enviado por ele com a base de locutores cadastrados. A partir dessa comparação ele gera uma pontuação entre o locutor teste e o locutor alvo, ou seja, uma autenticação 1:1. Quanto maior a pontuação, mais próxima a voz que está tentando se autenticar está da voz correspondente àquele locutor. Caso a pontuação seja maior que o parâmetro estabelecido, o usuário será autenticado.
Agora, e se estivéssemos diante de um caso de fraude. Como o sistema funcionaria? Bom, digamos que nós tenhamos um locutor fraudador tentando se verificar como o locutor João. Nesse caso, quando o locutor fraudador enviar o áudio, o verificador realizará as comparações e retornará uma pontuação bem baixa, significando que o indivíduo que está tentando se autenticar, provavelmente não é o mesmo cadastrado na base de dados. Logo, sua autenticação será negada. Além disso, é importante ressaltar que todo esse processo de verificação pode ser feito através de frases fixas, ou seja, dependendo de um texto que o locutor tem que falar, ou independente de texto, utilizando frases diferentes.
A fim de que consigamos chegar nesse estágio em que temos um modelo pronto para ser utilizado, é necessário construir uma arquitetura, logo, precisamos passar por 3 etapas: treinamento, cadastro e teste. No treinamento, são utilizados dados de diversas pessoas, é feita a extração de atributos e a geração de um modelo capaz de distinguir vozes de pessoas diferentes. A partir desse modelo genérico, passamos para a segunda etapa, que é de cadastro. Aqui ocorrerá, mais uma vez, a extração de atributos e o cadastro de uma nova voz, a qual não estava presente na fase de treinamento. Por fim, na etapa de teste, é feita a extração de atributos e o modelo irá comparar a nova voz cadastrada com as que estão presentes no banco de dados. Após realizar a comparação, o modelo emitirá uma pontuação e, a partir dela, será feita a autenticação ou não do usuário.
Dentre as etapas mencionadas anteriormente, é importante destacar a fase de extração de atributos. Uma vez que o sistema de reconhecimento de locutor busca extrair toda a informação contida em um sinal de voz que o torna único, é fundamental compreender como isso é feito. Uma forma de fazer essa extração é através da técnica de características espectrais de curto prazo (short-term spectral features), a qual se utiliza da computação de quadros entre 20 e 30 milissegundos de duração. Em resumo, ao separar o áudio em pequenos quadros é possível obter uma variação do sinal e de suas características de forma relativamente estacionária, facilitando assim, a extração das características. Além disso, quando falamos em técnicas para obter características de um sinal de voz, podemos citar: MFCCs (Mel Frequency Cepstral Coefficients - é uma técnica bastante popular e também aplicada em short-term spectral features), LPC (Linear Predictive Coefficients) e PLP (Perceptual Linear Predictive).
Depois de compreender como é feito o processo de verificação do locutor, a construção da arquitetura e a importância do processo de extração de atributos, para finalizar este artigo, vamos falar um pouco sobre a modelagem. Tendo em vista que as características obtidas através do processo de extração ainda não constituem dados biométricos adequados, se faz necessário a utilização de técnicas de modelagem probabilística com o intuito de analisar os vetores de características, reduzir redundâncias e/ou ruídos latentes. Isso se deve, principalmente, pelo fato de serem observadas muitas variações entre amostras de um mesmo locutor. Portanto, podemos fazer uso de técnicas como: VQ (Vector Quantization), Gaussian mixture model (GMM), SVM (Support Vector Machine) e Redes Neurais Profundas.
Bom pessoal, hoje finalizamos por aqui. Sim, eu sei que este foi um artigo mais denso, mas espero que vocês tenham gostado e aprendido novos conceitos. O objetivo foi aprofundar um pouco mais nos processos que fazem parte de um sistema de verificação do locutor, e mostrar para vocês o que ocorre por "debaixo dos panos”. Com certeza existem muitos conceitos para serem explorados e, em breve, espero voltar aqui para compartilhar com vocês.
Até o próximo post!
Fontes:
● https://www.bry.com.br/blog/o-que-e-biometria/
● https://gifconsulting.com/index.php/biometria-de-voz/
● https://wiki.sj.ifsc.edu.br/images/1/17/TCC290_Henrique_Hilleshein.pdf