É muito bom abrir o Spotify e simplesmente ter milhares de músicas a sua disposição, não é?! Seja para ouvir uma playlist mais tranquila e relaxar ou até mesmo uma mais animada para praticar um exercício físico, opções não faltam. Dessa forma, a pergunta que fica é: o que tem por trás desse arquivo de áudio? Afinal, como um computador interpreta um sinal de áudio? Bom, se você já está curioso para saber as respostas dessas perguntas, vem comigo! Neste artigo vamos falar sobre: onda sonora, parâmetros, tipos de um sinal de áudio e, sobre o famoso sample rate (ou taxa de amostragem). Juntando todos esses conceitos, você vai entender o que de fato está acontecendo por trás do seu play no Spotify.
Primeiro, precisamos entender o que é uma onda sonora.
No vídeo acima, vocês podem observar um diapasão. De forma objetiva, o diapasão é um pequeno instrumento metálico, em forma de U montado sobre um cabo, que, quando posto em vibração, produz um som de determinada altura. Ok, mas como esse som é gerado? Basicamente, a vibração do diapasão faz com que as moléculas de ar se movimentem para frente e para trás e, essa movimentação faz com que elas transmitam a sua energia para as moléculas vizinhas. Portanto, a onda sonora é o resultado da transmissão de energia de uma molécula para outra.
A partir do momento em que temos uma onda sonora, nós podemos representá-la, por exemplo, de forma digital, resultando assim em um sinal de áudio. Esse sinal possui diversos parâmetros, dentre eles: amplitude, crista/vale, comprimento de onda, ciclo e frequência. Abaixo, irei citar e explicar brevemente cada um deles.
- Amplitude da onda: é o valor máximo que a onda pode alcançar, tanto positiva quanto negativamente.
- Crista da onda: valor onde a amplitude da onda é máxima.
- Vale da onda: valor onde a amplitude é mínima.
- Comprimento de onda: pode ser calculado como a distância entre duas cristas ou dois vales consecutivos.
- Ciclo: todo sinal de áudio percorre a forma de ciclos. Um ciclo é composto por uma crista e um vale
- Frequência: é a velocidade com que um sinal está mudando ao longo de um período de tempo. A frequência de uma onda sonora é medida em Hertz (Hz), ou seja, Hertz indica a quantidade de “ciclos por segundo”.
Eu não sei se você já tinha ouvido falar sobre todos esses parâmetros, mas, com certeza, a frequência acaba sendo a mais perceptível no nosso dia a dia. Digamos que você esteja ouvindo uma música e logo no início apareça o som de um baixo e um som de trompete. Bom, podemos dizer que o som do baixo é grave, ou seja, possui uma frequência mais baixa (menos ciclos por segundo). E o som do trompete, por sua vez, é um som agudo, ou seja, possui uma frequência mais alta (mais ciclos por segundo).
Nesse sentido, é importante ressaltar a diferença entre frequência e decibel (dB). Enquanto a frequência está ligada diretamente à altura do som (grave ou agudo), a unidade de medida decibel é usada para medir a intensidade do som, ou seja, o “volume”. Ex: conversa normal: 60 dB; decolagem de um foguete próximo: 180 dB.
Agora que já sabemos um pouco dos conceitos básicos, podemos voltar com a pergunta que foi feita lá no início do artigo que foi: como um computador interpreta um sinal de áudio? Para responder essa pergunta, vamos entender a diferença entre os tipos de sinais de áudio: analógico e digital.
O sinal analógico é uma onda contínua que muda ao longo do tempo. Em um sinal analógico, existe um número infinito de amostras em um intervalo de tempo, ou seja, cada pontinho vermelho que você está vendo nesse gráfico precisa ser processado. Um exemplo clássico de som analógico é o do vinil.
Já o sinal digital, consiste na representação digital de uma onda sonora por meio de código binário, ou seja, 0 ou 1.
Quando escutamos uma música no Spotify, os dados que estão armazenados no arquivo de áudio se encontram no formato digital, isto é, em código binário. O formato de escada que podemos observar na imagem acima é a representação do sinal analógico de forma digital.
Para deixar essa explicação um pouco mais clara, observe a imagem abaixo:
Aqui, nós temos o sinal analógico oriundo, por exemplo, de um microfone e as amostras que correspondem ao valor do sinal medido em intervalos regulares. O sinal analógico acima seria representado de forma aproximada pelo vetor de amostras que está abaixo da imagem.
Por fim, para amarrar os conceitos que vimos nesta última parte, precisamos falar sobre a taxa de amostragem (ou sample rate). De nada adianta nós conseguirmos representar um sinal de áudio analógico no formato digital se a qualidade sonora não é boa, certo?! Portanto, é neste contexto que entra o conceito de sample rate.
A taxa de amostragem é definida pelo número de amostras do sinal analógico selecionadas por segundo. Quanto maior a taxa de amostragem, melhor é a representação digital do som, especialmente em frequências mais elevadas (em sons agudos). Lembre-se de que taxas de amostragem elevadas implicam em arquivos maiores. Valores típicos de taxas de amostragem são 48kHz (DVD) e 44,1kHz (CDs). Curiosamente na telefonia é utilizado 8000Hz. Apesar de ser uma taxa de amostragem baixa se comparada com outros valores, a taxa de 8000Hz se mostrou suficiente para nós pudéssemos falar e a outra pessoa do outro lado pudesse entender, por isso se convencionou este valor.
Nas imagens acima, essa explicação fica bem evidente, pois, no canto esquerdo, o gráfico que possui 4 amostras, não consegue fazer uma representação fidedigna do sinal de áudio original. Já no gráfico da direita, o qual possui 9 amostras, é possível observar uma representação bem mais coerente do sinal analógico.
Portanto, pessoal, quando apertamos o play para escutar uma música no Spotify, o sinal digital é convertido em analógico para que possamos ouvir as nossas músicas favoritas. Agora, você já sabe o que acontece por trás do seu simples play. Dessa forma, chegamos ao final deste artigo. Sei que tratei de muitos conceitos, mas espero que eles tenham sido suficientes para você acompanhar todo o conteúdo abordado.
Até o próximo post!
Fontes: