Uma Breve História da Biometria: Como Surgiu o Reconhecimento de Voz
Este artigo explora a evolução do reconhecimento de voz, desde os primeiros experimentos na década de 1950 até as tecnologias atuais. Aborda os avanços, patentes e desafios na área, incluindo a segurança e a crescente importância da biometria no mundo.
MundiX News·12 de maio de 2026·4 min de leitura·👁 6 views
Acompanhamos a história da biometria, e agora vamos explorar o reconhecimento de voz. A história da biometria de voz geralmente começa com o main frame AUDREY (Automatic Digit Recognizer), criado em 1952 nos Bell Labs. Ele ainda não reconhecia as vozes de pessoas diferentes, mas já as ouvia, o que parecia um milagre na época. Este dispositivo para "ouvir" números, como foi relatado na mídia e na TV, poderia eliminar a necessidade de discar um número, mas só funcionava com a pronúncia clara dos dígitos do número, um por um.
Em seguida, a questão era o software correspondente que pudesse competir com a "inteligência natural" de uma pessoa que reconhece a voz do falante, mesmo sem vê-lo, por exemplo, por telefone, de outra sala, comparando instantaneamente os padrões de timbre, dicção, entonação, velocidade da fala do falante com um banco de dados armazenado no cérebro do ouvinte. E se a voz fosse desconhecida, então enviando suas características para o mesmo banco de dados, onde, se não fossem chocantes demais e não se repetissem, não seriam armazenadas por muito tempo, seriam esquecidas. É claro que, no software, apenas um operador poderia dar o comando para esquecer algo.
O trabalho nessa direção estava em andamento em vários países, inclusive na Ucrânia, no Instituto de Cibernética da Academia de Ciências da Ucrânia, sob a direção do acadêmico Glushkov. Aqueles que desejam podem ler o artigo de 1968 do Dr. Taras Klimovich Vintsyuk, funcionário de Glushkov, doutor em ciências técnicas, "Reconhecimento de fala usando programação dinâmica", publicado, aliás, em inglês na revista Kibernetika (um clone em inglês da revista soviética "Cibernética", que foi publicada nos EUA simultaneamente com os números regulares em nosso país), e frequentemente citado agora em revisões históricas. Mas aconteceu que os líderes nesta área foram os italianos. Uma das primeiras patentes para um "Dispositivo de Verificação de Voz" foi recebida em 1983 por Michele Cavazza e Alberto Chiarella, engenheiros do Centro de Pesquisa de Telecomunicações de Turim (CSELT). Tratava-se da comparação da voz do falante de uma frase de referência com sua própria voz, gravada anteriormente e dizendo a mesma frase. Em 1990, os engenheiros da CSELT receberam uma patente para um sistema de reconhecimento de voz integrado a um microprocessador com arquitetura Harvard, onde a combinação do modelo de Markov oculto e do algoritmo DTW processava sinais de fala. Simplificando, omitindo o léxico de TI, seu microprocessador "com um grande vocabulário", como escreveram seus inventores, poderia reconhecer a fala conectada de uma pessoa específica em tempo real.
A biometria de voz se refere à sua variedade dinâmica, também chamada de comportamental (behaviometrics), em oposição à biometria física (ou estática, ou habitacional) por características externas (impressões digitais, íris, proporções do corpo e rosto) e caligrafia. Mas, recentemente, essa fronteira está se apagando. Por exemplo, ao autenticar por voz, os padrões de movimento dos lábios do falante são adicionados aos padrões de som (ver, por exemplo, esta patente). Na biometria de uma pessoa pelas características de sua caligrafia, ela deixa sua amostra, por exemplo, uma assinatura, não em papel, mas na tela de uma mesa digitalizadora, e o computador digitaliza e memoriza as vibrações características da caneta e sua pressão na tela da mesa digitalizadora. O sistema de codificação de expressões faciais (FACS) foi desenvolvido na década de 1970. Nos anos zero do nosso século, patentes para "sistemas e métodos de codificação automática de expressões faciais" foram emitidas uma após a outra (ver, por exemplo, esta). Até agora, o obstáculo para a introdução em massa dessa biometria para identificação é a falta de amostras para comparação em bancos de dados. Mas se as coisas continuarem assim, em vez de um chip com a foto de seu proprietário em um smartphone ou passaporte, haverá uma gravação em vídeo de como sorrimos, franzimos a testa, piscamos, mostramos a língua, movemos as orelhas (quem sabe). Infelizmente, essas são as despesas da computação biométrica turbulenta. A ameaça dos hackers surgiu em toda a sua extensão já na década de 1990. E em 2001, o que foi dito acima, com a mão leve do chefe do departamento de ciência da computação, a professora Dorothy Denning da Universidade de Georgetown, recebeu o nome de "liveness", ou seja, vivacidade ou animação em russo.
De acordo com a TAdviser, hoje o volume do mercado global de tecnologias biométricas é estimado em US$ 42,6 bilhões, dos quais mais da metade (US$ 23,6 bilhões) corresponde ao mercado de sistemas biométricos de consumo. A previsão para o final deste ano já é de US$ 80 a US$ 100 bilhões. É muito dinheiro, e é claro que os proprietários deste negócio e seus investidores só podem contar com tais taxas de crescimento de receita, desde que seus dispositivos biométricos sejam protegidos de forma confiável contra imitação e roubo direto de biometria de outra pessoa e, consequentemente, o pensamento de engenharia e invenção será estimulado em primeiro lugar na área de proteção.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
Acompanhamos a história da biometria, e agora vamos explorar o reconhecimento de voz. A história da biometria de voz geralmente começa com o main frame AUDREY (Automatic Digit Recognizer), criado em 1952 nos Bell Labs. Ele ainda não reconhecia as vozes de pessoas diferentes, mas já as ouvia, o que parecia um milagre na época. Este dispositivo para "ouvir" números, como foi relatado na mídia e na TV, poderia eliminar a necessidade de discar um número, mas só funcionava com a pronúncia clara dos dígitos do número, um por um.
Em seguida, a questão era o software correspondente que pudesse competir com a "inteligência natural" de uma pessoa que reconhece a voz do falante, mesmo sem vê-lo, por exemplo, por telefone, de outra sala, comparando instantaneamente os padrões de timbre, dicção, entonação, velocidade da fala do falante com um banco de dados armazenado no cérebro do ouvinte. E se a voz fosse desconhecida, então enviando suas características para o mesmo banco de dados, onde, se não fossem chocantes demais e não se repetissem, não seriam armazenadas por muito tempo, seriam esquecidas. É claro que, no software, apenas um operador poderia dar o comando para esquecer algo.
O trabalho nessa direção estava em andamento em vários países, inclusive na Ucrânia, no Instituto de Cibernética da Academia de Ciências da Ucrânia, sob a direção do acadêmico Glushkov. Aqueles que desejam podem ler o artigo de 1968 do Dr. Taras Klimovich Vintsyuk, funcionário de Glushkov, doutor em ciências técnicas, "Reconhecimento de fala usando programação dinâmica", publicado, aliás, em inglês na revista Kibernetika (um clone em inglês da revista soviética "Cibernética", que foi publicada nos EUA simultaneamente com os números regulares em nosso país), e frequentemente citado agora em revisões históricas. Mas aconteceu que os líderes nesta área foram os italianos. Uma das primeiras patentes para um "Dispositivo de Verificação de Voz" foi recebida em 1983 por Michele Cavazza e Alberto Chiarella, engenheiros do Centro de Pesquisa de Telecomunicações de Turim (CSELT). Tratava-se da comparação da voz do falante de uma frase de referência com sua própria voz, gravada anteriormente e dizendo a mesma frase. Em 1990, os engenheiros da CSELT receberam uma patente para um sistema de reconhecimento de voz integrado a um microprocessador com arquitetura Harvard, onde a combinação do modelo de Markov oculto e do algoritmo DTW processava sinais de fala. Simplificando, omitindo o léxico de TI, seu microprocessador "com um grande vocabulário", como escreveram seus inventores, poderia reconhecer a fala conectada de uma pessoa específica em tempo real.
A biometria de voz se refere à sua variedade dinâmica, também chamada de comportamental (behaviometrics), em oposição à biometria física (ou estática, ou habitacional) por características externas (impressões digitais, íris, proporções do corpo e rosto) e caligrafia. Mas, recentemente, essa fronteira está se apagando. Por exemplo, ao autenticar por voz, os padrões de movimento dos lábios do falante são adicionados aos padrões de som (ver, por exemplo, esta patente). Na biometria de uma pessoa pelas características de sua caligrafia, ela deixa sua amostra, por exemplo, uma assinatura, não em papel, mas na tela de uma mesa digitalizadora, e o computador digitaliza e memoriza as vibrações características da caneta e sua pressão na tela da mesa digitalizadora. O sistema de codificação de expressões faciais (FACS) foi desenvolvido na década de 1970. Nos anos zero do nosso século, patentes para "sistemas e métodos de codificação automática de expressões faciais" foram emitidas uma após a outra (ver, por exemplo, esta). Até agora, o obstáculo para a introdução em massa dessa biometria para identificação é a falta de amostras para comparação em bancos de dados. Mas se as coisas continuarem assim, em vez de um chip com a foto de seu proprietário em um smartphone ou passaporte, haverá uma gravação em vídeo de como sorrimos, franzimos a testa, piscamos, mostramos a língua, movemos as orelhas (quem sabe). Infelizmente, essas são as despesas da computação biométrica turbulenta. A ameaça dos hackers surgiu em toda a sua extensão já na década de 1990. E em 2001, o que foi dito acima, com a mão leve do chefe do departamento de ciência da computação, a professora Dorothy Denning da Universidade de Georgetown, recebeu o nome de "liveness", ou seja, vivacidade ou animação em russo.
De acordo com a TAdviser, hoje o volume do mercado global de tecnologias biométricas é estimado em US$ 42,6 bilhões, dos quais mais da metade (US$ 23,6 bilhões) corresponde ao mercado de sistemas biométricos de consumo. A previsão para o final deste ano já é de US$ 80 a US$ 100 bilhões. É muito dinheiro, e é claro que os proprietários deste negócio e seus investidores só podem contar com tais taxas de crescimento de receita, desde que seus dispositivos biométricos sejam protegidos de forma confiável contra imitação e roubo direto de biometria de outra pessoa e, consequentemente, o pensamento de engenharia e invenção será estimulado em primeiro lugar na área de proteção.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.