Um avanço significativo na inteligência artificial permite que dispositivos reconheçam uma vasta gama de sons ambientais de forma autônoma e em tempo real. O projeto ced.cpp, uma implementação em C++ da modelo CED desenvolvida pela Xiaomi, foi apresentado por Ettore Di Giacinto. Esta inovação promete revolucionar a forma como interagimos com a tecnologia, permitindo que computadores e outros dispositivos não apenas respondam a comandos de voz, mas também compreendam o ambiente ao seu redor através de sons cotidianos.
O grande diferencial do ced.cpp reside em sua capacidade de operar localmente, sem depender de serviços em nuvem ou de hardware de ponta. A adaptação da modelo original para rodar sem Python e sem a necessidade de GPUs potentes significa que a classificação de áudio acontece diretamente no dispositivo, mesmo em processadores mais modestos. O código, disponível no GitHub, processa fragmentos de áudio e os classifica em uma das 527 categorias do conjunto de dados AudioSet. Isso inclui desde fala e música até sons específicos como latidos de cachorro, passos, alarmes, aplausos, ruído de trânsito e o som característico de vidro quebrando. A capacidade de identificar múltiplos eventos sonoros simultaneamente, como voz, música e ruído externo, amplia ainda mais suas aplicações.
O foco em operação local e baixos requisitos de hardware torna o ced.cpp ideal para uma variedade de dispositivos. Uma versão compacta da modelo ocupa apenas 6 MB, sendo compatível com sistemas como o Raspberry Pi. Além disso, o projeto foi integrado ao LocalAI como um backend independente, permitindo o reconhecimento de eventos sonoros via API e em modo de streaming em tempo real. Os desenvolvedores relatam que o ced.cpp supera a implementação original em PyTorch em velocidade e consumo de memória, com acelerações de até 1,55 vezes e tempos de reconhecimento de áudio de aproximadamente 55 milissegundos em CPUs. As aplicações práticas são vastas, abrangendo desde sistemas de automação residencial e assistentes virtuais que reagem a sons como batidas na porta ou choro de bebê, até sistemas de monitoramento e robótica, onde a capacidade de 'ouvir' o ambiente sem enviar dados para a nuvem é crucial. Embora a modelo ainda não compreenda o contexto como um humano, sua capacidade de correlacionar sinais de áudio com classes conhecidas, aliada à sua acessibilidade e flexibilidade, posiciona o ced.cpp como uma base promissora para o desenvolvimento de dispositivos mais inteligentes e responsivos ao seu entorno.







