Verizon SongID - Come viene programmato?

https://stackoverflow.com/questions/2884879

04-10-2019
|

Domanda

Per chi non ha familiarità con il programma SongID di Verizon, si tratta di un'applicazione scaricabile gratuitamente attraverso la rete di Verizon VCast. Si ascolta una canzone per 10 secondi in qualsiasi momento durante la canzone e quindi invia questi dati in una certa onnisciente bestia algoritmico che mastica in su e vi manda indietro tutto l'ID3 tag (artista, album, canzone, ecc ...)

Le prime due parti e ultima parte sono semplici, ma ciò che accade durante l'elaborazione dopo che il suono registrato viene inviato?

I capire che deve prendere il file audio (quale formato?), Analizzarlo (come? Con che cosa?) Per alcuni identificatori chiave (Cosa sono? Attributi regolari di funzioni d'onda? Fase / shift / ampiezza / etc), e controllare rispetto a un database.

Tutto ciò che trovare on-line su come funziona è qualcosa di generico come quello che ho scritto sopra.

audiotag.info

Il servizio si basa su un sofisticato riconoscimento audio algoritmo che combina audio avanzato La tecnologia delle impronte digitali e un grande database di canzoni. Quando si carica un file audio, è in fase di analisi da parte di un motore audio. Durante l'analisi il suo audio “impronta digitale” viene estratto e identificati confrontando al database musicale. Al termine del questo processo di riconoscimento, le informazioni canzoni che parlano con la loro corrispondenza le probabilità vengono visualizzati sullo schermo.

Soluzione

Tutti questi servizi lavoro prendendo una "impronta digitale" dai dati audio campionati sul lato client, inviarlo a un server e nel confronto con un database delle impronte digitali.

Uno degli sviluppatori di Shazam ha scritto un estremamente informativo white paper su come la tecnologia funziona. Questo dovrebbe dare tutte le informazioni di cui avete bisogno.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow