Come funziona la diarizzazione del diffusore Lium?

https://stackoverflow.com//questions/21041819

21-12-2019
|

Domanda

Nel mio progetto, sto usando la libreria chiamata Lium_spkdiarization-4.7.jar, ma non sono sicuro di come funziona.Qualcuno potrebbe, per favore, spiegalo un po '?

Inoltre, lo sto usando con Python.

Il link alla biblioteca è: https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/lium_spkdiarization-4.7.jar

Grazie in anticipo.

Soluzione

Non ero a conoscenza di questo strumento. Sembra davvero bello. Hai controllato il loro wiki? Hanno alcuni documenti su come funziona il sistema: http://lium3.univ-lemans.fr /diarization/doku.php

Fondamentalmente, calcolano i coefficienti Cepstrum Frequenza MFCC (tecnica standard). Questo è il passo fondamentale. Genera uno spazio caratteristica con cui lavorare. È simile al computing FFT sulla finestra scorrevole in tempo. In definitiva il clustering viene eseguito su queste caratteristiche a fette del tempo utilizzando metodi (BIC) di criteri di informazione Bayesian. Prima di segmentare lo spazio delle caratteristiche basato sul tempo, quindi per cluster e trovare funzionalità coerenti per ciascun diffusore. Hmm, Viterbi, EM, e talvolta possono essere utilizzati anche GMM.

Non conosco l'algoritmo abbastanza bene da spiegarlo in dettaglio, ma questo dovrebbe anche aiutare: http://lium3.univ-lemans.fr/diarization/doku.php/overview

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow