Come funziona la diarizzazione del diffusore Lium?
Domanda
Nel mio progetto, sto usando la libreria chiamata Lium_spkdiarization-4.7.jar, ma non sono sicuro di come funziona.Qualcuno potrebbe, per favore, spiegalo un po '?
Inoltre, lo sto usando con Python.
Il link alla biblioteca è: https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/lium_spkdiarization-4.7.jar
Grazie in anticipo.
Soluzione
Non ero a conoscenza di questo strumento. Sembra davvero bello. Hai controllato il loro wiki? Hanno alcuni documenti su come funziona il sistema: http://lium3.univ-lemans.fr /diarization/doku.php
Fondamentalmente, calcolano i coefficienti Cepstrum Frequenza MFCC (tecnica standard). Questo è il passo fondamentale. Genera uno spazio caratteristica con cui lavorare. È simile al computing FFT sulla finestra scorrevole in tempo. In definitiva il clustering viene eseguito su queste caratteristiche a fette del tempo utilizzando metodi (BIC) di criteri di informazione Bayesian. Prima di segmentare lo spazio delle caratteristiche basato sul tempo, quindi per cluster e trovare funzionalità coerenti per ciascun diffusore. Hmm, Viterbi, EM, e talvolta possono essere utilizzati anche GMM.
Non conosco l'algoritmo abbastanza bene da spiegarlo in dettaglio, ma questo dovrebbe anche aiutare: http://lium3.univ-lemans.fr/diarization/doku.php/overview