Hai bisogno di testo per gli strumenti linguistici e di riconoscimento vocale per Linux

https://stackoverflow.com/questions/877508

22-08-2019
|

Domanda

Sto pensando di scrivere un programma per Linux che usa text to speech e riconoscimento vocale. Quali sono i migliori strumenti / librerie per questo? Dovrei usare Windows anziché essere in grado di utilizzare gli strumenti migliori? Gli strumenti devono essere facilmente richiamabile da un programma console o C.

Soluzione

Per il riconoscimento vocale ci sono vari Sfingi . Le diverse varianti hanno diversi pro e contro, v'è un confronto qui Confronto di versioni Sfinge . Sphinx 4 è Java, ma gli altri sono C, credo.

Altri suggerimenti

Dipende un po 'su quello che il discorso che si sta tentando di riconoscere.

Questo è un articolo dal 2005 che spiega alcune delle difficoltà nella creazione di un programma di dettatura: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html . Se si vuole che, il rel="nofollow motore di riconoscimento vocale Giulio sembra promettente, ma sarà necessario aggiungere la propri modelli acustici e linguistici. Potreste essere in grado di utilizzare la href="http://www.voxforge.org/" rel="nofollow noreferrer"> voxforge modello acustico

Se non si sta tentando di scrivere un programma di dettatura allora avete un compito molto più facile. programmi di comando hanno vocabolari limitati, ad esempio, 'Se si desidera continuare in inglese, dire 'inglese''.

Sono stato in grado di ottenere buoni risultati utilizzando pocketsphinx e gstreamer per rendere un programma che automaticamente edita la maggior parte delle occorrenze della parola " Twitter " out of the TWiT podcast. Non ha funzionato per niente fino a quando ho usato il mio modello di linguaggio basato su trascrizioni di podcast; le trascrizioni di macchina dal riconoscitore vocale sono inutili / esilaranti, ma fanno un lavoro va bene di trovare la parola.

Per il riconoscimento vocale esiste molto poco per Linux. Io fossi a conoscenza solo di un'opzione a quanto pare decente, qualcosa di IBM ha rilasciato qualche anno fa, ma poi non è più stato reso disponibile (qualcuno sa se questo ViaVoice SDK è ancora possibile entrare in possesso di da qualunque luogo?). Ci sono alcuni ulteriori informazioni sulle possibili opzioni a wikipedia .

Ho usato sia Loquendo e Festival sotto linux. Vorrei prendere in considerazione le voci del festival che ho usato piuttosto scarsa, con la sintesi molto robotico. Le voci Loquendo, d'altra parte, sono eccellenti - molto alta qualità.

Per Debian / Ubuntu text-to-speech c'è anche SVOX Pico:

sudo apt-get install libttspico-utils

Espeak è un ottimo programma di text-to-speech per linux (che può anche fare diversi accenti!), ma non so di eventuali sistemi di riconoscimento vocale progettati per UNIX.

AT & T toolkit FSM è anche abbastanza impressionante - nessun uso commerciale consentito però,

http://www.research.att.com/~fsmtools/fsm/

Questo è un po 'vecchio, ma ho visto che una guida abbastanza completo il riconoscimento vocale su metaltech qualche giorno fa: http://hackaday.com/2010/07/09 / get-iniziato-con-il riconoscimento vocale /

http://simon-listens.org/ - speech simon open-source / programma di riconoscimento vocale

E poi c'è MBROLA per text to speech.

Hai controllato la sintesi vocale HMM-based per il testo-to-speech. È possibile trovare la demo gratuita sul sito http://hts.sp.nitech.ac.jp/ . L'installazione sarà poco noioso.

La domanda originale era di trovare le librerie adatte, lo so, ma da quanto utilizza il riconoscimento vocale abbastanza buono per davvero la dettatura, non sembra esserci niente là fuori per Linux (anche se sono sicuro che cambierà nel tempo, Sospetto che ci vorrà un po ', come io non sono sicuro che molte persone sono interessate).

Al momento sto cercando di promuovere il Dragon NaturallySpeaking come un prodotto supportato da CodeWeavers ... quindi se siete interessati come utente sarebbe utile se si desidera esprimere un voto ...

http://www.codeweavers.com/compatibility/browse/name /? APP_ID = 8427

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow