Question

Dites que vous voulez prendre définir entrée des données phonétiques CMU que ressemble à ceci:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(Le mot est à gauche, à droite sont une série de phonèmes, clé ici )

Et vous voulez l'utiliser comme données de formation d'un système d'apprentissage de la machine qui prendrait de nouveaux mots et de deviner comment ils seraient prononcés en anglais.

Il est pas si évident pour moi au moins parce qu'il n'y a pas une taille de jeton fixe de lettres qui pourraient possible carte à un phonème. J'ai le sentiment que quelque chose à voir avec une chaîne de Markov pourrait être la bonne façon de faire.

Comment voulez-vous faire?

Était-ce utile?

La solution

Le problème est appelé conversion graphème-phonème, un sous-problème de traitement du langage naturel . Google évoque quelques papiers.

Autres conseils

Pas tout à fait mon champ, mais peut-être construire un réseau de neurones avec plusieurs couches -. Couches antérieures deviner la division des mots en syllabes successives, les couches plus tard à deviner la prononciation des syllabes dites

Mise en place d'un réseau de neurones ANFIS-apprentissage est assez simple pour les données numériques, des données littérales / phonétiques la tâche est sans aucun doute plusieurs commandes plus complexes.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top