Question

Quelle est la meilleure façon d'analyser les grands textes (5000 mots et plus), des noms à la recherche, qui sont stockés dans une base de données? Les textes seront plusieurs langues.

Ma première idée est une approche plutôt naïve, en prenant tous les mots commençant par une grande lettre et les comparer à la base de données. Mais cette tendance à l'échec dans les textes contenant des lettres minuscules seulement.

Modifier Les textes ne sont pas statiques, mais dynamiques (par exemple des sites Web)

Best

Mac

Était-ce utile?

Autres conseils

Vous pouvez utiliser le algorithme Aho-Corasick , et construire un dictionnaire avec le Les noms que vous essayez de faire correspondre. Il est linéaire dans le nombre de jetons dans le texte ainsi que le nombre de noms correspondants.

Vous aurez besoin d'un dictionnaire de noms.

Ou vous pouvez http://www.opencalais.com/ qui connaît une très grande collection des noms.

J'ai fait une méthode pour remplacer plusieurs chaînes dans un grand texte ici: Une meilleure façon de remplacer de nombreuses chaînes - obscurcissement en C # . Peut-être que vous pouvez utiliser le même principe.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top