Les noms de recherche dans les grands textes

https://stackoverflow.com/questions/1451233

12-09-2019
|

Question

Quelle est la meilleure façon d'analyser les grands textes (5000 mots et plus), des noms à la recherche, qui sont stockés dans une base de données? Les textes seront plusieurs langues.

Ma première idée est une approche plutôt naïve, en prenant tous les mots commençant par une grande lettre et les comparer à la base de données. Mais cette tendance à l'échec dans les textes contenant des lettres minuscules seulement.

Modifier Les textes ne sont pas statiques, mais dynamiques (par exemple des sites Web)

Best

Mac

La solution

Utilisez vos SGBDR de capacités d'indexation en texte intégral intégré.

recherche de texte intégral (SQL Server)

MySQL en texte intégral Fonctions de recherche

indexation de texte intégral en utilisant Oracle Text

Autres conseils

Vous pouvez utiliser le algorithme Aho-Corasick , et construire un dictionnaire avec le Les noms que vous essayez de faire correspondre. Il est linéaire dans le nombre de jetons dans le texte ainsi que le nombre de noms correspondants.

Vous aurez besoin d'un dictionnaire de noms.

Ou vous pouvez http://www.opencalais.com/ qui connaît une très grande collection des noms.

J'ai fait une méthode pour remplacer plusieurs chaînes dans un grand texte ici: Une meilleure façon de remplacer de nombreuses chaînes - obscurcissement en C # . Peut-être que vous pouvez utiliser le même principe.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow