Question

Je travaille sur un projet qui se compose d'un site Web qui se connecte au NCBI (Centre national d'information sur la biotechnologie) et recherche des articles là-bas. La chose est que je dois faire des mines de texte sur tous les résultats. J'utilise le langage JAVA pour et AJAX fouille de textes Icefaces pour le développement du site.  Qu'est-ce que j'ai : Une liste des articles retournés lors d'une recherche. Chaque article a une carte d'identité et un résumé. L'idée est d'obtenir des mots clés de chaque texte abstrait. Et puis comparer tous les mots-clés de tous les résumés et trouver ceux qui sont les plus répétées. Alors montrer sur le site les mots connexes pour la recherche. Des idées ? Je cherchai beaucoup dans le web, et je sais qu'il est nommé entité de reconnaissance, Vue partielle marquage discours, il y a Teh thésaurus GENIA pour NER sur les gènes et les protéines, je l'ai déjà essayé ... Stop issues des listes de mots, etc ... J'ai juste besoin de connaître le meilleur aproahc pour résoudre ce problème. Merci beaucoup.

Était-ce utile?

La solution

Je recommande d'utiliser une combinaison de marquage POS et chaîne tokenizing pour extraire tous les noms de chaque résumé .. puis utilisez une sorte de dictionnaire / hachage pour compter la fréquence de chacun de ces noms, puis sortir la N la plupart des noms prolifiques .. combinant cela avec d'autres mécanismes de filtrage intelligents devraient raisonnablement bien en vous donnant les mots-clés importants de l'abstrait
pour le marquage POS consultez POS tagger http://nlp.stanford.edu/software/index. shtml

Cependant, si vous attendez beaucoup de termes à plusieurs mots dans votre corps .. au lieu d'extraire seulement les noms, vous pouvez prendre le plus prolifique n-grammes pour n = 2 à 4

Autres conseils

Il y a un projet Apache pour ça ... Je ne l'ai pas utilisé mais, OpenNLP un projet open source Apache. Il est dans l'incubateur il peut-être un peu cru.

Ce message de café du moteur de recherche de jeff a un certain nombre d'autres suggestions.

Cela pourrait être aussi bien pertinent: https://github.com/jdf/cue.language

Il a arrêter des mots, la fréquence des mots et Ngram, ...

Il fait partie du logiciel derrière Wordle .

Je fini par utiliser le Alias`i Ling pipe

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top