Какой набор инструментов НЛП использовать в JAVA?[закрыто]

https://stackoverflow.com/questions/895893

23-08-2019
|

Вопрос

Я работаю над проектом, который состоит из веб-сайта, который подключается к NCBI (Национальный центр биотехнологической информации) и осуществляет поиск статей там.Дело в том, что мне нужно провести анализ текста по всем результатам.Я использую язык JAVA для текстового анализа и AJAX с ICEFACES для разработки веб-сайта.Что у меня есть :Список статей, возвращенных в результате поиска.Каждая статья имеет идентификатор и аннотацию.Идея состоит в том, чтобы получить ключевые слова из каждого абстрактного текста.А затем сравнить все ключевые слова из всех тезисов и найти наиболее повторяющиеся.Затем покажите на сайте соответствующие слова для поиска.Есть идеи ?Я много искал в Интернете и знаю, что есть распознавание именованных объектов, маркировка частей речи, есть тезаурус GENIA для NER по генам и белкам, я уже пробовал стемминг...Списки стоп-слов и т. д.Мне просто нужно знать лучший способ решения этой проблемы.Большое спасибо.

Решение

я бы порекомендовал вам использовать комбинацию тегов POS, а затем токенизацию строк, чтобы извлечь все существительные из каждого аннотации.затем используйте какой-то словарь/хэш, чтобы подсчитать частоту каждого из этих существительных, а затем вывести N наиболее плодовитых существительных.объединение этого с некоторыми другими интеллектуальными механизмами фильтрации должно достаточно хорошо давать вам важные ключевые слова из абстрактного
для маркировки POS воспользуйтесь тегером POS по адресу http://nlp.stanford.edu/software/index.shtml

Однако, если вы ожидаете, что в вашем корпусе будет много терминов, состоящих из нескольких слов.вместо того, чтобы извлекать только существительные, вы могли бы взять самые плодовитые n-граммы для n=2–4

Другие советы

Для этого есть проект Apache...Я не использовал его, но, ОпенНЛП проект Apache с открытым исходным кодом.Он находится в инкубаторе, поэтому, возможно, немного сырой.

Этот пост от кафе поисковая система Джеффа имеет ряд других предложений.

Это также может быть актуально:https://github.com/jdf/cue.language

Он имеет стоп-слова, частоты слов и нграмм, ...

Это часть программного обеспечения Вордл.

В итоге я использовал Трубка псевдонима Линг

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow