Исходные данные для анализа настроений [закрыты]
-
20-09-2019 - |
Вопрос
Я играю с анализом настроений и ищу некоторые исходные данные.Есть ли где-нибудь бесплатный словарь?
Это может быть действительно просто:3 набора текстов / предложений, обозначающих "позитивный", "негативный", "нейтральный".Это не обязательно должно быть огромным.
В конце концов я, вероятно, сгенерирую свои собственные исходные данные для моего конкретного варианта использования, но было бы здорово иметь с чем поиграть сейчас, пока я создаю эту штуку.
Решение
Бин Лю и Миньцин Ху у UIC есть несколько наборов данных:
- http://www.cs.uic.edu /~liub/FBS/CustomerReviewData.zip
- http://www.cs.uic.edu /~liub/FBS/Reviews-9-products.rar
Бо Панг у Корнелла есть еще кое-что.
Другие советы
Если вас интересуют словари сентиментальности, многие авторы представили работы, основанные на списках, составленных вручную, и других полуавтоматических методах получения списков выражающих мнение терминов.Один хороший подход состоит в том, чтобы вывести его из Сеть слов база данных, расширяя ядро положительных / отрицательных слов, используя отношения, такие как синонимы и т.д.
Хорошим примером созданного вручную списка является Общий Дознаватель.
Для полуавтоматического метода, который выводит списки, ознакомьтесь Сеть SentiWordNet от Эсули и Себастьяни.
Я полагаю, что они, как правило, доступны для исследований, но вам, возможно, потребуется связаться с авторами относительно использования этих ресурсов в неисследовательских целях.
B.
Вы можете использовать список слов AFINN здесь:
http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010
AFINN - это список английских слов, оцененных по валентности целым числом от минус пяти (отрицательный) до плюс пяти (положительный).Слова были помечены вручную Финном Орупом Нильсеном в 2009-2011 годах.Файл разделен табуляцией .Есть две версии:
АФИНН-111:Новейшая версия с 2477 словами и фразами.
АФИНН-96:1468 уникальных слов и фраз на 1480 строках.Обратите внимание, что там 1480 строк, так как некоторые слова перечислены дважды.Список слов в not полностью в алфавитном порядке.
Я веду список корпусов и списков слов для анализа настроений (где мой AFINN является одним из них).:
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists