センチメント分析用のシードデータ [終了]
-
20-09-2019 - |
質問
私はセンチメント分析を試していて、シード データを探しています。無料の辞書はありますか?
それは非常に簡単です:「ポジティブ」「ネガティブ」「ニュートラル」の3つのテキスト/文章のセット。巨大である必要はありません。
最終的には、特定のユースケースに合わせて独自のシード データを生成することになるでしょうが、構築中に今すぐ遊べるものがあれば素晴らしいと思います。
解決
ビン・リウとミンチン・フー UIC からのデータセットは多数あります。
- http://www.cs.uic.edu/~liub/FBS/CustomerReviewData.zip
- http://www.cs.uic.edu/~liub/FBS/Reviews-9-products.rar
ボーパン コーネル大学からは他にもいくつかあります。
他のヒント
、多くの著者は、手動で構築されたリスト、独断用語のリストを取得するための他の半自動化された方法に基づいた作品を発表しています。一つの良い方法は、関係を使用して、正/負の単語のコアを拡張することによって、 WordNetののデータベースからそれを導出することです同義語などのような。
手動で構築されたリストの良い例は、一般クワイアです。
リストを導出半自動化方法については、Esuliとセバスから SentiWordNet にチェックしてください。
私は信じているこれらは、研究のために一般的に利用可能であるが、あなたは非研究目的のために、これらのリソースの使用に関する著者と連絡を取得する必要があります。
B
あなたがここにAFINN単語リストを使用することができます:
http://www2.imm.dtu.dk/ pubdb /ビュー/ publication_details.php?ID = 6010 の
AFINNは、整数と価電子の定格英語の単語のリストです。 マイナス5(マイナス)とプラス5(正)の間。言葉が持っています 手動2009-2011にフィンアラップニールセンによって標識されました。ファイルがあります タブ区切り。 2つのバージョンがあります:
AFINN-111:2477個の単語やフレーズを持つ最新バージョン
AFINN-96:1480個の行に1468個のユニークな単語やフレーズ。なお、そこに いくつかの単語が2回表示されているとして1480行が、あります。ないで単語リスト 完全にアルファベットの順序インチ
私は感情分析(私のAFINNはそのうちの一つである。)のためのコーパスと単語リストのリストを維持します
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora >
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists >