datos de semillas para el análisis de sentimiento [cerradas]
-
20-09-2019 - |
Pregunta
Estoy jugando con el análisis de opiniones, y yo estoy buscando algunos datos de semillas. ¿Hay un diccionario libre alrededor?
Puede ser muy simple: 3 series de textos / frases, por "positivo", "negativo", "neutral". No tiene que ser enorme.
Con el tiempo probablemente voy a crear mis propios datos de semillas para mi caso de uso específico, pero sería bueno tener algo con que jugar ahora mientras estoy construyendo la cosa.
Solución
Bing Liu y Minqing Hu de la UIC tienen un número de conjuntos de datos:
- http://www.cs.uic.edu/~liub /FBS/CustomerReviewData.zip
- http: //www.cs.uic. edu / ~ liub / FBS / Descripciones-9-products.rar
Bo Pang de Cornell tiene un poco más.
Otros consejos
Si está interesado en los diccionarios sentimiento, muchos autores han presentado trabajos sobre la base de listas integradas de forma manual, y otros métodos semi automáticos para la obtención de listas de términos pertinaces. Un buen método es derivar desde el WordNet base de datos, mediante la extensión de un núcleo de palabras positivas / negativas utilizando relaciones como sinónimos, etc.
Un buen ejemplo de una lista integrada de forma manual es la general Inquirer .
Para un método automatizado semi que deriva listas, visita SentiWordNet de Esuli y Sebastiani.
Estos Creo que están generalmente disponibles para la investigación, pero puede que tenga que ponerse en contacto con los autores con respecto a la utilización de estos recursos para fines no de investigación.
B.
Puede utilizar la lista de palabras AFINN aquí:
http://www2.imm.dtu.dk/ pubdb / views / publication_details.php? id = 6010
AFINN es una lista de palabras en inglés clasificados para valencia con un entero entre menos cinco (negativo) y más cinco (positivo). Las palabras tienen sido etiquetado manualmente por Finn Årup Nielsen en 2009-2011. El archivo es separado por tabulaciones. Hay dos versiones:
AFINN-111:. La versión más reciente de 2477 palabras y frases
AFINN-96: 1468 palabras únicas y frases en 1480 líneas. Tenga en cuenta que hay son 1480 líneas, ya que algunas palabras aparecen dos veces. La lista de palabras en no enteramente en orden alfabético.
Mantener una lista de los corpus y listas de palabras para el análisis de opiniones (donde mi AFINN es uno de ellos):
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists