Comment inclure des mots comme fonction numérique dans le classement

https://stackoverflow.com/questions/4207057

25-09-2019
|

Question

Quelle est la meilleure méthode pour utiliser les mots se que les caractéristiques de tout algorithme d'apprentissage automatique?

Le problème que je dois extraire caractéristique liée mot d'un paragraphe. Dois-je utiliser l'index dans le dictionnaire comme la fonction numérique? Si oui, comment vais-je normaliser ces?

En général, comment les mots s'utilisés comme fonctionnalités de la PNL?

La solution

Il existe plusieurs techniques classiques par lesquelles mots sont mappés à Caractéristique (colonnes dans une matrice de données 2D dans laquelle les rangées sont les vecteurs de données individuels) pour l'entrée de la machine des modèles d'apprentissage classement :.

booléen domaine qui code pour la présence ou l'absence de ce mot dans un document donné;
histogramme de fréquence d'un ensemble prédéterminé de mots, souvent les X les plus fréquents mots parmi tous les documents comprenant les données de formation (plus sur celui-ci dans le dernier paragraphe de cette réponse);
juxtaposition de deux ou plusieurs les mots (par exemple, « alternative » et « Style de vie » pour avoir consécutive un sens non lié soit mot composant); Cette juxtaposition peut être soit capturé dans le modèle de données elle-même, par exemple, une fonction booléenne qui représente la présence ou l'absence de deux mots particuliers directement adjacents les uns aux autres dans un document, ou cette relation peut être exploitée dans la technique ML, comme un naïf classificateur bayésien ferait en l'occurrence Accentué texte
mots en tant que données premières pour extraire des caractéristiques latentes , par exemple, LSA ou latent Semantic Analysis (parfois appelé LSI pour l'indexation sémantique latente). LSA est une technique à base de décomposition à matrice qui dérive des variables latentes du texte ne ressort pas des mots du texte lui-même.

A des données de référence commun définis dans l'apprentissage de la machine est composé de fréquences de 50 ou plus de mots les plus communs, aka "mots vides" (par exemple, a , un , de , et , la , il , si ) pour les œuvres publiées de Shakespeare, Londres, Austen, et Milton. Un perceptron multicouche de base avec une seule couche cachée peut séparer cet ensemble de données avec une précision de 100%. Cet ensemble de données et les variations sur elle sont largement disponibles dans ML Référentiels de données et classement présentation les résultats sont également communs.

Autres conseils

approche standard est la représentation « sac-de-mots » où vous avez une caractéristique par mot, ce qui donne « 1 » si le mot se produit dans le document et « 0 » si elle ne se produit pas.

Cela donne beaucoup de fonctionnalités, mais si vous avez un exemple simple apprenant comme Naive Bayes, qui est encore OK.

« Index dans le dictionnaire » est une fonctionnalité inutile, je ne l'utilise.

-idf tf est un moyen assez standard de transformer les paroles en caractéristiques numériques.

Vous devez vous rappeler d'utiliser un algorithme d'apprentissage qui prend en charge featuers numériques, comme rel="nofollow"> SVM. Naive Bayes ne supporte pas les caractéristiques numériques.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow