Question

Je fais donc un "aimant de réfrigérateur" interactif et j'essayais de comprendre un jeu de données valide pour que les mots doivent faire glisser l'utilisateur.

J'utilise ce jeu de données .. mais ce n'est pas si génial

http://fr.wikipedia.org/wiki/mwikipedia.org/wiki/morglish

et idées où trouver un ensemble de mots plus valide

Était-ce utile?

La solution

Une façon dont vous pouvez le faire vous-même est de télécharger un corpus de texte, puis d'exécuter un script qui compte le numéro de chaque mot qui apparaît. Puis choisissez une certaine valeur n et divisez tous les comptes par n (arrondi). Pour chaque mot, faites un aimant pour chaque compte divisé. Vous devriez choisir n basé sur le nombre d'aimants que vous souhaitez sortir à la fin.

Cela a l'avantage d'avoir la distribution des aimants correspondre à la distribution des mots. Par exemple, si "le" apparaît 1000 fois, "Homme" 320 fois, "marche" 150 fois, et "saute" 2 fois, et que vous choisissez n pour être 100, alors vous finirez par faire Faire 10 "Les" aimants, 3 "homme", 1 "promenades" et 0 "sautent".

Vous voudrez peut-être aussi prendre le logarithme des comptes pour essayer de réduire le biais. Comme les distributions de mots sont Zipfian , vous pourriez vous retrouver avec des milliers de "aimants de chaque" promenades ")).

Enfin, la bonne chose à propos de cette approche est que vous pouvez l'exécuter sur un domaine particulier pour créer un magnet de mots défini pour ce domaine. Par exemple, si vous voulez créer des aimants de mots qui ressemblent à des reportages, alors exécutez-le sur un corpus de nouvelles. Si vous voulez créer des aimants de mots qui sonnent comme des contes de fées, alors passez-le sur un corpus de contes de fées.

Si vous voulez vraiment vous fier, vous pouvez utiliser quelque chose comme TF-IDF à Choisissez les mots les plus représentatifs de ce domaine, puis mélangez-les avec des mots de fonction communs.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top