Type de site web classification de pages Web

https://stackoverflow.com/questions/4649625

09-10-2019
|

Question

Y a-t-il des approches fiables / déployées, des algorithmes ou des outils pour le marquage du type de site Web en analysant certaines de ses pages Web.

Pour ex: forums, blogs, sites PressRelease, nouvelles, E-Comm etc.

Je cherche des caractéristiques bien définies (règles statiques) à partir de laquelle il peut être déterminé. Sinon, je l'espère modèle Machine Learning peut aider.

Suggestions / Idées?

La solution

Si vous vous approchez de ce point de vue à partir de l'apprentissage machine, Naive Bayes classificateur a probablement le plus grand rapport travail / gain. Une version de celui-ci est utilisé dans Winnow pour catégoriser les articles de presse.

Vous aurez besoin d'une collection de pages, chaque taggés avec sa catégorie appropriée. Ensuite, vous extraire des mots ou d'autres éléments pertinents de chaque page et les utiliser comme caractéristiques

Dr.Dobbs a article sur la mise en œuvre Naive Bayes

Autres conseils

Si vous êtes intéressé à persuing l'approche naïve Bayes (il y a d'autres options d'apprentissage machine après tout), alors je suggère le document suivant, qui suit la couverture de ce sujet dans « Data Mining: Machine pratique et des outils d'apprentissage techniques », par Witten et Frank:

http: //www.coli.uni-sb .de / ~ crocker / enseignement / connexionniste / lecture10_4up.pdf

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow