Comment puis-je obtenir un sous-ensemble des pages de Wikipédia?

https://stackoverflow.com/questions/1320475

19-09-2019
|

Question

Comment puis-je obtenir un sous-ensemble (disons 100 Mo) des pages de Wikipédia? Je l'ai trouvé, vous pouvez obtenir l'ensemble des données en XML mais son plus comme 1 ou 2 concerts; Je ne ai pas besoin tant que ça.

Je veux expérimenter la mise en œuvre d'un algorithme de carte-reduce.

Cela dit, si je pouvais trouver 100 megs une valeur de données d'échantillons textuelle de partout, qui serait également bon. Par exemple. la base de données débordement de pile, si elle est disponible, serait peut-être une bonne taille. Je suis ouvert aux suggestions.

Edit: Tout qui ne sont pas des torrents? Je ne peux pas ceux au travail.

La solution

La base de données stackoverflow est disponible pour téléchargement .

Autres conseils

Chris, vous pouvez simplement écrire un petit programme pour frapper le lien Wikipédia « Page au hasard » jusqu'à ce que vous obtenez 100 Mo de pages web: http://en.wikipedia.org/wiki/Special:Random . Vous voulez jeter les doublons que vous pourriez obtenir, et vous pouvez également limiter le nombre de demandes que vous faites par minute (même si une fraction des articles sera servi par des caches Web intermédiaires, pas des serveurs Wikipedia). Mais il devrait être assez facile.

Si vous voulez obtenir une copie de la base de données de stackoverflow, vous pouvez le faire à partir de creative commons sauvegarde de données .

Par curiosité, qu'est-ce que vous utilisez toutes ces données pour?

Une option consiste à télécharger l'ensemble de décharge Wikipedia, et utilisez seulement une partie de celui-ci. Vous pouvez décomprimer la chose entière puis utiliser un script simple pour diviser le fichier en plusieurs petits fichiers (par exemple Wikipédia Dump lecteur peut par votre l'inspiration pour décomprimer et le traitement à la volée, si vous êtes à l'aise avec python (regarder mparser.py).

Si vous ne souhaitez pas télécharger la chose entière, vous vous retrouvez avec la possibilité de les raclant. fonctionnalité d'exportation pourrait être utile pour cela, et < a href = "http://meta.wikimedia.org/wiki/Using_the_python_wikipediabot" rel = "nofollow noreferrer"> wikipediabot a également été suggéré dans ce contexte.

Vous pouvez utiliser un robot web et gratter 100 Mo de données?

Il y a beaucoup de wikipedia décharges disponibles. Pourquoi voulez-vous de choisir le plus grand (wiki anglais)? archives Wikinews sont beaucoup plus petits.

Un plus petit sous-ensemble d'articles Wikipédia comprend les articles wiki 'meta'. Ceci est dans le même format XML que l'ensemble de ces données de l'article, mais plus petit (environ 400 Mo à partir de Mars 2019), de sorte qu'il peut être utilisé pour la validation des logiciels (par exemple le test des scripts GenSim).

https://dumps.wikimedia.org/metawiki/latest/

Vous voulez chercher tous les fichiers avec le suffixe -articles.xml.bz2.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow