Frage

Ich versuche, die Liste der Personen aus dem http zu bekommen: //en.wikipedia. org / wiki / Kategorie: People_by_occupation . Ich muss alle Abschnitte durchlaufen und die Leute aus jedem Abschnitt.

Wie soll ich vorgehen? Sollte ich einen Crawler verwenden und die Seiten bekommen und suchen durch diejenigen mit BeautifulSoup?
Oder gibt es eine andere Alternative das gleiche von Wikipedia zu bekommen?

War es hilfreich?

Lösung

Ich würde mit Pywikipediabot Python-Projekt.

Werfen Sie einen Blick auf category.py . Sie könnten verwenden:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category

Andere Tipps

Wenn Sie möchten, können Sie auch die gesamte Dump der Wikipedia herunterladen und von dort aus arbeiten. Die einzige Ihr wahrscheinlich wollen würde, ist nur die Artikel Dump 3 2010 Februar datiert. Aber Vorsicht:. Es ist 5,6 GB groß

Sie können das CatScan Tool Kategorien suchen.

Anleitung hier
http://meta.wikimedia.org/wiki/CatScan

Beispiel sucht - Note, html-Format maxes bei 1000 Ergebnissen. Wählen Sie CSV-Export alle die Ergebnisse abzurufen. Auch sollten Sie die Kategorie Tiefen und andere Optionen ändern, je nach Bedarf.

Die pywikipediabot bereits erwähnt ist eine weitere Option.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top