質問

方法を教えてくださいサブセットを取得するた(100MB)Wikipediaのページ?がその場で発音を確認することができ、全体のデータセットにしてXMLとしても、そのように1又は2にお届け;ったんです。

い実験を実行できる地図-削減アルゴリズムです。

とはいえ、もう100megs分のテキストサンプルデータをどこからでも、もしれない。E.g.スタックのオーバーフローデータベースにありがとうござい可能性があがれば良いなと思いました。私は開をご提案いたします。

編集:切な納入?どんな方です。

役に立ちましたか?

解決

stackoverflowのデータベースは、ダウンロードするのために利用可能です。

他のヒント

クリス、あなたはちょうどあなたがウェブページの100メガバイトを取得するまで、ウィキペディア「ランダムページ」リンクをヒットするための小さなプログラムを書くことができます:<のhref =「http://en.wikipedia.org/wiki/Special:Random」 rel = "nofollowをさnoreferrer"> http://en.wikipedia.org/wiki/Special:Random を。あなたが得る可能性があります任意の重複を破棄することをお勧めします、とあなたも(記事のある部分は、中間Webキャッシュではなく、Wikipediaのサーバがアップ提供されますが)あなたは毎分作る要求の数を制限する場合があります。しかし、それはかなり簡単なはずです。

stackoverflow データベースのコピーを取得したい場合は、次のように実行できます。 クリエイティブ コモンズのデータ​​ ダンプ.

興味がありますが、このデータは何に使用されますか?

一つのオプションをダウンロードのWikipediaにダンプし、その利用のみがこれに取り組んでくれました。まず解凍のものを使用して簡単なスクリプトの割りにファイルより小さいファイル(例えば こちらの場合は気ディスクスペースは、あまり書けないかなと思ったのがきっかけスクリプトがdecompressesや分割、そして止めることができる解凍過程のどの段階にしています。 Wikipediaダンプリーダー できる感動のために解凍処理があれば、快適なpython(覧mparser.py).

行わない場合はダウンロードの全体のものだけが残りのオプションのscarping.の エクスポート機能 良くすることに wikipediabot であることを示唆したこのコンテキスト

Webクローラーを使用して、データの100メガバイトをこすりだろうか?

ウィキペディアの多くが利用可能にダンプがあります。なぜあなたは最大(英語ウィキ)を選択したいですか?ウィキニュースアーカイブははるかに小さいます。

Wikipediaの記事の一つの小さなサブセットは、「メタ」のwikiの記事を備えています。これは、記事全体のデータセットと同じXML形式であるが、(2019年3月のように400メガバイト程度)小さいので、それは(例えば、GenSimスクリプトをテストするため)ソフトウェアの検証に使用することができます。

https://dumps.wikimedia.org/metawiki/latest/する

あなたは-articles.xml.bz2サフィックスを持つすべてのファイルを探したい。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top