Domanda

Vorrei sapere come posso iniziare un cingolato base di Scrapy. Ho installato lo strumento tramite apt-get install e ho cercato di eseguire un esempio:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

I violato il codice da ragni / google_directory.py ma sembra che esso non viene eseguito, perché non vedo nessuna impronta che ho inserito. Ho letto la loro documentazione, ma non ho trovato nulla relative a questo; avete qualche idea?

Inoltre, se si pensa che per la scansione di un sito web dovrei usare altri strumenti, per favore fatemelo sapere. Non ho sperimentato con gli strumenti di Python e Python è un must.

Grazie!

È stato utile?

Soluzione

È mancato il nome di ragno nel comando crawl. Usa:

$ scrapy crawl directory.google.com

Inoltre, vi consiglio di copiare il progetto di esempio per la vostra casa, invece di lavorare nella directory /usr/share/doc/scrapy/examples/, in modo da poter modificare e giocare con lui:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

Altri suggerimenti

qualità raschiando codice utilizzando lxml, urllib2 e Django come loro stack.

Scraperwiki.com è fonte di ispirazione, piena di esempi di ruspe pitone.

Esempio semplice con cssselect:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top