Come usare Scrapy
-
04-10-2019 - |
Domanda
Vorrei sapere come posso iniziare un cingolato base di Scrapy. Ho installato lo strumento tramite apt-get install e ho cercato di eseguire un esempio:
/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list directory.google.com /usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl
I violato il codice da ragni / google_directory.py ma sembra che esso non viene eseguito, perché non vedo nessuna impronta che ho inserito. Ho letto la loro documentazione, ma non ho trovato nulla relative a questo; avete qualche idea?
Inoltre, se si pensa che per la scansione di un sito web dovrei usare altri strumenti, per favore fatemelo sapere. Non ho sperimentato con gli strumenti di Python e Python è un must.
Grazie!
Soluzione
È mancato il nome di ragno nel comando crawl. Usa:
$ scrapy crawl directory.google.com
Inoltre, vi consiglio di copiare il progetto di esempio per la vostra casa, invece di lavorare nella directory /usr/share/doc/scrapy/examples/
, in modo da poter modificare e giocare con lui:
$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com
Altri suggerimenti
qualità raschiando codice utilizzando lxml, urllib2 e Django come loro stack.
Scraperwiki.com è fonte di ispirazione, piena di esempi di ruspe pitone.
Esempio semplice con cssselect:
from lxml.html import fromstring
dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]