LinkedIn Web Scraping

https://datascience.stackexchange.com/questions/5789

16-10-2019
|

Frage

Ich habe kürzlich a entdeckt Neues R -Paket Für die Verbindung mit der LinkedIn -API. Leider scheint die LinkedIn -API zunächst ziemlich begrenzt zu sein; Zum Beispiel können Sie nur grundlegende Daten zu Unternehmen erhalten, und dies wird von Daten zu Einzelpersonen abgelöst. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens erhalten, was Sie tun können manuell auf der Website ist aber nicht durch die API möglich.

import.io wäre perfekt, wenn es erkannte die LinkedIn -Pagination (Siehe Ende der Seite).

Kennt jemand Web -Scraping -Tools oder -Techniken, die für das aktuelle Format der LinkedIn -Website oder die Biegung der API zur Durchführung einer flexibleren Analyse anwendbar sind? Vorzugsweise in R oder webbasiert, aber sicherlich offen für andere Ansätze.

Lösung

Schöne Suppe wurde speziell für das Webkriechen und Kratzen entwickelt, aber für Python und nicht für R geschrieben:

http://www.krummy.com/software/beautifulsoup/bs4/doc/

Andere Tipps

Scrapy ist eine großartige Python -Bibliothek, die Ihnen helfen kann, verschiedene Websites schneller abzukratzen und Ihre Codestruktur zu verbessern. Nicht alle Websites können mit klassischen Tools analysiert werden, da sie dynamisches JS -Inhaltsaufbau verwenden können. Für diese Aufgabe ist es besser zu verwenden Selen (Dies ist ein Testframework für Websites, aber auch ein großartiges Web -Scraping -Tool). Es gibt auch ein Python -Wrapper Verfügbar für diese Bibliothek. In Google finden Sie einige Tricks, mit denen Sie Selen in Inside verwenden können Scrapy und machen Sie Ihren Code klar, organisiert und Sie können einige großartige Tools für verwenden Scrapy Bibliothek.

Ich denke, dass Selen ein besserer Schaber für LinkedIn als klassische Werkzeuge wäre. Es gibt viele JavaScript- und dynamische Inhalte. Wenn Sie die Authentifizierung in Ihrem Konto vornehmen und alle verfügbaren Inhalte kratzen möchten, erhalten Sie viele Probleme mit der klassischen Authentifizierung mit einfachen Bibliotheken wie Anfragen oder Urll.

Ich mag RVest In Kombination mit dem Selektorgadget-Chrome-Plug-In zur Auswahl der relevanten Abschnitte.

Ich habe RVest verwendet und kleine Skripte erstellt, um durch Foren zu pagieren.

Suchen Sie nach dem Objekt "Seite n von M"
Extrakt m
Erstellen Sie basierend auf der Seitenstruktur eine Liste von Links von 1 bis m (z. B. www.sample.com/page1)
Iterieren Sie den Schaber durch die vollständige Liste der Links

Ich würde auch mit BeautifulSoup gehen, wenn Sie Python kennen. Falls Sie lieber JavaScript/jQuery codieren (und Sie kennen Node.js), möchten Sie möglicherweise auschecken Coffeescript (Probier das aus Lernprogramm) Ich habe es bereits mehrmals erfolgreich zum Abkratzen von Webseiten verwendet.

lxml ist eine schöne Web -Scraping -Bibliothek in Python. Schöne Suppe ist eine Wrapper über LXML. LXML ist also schneller als Scrapy und schöne Suppe und hat eine viel einfachere Lernkurve.

Dies ist ein Beispiel für einen Schaber, den ich mit ihm für ein persönliches Projekt erstellt habe und das über Webseiten iterieren kann.

BeautifulSoup funktioniert nicht auf LinkedIn. Scrappy verstößt gegen Richtlinien. Octoparse ist nur für Windows. Gibt es eine andere Art und Weise? Ich möchte ähnliche Personendaten für das Konto einer Person extrahieren. Bitte helfen Sie!

Hier teile ich meine erfolgreiche Erfahrung.

Tintenfisch ist großartig Kostenloses Web -Scraping -Tool. Ich habe es verwendet, um LinkedIn -Daten erfolgreich zu kratzen, und hier ist ein detailliertes Video -Tutorial für Daten aus LinkedIn extrahieren.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange