Frage

Ich möchte alle Tags strippen, entfernen Sie die [Show] [ausblenden] stopft aus Wikipedia, oder gibt es eine Website, die Seiten in besser lesbaren Format macht.

Bitte Ich bin mir der Wikipedia druckbare Version, aber ich brauche keine Tags in, dass, wie ich eine andere Verwendung haben. Also bitte nur die ursprüngliche Frage beantworten, jede Website oder Webservice oder Code-Schnipsel in php / C # die Tags aus einer Web-Seiten zu entfernen.

Auch wie wenn ich eine Liste von Firefox kopieren <li> mit dem * ersetzt, ist es möglich, Satz etwas in firefox einige andere nicht lesbar Charakter wie eine Art

zurück
  • Punkt

        
  • War es hilfreich?

    Lösung

    Sie können ein HTML-Parser verwenden, BeautifulSoup (Python) oder Einfache HTML-DOM zum Beispiel. Oder Sie könnten einen XML-Parser versuchen Sie es mit.

    Andere Tipps

    können Sie beginnen, indem Sie einen Blick auf die strip_tags Funktion .

      

    Ich möchte alle Tags strippen, entfernen Sie die   [In] [ausblenden] Stoffe aus Wikipedia, oder   einige Website gibt, die Seiten macht   in besser lesbaren Format.

    Sie sollten einen Blick auf DBpedia, Wikipedia nehmen, aber nur die Daten.

    http://dbpedia.org/About

    Was ist htmlagilitypack

    htmlagilitypackt

    ähnlicher Thread in Stackoverflow

    Gibt es einen Wikipedia-API?

    Versuchen Sie, diese Funktion.

    Dim pattern As String = "<(.|\n)*?>"
    Return System.Text.RegularExpressions.Regex.Replace(strHtmlString, pattern, String.Empty).Trim()
    
    Lizenziert unter: CC-BY-SA mit Zuschreibung
    Nicht verbunden mit StackOverflow
    scroll top