Wie alle Tags von Wikipedia-Seiten oder make Seite besser lesbar strippen
Frage
Ich möchte alle Tags strippen, entfernen Sie die [Show] [ausblenden] stopft aus Wikipedia, oder gibt es eine Website, die Seiten in besser lesbaren Format macht.
Bitte Ich bin mir der Wikipedia druckbare Version, aber ich brauche keine Tags in, dass, wie ich eine andere Verwendung haben. Also bitte nur die ursprüngliche Frage beantworten, jede Website oder Webservice oder Code-Schnipsel in php / C # die Tags aus einer Web-Seiten zu entfernen.
Auch wie wenn ich eine Liste von Firefox kopieren <li>
mit dem * ersetzt, ist es möglich, Satz etwas in firefox einige andere nicht lesbar Charakter wie eine Art
Lösung
Sie können ein HTML-Parser verwenden, BeautifulSoup (Python) oder Einfache HTML-DOM zum Beispiel. Oder Sie könnten einen XML-Parser versuchen Sie es mit.
Andere Tipps
können Sie beginnen, indem Sie einen Blick auf die strip_tags Funktion .
Ich möchte alle Tags strippen, entfernen Sie die [In] [ausblenden] Stoffe aus Wikipedia, oder einige Website gibt, die Seiten macht in besser lesbaren Format.
Sie sollten einen Blick auf DBpedia, Wikipedia nehmen, aber nur die Daten.
Was ist htmlagilitypack
ähnlicher Thread in Stackoverflow
Versuchen Sie, diese Funktion.
Dim pattern As String = "<(.|\n)*?>"
Return System.Text.RegularExpressions.Regex.Replace(strHtmlString, pattern, String.Empty).Trim()