質問

知りたいと思い場合があり簡単に構文解析HTML vb.net.知っているHTMLではないsctrictのサブセットXMLのですが、しばコミュニケーションを取り合で処理することができてうれしいです。ああいう構文解析HTML、XMLのような方法でVB.net?

役に立ちましたか?

解決

私は Htmlの敏捷性パックを好き - それは非常に開発者に優しい、無料だとソースコードが入手可能です。

他のヒント

'あまりにもプログレの参照を追加します。Microsoft.mshtml

'そのページのます:

Imports mshtml

Function parseMyHtml(ByVal htmlToParse$) As String
    Dim htmlDocument As IHTMLDocument2 = New HTMLDocumentClass()
    htmlDocument.write(htmlToParse)
    htmlDocument.close()

    Dim allElements As IHTMLElementCollection = htmlDocument.body.all

    Dim allInputs As IHTMLElementCollection = allElements.tags("a")
    Dim element As IHTMLElement
    For Each element In allInputs
        element.title = element.innerText
    Next

    Return htmlDocument.body.innerHTML
End Function

が見つかりたようここをます:

ごHTML以下のXHTMLの基準で多くの解析および処理用のSystem.XML 名前空間。

場合、場合、はいかが?解析ではwebアプリケーションの開発者が参照して"タグ-スープ"する必要がありまを第三者のパーサのような HTMLのアジリティパック.

この場合のみ部分的な解決の問題だそうとしていることをどのようにブラウザの解釈にHTMLとして各ブラウザのタグを解析しの出汁が若干異なる。

これは何すなわち用途で、HTML要素を通過するための素晴らしいですが、ちょうどDOMにアクセスするためにMSHTMLライブラリを使用し、敏捷性パックを使用しないでください。

敏捷パックは厄介であり、あなたは私に言わせれば、不必要hackie、MSHTMLは、移動するための方法です。 MSDNのそれを見ています。

それがうまく形成されていますか? HTMLは、実際にはうまく形成されている場合、それはXMLとして解析することができます。それは、タグのスープで、閉じていない要素とそのようなものがある場合、私はあなたがサードパーティのソリューションを探し回るなければならないだろうと思うだろう。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top