JTidy Node.findBody () - Come si usa?
Domanda
Sto cercando di eseguire l'analisi XHTML DOM con JTidy e sembra un compito piuttosto controintuitivo. In particolare, esiste un metodo per analizzare HTML:
Node Tidy.parse(Reader, Writer)
E per ottenere il < body / > di quel nodo, suppongo, dovrei usare
Node Node.findBody(TagTable)
Dove devo trovare un'istanza di quella TagTable? (Il costruttore è protetto e non ho trovato una fabbrica per produrlo.)
Uso JTidy 8.0-SNAPSHOT.
Soluzione
Ho scoperto che esiste un molto metodo più semplice per estrarre il corpo:
tidy = new Tidy(); tidy.setXHTML(true); tidy.setPrintBodyOnly(true);
E poi usa l'ordine sulla coppia Reader-Writer.
Semplice come dovrebbe essere.
Altri suggerimenti
Puoi usare invece il metodo parseDOM
, che ti darebbe un org.w3c.dom.Document
indietro:
Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow