Pregunta

Busco una API de propósito general / servicio web / herramienta / etc ... que permite convertir una página HTML dado a un grafo RDF lo más específico posible (muy probablemente utilizando una ontología columna vertebral y / o mapeador) .

¿Fue útil?

Solución 2

He utilizado XQuery para extraer los datos de la serie dada de páginas web. Tenía que escribir consultas personalizadas para las páginas web. Creo que este es el enfoque más directo para tomar para un conjunto específico de archivos HTML. Sin embargo, es evidente que no es bueno para el caso general. Para un conjunto diferente de las páginas web se deben escribirse otras consultas personalizadas.

Otros consejos

¿Ha demostrado GRDDL ?

  

GRDDL es una técnica para la obtención de RDF   datos de documentos XML y en   páginas particular, XHTML.

He utilizado JSoup a los datos raspadura de HTML. Utiliza jQuery estilo de consultar HTML DOM, cosa que ya estaba famirial con, por lo que fue realmente herramienta fácil de usar para mí. También puedo financiar bastante robusto, pero lo necesitaba sólo para raspar 3 fuentes de datos, así que no tienen experiencia con esta herramienta todavía. jsoup

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top