Вопрос

Я ищу API/веб-сервис/инструмент общего назначения/и т. д....это позволяет преобразовать данную HTML-страницу в максимально конкретный граф RDF (скорее всего, с использованием онтологии базовой кости и/или преобразователя).

Это было полезно?

Решение 2

Я использовал XQuery для извлечения данных из заданного набора веб-страниц.Мне пришлось писать специальные запросы для веб-страниц.Я думаю, что это наиболее простой подход к конкретному набору HTML-файлов.Однако для общего случая это явно нехорошо.Для другого набора веб-страниц необходимо написать другие пользовательские запросы.

Другие советы

Вы доказали ГРДДЛ?

GRDDL - это метод получения данных RDF из XML -документов и, в частности, xhtml -страниц.

Я использовал JSoup для извлечения данных из HTML.Он использует стиль запроса HTML DOM в стиле jQuery, с которым я уже был знаком, поэтому для меня это был действительно простой инструмент.Я также довольно надежно финансирую его, но мне это нужно было только для того, чтобы очистить 3 источника данных, поэтому у меня пока нет большого опыта работы с этим инструментом. jsoup

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top