سؤال

أنا أبحث عن غرض عام API/Web Service/etc ... تسمح بتحويل صفحة HTML معينة إلى رسم بياني RDF محدد قدر الإمكان (على الأرجح باستخدام علم العظم الخلفي و/أو Mapper).

هل كانت مفيدة؟

المحلول 2

لقد استخدمت Xquery لاستخراج البيانات من مجموعة صفحات الويب المحددة. اضطررت إلى كتابة استفسارات مخصصة لصفحات الويب. أعتقد أن هذا هو النهج الأكثر مباشرة للأمام لاتخاذ مجموعة محددة من ملفات HTML. ومع ذلك ، من الواضح أنه ليس جيدًا للحالة العامة. للحصول على مجموعة مختلفة من صفحات الويب ، يجب كتابة الاستعلامات المخصصة الأخرى.

نصائح أخرى

هل أثبتت GRDDL?

GRDDL هي تقنية للحصول على بيانات RDF من مستندات XML وخاصة صفحات XHTML.

لقد استخدمت JSoup لكشط البيانات من HTML. إنه يستخدم أسلوب jQuery للاستعلام عن HTML DOM ، وكنت بالفعل famirial ، لذلك كانت أداة بسيطة حقًا لاستخدامها بالنسبة لي. أنا أيضًا تمولها قوية جدًا ، لكنني كنت بحاجة إليها فقط لكشافة 3 بيانات ، لذلك ليس لدي تجربة غنية مع هذه الأداة حتى الآن. JSoup

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top