Базы данных корпоративного уровня, способные обрабатывать большие наборы данных RDF?
Вопрос
Существуют ли какие-либо механизмы баз данных корпоративного уровня (Oracle, MS SQL... и т. д.), которые могут обрабатывать большие наборы данных RDF (320 миллионов) и запросы SPARQL?Я думаю, мой вопрос также:Готов ли SPARQL/RDF/OWL к обслуживанию крупных реальных хранилищ данных предприятия?Если нет, существуют ли эффективные механизмы адаптации SPARQL/RDF к типичной звездообразной схеме хранилища данных.
Спасибо!
Другие советы
Следуя предложению Каарела, в одной из работ, представленных в этом году на ISWC, использовалась 4store, которая масштабируется так далеко, хотя конкурент настроил ее в какой-то странной конфигурации, которую технический директор Gralik (которая разрабатывает 4store) назвал мне и коллегам «сумасшедшей», но 4store был бы способен на такой масштаб - http://4store.org
Кроме того, Virtuoso поддерживает магазины такого масштаба: у них есть действующее приложение, которое вы можете использовать для запроса SPARQL к большинству основных источников данных LOD (связанные открытые данные), общее количество которых составляет около 9 миллиардов троек.
Виртуоз - http://virtuoso.openlinksw.com
Приложение LOD - http://lod.openlinksw.com/sparql
Я веду этот список крупных тройных магазинов на вики W3C:
http://esw.w3.org/topic/LargeTripleStores
Известно, что существует 7-семь тройных магазинов, которые способны вместить более миллиарда тройных магазинов.Четыре из них имеют открытый исходный код.Пожалуйста, обновите вышеупомянутую вики-страницу, если у вас есть дополнительная информация.
Очевидно, что производительность зависит от того, для чего вы ее используете.Я использовал Virtuoso в крупномасштабном промышленном проекте, и он работает довольно быстро.
Интеллимерность предлагает решение под названием Семантический сервер который разработан на основе Microsoft SQL Server 2005 или 2008.Его легко масштабировать до сотен миллионов троек, и я знаю, что у них есть по крайней мере один клиент, успешно использующий корпоративное развертывание с более чем миллиардом операторов.
Я один из их клиентов, работающих с наборами данных > 100 миллионов.Наши планы — перейти к десяткам миллиардов утверждений.
4store выглядит хорошим решением, однако документация на данный момент довольно скудна, и когда я в последний раз просматривал ее, не было возможности удалить отдельную тройку из графика.
я бы тоже посмотрел Большие данные
Вот цитата с их главной страницы, резюмирующая их предложение.
Bigdata(R) — это масштабируемая система хранения и вычислений с открытым исходным кодом, поддерживающая дополнительные транзакции, очень высокий уровень параллелизма и очень высокую совокупную скорость ввода-вывода.Bigdata была разработана с нуля как распределенная архитектура базы данных, оптимизированная для очень высоких совокупных скоростей ввода-вывода, работающих в кластерах от 100 до 1000 компьютеров, но также может работать в односерверном режиме.Bigdata предлагает распределенную файловую систему, аналогичную файловой системе Google, но также полезную для очередей рабочих процессов, расширяемое хранилище разреженных строк данных, аналогичное широко известному проекту Google bigtable, а также обработку карт/сокращений для распараллеливания рабочих процессов с интенсивным использованием данных в кластере.
Bigdata(R) поставляется в комплекте с высокопроизводительным хранилищем RDF, поддерживающим логические выводы RDF(S) и OWL Lite.Bigdata RDF Store в настоящее время является единственной базой данных RDF, способной работать распределенно в кластере с динамическим секционированием индексов по диапазонам ключей.Магазин Bigdata RDF был разработан специально для удовлетворения требований крупномасштабного семантического выравнивания и объединения.RDF — это технология семантической паутины, особенно хорошо подходящая для моделирования графических данных и метаданных, таких как ассоциативная модель связей между объектами, в которой субъекты связаны друг с другом специальным образом в контексте развивающейся онтологии концепций. для типов сущностей и типов ссылок, связанных с конкретной проблемной областью.Bigdata RDF Store используется в системах сбора данных для создания коллажей структурированных, полуструктурированных и неструктурированных данных из множества источников с использованием гибкой схемы.