Базы данных корпоративного уровня, способные обрабатывать большие наборы данных RDF?

https://stackoverflow.com/questions/1676512

16-09-2019
|

Вопрос

Существуют ли какие-либо механизмы баз данных корпоративного уровня (Oracle, MS SQL... и т. д.), которые могут обрабатывать большие наборы данных RDF (320 миллионов) и запросы SPARQL?Я думаю, мой вопрос также:Готов ли SPARQL/RDF/OWL к обслуживанию крупных реальных хранилищ данных предприятия?Если нет, существуют ли эффективные механизмы адаптации SPARQL/RDF к типичной звездообразной схеме хранилища данных.

Спасибо!

Решение

Виртуоз - хранилище данных, используемое Био2РДФ и ДБПедия

Другие советы

Следуя предложению Каарела, в одной из работ, представленных в этом году на ISWC, использовалась 4store, которая масштабируется так далеко, хотя конкурент настроил ее в какой-то странной конфигурации, которую технический директор Gralik (которая разрабатывает 4store) назвал мне и коллегам «сумасшедшей», но 4store был бы способен на такой масштаб - http://4store.org

Кроме того, Virtuoso поддерживает магазины такого масштаба: у них есть действующее приложение, которое вы можете использовать для запроса SPARQL к большинству основных источников данных LOD (связанные открытые данные), общее количество которых составляет около 9 миллиардов троек.

Виртуоз - http://virtuoso.openlinksw.com
Приложение LOD - http://lod.openlinksw.com/sparql

Я веду этот список крупных тройных магазинов на вики W3C:
http://esw.w3.org/topic/LargeTripleStores

Известно, что существует 7-семь тройных магазинов, которые способны вместить более миллиарда тройных магазинов.Четыре из них имеют открытый исходный код.Пожалуйста, обновите вышеупомянутую вики-страницу, если у вас есть дополнительная информация.

Очевидно, что производительность зависит от того, для чего вы ее используете.Я использовал Virtuoso в крупномасштабном промышленном проекте, и он работает довольно быстро.

Neo4j обрабатывает около 1+ миллиардов троек «из коробки», SAIL API здесь, но при этом у вас все еще есть весь граф для выполнения сложных задач с такими вещами, как Гремлин, или СПАРКЛ.

Отказ от ответственности:Я являюсь частью команды Neo4j.

Интеллимерность предлагает решение под названием Семантический сервер который разработан на основе Microsoft SQL Server 2005 или 2008.Его легко масштабировать до сотен миллионов троек, и я знаю, что у них есть по крайней мере один клиент, успешно использующий корпоративное развертывание с более чем миллиардом операторов.

Я один из их клиентов, работающих с наборами данных > 100 миллионов.Наши планы — перейти к десяткам миллиардов утверждений.

4store выглядит хорошим решением, однако документация на данный момент довольно скудна, и когда я в последний раз просматривал ее, не было возможности удалить отдельную тройку из графика.

я бы тоже посмотрел Большие данные

Вот цитата с их главной страницы, резюмирующая их предложение.

Bigdata(R) — это масштабируемая система хранения и вычислений с открытым исходным кодом, поддерживающая дополнительные транзакции, очень высокий уровень параллелизма и очень высокую совокупную скорость ввода-вывода.Bigdata была разработана с нуля как распределенная архитектура базы данных, оптимизированная для очень высоких совокупных скоростей ввода-вывода, работающих в кластерах от 100 до 1000 компьютеров, но также может работать в односерверном режиме.Bigdata предлагает распределенную файловую систему, аналогичную файловой системе Google, но также полезную для очередей рабочих процессов, расширяемое хранилище разреженных строк данных, аналогичное широко известному проекту Google bigtable, а также обработку карт/сокращений для распараллеливания рабочих процессов с интенсивным использованием данных в кластере.

Bigdata(R) поставляется в комплекте с высокопроизводительным хранилищем RDF, поддерживающим логические выводы RDF(S) и OWL Lite.Bigdata RDF Store в настоящее время является единственной базой данных RDF, способной работать распределенно в кластере с динамическим секционированием индексов по диапазонам ключей.Магазин Bigdata RDF был разработан специально для удовлетворения требований крупномасштабного семантического выравнивания и объединения.RDF — это технология семантической паутины, особенно хорошо подходящая для моделирования графических данных и метаданных, таких как ассоциативная модель связей между объектами, в которой субъекты связаны друг с другом специальным образом в контексте развивающейся онтологии концепций. для типов сущностей и типов ссылок, связанных с конкретной проблемной областью.Bigdata RDF Store используется в системах сбора данных для создания коллажей структурированных, полуструктурированных и неструктурированных данных из множества источников с использованием гибкой схемы.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow