database Enterprise di grado in grado di gestire grandi quantità di dati RDF?

https://stackoverflow.com/questions/1676512

16-09-2019
|

Domanda

Ci sono motori di database di livello enterprise (Oracle, MS SQL, ecc ...) in grado di gestire grandi quantità di dati RDF (320 milioni) e query SPARQL? Credo che la mia domanda è anche: è SPARQL / RDF / OWL pronto per servire grandi data warehouse del mondo reale per un'impresa? In caso contrario, ci sono meccanismi efficienti per l'adattamento SPARQL / RDF contro un tipico schema di data warehouse stelle.

Grazie!

Soluzione

Virtuoso - è l'archivio dati utilizzato da Bio2RDF e DBPedia

Altri suggerimenti

A seguito dal suggerimento di Kaarel una delle voci di quest'anno presentato alla ISWC utilizzato 4store che non scalano così lontano anche se il concorrente configurarlo in qualche configurazione strano che il CTO di Gralik (che sviluppano 4store) mi ha descritto e colleghi come ' pazza' ma 4store sarebbe in grado di quella scala - http://4store.org

Anche Virtuoso supporta negozi in questa scala, hanno un'applicazione dal vivo che è possibile utilizzare per interrogazione SPARQL sulla maggioranza delle principali fonti di dati LOD (Linked Open Data), che ammontano a circa 9 miliardi di triple

Virtuoso - http://virtuoso.openlinksw.com
LOD Applicazione - http://lod.openlinksw.com/sparql

Io sostengo questa lista di grandi triplestore sulla wiki W3C:
http://esw.w3.org/topic/LargeTripleStores

Ci sono 7 sette triplestore che sono noti per essere in grado di tenere più di un miliardo triple. Quattro di loro sono open source. Si prega di aggiornare la pagina wiki di cui sopra, se si dispone di più informazioni.

Ovviamente, le prestazioni dipende da quello che si utilizza per. Ho usato Virtuoso in un progetto industriale su larga scala, ed è abbastanza veloce.

Neo4j gestisce circa 1+ miliardo triple fuori dalla scatola, SAIL API qui , mentre hanno ancora tutto il grafico per fare cose avanzato con le cose come Gremlin o SPARQL.

Disclaimer: io faccio parte della squadra Neo4j

Intellidimension fornisce una soluzione chiamata Semantic Server che si sviluppa in cima di Microsoft SQL Server 2005 o 2008. e 'facilmente scalabile per le centinaia di milioni di triple e so che hanno almeno un cliente felicemente in esecuzione una distribuzione enterprise con oltre un miliardo di dichiarazioni.

Io sono uno dei loro clienti a lavorare con set di dati> 100 milioni. I nostri piani sono a muoversi verso le 10s di miliardi di istruzioni.

4store sembra essere una buona soluzione ma la documentazione è piuttosto scarsa in questo momento e quando ho guardato l'ultima che non vi era alcuna possibilità di eliminare un individuo tripla dal grafico.

Vorrei anche dare un'occhiata a BigData

Ecco una citazione dalla loro pagina principale riassumendo la loro offerta.

Bigdata (R) è uno scale-out stoccaggio open-source e tessuto calcolo supportare operazioni opzionali, molto concorrenza elevata, e molto alti tassi IO aggregati. Bigdata creata da zero come architettura di database distribuita ottimizzata per molto alta aggregati IO tassi esecuzione su cluster di 100s 1000s di macchine, ma può anche funzionare in una modalità a singolo server. Bigdata offre un file system distribuito, simile al file di Google del sistema, ma anche utile per le code del flusso di lavoro, un dato estendibile negozio di fila sparse, simile a Googles progetto bigtable ampiamente riconosciuto, e mappa / ridurre elaborazione per parallelizzare i flussi di lavoro ad alta intensità di dati su un cluster.

Bigdata (R) viene impaccato con un negozio RDF molto alte prestazioni supporto RDF (S) e OWL Lite inferenza. Il Bigdata RDF Store è attualmente l'unica banca dati RDF in grado di operare distribuito su un cluster con dinamica chiave-range partitioning di indici. Il Bigdata RDF Store è stato progettato specificamente per soddisfare le esigenze di scala molto grande allineamento semantico e la federazione. RDF è una tecnologia Web semantico particolarmente adatto alla modellazione dati e metadati a forma di grafico, ad esempio un modello entità-legame associativo, per cui attori sono legati l'uno all'altro in un modo ad-hoc nel contesto di un'ontologia evoluzione dei concetti per i tipi di entità e tipi di collegamento relativi a un particolare dominio del problema. Il negozio Bigdata RDF viene utilizzato operativamente nei sistemi di raccolta dei dati per creare mash-up di dati strutturati, semistrutturati e non strutturati provenienti da una miriade di fonti in modo schema-flessibile.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow