Am besten lagern, abfragen und aktualisieren Sie 300 m Datenreihen

https://dba.stackexchange.com/questions/68121

11-12-2019
|

Frage

Ich habe Schwierigkeiten, eine Lösung (vorzugsweise dbaas) zu finden, auf die ich mich darauf verlassen kann, um einige 300 m-Datenreihen (ungefähr 100 GB) zu speichern und abzufragen.

Die fraglichen Daten sind ziemlich numerisch.Es gibt auch eine "Beschreibung" -Sinne, die ich Full-Text-Suche durchführen möchte.Es gibt ein paar "Kategorie" -Säulen, die auch zum Filtern verwendet werden.Ich möchte auch Suchergebnisse auf verschiedene Weise filtern / bestellen (10+ verschiedene Indizes).

Es ist nicht erforderlich, komplexe Joins zu tun, da die Daten ziemlich denormalisiert sind.Die Daten werden stark aktualisiert: Jeden Tag werden etwa 50 m Datensätze ersetzt.

Ich habe zuerst mit Dynamodb ausprobiert, aber es kann nur bis zu 5 Indizes unterstützen und ist nicht in der Lage, die Volltextsuche mit angemessener Geschwindigkeit zu erfüllen.Ich habe auch die Größe von Google angesehen, es ist jedoch für "Append-Only" -Daten konzipiert.Ich denke jetzt Redshift, aber ich bin mir nicht sicher, wie es in der Lage ist, eine solche zahlreiche Anzahl von täglichen Updates zu bewältigen.

Jeder Rat wäre geschätzt!

Lösung

Ich habe letztete Daten in Dynamodb speichern und täglich mit RedShift tätig.Ich habe Redshift mit 600m-Musterdaten auf 4 Knoten-Cluster versucht, und es läuft extrem schnell.Es ist genau das, was ich brauche.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit dba.stackexchange