Am besten lagern, abfragen und aktualisieren Sie 300 m Datenreihen
Frage
Ich habe Schwierigkeiten, eine Lösung (vorzugsweise dbaas) zu finden, auf die ich mich darauf verlassen kann, um einige 300 m-Datenreihen (ungefähr 100 GB) zu speichern und abzufragen.
Die fraglichen Daten sind ziemlich numerisch.Es gibt auch eine "Beschreibung" -Sinne, die ich Full-Text-Suche durchführen möchte.Es gibt ein paar "Kategorie" -Säulen, die auch zum Filtern verwendet werden.Ich möchte auch Suchergebnisse auf verschiedene Weise filtern / bestellen (10+ verschiedene Indizes).
Es ist nicht erforderlich, komplexe Joins zu tun, da die Daten ziemlich denormalisiert sind.Die Daten werden stark aktualisiert: Jeden Tag werden etwa 50 m Datensätze ersetzt.
Ich habe zuerst mit Dynamodb ausprobiert, aber es kann nur bis zu 5 Indizes unterstützen und ist nicht in der Lage, die Volltextsuche mit angemessener Geschwindigkeit zu erfüllen.Ich habe auch die Größe von Google angesehen, es ist jedoch für "Append-Only" -Daten konzipiert.Ich denke jetzt Redshift, aber ich bin mir nicht sicher, wie es in der Lage ist, eine solche zahlreiche Anzahl von täglichen Updates zu bewältigen.
Jeder Rat wäre geschätzt!
Lösung
Ich habe letztete Daten in Dynamodb speichern und täglich mit RedShift tätig.Ich habe Redshift mit 600m-Musterdaten auf 4 Knoten-Cluster versucht, und es läuft extrem schnell.Es ist genau das, was ich brauche.