La mejor manera de almacenar, consultar y actualizar filas de datos de 300 m

https://dba.stackexchange.com/questions/68121

11-12-2019
|

Pregunta

Estoy luchando para encontrar una solución (preferiblemente DBAAS) en la que puedo confiar para almacenar y consultar algunas filas de datos de 300 m (aproximadamente 100 GB).

Los datos en cuestión son bastante numéricos.También hay una columna de "descripción" que me gustaría realizar una búsqueda de texto completo.Hay un par de columnas de "categoría" utilizadas para filtrar también.También quiero filtrar / solicitar resultados de búsqueda de muchas maneras (más de 10 índices diferentes).

No hay necesidad de hacer uniones complejas, ya que los datos están bastante desnormalizados.Los datos se actualizan en gran medida: unos 50 m de registros se reemplazan todos los días.

Primero lo he intentado con Dynamodb, pero solo puede soportar hasta 5 índices, y no es capaz de realizar una búsqueda de texto completo a una velocidad razonable.También he considerado la BigQuery de Google, pero está diseñada para los datos "apéndicamente".Ahora estoy considerando el cambio de red, pero no estoy seguro de cómo podrá manejar un número tan grande de actualizaciones diarias.

¡Cualquier consejo sería apreciado!

Solución

Terminé almacenando datos en Dynamodb y haciendo sincronización diaria con RedSpift.He intentado Redshift con datos de muestra de 600m en el clúster de 4 nodos y se ejecuta extremadamente rápido.Es exactamente lo que necesito.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a dba.stackexchange