Pregunta

Estoy trabajando en un problema de regresión, donde el objetivo es estimar los volúmenes de tráfico históricos a lo largo de una red de transporte. Tengo contadores de tráfico en 100 ubicaciones, por lo que un modelo puede aprender la relación entre los volúmenes de tráfico y una serie de variables explicativas (por ejemplo, velocidades, características de la carretera, clima). Posteriormente, puedo aplicar el modelo para estimar los volúmenes de tráfico históricos en lugares donde no tengo mostradores de tráfico.

Mi red neuronal funciona razonablemente bien, pero me pregunto si hay modelos de aprendizaje automático que podrían explícitamente explicar la topología de mi red de carreteras y el hecho de que el tráfico en los enlaces vecinos de la carretera está altamente correlacionado. Podría agregar "volumen de tráfico en el mostrador de tráfico más cercano" como una variable de entrada a mi ANN, pero me pregunto si hay un enfoque más inteligente.

En este sentido, me encontré con redes bayesianas, que pueden explicar la topología y la correlación de la red. Sin embargo, parecen aplicables a los casos cuando tenemos sensores en 100 ubicaciones y queremos predecir el estado de tráfico (en estas 100 ubicaciones) en un momento futuro. Por otro lado, tengo medidas en 100 ubicaciones y busco estimar el tráfico en una ubicación diferente para el mismo punto de tiempo.

¡Cualquier sugerencia es muy apreciada!

¿Fue útil?

Solución

Viniendo del campo relacionado de medir y predecir la seguridad de la red, sugeriría fuertemente probar un pronóstico de series de tiempo. Supongo que sus datos se basan en el horario (valores de congestión de la red, se muestrean en algún intervalo. Si no se salta a la segunda idea)

Primera idea:Tomaría prestado de la serie de tiempo el concepto de aplanar las 100 medidas en 1 dato. Entonces, en lugar de:

T1+Delta1, Ubicación1, Messurement1

T1+Delta2, Ubicación2, Messurement2

T1+Delta3, Ubicación3, Messurement3

Doblar en:

T1-Bucketed, Loc1, Mess1, Loc2, Mess2, Loc3, Mess3.

Esto ayudaría al modelo a "comprender" la relación entre las diferentes mediciones, con énfasis en el eje de tiempo

2da ideaAplá en cada fila de medición Las mediciones más cercanas por topología (o incluso los 100 vecinos completos) en:

Mess, Topol-1-Mess, Topol-1-Dist, Topol-1-Otro, Topol-2-Mess, Topol-2-Dist, Topol-2-Otro, ..

Esto ayudaría al modelo a "comprender" la relación entre una medición específica y las mediciones de su vecindario, con énfasis en las características de topología de cada medición

Háganos saber si eso ayudó :)

Otros consejos

Un enfoque simple sería usar K-Nearest-Neighbors, donde la métrica de distancia está, en su caso, "el número de enlaces de carretera lejos". La técnica se describe en los capítulos 2 y 13 de Los elementos del aprendizaje estadístico. Básicamente tomaría el volumen de tráfico promedio para el k Nodos de tráfico más cercanos. Esencialmente no hay capacitación involucrada, aparte de la validación cruzada y el ajuste para encontrar la óptima k. La compensación es que es computacionalmente pesado en el momento de la consulta (cuando desea hacer una predicción).

Nota al margen: si aún no lo ha hecho, le recomiendo usar una base de datos como Neo4j Para facilitar la consulta de la distancia del enlace. Probablemente pueda codificar el "modelo" KNN utilizando solo 3-4 líneas de código si usa una base de datos de gráficos.

Licenciado bajo: CC-BY-SA con atribución
scroll top