Si usted tiene a priori Conocimiento del medio ambiente, pero la capacidad imperfecta para sentir su ubicación en el medio ambiente (y probablemente acciones imperfectas), entonces lo que está describiendo puede ser un proceso de decisión de Markov parcialmente observable (POMDP.) Su sensor de cuatro botones se ajusta bien a esa idea.
Si ni siquiera tiene conocimiento previo del entorno, debe aumentar la noción de POMDP con elementos de exploración o aprendizaje automático.
Tenga en cuenta que los POMDP están orientados a escenarios con "recompensas", y que si bien los POMDP se entienden bastante bien, las soluciones eficientes siguen siendo un tema de investigación. Al igual que los híbridos ML/POMDP.