En matemáticas aplicadas, tenemos en ocasiones sistemas dinámicos como este
Donde es el indicador de tiempo, en un periodo finito preestablecido que va desde cero hasta . Aquí es la variable de estado del sistema en el periodo , es la variable de control en este mismo periodo y es un parámetro aleatorio.
En breve, lo que deseamos es controlar una función de costo
Note que estamos usando el operador de la esperanza y que hemos dividido las funciones de costo de los periodos desde 0 hasta , dejando al final un costo terminal.
Un ejemplo clásico de la programación dinámica es el del control de inventarios. Si la variable de estado denota el inventario disponible en cada periodo, la de control son las órdenes pedidas y otorgadas en el mismo periodo y el parámetro aleatorio es la demanda en ese momento del tiempo (asumimos que son variables aleatorias independientes entre si). Por lo tanto el sistema evoluciona de acuerdo a la siguiente ecuación en diferencias:
El costo se divide en dos partes, que consisten en un costo de que mantener inventarios en existencia o que haya faltante en los inventarios (el costo de oportunidad), y el costo de las órdenes mismas de inventario. Por lo tanto el objetivo es minimizar
Con la limitante de que no pueden haber pedidos negativos, es decir, no se pueden regresar inventarios para reducir costos.
El problema es interesante porque no se trata de encontrar un número mínimo, sino mas bien una regla que optimice el sistema. Puesto de otra manera, tratamos de encontrar una secuencias de reglas o funciones que mapee de la variable de estado al control (esto tiene sentido porque el control depende de la retroalimentación que recibe del estado). A esta secuencia de reglas se le conoce como política (en inglés es policy, pero aún no me acaba de convencer traducirlo literalmente de esta manera).
Para cada , el costo correspondiente para un stock inicial de fijo es
Queremos minimizar para un estado inicial dado sobre todas las políticas posibles. Sea un umbral de stock aceptable, se puede demostrar que la secuencia de reglas óptimas son aquellas que igualan a si , y 0 en cualquier otra situación.
Bibliografia
Bertsekas, D. P., & Bertsekas, D. P. (1995). Dynamic programming and optimal control (Vol. 1, No. 2). Belmont, MA: Athena Scientific.