| Enlace | Ir a recurso |
| Descripción | Se presentan los procesos de decisión markovianos (MDP) y y el algoritmo de policy iteration para ejemplificar cómo resolver un MDP. |
| Tipo | Práctica |
| Palabras Clave | aprendizaje por refuerzo, iteración de política, policy iteration, procesos estocásticos |
| Asignatura | Inteligencia Artificial |
| Tema | Aprendizaje automático |
| Subtema | Aprendizaje reforzado |
| Categoría | None |
| Autor | Alex Nakamura Díaz Francés |