El procesamiento de vídeo es una tarea con una elevadísima tasa de errores y falsos positivos y negativos dado que, incluso en ambientes controlados, se presentan una serie de efectos adversos que afectan drásticamente a los procesos de segmentación de la imagen: cambios permanentes o esporádicos en la iluminación, sombras, reflejos, objetos móviles en el fondo, etc.

El reconocimiento de acciones humanas basado en procesamiento de vídeo es capaz de determinar acciones simples independientes, pero los ratios de acierto son bajos cuando se trata de identificar una tarea (una secuencia o conjunto de acciones combinadas). Ello se debe a que el sistema de visión puede omitir, confundir o incluso añadir acciones de la secuencia.

Si consideramos un conjunto finito de tareas, podemos acotar significativamente el conjunto de secuencias posibles. Por tanto, a partir de una captura de acciones podemos intentar determinar a cuál de las secuencias conocidas se asemeja más, asumiendo que las diferencias se deben al proceso de captura deficiente. Medir esa semejanza no es sencillo, ya que debe responder a restricciones lógicas generales: no puede existir la acción «levantarse de la silla» si antes no existió la acción «sentarse en la silla», pero también a otras restricciones específicas del domino del problema.

Gramáticas estocásticas (probabilísticas)

Una gramática libre de contexto describe un lenguaje (un conjunto de secuencias de elementos) mediante reglas. Algunas gramáticas son ambiguas, es decir, la misma secuencia de elementos podría corresponder a la aplicación de reglas diferentes. Sin embargo, aplicar la regla correcta es crucial porque es lo que permite extraer el significado (la semántica) de esa secuencia concreta.

Un ejemplo típico es la frase: «The can can hold water». Una gramática para el lenguaje natural podría considerar que el sujeto es «can» o  bien «can can». Las dos serían sintácticamente correctas, pero solo la primera corresponde con el significado probable de la frase.

Las gramáticas estocásticas permiten asignar una probabilidad a cada producción de la gramática. De ese modo, cuando existe ambigüedad se puede utilizar el valor de probabilidad para proponer un resultado.

Para obtener los valores de probabilidad de las producciones se entrena al parser con un conjunto de datos previamente etiquetado (el corpus), de modo que el parser queda configurado para proponer soluciones similares a las del corpus antes entradas nuevas.

[ en proceso ]