Blanqueado adaptativo de escalas espacio-temporales como mecanismo computacional de atención visual dinámica

El movimiento relativo y la existencia de fuertes correlaciones espacio-temporales hacen del cálculo de la saliencia dinámica un gran desafío computacional. En este trabajo presentamos un modelo basado en la hipótesis de que la información perceptualmente relevante está contenida en las estructuras estadísticas de alto orden. Mediante el blanqueado eliminamos la gaussianidad de los datos (redundancias de segundo orden) para lograr acceder a la información relevante. Esta propuesta logra un marco teórico unificado de saliencia bottom-up, analíticamente tratable y computacionalmente simple al que denominamos Adaptive Whitening Saliency-Dynamic (AWS-D). Los mapas de saliencia que obtenemos los utilizamos para predecir las fijaciones de observadores humanos sobre seis bases de datos de vídeos públicas, así como su capacidad para reproducir el comportamiento humano en experimentos psicofísicos (pop-out dinámicos). Los resultados demuestran la superioridad del AWS-D frente a varios modelos del estado del arte en saliencia dinámica y apuntan a que el modelo puede contener las bases de mecanismos clave en la saliencia visual. En la evaluación experimental, se adaptó la metodología más aceptada para imágenes estáticas a vídeo, combinándola con un test de permutación (hipíotesis de asignación aleatoria de etiquetas) para obtener información adicional sobre la significación estadística de las medidas en cada instante temporal.

keywords: Atención Bottom-up, Saliencia espacio-temporal, Blanqueado Adaptivo, Predicción de fijaciones oculares, Bases de datos públicas de fijaciones oculares, Sesgo central, Predicción de Pop-out.