Reconocimiento de regiones

En el campo de la visión informática, el reconocimiento de regiones se refiere a las técnicas cuyo objetivo es detectar puntos o regiones más claras o más oscuras de la imagen. Hay dos clases principales de detectores de regiones (i) métodos diferenciales y (ii) métodos basados en extremos locales. Estos detectores también se denominan detectores de puntos interesantes, o detectores de regiones interesantes (véase también detección de puntos de interés y detección de esquinas).

El estudio y desarrollo de estos detectores es importante por varias razones. La principal es dar información complementaria sobre regiones que no se puede obtener mediante detectores de bordes o detectores de esquinas. Los detectores de regiones se usan como paso previo para el reconocimiento de objetos o seguimiento de objetos. Otro uso habitual de estos detectores tiene que ver con el análisis de texturas y su reconocimiento. Recientemente, los descriptores de regiones han empezado a usarse para puntos de interés para informar de la presencia de determinados objetos en una imagen.

Estas técnicas, en combinación con otras, tienen ya aplicaciones de uso más cotidiano: por ejemplo para software de dispositivos táctiles, funciones de detección de rostros y sonrisas en cámaras de fotos, sistemas de vigilancia y seguridad, o para analizar imágenes médicas (Diagnóstico Asistido por Ordenador).

El laplaciano de Gauss

Uno de los primeros y más comunes detectores de regiones se basa en el operador laplaciano de Gauss (LoG en inglés). Dada una imagen de entrada $f(x,y)$ , esa imagen está convuelta por un kernel Gaussiano:
$g(x,y,t)={\frac {1}{2{\pi t}}}e^{-(x^{2}+y^{2})/(2t)}$
a una determinada escala $t$ para dar una representación “escala-espacio":[1] $L(x,y;t)\ =g(x,y,t)*f(x,y)$ . Así, el operador laplaciano viene dado por:
$\nabla ^{2}L=L_{xx}+L_{yy}$
Y normalmente da una fuerte respuesta positiva para regiones oscuras de extensión ${\sqrt {t}}$ y negativa para regiones claras de tamaño similar. El principal problema al aplicar este operador a escala única es que su respuesta es muy dependiente de la relación entre el tamaño de la región y el tamaño del kernel Gaussiano usado para preparar la imagen. Para detectar automáticamente regiones de tamaño desconocido es necesaria una aproximación a varias escalas. Una manera sencilla de obtener esta aproximación es considerar el laplaciano de escala normalizada

\nabla _{norm}^{2}L(x,y;t)=t(L_{xx}+L_{yy})

y detectar los máximos/mínimos de la representación escala-espacio, que son puntos simultáneamente máximos/mínimos locales de $\nabla _{norm}^{2}L$ con respecto tanto a espacio como escala (Lindeberg 1994, 1998). Por tanto, dada una imagen discreta en dos dimensiones $f(x,y)$ se forma una imagen 3D discreta escala-espacio de volumen $L(x,y,t)$ , y un punto se considera como una región clara si el valor en ese punto es mayor que el valor en sus 24 vecinos (y menor para regiones oscuras). Así pues, selecciones simultáneas de puntos de interés $({\hat {x}},{\hat {y}})$ y escalas ${\hat {t}}$ se llevan a cabo conforme a

({\hat {x}},{\hat {y}};{\hat {t}})=\operatorname {argmaxminlocal} _{(x,y;t)}(\nabla _{norm}^{2}L(x,y;t))

.

Esta interpretación de la región proporciona una definición matemática precisa de lo que entendemos por "región", que nos lleva a un algoritmo eficiente y robusto para la detección de regiones. Algunas propiedades básicas de estas regiones son que las respuestas son covariantes con su traslado, rotación y re-escalado en el dominio de la imagen. Así pues, si un máximo de la escala-espacio se encuentra en el punto $(x_{0},y_{0};t_{0})$ entonces al redimensionar la imagen bajo una escala de factor $s$ , habrá un máximo de la escala-espacio en $(sx_{0},sy_{0};s^{2}t_{0})$ de la imagen redimensionada (Lindeberg 1998). Esta propiedad es de gran utilidad en la práctica y se usa también para la selección de escala en otros contextos, como la detección de esquinas y el reconocimiento de objetos.

La diferencia Gaussiana

Partiendo de que la representación escala-espacio $L(x,y,t)$ cumple la ecuación de la difusión

\partial _{t}L={\frac {1}{2}}\nabla ^{2}L

sabemos que el laplaciano de Gauss $\nabla ^{2}L(x,y,t)$ se puede obtener como el límite de la diferencia entre dos imágenes suavizadas Gaussianamente

\nabla ^{2}L(x,y;t)={\frac {1}{2\Delta t}}\left(L(x,y;t+\Delta t)-L(x,y;t-\Delta t)\right)

.

En la visión informática, a esto se le denomina Diferencia de Gauss. Salvando las diferencias, este operador es muy similar al Laplaciano, y se puede ver como una aproximación del operador Laplaciano.

El determinante del Hessiano

Si consideramos el determinante del Hessiano a escala normalizada, también llamado operador Monge–Ampère,

\operatorname {det} HL(x,y;t)=t^{2}(L_{xx}L_{yy}-L_{xy}^{2})

donde $HL$ denota la matriz Hessiana de $L$ , y calculamos los máximos de la función, se obtiene otro detector diferencial de regiones, con selección automática de escala

({\hat {x}},{\hat {y}};{\hat {t}})=\operatorname {argmaxlocal} _{(x,y;t)}(\operatorname {det} HL(x,y;t))

.

Los puntos de la región $({\hat {x}},{\hat {y}})$ y escalas ${\hat {t}}$ vienen también definidos por una operación geométrica diferencial que nos conduce a descriptores de regiones covariantes al traslado, rotado y reescalado de la imagen. En términos de selección de escala, las regiones definidas por máximos del determinante de Hessiano también tienen mejores propiedades de selección de escala bajo transformaciones afines no Euclídeas.

El híbrido Laplaciano y determinante del Hessiano (Hessian-Laplace operator)

Se ha propuesto un operador híbrido entre el Laplaciano y el determinante del Hessiano, que realiza la selección espacial mediante el determinante del Hessiano y la escala mediante el Laplaciano (Mikolajczyk and Schmid 2004):

({\hat {x}},{\hat {y}})=\operatorname {argmaxminlocal} _{(x,y)}(\operatorname {det} HL(x,y;t))

{\hat {t}}=\operatorname {argmaxminlocal} _{t}(\nabla _{norm}^{2}L({\hat {x}},{\hat {y}};t))

Este operador ha sido usado para detección de imágenes, reconocimiento de objetos y análisis de texturas.

Detectores diferenciales de regiones para transformaciones afines

Los descriptores de regiones obtenidos mediante estos detectores con selección automática de escala no varían con el traslado, rotado y redimensionado (uniforme) de la imagen en el dominio espacial. Las imágenes que recibe un sistema de visión informática son, sin embargo, susceptibles a distorsiones de perspectiva. Para obtener descriptores de regiones más robustos a estas distorsiones, es necesario crear detectores invariantes a transformaciones afines. En la práctica, puntos invariantes afines se pueden obtener aplicando una adaptación de forma afín a un descriptor de región, donde la forma del kernel de alisado es deformada reiteradamente para ajustarse a la estructura de la imagen, o lo que es lo mismo, una imagen de ajuste se va deformando mientras la forma del kernel de alisado se mantiene rotacionalmente simétrica (Lindeberg and Garding 1997; Baumberg 2000; Mikolajczyk and Schmid 2004, Lindeberg 2008/2009 ). De esta forma, podemos definir una versión adaptada a transformaciones afines del operador Laplaciano/Diferencia de Gauss, el determinante del Hessiano y el operador Hessiano-Laplaciano (ver Harris-Affine[2] y Hessian-Affine[3]).

Regiones en escala de grises, árboles y regiones escala-espacio

Una forma natural de detectar regiones es asociar máximos locales con áreas claras, y mínimos con áreas oscuras. El inconveniente de esto es que los extremos locales son muy sensibles al ruido. Para solventar esto, Lindeberg (1993, 1994) estudió el problema de detectar máximos locales con extensión a múltiples escalas. Una región con extensión espacial se asocia con cada máximo local. Un extremo local con extensión definida de esta forma se considera una región en escala de grises. Además, se define un árbol de regiones en escala de grises para capturar la estructura topológica anidada de los niveles de intensidad del paisaje, de manera que es invariante a las deformaciones afines en el dominio de la imagen y a las transformaciones de intensidad monótonas. Estudiando cómo evolucionan estas estructuras a escalas crecientes, aparece la idea de regiones escala-espacio.

Se propuso que las regiones de interés y los descriptores de escala obtenidos por esta vía, junto con escalas de niveles asociadas y definidas de las escalas de las que se normalizaron las medidas de la dureza de la región que asumieron su máximo en las escalas, se pudieran usar para guiar otros procesados visuales.

Lindeberg desarrolló un algoritmo para detectar regiones en escala de grises que se sigue usando y puede ser consultado aquí,[4] así como algoritmos derivados del mismo.[5]

Véase también

Detección de esquinas
Detección de bordes
Detección de puntos de interés

Referencias

Bibliografía

Christopher Evans. Notes on the OpenSURF library. Archivado desde el original el 3 de noviembre de 2015. Consultado el 26 de abril de 2010.

H. Bay, T. Tuytelaars and L. van Gool (2006). «SURF: Speeded Up Robust Features». Proceedings of the 9th European Conference on Computer Vision, Springer LNCS volume 3951, part 1. pp. 404--417.
L. Bretzner and T. Lindeberg (1998). «Feature Tracking with Automatic Selection of Spatial Scales» (abstract page). Computer Vision and Image Understanding 71: pp 385--392. doi:10.1006/cviu.1998.0650.
T. Lindeberg (1993). «Detecting Salient Blob-Like Image Structures and Their Scales with a Scale-Space Primal Sketch: A Method for Focus-of-Attention» (abstract page). International Journal of Computer Vision 11 (3): pp 283--318. doi:10.1007/BF01469346.
T. Lindeberg (1994). Scale-Space Theory in Computer Vision. Springer. ISBN 0-7923-9418-6.
T. Lindeberg (1998). «Feature detection with automatic scale selection» (abstract page). International Journal of Computer Vision 30 (2): pp 77--116.
T. Lindeberg and J. Garding (1997). «Shape-adapted smoothing in estimation of 3-{D} depth cues from affine distortions of local 2-{D} structure». International Journal of Computer Vision 15: pp 415--434.
T. Lindeberg (2008/2009). «Scale-space». Encyclopedia of Computer Science and Engineering (Benjamin Wah, ed), John Wiley and Sons IV: 2495--2504. doi:10.1002/9780470050118.ecse609.
D. G. Lowe (2004). «Distinctive Image Features from Scale-Invariant Keypoints». International Journal of Computer Vision 60 (2): pp 91-110. doi:10.1023/B:VISI.0000029664.99615.94.
J. Matas, O. Chum, M. Urban and T. Pajdla (2002). «Robust wide baseline stereo from maximally stable extremum regions». British Machine Vision Conference. pp. 384-393.
K. Mikolajczyk, K. and C. Schmid (2004). «Scale and affine invariant interest point detectors». Integration of the multi-scale Harris operator with the methodology for automatic scale selection as well as with affine shape adaptation. International Journal of Computer Vision 60 (1): pp 63-86. doi:10.1023/B:VISI.0000027790.02288.f2.

Datos: Q1026711

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.

[1] :Scale-space

[2] :Harris-Affine

[3] :Hessian-Affine

[4] ttp://www.csc.kth.se/~tony/abstracts/CVAP84.html

[5] :Blob detection#Lindeberg.27s watershed-based grey-level blob detection algorithm