<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1692-3324</journal-id>
<journal-title><![CDATA[Revista Ingenierías Universidad de Medellín]]></journal-title>
<abbrev-journal-title><![CDATA[Rev. ing. univ. Medellin]]></abbrev-journal-title>
<issn>1692-3324</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Medellín]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1692-33242009000100009</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Seguimiento del contorno externo de la boca en imágenes de vídeo]]></article-title>
<article-title xml:lang="en"><![CDATA[Outer Lip contour tracking in video images]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ceballos]]></surname>
<given-names><![CDATA[Alexánder]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Gómez]]></surname>
<given-names><![CDATA[Juan Bernardo]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Prieto]]></surname>
<given-names><![CDATA[Flavio]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Colombia, Sede Manizales  ]]></institution>
<addr-line><![CDATA[Manizales Caldas]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional de Colombia, Sede Manizales  ]]></institution>
<addr-line><![CDATA[Manizales Caldas]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad Nacional de Colombia, Sede Bogotá Departamento de Ingeniería Mecánica y Mecatrónica ]]></institution>
<addr-line><![CDATA[Bogotá ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>01</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>01</month>
<year>2009</year>
</pub-date>
<volume>8</volume>
<numero>14</numero>
<fpage>129</fpage>
<lpage>144</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S1692-33242009000100009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S1692-33242009000100009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S1692-33242009000100009&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El seguimiento preciso de la boca de una persona, cuando está hablando, es un desafío importante en varias aplicaciones, como la identificación de la cara o la interacción con el computador. La complejidad de forma, textura y color de la boca, y los cambios de iluminación y fondos de los posibles escenarios hacen que este sea aún un problema abierto. En este artículo se propone un algoritmo para el seguimiento del contorno externo de la boca, sin utilizar marcadores o alguna clase de maquillaje para resaltar los labios, basado en apariencia y en restricciones morfológicas definidas en el estándar MPEG-4. El algoritmo es robusto ante la presencia de barba, tono de piel y calidad de la imagen.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[An accurate tracking of a person's mouth when he/she is speaking is an important challenge in several applications such as face identification or interaction with computer. Complexity of shape, texture, and color of the mouth, as well as changes in lighting and backgrounds of possible scenarios makes of it an open problem yet. This article proposed an algorithm for a tracking of the mouth external contour without using markers or any kind of make-up for highlighting lips, based on appearance and morphological restrictions defined by the MPEG-4 Standard. Algorithm is robust before the presence of beard, skin tone, and image quality.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[visión por computador]]></kwd>
<kwd lng="es"><![CDATA[MPEG-4]]></kwd>
<kwd lng="es"><![CDATA[puntos característicos del contorno externo de la boca]]></kwd>
<kwd lng="es"><![CDATA[seguimiento de la boca]]></kwd>
<kwd lng="en"><![CDATA[Computer-assisted view]]></kwd>
<kwd lng="en"><![CDATA[MPEG-4]]></kwd>
<kwd lng="en"><![CDATA[special points of the mouth external contour]]></kwd>
<kwd lng="en"><![CDATA[mouth tracking]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font size="2" face="Verdana">     <P ALIGN="CENTER"><B><FONT SIZE="4">Seguimiento del contorno externo de la boca en im&aacute;genes de v&iacute;deo</FONT></B></P>     <P ALIGN="CENTER">&nbsp;</P>     <P ALIGN="CENTER"><B><FONT SIZE="3">Outer Lip contour tracking in video images</FONT></B></P>     <P>&nbsp;</P>     <P>&nbsp;</P>     <P> Alex&aacute;nder Ceballos<sup>1</sup>;    Juan Bernardo G&oacute;mez<sup>2</sup>;  Flavio Prieto<sup>3</sup></P>     <P><sup>1 </sup>Ingeniero Electr&oacute;nico, Universidad Nacional de Colombia,   Sede Manizales y miembro del Grupo de investigaci&oacute;n en Percepci&oacute;n y Control Inteligente. Carrera 27 No. 64-60, Manizales (Caldas), Colombia. Tel&eacute;fono (6) 8879300 &#8211; 55798. Correo <A HREF="mailto:aceballosa@unal.edu.co">aceballosa@unal.edu.co</A>    <BR> <sup>2</sup> Profesor del Departamento de Ingenier&iacute;a El&eacute;ctrica, Electr&oacute;nica   y Computaci&oacute;n, Universidad Nacional de Colombia,   Sede Manizales. Carrera 27 No. 64-60, Manizales (Caldas), Colombia. Tel&eacute;fono (6) 8879300 &#8211; 55798. Correo <A HREF="mailto:jbgomezm@unal.edu.co">jbgomezm@unal.edu.co</A>    <BR> <sup>3</sup> Profesor del Departamento de Ingenier&iacute;a Mec&aacute;nica y Mecatr&oacute;nica,   Universidad Nacional de Colombia, Sede Bogot&aacute;. Carrera 30 No 45-03, Bogot&aacute;, Colombia. (1) 316 5000 &#8211; 14103. Correo <A HREF="mailto:faprietoo@unal.edu.co">faprietoo@unal.edu.co</A> </P>     ]]></body>
<body><![CDATA[<P>&nbsp;</P>     <P>&nbsp;</P> </font><font face="Verdana"> <hr size="1" noshade> </font><font size="2" face="Verdana"> <B>RESUMEN</B>     <P> El seguimiento preciso de la boca de una persona, cuando est&aacute; hablando,   es   un desaf&iacute;o importante en varias aplicaciones, como la identificaci&oacute;n   de la cara o   la interacci&oacute;n con el computador. La complejidad de forma, textura y color   de la   boca, y los cambios de iluminaci&oacute;n y fondos de los posibles escenarios   hacen que   este sea a&uacute;n un problema abierto. En este art&iacute;culo se propone un   algoritmo para   el seguimiento del contorno externo de la boca, sin utilizar marcadores o alguna   clase de maquillaje para resaltar los labios, basado en apariencia y en restricciones   morfol&oacute;gicas definidas en el est&aacute;ndar MPEG-4. El algoritmo es robusto   ante la   presencia de barba, tono de piel y calidad de la imagen.</P>     <P> <B>Palabras clave: </B>visi&oacute;n por computador, MPEG-4, puntos caracter&iacute;sticos   del contorno externo de la boca, seguimiento de la boca.</P> </font><font face="Verdana"> <hr size="1" noshade> </font><font size="2" face="Verdana">  <B>ABSTRACT </B>     <P> An accurate tracking of a person's mouth when he/she is speaking is an   important   challenge in several applications such as face identification or interaction   with   computer. Complexity of shape, texture, and color of the mouth, as well as   changes   in lighting and backgrounds of possible scenarios makes of it an open problem   yet.   This article proposed an algorithm for a tracking of the mouth external contour   without using markers or any kind of make-up for highlighting lips, based on   appearance   and morphological restrictions defined by the MPEG-4 Standard. Algorithm   is robust before the presence of beard, skin tone, and image quality.</P>  <B>Key words: </B> Computer-assisted view, MPEG-4, special points of the mouth   external contour, mouth tracking. </font><font face="Verdana"> <hr size="1" noshade> </font>     <P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"><B>1. INTRODUCCI&Oacute;N</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> La extracci&oacute;n de caracter&iacute;sticas de la regi&oacute;n     de la boca ha surgido como un campo activo     de visi&oacute;n por computador, debido al inter&eacute;s en     aplicaciones como reconocimiento autom&aacute;tico     del habla audio-visual, reconocimiento de gestos,     medici&oacute;n antropom&eacute;trica y reconocimiento de     personas.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El reconocimiento audio-visual del habla ha     surgido como un campo activo, gracias a los avances     en visi&oacute;n artificial, el procesamiento de se&ntilde;ales y el     reconocimiento de patrones (Goecke, 2005), ya que     promete extender el reconocimiento de habla por     computador a ambientes adversos como oficinas,     aeropuertos, estaciones de trenes o autom&oacute;viles     en movimiento. De hecho, se ha estimado que     observar al hablante equivale a una ganancia de     15 dB en la relaci&oacute;n se&ntilde;al a ruido (Campbell,     2006, 2008), y los esfuerzos se han concentrado     en la representaci&oacute;n visual del habla (Aleksic y     Katsaggelos, 2005), (Kratt et al., 2004), (Nefian et     al., 2002), y se justifica en que &eacute;sta es invariante al     ruido ac&uacute;stico.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Al utilizar este esquema se han obtenido buenos     resultados. Por ejemplo, en Kim et al., (2006)     se usa un perceptr&oacute;n multicapa para combinar     caracter&iacute;sticas de audio y visuales para compensar     la p&eacute;rdida de informaci&oacute;n causada por el ruido,     mientras que en Salazar y Prieto, (2006), se usaron     caracter&iacute;sticas del contorno de la boca, para el     proceso de reconocimiento de 5 fonemas vocales     del lenguaje espa&ntilde;ol. En Potamianos, (2006) se     muestran los enfoques usados para enfrentarse     al problema del reconocimiento audio-visual del     habla, as&iacute; como algunos de los resultados m&aacute;s     significativos.</FONT></P>     ]]></body>
<body><![CDATA[<P><FONT SIZE="2" FACE="Verdana"> La identificaci&oacute;n de posturas labiales permite     un estudio y seguimiento de la expresi&oacute;n del rostro     y de la informaci&oacute;n que quiere expresar; por esta raz&oacute;n,     en las &uacute;ltimas d&eacute;cadas, se percibe un aumento     sustancial de investigaciones en reconocimiento de     gestos y an&aacute;lisis de expresiones faciales (Yang et al.,     2002). En G&oacute;mez et al., (2007) y Hern&aacute;ndez et al.,     (2007), se propuso un m&eacute;todo para la segmentaci&oacute;n     y extracci&oacute;n de caracter&iacute;sticas faciales en secuencias     de v&iacute;deo en tiempo real, para ser usado en una     interfaz hombre-m&aacute;quina. El proceso provey&oacute; de     un peque&ntilde;o conjunto de caracter&iacute;sticas gestuales     que les permiti&oacute; controlar un robot.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Uno de los motivos del inter&eacute;s sobre el seguimiento     de la boca en secuencias de v&iacute;deo ha     sido la posibilidad de usarlo en herramientas de     control, diagn&oacute;stico y evaluaci&oacute;n de procedimientos     quir&uacute;rgicos (Salazar et al., 2007). En Mej&iacute;a y     Prieto, (2004) se presentaron diferentes algoritmos     y procedimientos para la extracci&oacute;n autom&aacute;tica de     caracter&iacute;sticas faciales, con el fin de obtener las medidas     de algunas de las regiones del complejo facial,     las cuales permitieron al especialista desarrollar un     estudio antropom&eacute;trico facial.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El seguimiento de los labios es a&uacute;n un problema     abierto de visi&oacute;n artificial, debido a la complejidad     de las formas, colores y texturas, y a los     cambios de iluminaci&oacute;n (Zhilin et al., 2002). Este     problema ha sido exitosamente tratado para vistas     laterales y con el fondo controlado (Ramos et al.,     1997), pero para vistas frontales y sin marcadores     de labios ha mostrado ser m&aacute;s complicado. Para el     caso de im&aacute;genes en escala de grises, los m&eacute;todos     fallan en localizar los l&iacute;mites de la boca en &aacute;reas de     contraste pobre como el labio inferior y, adem&aacute;s,     son muy sensibles a cambios de iluminaci&oacute;n o     sombras.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En el presente trabajo se propone un algoritmo     asistido para el seguimiento de los puntos que definen     el contorno externo de la boca en im&aacute;genes a     color, seg&uacute;n el est&aacute;ndar MEPG-4. El algoritmo no     utiliza marcadores o alguna otra clase de maquillaje     para resaltar el &aacute;rea de la boca. En la secci&oacute;n 2 se     muestran los enfoques usados para enfrentarse al     problema de seguimiento de los labios en la literatura,     mientras que en la secci&oacute;n 3 se explica con detalle el algoritmo propuesto.     En la secci&oacute;n 4 se     presentan algunos resultados sobre secuencias de     v&iacute;deo y, finalmente, en la secci&oacute;n 5 se concluye     el trabajo.</FONT></P>     <P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"> <B>2. SEGUIMIENTO DE LOS LABIOS</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Para la extracci&oacute;n de las caracter&iacute;sticas de la     regi&oacute;n de la boca existen dos enfoques cl&aacute;sicos. El     primero basado en la apariencia (de bajo nivel),     en el cual se realizan operaciones matem&aacute;ticas en     p&iacute;xel, sin encontrar la forma exacta de la boca.     Por ejemplo, en G&oacute;mez et al., (2007) y Hern&aacute;ndez     et al., (2007) se usan diferentes algoritmos     de segmentaci&oacute;n basados en p&iacute;xel y restricciones     morfol&oacute;gicas para extraer el &aacute;rea de la boca, y en     Zhang et al., (2002) se utilizan caracter&iacute;sticas basadas     en el color para extraer caracter&iacute;sticas del habla     sobresalientes en vistas frontales, mientras que el     segundo enfoque se basa en la forma de la boca (de     alto nivel), en el cual se hace necesaria la ubicaci&oacute;n     precisa de los contornos de los labios. En Dupont     y Luettin, (2000) se extraen los contornos de la     boca desde im&aacute;genes de intensidad de gris, y en     Salazar y Prieto, (2006), se presentaron diferentes     algoritmos y procedimientos para la extracci&oacute;n     autom&aacute;tica de caracter&iacute;sticas faciales, basadas en     la regi&oacute;n del contorno de la boca.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Para enfrentarse al problema particular de     seguimiento de la boca, sobresalen los algoritmos     basados en contornos con modelado polinomial     est&aacute;tico y activo (Snakes), o la representaci&oacute;n a     trozos con polinomios (Splines). En Jiang et al.,     (2006) se usa una aproximaci&oacute;n estad&iacute;stica llamada     filtro part&iacute;cula (el cual es un filtro bayesiano recursivo)     y modelos de forma activa, con el fin de hacer     un seguimiento determin&iacute;stico estoc&aacute;stico de los     labios sobre im&aacute;genes frontales con iluminaci&oacute;n     constante y sin marcadores. En Zhang et al., (2001)     se emplean <I>Snakes</I> sobre im&aacute;genes a escala de grises     para controlar labios virtuales. Primero se segmenta     la regi&oacute;n de la boca y se aplica un detector     de bordes para inicializar el contorno, despu&eacute;s se     usan contornos activos para suavizar el contorno     y, finalmente, se ajusta esta aproximaci&oacute;n con un     polinomio de segundo orden para el labio superior     y otro para el inferior. Una idea similar fue desarrollada     en Seyedarabi y Aghagolzadeh, (2006). Para     la estimaci&oacute;n inicial de la boca se us&oacute; un sistema     basado en conocimiento, y consideraron Snakes     inicializados en forma oval para modelar tanto el     contorno interno como externo de la boca. En Ramos     et al., (1997) se utiliza un B-Spline con forma     el&iacute;ptica para representar los labios. En el primer     cuadro de v&iacute;deo se encuentra la boca al usar sobre     el &aacute;rea de la cara tanto proyecciones del gradiente     en gris, como un modelo estad&iacute;stico basado en     color. Las caracter&iacute;sticas extra&iacute;das fueron usadas     en un sistema de identificaci&oacute;n de personas.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> MPEG-4 surgi&oacute; debido a la necesidad de estandarizar     los objetos virtuales de v&iacute;deo real y sint&eacute;tico.     En &eacute;l se incluyen la codificaci&oacute;n de v&iacute;deo,     la compresi&oacute;n de la geometr&iacute;a y la sincronizaci&oacute;n     entre audio y v&iacute;deo. Los est&aacute;ndares de animaci&oacute;n     del cuerpo y de la cara definidos en MPEG-4 est&aacute;n     basados en la estructura &oacute;sea y muscular del ser     humano, y aunque no permiten que se generen     todos los movimientos, debido a que algunos son     propios de cada persona, es el esfuerzo m&aacute;s cercano     hasta ahora y es el est&aacute;ndar que se usa en este     momento en la industria cinematogr&aacute;fica.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f1a.JPG"><A NAME="f1a"></A></FONT></P>     ]]></body>
<body><![CDATA[<P><FONT SIZE="2" FACE="Verdana">a) Par&aacute;metros de definici&oacute;n facial     de la boca</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f1b.jpg"><A NAME="f1b"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> b) Modelo de cara en estado neutro</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Figura 1.</B> Par&aacute;metros definidos en el est&aacute;ndar     MPEG-4 para la animaci&oacute;n de boca. En <A HREF="#f1a">a</A>)     se aprecian los grupos 2 y 8 que definen el     contorno interno y externo de la boca, los cuales     deben ser normalizados respecto al ancho de     la boca (MW0) cuando la cara se encuentra en     estado neutro (<A HREF="#f1b">b</A>).     <BR>     Fuente: elaboraci&oacute;n propia. </FONT>     <P><FONT SIZE="2" FACE="Verdana">Con la finalidad de permitir la animaci&oacute;n     de rostros, en el est&aacute;ndar MPEG-4 se presentan     dos conjuntos de par&aacute;metros que estandarizan     los modelos del rostro respecto a algunas medidas     antropom&eacute;tricas y definen su deformaci&oacute;n. Los     par&aacute;metros de animaci&oacute;n facial, Facial Animation     Parameters (FAP), son un conjunto de par&aacute;metros     que permiten la animaci&oacute;n de modelos de cara     sint&eacute;ticos. Estos par&aacute;metros especifican una acci&oacute;n     particular de deformaci&oacute;n de un modelo de cara en     estado neutro. El modelo de la cara en estado neutro     est&aacute; definido por un conjunto de puntos caracter&iacute;sticos     estandarizados denominados par&aacute;metros     de definici&oacute;n facial (Facial Definition Parameters,     o FDP). Los FDP se miden en unidades espec&iacute;ficas,     Face Animation Parameter Units (FAPU)     (ISO/IEC, 1998). En la <A HREF="#f1a">figura 1a</A> se aprecian las     medidas antropom&eacute;tricas normalizadas empleadas     en el est&aacute;ndar, los cinco FAPU miden la distancia     entre los ojos (ES0), el di&aacute;metro del iris (IRISD0),     la separaci&oacute;n entre los ojos y la nariz (ENS0), la     separaci&oacute;n entre la boca y la nariz (MNS0) y el   ancho de la boca (MW0).</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Se definen 68 FAPs divididos en 10 grupos.     En reconocimiento del habla, generalmente se usan     los grupos 2 y 8, que describen el movimiento del     contorno interno y externo de la boca, respectivamente,     mientras que para la s&iacute;ntesis visual del habla     se usa el grupo 1, que define 14 visemas claramente     distinguibles del habla inglesa (<A HREF="#t1">tabla 1</A>). Un visema     es el patr&oacute;n visual de referencia de un fonema, y     puede corresponder a varios fonemas (Pandzic y     Forchheimer, 2002).</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En Zhilin et al., (2002) y Zhilin y Aleksic,     (2004) se propone el uso de <I>Snakes</I> para el seguimiento     de los FAP, basados en el flujo vectorial     del gradiente y con una plantilla parab&oacute;lica como     fuerza externa, con el fin de hacer funcionar un     descodificador MPEG-4. El objeto animado pudo     imitar a una persona real mientras los par&aacute;metros     fueron extra&iacute;dos satisfactoriamente. La tasa de     transmisi&oacute;n de los par&aacute;metros sin compresi&oacute;n     fue de 0,5 Kbps, mientras que el v&iacute;deo est&aacute;ndar     requiere decenas de Mbps.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En la <A HREF="#t1">tabla 1</A> se presentan los 14 visemas     establecidos en el grupo 1 de los par&aacute;metros de     animaci&oacute;n facial definidos dentro del est&aacute;ndar     MPEG-4. Tambi&eacute;n, se presentan los fonemas a los     cuales hacen referencia los 14 visemas.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"><B>Tabla 1: </B>Visemas y fonemas relacionados.</FONT></P>     ]]></body>
<body><![CDATA[<P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09t1.jpg"><A NAME="t1"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana">En Aleksic y Katsaggelos, (2005) se describe     un sistema audio-visual de reconocimiento autom&aacute;tico     del habla. Como caracter&iacute;sticas visuales     usaron los puntos que describen el contorno interno     y el externo de la boca, y se emple&oacute; an&aacute;lisis     de componentes principales (PCA) para disminuir     la dimensi&oacute;n del vector de caracter&iacute;sticas. Como     caracter&iacute;sticas de audio, se usaron los coeficientes     cepstrales en frecuencia de Mel. Finalmente, en     Abboud y Chollet, (2005) se hizo seguimiento de     los labios, y la forma de la boca fue clonada sobre     otra persona, con base en modelos de apariencia,     los cuales fueron refinados usando los puntos   caracter&iacute;sticos definidos en el est&aacute;ndar MPEG-4.</FONT></P>     <P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"> <B>3. ALGORITMO PROPUESTO</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El algoritmo que se propone para el seguimiento     del contorno externo de la boca est&aacute; basado     en apariencia y en restricciones morfol&oacute;gicas     definidas en el est&aacute;ndar MPEG-4. El algoritmo     usa el grupo 8 que describe el contorno externo     de los labios (Pandzic y Forchheimer, 2002), pues     algunos estudios psicol&oacute;gicos han sugerido que     es el que m&aacute;s influencia tiene en la lectura de los     labios. Adem&aacute;s, en Aleksic y Katsaggelos, (2005)     se muestra que el uso del grupo 2, que describe     el contorno interno de la boca, no aumenta significativamente     el rendimiento de un sistema de     reconocimiento autom&aacute;tico de habla, y los algoritmos     usados son significativamente m&aacute;s costosos   que los del contorno externo.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En general, los pasos en un sistema de seguimiento     de la boca son: detecci&oacute;n de la regi&oacute;n de     la boca, localizaci&oacute;n de los labios (inicializaci&oacute;n),     seguimiento de los labios y la extracci&oacute;n de caracter&iacute;sticas     (Zhang et al., 2001). El seguimiento es   explicado con detalle en el algoritmo 1.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Paso 1, detecci&oacute;n de la regi&oacute;n       de la boca</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> La regi&oacute;n de inter&eacute;s es localizada de forma     asistida &uacute;nicamente en el primer cuadro de v&iacute;deo   de la secuencia.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09t3.jpg"></FONT></P>     <P><FONT SIZE="2" FACE="Verdana">En el algoritmo 1 se presenta la metodolog&iacute;a     seguida para el sistema de seguimiento de la boca.</FONT></P>     ]]></body>
<body><![CDATA[<P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f2a.jpg"><A NAME="f2a"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> a) Interfaz para localizar la regi&oacute;n de inter&eacute;s</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f2b.jpg"><A NAME="f2b"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> b) Ubicaci&oacute;n de los 10 puntos que definen     el contorno externo de la boca</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Figura 2:</B> Inicializaci&oacute;n del algoritmo de seguimiento     del contorno externo de la boca. En el     primer cuadro de v&iacute;deo se ubican los 10 puntos     que definen el contorno.    <BR>     Fuente: elaboraci&oacute;n propia. </FONT>     <P><FONT SIZE="2" FACE="Verdana"><B>Paso 2, localizaci&oacute;n de los labios</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Para iniciar el algoritmo de seguimiento de     los labios, se hace necesaria la ubicaci&oacute;n exacta de los     puntos que describen el contorno externo de la     boca. Debido a que la segmentaci&oacute;n robusta de la     boca ante la presencia de barba, tono de piel, cambios     de iluminaci&oacute;n, presencia de lengua y calidad     de la imagen a&uacute;n es un problema abierto y s&oacute;lo se     han obtenido buenos resultados para la extracci&oacute;n     del contorno sobre im&aacute;genes de alta definici&oacute;n, la     inicializaci&oacute;n en este caso se hace de forma manual,     se ubican manualmente sobre el primer cuadro de     v&iacute;deo los 10 puntos (<A HREF="#f2a">figura 2</A>).</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Paso 3, seguimiento de los labios</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Con el fin de realizar el seguimiento de los     labios se usa una medida de similitud entre cuadros     de v&iacute;deo, adem&aacute;s de algunas restricciones morfol&oacute;gicas     dadas en el est&aacute;ndar MPEG-4.</FONT></P>     ]]></body>
<body><![CDATA[<P><FONT SIZE="2" FACE="Verdana"> La medida de similitud se hace sobre los p&iacute;xeles     pertenecientes a la vecindad de cada uno de los 10     puntos que definen el contorno externo. Primero,     se calcula la distancia de la ventana centrada en el     punto hallado en el cuadro de v&iacute;deo anterior (V)     con las ventanas en el cuadro presente, centradas     en cada uno de los p&iacute;xeles de la vecindad de inter&eacute;s     (V<SUB>ij</SUB>). El cuadro presente es, adem&aacute;s, comparado con     el primer cuadro de la secuencia se v&iacute;deo, el cual     posee informaci&oacute;n altamente confiable, debido     a que los puntos del contorno de la boca de este     cuadro no fueron calculados (<A HREF="#e1">ecuación 1</A>).</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e1.jpg"> (1)<A NAME="e1"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> La distancia ser&aacute; m&iacute;nima si la ventana del cuadro     de v&iacute;deo anterior concuerda exactamente con     alguna de las ventanas del cuadro de v&iacute;deo actual     y su valor m&aacute;ximo ser&aacute; definido por el tama&ntilde;o de     las ventanas. Con el fin de normalizar la distancia     y usarla como medida de similitud, la distancia es     usada como el argumento de la funci&oacute;n exponencial     negativa. Siendo as&iacute;, el rango se encuentra     entre 1 y 0, 1 para una total concordancia y 0 para     cuando las ventanas con totalmente diferentes     (<A HREF="#e2">ecuación 2</A>).</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e2.jpg"> (2)     <A NAME="e2"></A> </FONT>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f3a.jpg"><A NAME="f3a"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana">a) Funci&oacute;n de densidad de probabilidad normal usada en     la ponderaci&oacute;n de la similitud.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f3b.jpg"><A NAME="f3b"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> b) Funci&oacute;n de similitud ponderada calculada     en la vecindad de un punto.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f3c.jpg"><A NAME="f3c"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> c) Las 10 funciones de similitud calculadas para cada uno     de los puntos del contorno externo de la boca.</FONT></P>     ]]></body>
<body><![CDATA[<P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f3d.jpg"><A NAME="f3d"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> d) Resultado de aplicar el mismo calculo de     similitud en el cuadro de v&iacute;deo siguiente.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Figura 3. </B>La ponderaci&oacute;n de la similitud por una funci&oacute;n de distribuci&oacute;n     de probabilidad normal (<A HREF="#f3a">a</A>)     se presenta en <A HREF="#f3b">b</A>). El resultado de aplicar el c&aacute;lculo de la similitud     en dos cuadros de v&iacute;deo seguidos,     se muestra en <A HREF="#f3c">c</A>) y en <A HREF="#f3d">d</A>).    <BR>     Fuente: elaboraci&oacute;n propia. </FONT></P>     <P><FONT SIZE="2" FACE="Verdana">La similitud es entonces ponderada usando     una funci&oacute;n de densidad de probabilidad normal     con media en el punto del cuadro de v&iacute;deo anterior,     y con desviaci&oacute;n est&aacute;ndar igual al tama&ntilde;o del     vecindario (<A HREF="#f3a">figura 3a</A>). As&iacute; se consigue dar m&aacute;s peso     a aquellos p&iacute;xeles cercanos al punto hallado en     el cuadro de v&iacute;deo anterior, debido a que es m&aacute;s     probable que correspondan al punto en el cuadro     de v&iacute;deo actual. Se escoge como candidatos a cada     uno de los 10 puntos que conforman el contorno     externo de la boca, aquellos cuya similitud sea     m&aacute;s cercana a la unidad. En las <A HREF="#f3c">figuras 3c</A> y 3d se     observa el resultado de este procedimiento en dos     cuadros seguidos; los p&iacute;xeles iluminados representan     la probabilidad de los p&iacute;xeles de convertirse   en cada punto.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f4.jpg"><A NAME="f4"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Figura 4: </B>Restricciones morfol&oacute;gicas     del contorno externo de los labios.     Las restricciones son modeladas con dos     polinomios de segundo grado.    <BR>     Fuente: elaboraci&oacute;n propia.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana">Con el objetivo de hacer el seguimiento de los     labios m&aacute;s robusto, se hace que los puntos candidato,     hallados con la similitud m&aacute;xima cumplan     las restricciones morfol&oacute;gicas de la boca, as&iacute; como     las restricciones sugeridas en el est&aacute;ndar MPEG-4     (<A HREF="#t2">tabla 2</A>). La forma de la boca est&aacute; caracterizada     por ser sim&eacute;trica (simetr&iacute;a reflexiva sobre el eje     vertical). Para satisfacer las restricciones de simetr&iacute;a     reflexiva se usan dos polinomios de segundo grado     (par&aacute;bolas) con eje de simetr&iacute;a vertical (<A HREF="#e3">ecuación     3</A>)     (<A HREF="#f4">figura 4</A>); se deben rotar primero todos los puntos,     de modo que el punto 4 y el punto 3 queden a 0&#176;.     Entonces, se ajusta el polinomio superior con los     candidatos a puntos 4, 6, 9, 10, 5 y 3, y el polinomio     inferior con los candidatos 4, 8, 2, 7 y 3, teniendo     en cuenta las ubicaciones sugeridas por el est&aacute;ndar   MPEG-4 en la <A HREF="#t2">tabla 2</A>.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e3.jpg"> (3)<A NAME="e3"></A></FONT></P>     ]]></body>
<body><![CDATA[<P><FONT SIZE="2" FACE="Verdana"> En cuanto a las restricciones morfol&oacute;gicas     sugeridas en la <A HREF="#t2">tabla 2</A>, cabe recalcar que el punto     7.1, el cual corresponde al punto de rotaci&oacute;n de     la cabeza, para este caso es desconocido. Por tal     motivo, las abscisas tanto del punto 1 como del     punto 2, correspondientes al punto medio entre     los v&eacute;rtices de la boca, son hechas iguales a (8.3x     + 8.4x)/2, teniendo en cuenta que aunque no se     pueda satisfacer la restricci&oacute;n dada en la <A HREF="#t2">tabla 2</A>,     la boca es sim&eacute;trica. En el mismo orden de ideas,     para los puntos 9 y 10 pertenecientes al arco de     cupido (para los cuales no se definen restricciones     en la <A HREF="#t2">tabla 2</A>), se igualan las abscisas.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Con los puntos 9 y 10 se usan a&uacute;n m&aacute;s restricciones,     pues tampoco se permite un movimiento     entre un cuadro de v&iacute;deo y otro superior al 20 %     de la distancia media al punto 1, ni que alguno de     los dos haga un cruce por el eje vertical.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Tambi&eacute;n se ajustan las abscisas de los puntos 5,     6, 7 y 8 seg&uacute;n la <A HREF="#t2">tabla 2</A>, y se hallan las ordenadas     de los puntos 6, 9, 10 y 5 al evaluar el polinomio     que modela la parte superior de los labios, y de los     puntos 8 y 7 al evaluar el polinomio que modela     la parte inferior. Finalmente, se debe invertir la     rotaci&oacute;n hecha (<A HREF="#f4">figura 4</A>).</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Tabla 2:</B> Localizaci&oacute;n recomendada para los     puntos caracter&iacute;sticos del contorno externo de     la boca (el punto 7.1x corresponde al punto de     rotaci&oacute;n de la cabeza).</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09t2.jpg"><A NAME="t2"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana">En la <A HREF="#t2">tabla 2</A> se aprecia la ubicaci&oacute;n recomendada     para cada uno de los puntos del contorno     externo de la boca definidos en el est&aacute;ndar MPEG-     4. La localizaci&oacute;n se limita a definir las abscisas de   cada uno de los puntos.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"><B> Paso 4, extracci&oacute;n de caracter&iacute;sticas</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Una vez encontrados los puntos en la secuencia     de v&iacute;deo, para las aplicaciones del seguimiento     de los labios, las caracter&iacute;sticas de la forma de la     boca deben ser calculadas. Teniendo los 10 puntos     sobre toda la secuencia de v&iacute;deo, se puede encontrar,     entre muchas otras, el &aacute;rea de la regi&oacute;n dentro     de los labios, la redondez, el factor de forma, la     relaci&oacute;n entre el eje horizontal y el vertical, el per&iacute;metro     y diferentes relaciones geom&eacute;tricas entre     los puntos.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El &aacute;rea es calculada en la forma polar seg&uacute;n     la <A HREF="#e4">ecuación 4</A>, donde r<SUB>j</SUB> corresponde a la distancia     de cada uno de los 10 puntos hasta el centro de     la boca, y &#916;&#952;  al &aacute;ngulo en radianes de separaci&oacute;n     entre un punto y otro (<A HREF="#f5">figura 5</A>).</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e4.jpg"> (4)<A NAME="e4"></A></FONT></P>     ]]></body>
<body><![CDATA[<P><FONT SIZE="2" FACE="Verdana"> Por su parte, la redondez es hallada usando     la <A HREF="#e5">ecuación 5</A>, en la cual A corresponde al &aacute;rea dentro     del contorno d y al di&aacute;metro mayor equivalente al     ancho de la boca, es decir, a la distancia entre los     puntos 3 y 4 que definen el contorno externo de     la boca seg&uacute;n el est&aacute;ndar MPEG-4 (<A HREF="#f1a">figura     1</A>).</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e5.jpg"> (5)<A NAME="e5"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El per&iacute;metro, a su vez, se calcula al     sumar las distancias entre los puntos como se indica en la    <A HREF="#e6">ecuación 6</A> (<A HREF="#f1a">figura 1</A>). Donde <I>p</I><Sub>i</Sub> corresponde a las     coordenadas (<I>x,y</I>) del punto <I>i</I>.</FONT></P>     <DIV ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09e6.jpg"> (6)     <A NAME="e6"></A> </FONT> </DIV>     <DIV ALIGN="CENTER"></DIV>     <P>&nbsp;</P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f5.jpg"><A NAME="f5"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> <B>Figura 5: </B>C&aacute;lculo del &aacute;rea comprendida dentro     del contorno externo de la boca. El an&aacute;lisis se     realiza usando coordenadas polares.    <BR>     Fuente: elaboraci&oacute;n propia.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Mientras que el factor de forma es encontrado     al utilizar la <A HREF="#e7">ecuación 7</A>. En esta ecuaci&oacute;n es     el per&iacute;metro y A el &aacute;rea comprendida dentro del     contorno.</FONT></P>     ]]></body>
<body><![CDATA[<P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09e7.jpg"> (7)<A NAME="e7"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Finalmente, la relaci&oacute;n entre el eje     vertical y horizontal de la boca es hallada al usar la <A HREF="#e8">ecuación 8</A>.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e8.jpg"> (8)<A NAME="e8"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En la <A HREF="#f6">figura 6</A> se muestra la din&aacute;mica de algunas     caracter&iacute;sticas que pueden ser extra&iacute;das teniendo     el contorno externo de la boca en una secuencia     de v&iacute;deo. Se puede observar que la respuesta del     factor de forma, la redondez y la relaci&oacute;n de los     di&aacute;metros (ejes vertical y horizontal) en el tiempo     es similar, mientras que el &aacute;rea y el per&iacute;metro se     comportan de manera an&aacute;loga.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f6.jpg"> <A NAME="f6"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"><B>Figura 6: </B>Algunas caracter&iacute;sticas de la forma de la boca que pueden     ser extra&iacute;das   de los 10 puntos que describen el contorno externo de la boca.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana">Se decidi&oacute; hacer uso de los FAP que definen     la deformaci&oacute;n de los puntos caracter&iacute;sticos del     contorno externo de la boca como caracter&iacute;sticas.     Con este fin, se mide el desplazamiento de cada     uno de los puntos con respecto a una boca en     estado neutro (S<sub>neutro</sub>), que es seleccionada de los     cuadros dentro de la secuencia de v&iacute;deo (<A HREF="#e9">ecuación 9</A>)     (algoritmo 1). Cabe recalcar que debe haber desplazamientos, tanto positivos     como negativos,     para definir las deformaciones de la boca desde     un estado neutro. Estos desplazamientos son,     entonces, normalizados respecto al ancho de la     boca, el cual es el FAPU (MW0) para los grupos 2     y 8 que describen los contornos interno y externo   de la boca.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"> <img src="/img/revistas/rium/v8n14/v8n14a09e9.jpg">(9)<A NAME="e9"></A></FONT></P>     <P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"> <B>4. VENTAJAS DEL ENFOQUE     PROPUESTO</B></FONT></P>     ]]></body>
<body><![CDATA[<P><FONT SIZE="2" FACE="Verdana"> El seguimiento autom&aacute;tico de los labios es a&uacute;n     un desaf&iacute;o abierto. Se han conseguido buenos resultados     para aplicaciones espec&iacute;ficas, pero a&uacute;n no     se ha logrado establecer una metodolog&iacute;a adecuada     para realizar seguimiento preciso de la forma de los     labios en tiempo real.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Por otro lado, los modelos param&eacute;tricos que     minimizan una funci&oacute;n de coste han presentado     buenos resultados s&oacute;lo en im&aacute;genes de alta definici&oacute;n     y a&uacute;n no resuelven el problema en tiempo     real. De hecho, los algoritmos actuales dependen     fuertemente de las condiciones de iluminaci&oacute;n y     son d&eacute;biles ante la presencia de barba, de lengua     o de los dientes, e incluso ante la diferencia entre     tonos de piel.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En el trabajo presente no se utilizaron ayudas     externas cl&aacute;sicas en el seguimiento de labios, como     el uso de maquillajes o marcadores. Tampoco se control&oacute;     la iluminaci&oacute;n ni el fondo. Adem&aacute;s, se basa en     el est&aacute;ndar MPEG-4, reconocido internacionalmente.     MPEG-4 se fundamenta en la anatom&iacute;a humana     y en la interacci&oacute;n de la estructura &oacute;sea y muscular     para la animaci&oacute;n del cuerpo y de la cara.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El algoritmo a&uacute;n no es autom&aacute;tico, debido a     que a segmentaci&oacute;n robusta de la boca a&uacute;n es un tema activo de     investigaci&oacute;n, y por lo tanto, debe     ser inicializado de forma manual. Sin embargo,     pudo seguir satisfactoriamente el contorno externo     de los labios para personas con distinto tono de     piel, ante la presencia de barba y sobre secuencias     de v&iacute;deo con calidad de imagen pobre.</FONT></P>     <P>&nbsp;</P>     <P> <FONT SIZE="3" FACE="Verdana"><B>5. RESULTADOS</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Con el fin de observar mejor el funcionamiento     del algoritmo propuesto, en la <A HREF="#f7">figura 7</A>  se presenta el resultado sobre una secuencia de     v&iacute;deo cada 10 cuadros. En este caso se utiliz&oacute; un     vecindario de b&uacute;squeda p&iacute;xeles y una ventana     para el c&aacute;lculo de la similitud de p&iacute;xeles. Siendo     as&iacute;, la funci&oacute;n de ponderaci&oacute;n es una funci&oacute;n de     distribuci&oacute;n normal centrada en cada uno de los     10 puntos del contorno externo del cuadro de     v&iacute;deo anterior, y con desviaci&oacute;n 11 (el tama&ntilde;o del     vecindario). Las zonas iluminadas alrededor de     cada punto representan la probabilidad dada por     la medida de similitud, de que los p&iacute;xeles sean los     nuevos puntos que describen el contorno externo     de la boca.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El algoritmo de seguimiento asistido de los     puntos que definen el contorno externo de la     boca, seg&uacute;n el est&aacute;ndar MPEG-4, fue utilizado     tanto con la base de datos VidTIMIT (Sanderson     y Paliwal, 2004) como con datos adquiridos en el     laboratorio. La base de datos VidTIMIT cuenta     con 103543 im&aacute;genes, cuya calidad no es muy     buena, debido a que se encuentran en formato     jpeg, tienen una resoluci&oacute;n de 512x384 p&iacute;xeles,     son de toda la cara y la regi&oacute;n de inter&eacute;s es de     p&iacute;xeles aproximadamente (<A HREF="#f8">figura 8</A>). Por otro lado,     los datos adquiridos en el laboratorio constan de     46483 im&aacute;genes y fueron tomados con un &aacute;ngulo     bajo, lo que no afecta la simetr&iacute;a de la boca (<A HREF="#f9">figura 9</A>). Las im&aacute;genes son de 720x480 p&iacute;xeles y se     encuentran en formato png, adem&aacute;s la regi&oacute;n de     inter&eacute;s es de 330x160 p&iacute;xeles.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f7.JPG"><A NAME="f7"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"><B>Figura 7: </B>Seguimiento de los 10 puntos     que conforman el contorno externo de la boca en una   secuencia de v&iacute;deo cada 10 cuadros.    ]]></body>
<body><![CDATA[<BR>   Fuente: elaboraci&oacute;n propia.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En la <A HREF="#f8">figura 8</A> se aprecia el seguimiento del     contorno externo de la boca sobre tres secuencias     pertenecientes a la base de datos VidTIMIT. Las     secuencias poseen alrededor de 100 cuadros de     v&iacute;deo, y as&iacute; los resultados son mostrados cada     30 cuadros. Dado que el ancho de la boca sobre     la base de datos VidTIMIT tiene una media de     55 p&iacute;xeles con una desviaci&oacute;n est&aacute;ndar de 6,76     p&iacute;xeles, se us&oacute; una ventana para el c&aacute;lculo de la     similitud de 21x21 y un vecindario de b&uacute;squeda     de 5x5 p&iacute;xeles.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f8.jpg"><A NAME="f8"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"><B>Figura 8: </B>Seguimiento del contorno externo     de los labios sobre tres secuencias de v&iacute;deo de la base de   datos VidTIMIT. Los resultados son mostrados cada 30 cuadros.    <BR>   Fuente: elaboraci&oacute;n   propia.</FONT></P>     <P ALIGN="CENTER"><FONT SIZE="2" FACE="Verdana"><img src="/img/revistas/rium/v8n14/v8n14a09f9.jpg"><A NAME="f9"></A></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"><B>Figura 9: </B>Seguimiento del contorno externo     de los labios sobre tres secuencias de v&iacute;deo adquiridas en   el laboratorio. Los resultados son mostrados cada 700 cuadros.    <BR>   Fuente: elaboraci&oacute;n   propia.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Para el caso de los datos del laboratorio,     se emple&oacute; una ventana para el c&aacute;lculo de la similitud     de 11x11 p&iacute;xeles y un vecindario de b&uacute;squeda     de 11x11 p&iacute;xeles. El ancho de la boca tiene una     media de 210.38 p&iacute;xeles con desviaci&oacute;n de 72,46.     Los resultados de usar el algoritmo sobre estos     datos se muestran en la <A HREF="#f9">figura 9</A> cada 700 cuadros,     pues las secuencias de v&iacute;deo poseen 2500 cuadros     aproximadamente.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> En ambos casos el algoritmo sigui&oacute; el contorno     externo de la boca, y fue robusto a la presencia     de barba, el tono de piel y calidad de la     imagen. Los 10 puntos del contorno externo de     la boca fueron usados para el c&aacute;lculo de los FAP.     En general, si se desea hacer reconocimiento de     patrones din&aacute;micos, se debe agregar informaci&oacute;n     temporal al incluir derivadas en el vector de     caracter&iacute;sticas.</FONT></P>     ]]></body>
<body><![CDATA[<P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"><B>6. CONCLUSIONES Y DISCUSI&Oacute;N</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana">Se ha presentado un modelo basado en restricciones     morfol&oacute;gicas y en una medida de similitud     en p&iacute;xeles para el seguimiento del contorno externo     de la boca en im&aacute;genes a color. La propuesta ha     mostrado ser robusta ante la presencia de barba     y el tono de piel, e incluso realiz&oacute; el seguimiento     tanto en im&aacute;genes con buena definici&oacute;n adquiridas     en el laboratorio, como en im&aacute;genes con menor     definici&oacute;n presentes en la base de datos VidTIMIT.     Tambi&eacute;n mostr&oacute; ser fuerte ante cambios de     iluminaci&oacute;n y enfoque, pues no hubo control de   iluminaci&oacute;n y la c&aacute;mara ten&iacute;a autoenfoque.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> El algoritmo a&uacute;n no es autom&aacute;tico, pero se ha     venido trabajando en segmentaci&oacute;n robusta de la     boca usando componentes de color (Loaiza et al.     2007), y tambi&eacute;n se ha pensado en usar caracter&iacute;sticas     de textura con este fin.</FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> La secuencia de los 10 puntos que describen     el contorno externo de la boca, seg&uacute;n el est&aacute;ndar     MPEG-4, obtenida al utilizar el algoritmo de seguimiento     sobre una secuencia de v&iacute;deo, puede ser usada     para el c&aacute;lculo de caracter&iacute;sticas que describen     la forma de la boca. Estas caracter&iacute;sticas, a su vez,     pueden ser empleadas para hacer reconocimiento     de gestos, como parte del conjunto de caracter&iacute;sticas     para realizar identificaci&oacute;n de personas, para     realizar estudios antropom&eacute;tricos, y si se incluye     informaci&oacute;n din&aacute;mica usando las primeras dos     derivadas temporales, para reconocimiento de     patrones din&aacute;micos como el habla.</FONT></P>     <P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"><B> 7. AGRADECIMIENTOS</B></FONT></P>     <P><FONT SIZE="2" FACE="Verdana"> Los autores agradecen el apoyo dado por el programa     ECOS-NORD Franco-Colombiano (ECOSNord/     COLCIENCIAS/ICFES/ICETEX).</FONT></P>     <P>&nbsp;</P>     <P><FONT SIZE="3" FACE="Verdana"><B>8. REFERENCIAS</B></FONT></P>     ]]></body>
<body><![CDATA[<!-- ref --><P><FONT SIZE="2" FACE="Verdana"> 1. ABBOUD B. and CHOLLET G. (2005). Appearance based     lip tracking and cloning on speaking faces. In Proceedings     of the 4th International Symposium on Image and     Signal Processing and Analysis, 301 - 305.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000143&pid=S1692-3324200900010000900001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">2.  ALEKSIC P. S. and KATSAGGELOS A. K. (2005). Comparision     of MPEG-4 facial animation parameter groups with     respect to audio-visual speech recognition performance.     IEEE International Conference on Image Processing,     3: III- 501-504.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000144&pid=S1692-3324200900010000900002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">3.  CAMPBELL R. (2006). Audio-visual speech processing.     Elsevier, 562-569.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000145&pid=S1692-3324200900010000900003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">4.  CAMPBELL R. (2008). The processing of audio-visual speech:     empirical and neural bases. Philosophical Transactions     of The Royal Society B. 1001-1010.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000146&pid=S1692-3324200900010000900004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">5.  DUPONT S. and LUETTIN J. (2000). Audio-visual speech     modeling for continuous speech recognition. IEEE     transactions on multimedia, 2: 141-151.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000147&pid=S1692-3324200900010000900005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">6.  GOECKE R. (2005). Current trends in joint     audio-v&iacute;deo     signal processing: a review. Proceeding of the Eighth     International Symposium on Signal Processing and Its     Applications, (ISSPA 2005), 1: 70 &#8211;73.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000148&pid=S1692-3324200900010000900006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">7.  G&Oacute;MEZ J. B., PRIETO F. and REDARCE T. (2007). Lips     Movement Segmentation and Features Extraction in     Real Time. Innovative Algorithms and Techniques in     Automation, Industrial Electronics and Telecommunications,     205 &#8211;210.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000149&pid=S1692-3324200900010000900007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">8. HERN&Aacute;NDEZ J. E., PRIETO F. and REDARCE T. (2007).     Real-Time Robot Manipulation Using Mouth Gestures     In Facial V&iacute;deo Sequences. Advances in Brain, Vision,     and Artificial Intelligence, 224-233.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000150&pid=S1692-3324200900010000900008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">9. ISO/IEC, (1998). Information technology-generic coding     of audio-visual objects, Part 2: Visual, ISO/IEC FDIS     14496-2 (Final Drafts International Standard), ISO/IEC     JTC1/SC29/WG11 N2502, Atlantic City.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000151&pid=S1692-3324200900010000900009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">10. JIANG M., GAN Z., HE G., and GAO W. (2006). Combining     particle lter and active shape models for lip tracking. In     The Sixth World Congress on Intelligent Control and   Automation Proceedings (WCICA), 2: 9897- 9901.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000152&pid=S1692-3324200900010000900010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">11. KIM M. W., RYU J. W., and KIM E. J. (2006). Speech Recognition     with Multi-modal Features Based on Neural     Networks. In Lecture Notes in Computer Science.     Volume 4233: 489-498.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000153&pid=S1692-3324200900010000900011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">12. KRATT J., METZE F., STIEFELHAGEN R., and     WAIBEL A., (2004). Large vocabulary audio-visual speech recognition     using the janus speech recognition toolkit.     DAGM 2004, Lecture Notes in Computer Science,     3175: 488&#8211;495. </FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000154&pid=S1692-3324200900010000900012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">13. LOAIZA J., G&Oacute;MEZ J.B. and CEBALLOS A. (2007). An&aacute;lisis     de Discriminancia y Selecci&oacute;n de Caracter&iacute;sticas     de Color en Im&aacute;genes de Labios Utilizando Redes     Neuronales. XII Simposio de Tratamiento de Se&ntilde;ales,   Im&aacute;genes y Visi&oacute;n Artificial. STSIVA 2007, 1-5</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000155&pid=S1692-3324200900010000900013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">14. MEJ&Iacute;A G&Oacute;MEZ I. M. y PRIETO ORTIZ F. A., (2004),     Extracci&oacute;n autom&aacute;tica de caracter&iacute;sticas faciales para     el estudio antropom&eacute;trico en ni&ntilde;os entre 5 y 10 a&ntilde;os     de la ciudad de Manizales. En Memorias del Cuarto     Encuentro de Investigaci&oacute;n sobre Tecnolog&iacute;as de Informaci&oacute;n     aplicadas a la soluci&oacute;n de problemas (EITI),     171-178.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000156&pid=S1692-3324200900010000900014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">15. NEFIAN A. V., LIANG L., PI X., LIU X., and MURPHY     K. (2002). Dynamic bayesian networks for audio-visual     speech recognition. EURASIP Journal on Applied     Signal Processing, 1-15.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000157&pid=S1692-3324200900010000900015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">16. PANDZIC I. S. y FORCHHEIMER R. 2002. (MPEG-4),     Facial Animation: The Standard, Implementation and     Applications, England, Wiley, 7-62.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000158&pid=S1692-3324200900010000900016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">17. POTAMIANOS G. (2006). Speech recognition, audio-visual.     Elsevier, 800-805.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000159&pid=S1692-3324200900010000900017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">18. RAMOS M., MATAS J., and KITTLER J. (1997).     Statistical chromaticity-based lip tracking with B-splines. In     ICASSP &#8216;97: Proceedings of the 1997 IEEE International     Conference on Acoustics, Speech, and Signal     Processing (ICASSP), 4: 2973.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000160&pid=S1692-3324200900010000900018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">19. SALAZAR A. y PRIETO F. (2006). Extracci&oacute;n y Clasificaci&oacute;n     de Posturas Labiales en Ni&ntilde;os entre 5 y 0 A&ntilde;os     de la Ciudad de Manizales. En DYNA, Revista de la     Facultad de Minas, Universidad Nacional de Colombia     Sede Medell&iacute;n, 73 (150): 175-188.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000161&pid=S1692-3324200900010000900019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">20. SALAZAR A., HERN&Aacute;NDEZ J. y PRIETO     F. (2007). Automatic Quantitative Mouth Shape Analysis. Computer     Analysis of Images and Patterns, 4673: 416-423.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000162&pid=S1692-3324200900010000900020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">21. SANDERSON C. y PALIWAL K. K. (2004). Identity verification     using speech and face information. Digital Signal     Processing. Elsevier, 14, Issue 5: 449-480.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000163&pid=S1692-3324200900010000900021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">22. SEYEDARABI H., LEE W., and AGHAGOLZADEH A. (2006).     Automatic lip tracking and action units classification using     two-step active contours and probabilistic neural networks.     In Canadian Conference on Electrical and Computer     Engineering Proceedings (CCECE), 2021-2024.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000164&pid=S1692-3324200900010000900022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">23. YANG M.-H., KRIEGMAN D., and AHUJA N., (2002).     Detecting Faces in Images: A Survey. In IEEE Transactions     on Pattern Analysis and Machine Intelligence     (PAMI), 24(1): 34-58.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000165&pid=S1692-3324200900010000900023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">24. ZHANG J., KAYNAK M., CHEOK A., and KO C.     C. (2001). Real-time lip tracking for virtual lip implementation     in virtual environments and computer games. In The     10th IEEE International Conference on Fuzzy Systems     Proceedings, 3: 1359 &#8211; 1362.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000166&pid=S1692-3324200900010000900024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">25. ZHANG X., MERSEREAU R. M., and CLEMENTS M. A.     (2002). Audio-visual speech recognition by speechreading.     The 10th IEEE Digital Signal Processing (DSP)     Workshop, 1069-1072.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000167&pid=S1692-3324200900010000900025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">26.   ZHILIN W., ALEKSIC P. S., and KATSAGGELOS     A. K. (2002). Lip tracking for MPEG-4 facial animation. In     Fourth IEEE International Conference on Multimodal     Interfaces Processing, 293&#8211;298.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000168&pid=S1692-3324200900010000900026&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><P><FONT SIZE="2" FACE="Verdana">27.      ZHILIN W. y ALEKSIC P. S. (2004). Inner lip feature     extraction for MPEG-4 facial animation. In IEEE     International Conference on Acoustics, Speech, and     Signal Processing (ICASSP), 2(iii): 633-636.</FONT>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000169&pid=S1692-3324200900010000900027&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><P>&nbsp;</P>     <P><font size="2" face="Verdana"><B>Recibido:</B> 27/03/2009     <BR>     <B>Aceptado:</B> 07/05/2009 </font></P>     ]]></body>
<body><![CDATA[<P>&nbsp;</P>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ABBOUD]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[CHOLLET]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Appearance based lip tracking and cloning on speaking faces]]></article-title>
<source><![CDATA[Proceedings of the]]></source>
<year>2005</year>
<conf-name><![CDATA[4th International Symposium on Image and Signal Processing and Analysis]]></conf-name>
<conf-loc> </conf-loc>
<page-range>301 - 305</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ALEKSIC]]></surname>
<given-names><![CDATA[P. S]]></given-names>
</name>
<name>
<surname><![CDATA[KATSAGGELOS]]></surname>
<given-names><![CDATA[A. K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparision of MPEG-4 facial animation parameter groups with respect to audio-visual speech recognition performance]]></article-title>
<source><![CDATA[]]></source>
<year>2005</year>
<volume>III</volume>
<conf-name><![CDATA[3 Conference on Image Processing]]></conf-name>
<conf-loc> </conf-loc>
<page-range>501-504</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAMPBELL]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Audio-visual speech processing]]></source>
<year>2006</year>
<page-range>562-569</page-range><publisher-name><![CDATA[Elsevier]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CAMPBELL]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The processing of audio-visual speech: empirical and neural bases]]></article-title>
<source><![CDATA[Philosophical Transactions of The Royal Society B.]]></source>
<year>2008</year>
<page-range>1001-1010</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DUPONT]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[LUETTIN]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Audio-visual speech modeling for continuous speech recognition]]></article-title>
<source><![CDATA[IEEE transactions on multimedia]]></source>
<year>2000</year>
<volume>2</volume>
<page-range>141-151</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GOECKE]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Current trends in joint audio-vídeo signal processing: a review]]></article-title>
<source><![CDATA[Proceeding of the]]></source>
<year>2005</year>
<volume>1</volume>
<conf-name><![CDATA[ EighthInternational Symposium on Signal Processing and Its Applications]]></conf-name>
<conf-date>2005</conf-date>
<conf-loc> </conf-loc>
<page-range>70 -73</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GÓMEZ]]></surname>
<given-names><![CDATA[J. B.]]></given-names>
</name>
<name>
<surname><![CDATA[PRIETO]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[REDARCE]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Lips Movement Segmentation and Features Extraction in Real Time]]></article-title>
<source><![CDATA[Innovative Algorithms and Techniques in Automation, Industrial Electronics and Telecommunications]]></source>
<year>2007</year>
<page-range>205 -210</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HERNÁNDEZ]]></surname>
<given-names><![CDATA[J. E.]]></given-names>
</name>
<name>
<surname><![CDATA[PRIETO]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[REDARCE]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Real-Time Robot Manipulation Using Mouth Gestures In Facial Vídeo Sequences]]></article-title>
<source><![CDATA[Advances in Brain, Vision, and Artificial Intelligence]]></source>
<year>2007</year>
<page-range>224-233</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="">
<collab>ISO</collab>
<collab>IEC</collab>
<source><![CDATA[Information technology-generic coding of audio-visual objects: Part 2: Visual, ISO/IEC FDIS 14496-2 (Final Drafts International Standard), ISO/IEC JTC1/SC29/WG11 N2502]]></source>
<year>1998</year>
<publisher-loc><![CDATA[Atlantic City ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[JIANG]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[GAN]]></surname>
<given-names><![CDATA[Z.]]></given-names>
</name>
<name>
<surname><![CDATA[HE]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[GAO]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Combining particle lter and active shape models for lip tracking]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<volume>2</volume>
<conf-name><![CDATA[Sixth World Congress on Intelligent Control and Automation Proceedings]]></conf-name>
<conf-loc> </conf-loc>
<page-range>9897- 9901</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KIM]]></surname>
<given-names><![CDATA[M. W.]]></given-names>
</name>
<name>
<surname><![CDATA[RYU]]></surname>
<given-names><![CDATA[J. W.]]></given-names>
</name>
<name>
<surname><![CDATA[KIM]]></surname>
<given-names><![CDATA[E. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Speech Recognition with Multi-modal Features Based on Neural Networks]]></article-title>
<source><![CDATA[Lecture Notes in Computer Science]]></source>
<year>2006</year>
<volume>4233</volume>
<page-range>489-498</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KRATT]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[METZE]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[STIEFELHAGEN]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[WAIBEL]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<collab>DAGM</collab>
<source><![CDATA[Large vocabulary audio-visual speech recognition using the janus speech recognition toolkit]]></source>
<year>2004</year>
<month>20</month>
<day>04</day>
<page-range>488-495</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LOAIZA]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[GÓMEZ]]></surname>
<given-names><![CDATA[J.B.]]></given-names>
</name>
<name>
<surname><![CDATA[CEBALLOS]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Análisis de Discriminancia y Selección de Características de Color en Imágenes de Labios Utilizando Redes Neuronales]]></article-title>
<source><![CDATA[]]></source>
<year>2007</year>
<conf-name><![CDATA[XII Simposio de Tratamiento de Señales, Imágenes y Visión Artificial]]></conf-name>
<conf-date>2007</conf-date>
<conf-loc> </conf-loc>
<page-range>1-5</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MEJÍA GÓMEZ]]></surname>
<given-names><![CDATA[I. M.]]></given-names>
</name>
<name>
<surname><![CDATA[PRIETO ORTIZ]]></surname>
<given-names><![CDATA[F. A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Extracción automática de características faciales para el estudio antropométrico en niños entre 5 y 10 años de la ciudad de Manizales]]></article-title>
<source><![CDATA[En Memorias del]]></source>
<year>2004</year>
<conf-name><![CDATA[Cuarto Encuentro de Investigación sobre Tecnologías de Información aplicadas a la solución de problemas (EITI)]]></conf-name>
<conf-loc> </conf-loc>
<page-range>171-178</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NEFIAN]]></surname>
<given-names><![CDATA[A. V.]]></given-names>
</name>
<name>
<surname><![CDATA[LIANG]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[PI]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
<name>
<surname><![CDATA[LIU]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
<name>
<surname><![CDATA[MURPHY]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Dynamic bayesian networks for audio-visual speech recognition]]></article-title>
<source><![CDATA[EURASIP Journal on Applied Signal Processing]]></source>
<year>2002</year>
<page-range>1-15</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[PANDZIC]]></surname>
<given-names><![CDATA[I. S.]]></given-names>
</name>
<name>
<surname><![CDATA[FORCHHEIMER]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[(MPEG-4), Facial Animation: The Standard, Implementation and Applications]]></source>
<year>2002</year>
<page-range>7-62</page-range><publisher-name><![CDATA[Wiley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[OTAMIANOS]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[Speech recognition, audio-visual]]></source>
<year>2006</year>
<page-range>800-805</page-range><publisher-name><![CDATA[Elsevier]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RAMOS]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[MATAS]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[KITTLER]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Statistical chromaticity-based lip tracking with B-splines]]></article-title>
<source><![CDATA[ICASSP ‘97: Proceedings of the]]></source>
<year>1997</year>
<volume>4</volume>
<conf-name><![CDATA[ Conference on Acoustics, Speech, and Signal Processing (ICASSP)]]></conf-name>
<conf-date>1997</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALAZAR]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[PRIETO]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Extracción y Clasificación de Posturas Labiales en Niños entre 5 y 0 Años de la Ciudad de Manizales]]></article-title>
<source><![CDATA[DYNA, Revista de la Facultad de Minas]]></source>
<year>2006</year>
<volume>73</volume>
<numero>150</numero>
<issue>150</issue>
<page-range>175-188</page-range><publisher-name><![CDATA[Universidad Nacional de Colombia Sede Medellín]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALAZAR]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[HERNÁNDEZ]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[PRIETO]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Automatic Quantitative Mouth Shape Analysis]]></article-title>
<source><![CDATA[Computer Analysis of Images and Patterns]]></source>
<year>2007</year>
<volume>4673</volume>
<page-range>416-423</page-range></nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SANDERSON]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[PALIWAL]]></surname>
<given-names><![CDATA[K. K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Identity verification using speech and face information]]></article-title>
<source><![CDATA[Digital Signal Processing]]></source>
<year>2004</year>
<volume>14</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>449-480</page-range><publisher-name><![CDATA[Elsevier]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SEYEDARABI]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[LEE]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[AGHAGOLZADEH]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Automatic lip tracking and action units classification using two-step active contours and probabilistic neural networks]]></article-title>
<source><![CDATA[]]></source>
<year>2006</year>
<conf-name><![CDATA[ Canadian Conference on Electrical and Computer Engineering Proceedings (CCECE)]]></conf-name>
<conf-loc> </conf-loc>
<page-range>2021-2024</page-range></nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[M.-H.]]></given-names>
</name>
<name>
<surname><![CDATA[KRIEGMAN]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[AHUJA]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Detecting Faces in Images: A Survey]]></article-title>
<source><![CDATA[IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)]]></source>
<year>2002</year>
<volume>24</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>34-58</page-range></nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[KAYNAK]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[CHEOK]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[KO]]></surname>
<given-names><![CDATA[C. C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Real-time lip tracking for virtual lip implementation in virtual environments and computer games]]></article-title>
<source><![CDATA[]]></source>
<year>2001</year>
<volume>3</volume>
<conf-name><![CDATA[10th IEEE International Conference on Fuzzy Systems Proceedings]]></conf-name>
<conf-loc> </conf-loc>
<page-range>1359 - 1362</page-range></nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
<name>
<surname><![CDATA[MERSEREAU]]></surname>
<given-names><![CDATA[R. M.]]></given-names>
</name>
<name>
<surname><![CDATA[CLEMENTS]]></surname>
<given-names><![CDATA[M. A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Audio-visual speech recognition by speechreading]]></article-title>
<source><![CDATA[]]></source>
<year>2002</year>
<conf-name><![CDATA[10th IEEE Digital Signal Processing (DSP) Workshop]]></conf-name>
<conf-loc> </conf-loc>
<page-range>1069-1072</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHILIN]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[ALEKSIC]]></surname>
<given-names><![CDATA[P. S.]]></given-names>
</name>
<name>
<surname><![CDATA[KATSAGGELOS]]></surname>
<given-names><![CDATA[A. K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Lip tracking for MPEG-4 facial animation]]></article-title>
<source><![CDATA[]]></source>
<year>2002</year>
<conf-name><![CDATA[Fourth IEEE International Conference on Multimodal Interfaces Processing]]></conf-name>
<conf-loc> </conf-loc>
<page-range>293-298</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHILIN]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[ALEKSIC]]></surname>
<given-names><![CDATA[P. S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Inner lip feature extraction for MPEG-4 facial animation]]></article-title>
<source><![CDATA[]]></source>
<year>2004</year>
<volume>2</volume>
<conf-name><![CDATA[ IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)]]></conf-name>
<conf-loc> </conf-loc>
<page-range>633-636</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
