<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0012-7353</journal-id>
<journal-title><![CDATA[DYNA]]></journal-title>
<abbrev-journal-title><![CDATA[Dyna rev.fac.nac.minas]]></abbrev-journal-title>
<issn>0012-7353</issn>
<publisher>
<publisher-name><![CDATA[Universidad Nacional de Colombia]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0012-73532008000100018</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[MANIPULACIÓN DE ROBOTS CON BASE EN POSTURAS LABIALES]]></article-title>
<article-title xml:lang="en"><![CDATA[LIP GESTURE-BASED ROBOT MANIPULATION]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[GÓMEZ]]></surname>
<given-names><![CDATA[JUAN B.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[HERNÁNDEZ]]></surname>
<given-names><![CDATA[JORGE E.]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[PRIETO]]></surname>
<given-names><![CDATA[FLAVIO]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Colombia Sede Manizales  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional de Colombia Sede Manizales  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad Nacional de Colombia Sede Manizales  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2008</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2008</year>
</pub-date>
<volume>75</volume>
<numero>154</numero>
<fpage>187</fpage>
<lpage>198</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0012-73532008000100018&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0012-73532008000100018&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0012-73532008000100018&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En este artículo se propone un nuevo método para el comando de tres grados de libertad de un robot manipulador, por medio de gestos de la boca. Las diferentes posiciones son registradas en secuencias de video, las cuales son procesadas y clasificadas en tiempo real. Se utilizan diferentes técnicas de procesamiento de imágenes a cada cuadro, para lograr la adecuada segmentación y caracterización del área de la boca. Posteriormente, se utiliza la información de clasificación en una máquina de estados que estabiliza la detección del gesto e interactúa con la interfaz de comando del robot, indicándole la operación a realizar. Los resultados obtenidos muestran que la metodología propuesta es altamente efectiva para aplicaciones en tiempo real, siendo lo suficientemente rápida y adecuada para la detección de las posturas seleccionadas.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[In this paper, a novel approach for the mouth-gestures based command of three degrees of freedom of a robot is proposed. The different selected gestures are recorded in video sequences, which are processed and classified in real time. Several image processing techniques are applied in each frame, in order to achieve an appropriate feature extraction and classification of gestures. After that, the output of the classifier is used as the input of a state machine which stabilizes the command selection and sends the selected operation to the robot’s command interface. The method shows to be very effective for real time applications, giving both enough speed and good gesture detection.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Interfaz hombre-máquina]]></kwd>
<kwd lng="es"><![CDATA[segmentación de la boca]]></kwd>
<kwd lng="es"><![CDATA[detección de gestos]]></kwd>
<kwd lng="en"><![CDATA[Human-machine interface]]></kwd>
<kwd lng="en"><![CDATA[mouth segmentation]]></kwd>
<kwd lng="en"><![CDATA[gesture detection]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="center"><font size="4" face="Verdana, Arial, Helvetica, sans-serif"><b>MANIPULACI&Oacute;N DE ROBOTS CON BASE EN POSTURAS LABIALES </b></font></p>     <p align="center"><b><font size="4" face="Verdana, Arial, Helvetica, sans-serif"><i><font size="3">LIP GESTURE-BASED ROBOT MANIPULATION</font></i></font></b><font size="3"><i></i></font></p>     <p align="center">&nbsp; </p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>JUAN       B. GÓMEZ</b>    <br>   <i>Universidad Nacional de Colombia Sede Manizales, <a href="mailto:jbgomezm@unal.edu.co">jbgomezm@unal.edu.co</a></i></font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>JORGE       E. HERNÁNDEZ</b>    <br>   <i>Universidad Nacional de Colombia Sede Manizales, <a href="mailto:jehernandezl@unal.edu.co">jehernandezl@unal.edu.co</a></i></font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>FLAVIO PRIETO</b>    <br>   <i>Universidad Nacional de Colombia Sede Manizales, <a href="mailto:faprietoo@unal.edu.co">faprietoo@unal.edu.co</a></i></font></p>     <p align="center">&nbsp; </p>     ]]></body>
<body><![CDATA[<p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Recibido       para revisar Abril 17 de 2007, aceptado Agosto 30 de 2007, versión final  Septiembre 09 de 2007</b></font></p>     <p>&nbsp; </p> <hr>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN: </b>En     este artículo se propone un  nuevo método para el comando de tres grados de libertad de un robot manipulador,  por medio de gestos de la boca. Las diferentes posiciones son registradas  en secuencias de video, las cuales son procesadas y clasificadas en tiempo  real. Se utilizan diferentes técnicas de procesamiento de imágenes a cada  cuadro, para lograr la adecuada segmentación y caracterización del área de  la boca. Posteriormente, se utiliza la información de clasificación en una  máquina de estados que estabiliza la detección del gesto e interactúa con  la interfaz de comando del robot, indicándole la operación a realizar. Los  resultados obtenidos muestran que la metodología propuesta es altamente efectiva  para aplicaciones en tiempo real, siendo lo suficientemente rápida y adecuada  para la detección de las posturas seleccionadas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>PALABRAS CLAVE</b>:     Interfaz hombre-máquina, segmentación de la boca,  detección de gestos.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>ABSTRACT</b>:      In this paper, a novel approach for the mouth-gestures based command of      three degrees of freedom of a robot is proposed. The different selected      gestures are recorded in video sequences, which are processed and classified      in real time. Several image processing techniques are applied in each frame,      in order to achieve an appropriate feature extraction and classification      of gestures. After that, the output of the classifier is used as the input      of a state machine which stabilizes the command selection and sends the      selected operation to the robot’s command interface. The method  shows to be very effective for real time applications, giving both enough  speed and good gesture detection.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>KEYWORDS</b>: Human-machine interface, mouth segmentation,  gesture detection.</font></p>     <hr>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>1. INTRODUCCIÓN </b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La cirugía tradicional en laparoscopia requiere la ayuda de una persona  para manipular el endoscopio, según las instrucciones del cirujano. Esta  técnica de operación no es óptima porque el endoscopio se mueve constantemente,  debido a los temblores de la mano del operador. Las órdenes del cirujano  pueden ser mal interpretadas por el operador y, por lo tanto, mal ejecutadas. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este problema puede ser resuelto desarrollando un Sistema de Posicionamiento  del Laparoscopio </font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">por un brazo      robotizado (SPRL). Es decir, un robot controlado directamente por el cirujano,      manipula el laparoscopio [1]. Utilizando una interfaz cirujano-robot de      alto nivel, el cirujano puede controlar por sí mismo el laparoscopio mediante  la voz, una palanca de mando o mediante los movimientos de la cabeza.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los SPRL que      utilizan una interfaz basada en palancas de mando o en pedales requieren      de la mano o del pie del cirujano para controlar la cámara. Estos  tipos de interfaz no son de uso fácil, porque el cirujano ya tiene ocupadas  sus manos y pies para controlar una gran variedad de instrumental quirúrgico.  Algunos investigadores intentaron utilizar la voz, para desarrollar un sistema  de posicionamiento para endoscopia robotizada [2]; estos sistemas presentan  como inconveniente el ruido de fondo, el cual puede ser interpretado por  el robot como órdenes. Por lo tanto, parece ser que la mejor manera de controlar  un SPRL es mediante la utilización de los gestos de la cara. El sistema FAce  MOUSe [3], es una interfaz basada en los movimientos del rostro, en el que  una cámara fotográfica normal observa la cabeza del cirujano quien con movimientos  intencionales de su cabeza, controla la posición y orientación del laparoscopio.  De esta manera, el cirujano puede controlar un SPRL mediante los movimientos  de su cabeza, sin ningún dispositivo especial. Sin embargo, parece más natural  controlar el movimiento de un robot sólo con el movimiento de los labios.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los movimientos      del laparoscopio son restringidos a cuatro grados de libertad (GDL). Los      primeros dos GDL son movimientos de inclinación perpendicular  (<i>pan</i> y <i>tilt</i>) alrededor del punto de inserción del trocar, que  permite la introducción del laparoscopio. El tercer GDL es el de inserción  y retracción del laparoscopio, el cual corresponde al <i>zoom</i> de las  imágenes. El último GDL, el de rotación del laparoscopio, siempre es evitado  durante la operación quirúrgica, porque la observación de estas imágenes  rotadas demanda esfuerzo mental adicional (muy importante) por parte de los  cirujanos [4]. De esta manera, el Sistema Robotizado de Posicionamiento para  Laparoscopio sólo requiere tres GDL. Los movimientos normales de la cabeza  y de los labios, permiten reproducir estos tres GDL. Por supuesto, para este  sistema, los labios del cirujano deben ser visibles por la cámara.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La consola de      operación del Sistema Quirúrgico DaVinci [5] generalmente  está ubicada a 3 metros del paciente; en esta consola, el cirujano no requiere  tapabocas y por tanto puede utilizar sus labios para controlar la cámara  del laparoscopio. Este control se realiza mediante una cámara de video normal  que sigue el movimiento de los labios del cirujano. El movimiento del laparoscopio  pude ser modelado por una máquina de estados, a partir de unas entradas definidas  por la posición de los labios.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los sistemas      de visión artificial están compuestos por diversas etapas,  desde el momento de la captura de las imágenes o secuencias, hasta la interpretación  de los resultados. En general, se puede decir que dichos sistemas están compuestos  por las siguientes etapas:</font></p>  <ul type=disc>      <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Adquisición de las imágenes    o secuencias de video.</font></li>      <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Pre-procesamiento de las secuencias.</font></li>      <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Segmentación de los objetos de interés.</font></li>      <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Caracterización    de los objetos segmentados.</font></li>      <li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Clasificación    de los objetos.</font></li>      ]]></body>
<body><![CDATA[<li><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Interpretación de la información    de la escena.</font></li>      </ul>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen en la      literatura diversas técnicas de adquisición y de pre-procesamiento  de la información; por este motivo, el objetivo del trabajo, en cuanto a  visión artificial se refiere, se concentra en determinar estrategias adecuadas  de segmentación, caracterización y clasificación de gestos bucales en tiempo  real. Adicionalmente, la interpretación de los resultados se utiliza en una  máquina de estados que genera la secuencia de comandos de operación de tres  grados de libertad de un robot manipulador.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La estructura      del documento es como se sigue: en la Sección 2 se presenta  el trabajo en el campo de la manipulación de sistemas robotizados de cirugía  utilizando diversos mecanismos, entre ellos la visión artificial. En la Sección  3 se describe el método utilizado para la segmentación del área de la boca  en secuencias de video en tiempo real. En la Sección 4 se expone la estrategia  de caracterización de la región segmentada de la boca. En la Sección 5 se  muestra la máquina de estados utilizada en la clasificación de gestos bucales  y la interacción con el robot. En la Sección 6 se muestran los resultados  de las pruebas de operación del sistema. En la Sección 7 se concluye el trabajo,  y se proponen los lineamientos de la continuación del mismo.</font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>2. TRABAJO RELACIONADO</b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La etapa más crítica en el proceso de detección y clasificación de los gestos  bucales en secuencias de video es la segmentación de la región de la boca.  Una manera de acercarse al problema de segmentación de labios, es encontrando  una transformación de espacio de color apropiada que refuerce la diferencia  entre el área de los labios y la región del rostro. En este campo, se han  desarrollado varios trabajos. En [6], se afirma que la componente roja es predominante  en el área de la cara, en el espacio de color RGB y la separación entre la  piel y los labios es más fácil de ver en la relación entre las componentes  G y B. En [7], se presenta un nuevo conjunto de transformaciones no lineales  compuestas desde el espacio de color YC<sub>b</sub>C<sub>r</sub>. Ellos muestran  que la transformación no lineal puede mejorar significativamente el contraste  entre el área de la boca y el resto de la cara. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En [8], se define      una nueva transformación basada en el espacio de color  RGB llamada el mapa de la curva cromática. Esa transformación refuerza la  diferencia entre los labios y la piel, y permite la detección robusta del  labio bajo condiciones de iluminación no uniformes y sin el uso de cualquier  maquillaje en particular. La transformación se basa en el hecho de que la  cantidad de verde en el área de la piel, comparada con la componente azul  es más grande que en el área de los labios. En [9], se presenta un sistema  automático para la lectura de los labios y la reproducción sintética de gestos  y sonido. En este trabajo se utilizó una nueva transformación de espacio  de color logarítmica HSV, y un análisis de vecindarios espacio-temporales  para segmentar el área de los labios apropiada en las secuencias de video.  En [10] se definen los umbrales de la componente H del espacio HSV que discrimina  los labios del área de la piel.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una fuente reiterativa      en la segmentación de imágenes se fundamenta en las  medidas de conectividad difusa. Estas técnicas permiten radios de detección  muy altos en escenas en las cuales los bordes son poco definidos. Sin embargo,  dichas técnicas suelen ser costosas computacionalmente, y por tanto se descartan  para aplicaciones en tiempo real. En [11] se propone un método de segmentación  difusa de los labios, basada en un multi-fondo y un esquema del objeto. Ellos  utilizan una función de distancia dual que tenga una parte euclídea y una  parte elíptica. Presentaron una función de costo que se deriva del algoritmo  de conectividad difuso (FCM). Otro trabajo que utiliza FCM es el presentado  en [12]; en éste, se utiliza un segmentador FCM basado en una representación  en los espacios de color de CIELAB y de CIELUV. Una estimación iterativa  del parámetro para las funciones de la calidad de miembro del proceso de  FCM que utilizó, demuestran una buena convergencia en tres iteraciones. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En [13] se propone      un método basado en un modelo estadístico de forma, con  descriptores Gaussianos de apariencia local. Se muestra que, en algunos casos,  la respuesta de los descriptores locales puede predecir la forma. Esta predicción  se logra por medio de una red neuronal artificial no lineal. </font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la interfaz      Hombre-Robot [14], se presentó un sistema basado en el reconocimiento  de la cara y los gestos. Se usó la información de la cara y de las manos  (movimientos de los dedos) como las entradas en una regla de decisión. La  segmentación de la piel se realizó usando la representación de color YIQ.  Los comandos al robot se enviaron por la red TCP/IP. En [15] y [16] se propuso  un sistema robotizado para la interacción de un operador humano. La interfaz  del hombre-robot es un sistema basado en visón para lograr una interacción  natural entre el operador y el robot. El sistema de visión encuentra y sigue  el rostro de los operadores, reconoce los gestos faciales y determina la  mirada fijamente del usuario. En ambos trabajos, el tiempo real no se tuvo  en cuenta para el desarrollo de los algoritmos. </font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>3. SEGMENTACIÓN  DE GESTOS BUCALES EN SECUENCIAS DE VIDEO</b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La primera etapa      antes del proceso de extracción de características en secuencias de video faciales es la segmentación  de los labios y la boca. El proceso se muestra en la <a href="#fig01">Figura  1</a>. </font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig01"></a><img src="/img/revistas/dyna/v75n154/a18fig01.gif">    <br>   Figura 1. </b>Proceso      de Segmentación  de los Labios.    <br>  <b>Figure 1.</b> Lips segmentation  process.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A pesar de la      cantidad de trabajos en el área de reconocimiento automático  de la región de la boca en imágenes y video, el compromiso entre la </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">calidad y la      velocidad de operación alcanzada, no suple las necesidades  de sistemas de misión crítica en tiempo real. Además, presentan inconvenientes  cuando el sujeto en las imágenes posee vello facial y/o es de tez oscura.  Por éste motivo, en el presente artículo se plantea una metodología diferente,  que probó ser robusta en la presencia de vello facial, y cuyo rendimiento  es adecuado para el uso en sistemas en tiempo real.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La primera fase      consiste en la descomposición de la información de la imagen  en tres componentes de color: el tono (H), la componente verde (G) y la transformación  de color llamada <i>mapa de la boca,</i> propuesta en [7]. En una segunda  fase, las tres componentes son binarizadas y mezcladas por medio del operador  de conjunción AND. El resultado es la exclusión (o segmentación) adecuada  del área de la boca, y unas pocas regiones residuales de tamaño mucho menor  al de la boca.</font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Finalmente, se      realiza un recorte de la región de interés (ROI, por sus  siglas en inglés), delimitada por medio de una elipse que envuelve el área  de la boca. Esta elipse es calculada de forma dinámica mediante el uso de  la información proveniente de iteraciones anteriores del algoritmo. En la  primera iteración, la búsqueda de la región de interés se realiza en toda  la imagen. A continuación se explican en detalle el método propuesto para  la segmentación de la boca.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>3.1 Extracción del área        de la boca    <br>  </b>La primera componente de color utilizada    para resaltar la información del área  de la boca es la componente verde (G) del espacio de color <i>RGB</i>. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En las imágenes que poseen información de piel y labios, la información  de la componente verde es una característica discriminante entre ellas. Para  mejorar el contraste entre las regiones se realizó una expansión dinámica  de la componente verde. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La siguiente componente es el <i>mapa de la boca, </i>presentada      en [7]. Esta componente nace de una transformación no lineal del espacio      de color <i>YC</i><sub>b</sub><i>C</i><sub>r</sub>.  La expresión que resalta la componente de la boca está descrita por la Ecuación  (1). </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq01.gif"></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Donde: <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq002.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq004.gif"></sub> son normalizados  en el rango de [0, 255], y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq006.gif"></sub> es la relación  promedio entre <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq002.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq004.gif"></sub>. Una vez  que la componente es calculada, ésta se normaliza en el rango [0,255].</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La tercera componente es el tono (<i>H</i>) del espacio de color <i>HSV</i>.  En el trabajo de Eckert [10], se proponen ciertos umbrales fijos en la componente  de tono que resaltan de forma adecuada el área de la boca en imágenes faciales,  representadas en la componente tonal. Estos umbrales mostraron ser adecuados  para ubicar la boca, pero en algunos casos demasiado exclusivos y con tendencia  a eliminar el borde externo de los labios. Por lo tanto, dichos valores fueron  tomados como base para la binarización de la componente tonal, adicionando  un desplazamiento de 2 unidades en cada sentido, y dando como resultado una  ampliación en la banda de selección. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la componente      verde se usó una binarización adaptativa basada en la información  estadística de la media <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq010.gif"></sub> y la varianza <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq012.gif"></sub> de la imagen.  Resultados experimentales mostraron que, en imágenes en las cuales no aparecen  los dientes ni exceso de barba, el umbral definido por</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq02.gif"></font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">resalta de forma      adecuada la región de la boca. Cuando aparecen dientes  o barba, la región segmentada en la componente verde resulta ser laxa y por  tanto la exclusión queda en manos de las otras dos componentes. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la componente      de mapa de la boca se utilizó un umbral con la información  de media <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq014.gif"></sub>. Finalmente,  el rango dinámico de la binarización del mapa de boca está definido por </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq03.gif"></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La conjunción de las tres imágenes      binarias, produce una imagen que resalta la zona de los labios y el interior  de la boca.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>3.2 Recorte  de la región de interés (ROI)    <br>  </b>Con base en la imagen binaria generada mediante  la binarización de las tres  componentes y su conjunción, se aplicó una condición de recorte elíptico,  la cual restringe la región de interés para la búsqueda de la boca en la  próxima iteración. Además reduce la presencia de regiones residuales en el  resto de la imagen. Cualquier píxel que se encuentre fuera de la zona elíptica  hallada es descartado y no pertenece a la región de interés.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El cálculo iterativo de la zona de recorte elíptico, se realiza con base  en las características detectadas de la región de la boca, y se explica en  la Subsección 4.2.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>3.3 Resultados  de la segmentación    <br>  </b>La <a href="#fig02">Figura 2</a> muestra algunos resultados de la segmentación para distintos  sujetos. Los mejores resultados fueron obtenidos para rostros pálidos y sin  barba. El filtro elíptico reduce el problema del ruido, que fue introducido  por el componente de tono, pero hace que el sistema se torne inestable y  pierda la boca con facilidad. La inestabilidad es debida a las condiciones  de expansión-compresión usadas para adaptar la elipse sobre el tiempo, y  el ruido que aparece cerca del área de la boca. Los primeros dos sujetos  muestran problemas de segmentación en el labio superior, debido principalmente  a la proyección de sombras por parte de la nariz sobre dicha zona.</font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig02"></a><img src="/img/revistas/dyna/v75n154/a18fig02.gif">    ]]></body>
<body><![CDATA[<br>   Figura       2.</b> Ejemplos de segmentaci&oacute;n.    <br>      <b>Figure 2.</b> Snapshots of the segmentation process.</font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>4. EXTRACCIÓN DE CARACTERÍSTICAS</b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para la caracterización de la boca se implementó un algoritmo que realiza  la búsqueda de los cuatro puntos característicos: las dos esquinas horizontales  de la boca (izquierda y derecha) y las dos esquinas verticales de la boca  (superior e inferior), como se muestra en la <a href="#fig03">Figura 3(a)</a>.</font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig03"></a><img src="/img/revistas/dyna/v75n154/a18fig03.gif">    <br>   Figura 3. </b>Características  y métricas de la Boca.    <br>  <b>Figure 3.</b> Mouth landmarks  and measurements.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La búsqueda de los puntos se realiza dentro de la caja que limita la boca.  Esta caja se encuentra sumando los píxeles blancos en cada uno de los ejes  (X y Y), comenzando desde los límites de la imagen. En cada caso la selección  se realiza sobre un umbral de la suma de los píxeles, en la cual la primera  ocurrencia se tiene como referencia de la fila y columna correspondiente.  Finalmente, las referencias son movidas proporcionalmente según los rangos  verticales y horizontales, con el fin de cubrir el área completa de la boca. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El cálculo de la boca se realiza solamente en la primera iteración. En las  siguientes iteraciones la búsqueda de los puntos se hace en el vecindario  de los puntos encontrados en las iteraciones anteriores y que cumplan la  condición elíptica. La búsqueda de los puntos se efectuó utilizando la información  de la mejor recta que caracteriza la boca. Los parámetros: pendiente y punto  de corte, de la línea recta son calculados utilizando una regresión lineal  con todos los puntos que forman el área de la boca segmentada. Sin embargo,  el valor de la pendiente calculada por la regresión es promediado con el  valor obtenido de la pendiente entre los puntos <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq016.gif"></sub>. Después  del cálculo de la nueva recta, se determinó la línea recta perpendicular  que pasa por el punto medio entre <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq018.gif"></sub>y<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq020.gif"></sub>. En el  siguiente paso, los puntos son calculados de forma convencional y se verifica  la proximidad de los puntos <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq018.gif"></sub>y<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq020.gif"></sub>con la línea  recta horizontal y de los puntos <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq024.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq026.gif"></sub>con la línea  recta vertical, respectivamente. Cuando la distancia de alguno de los puntos  sobrepasa un umbral, el punto es proyectado sobre su respectiva recta y se  mueve sobre ella hasta el corte con la boca. Utilizando las comisuras encontradas,  se procede con la extracción de las características. En este trabajo se propuso  el uso de dos índices de apertura de la boca, y otro para la rotación angular  de la cara.</font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>4.1 Cálculo de los índices de apertura y cierre mediante lógica  borrosa    <br>  </b>Para el cálculo de los índices, se usó un sistema de inferencia borroso  (FIS) con una variable de entrada con dos funciones de membresía (µ<sub>Th</sub> y µ<sub>Op</sub>),  y dos variables de salida (i<sub>Th</sub> y i<sub>Op</sub>). La variable  de entrada <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq028.gif"></sub> es escogida  de la relación <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq030.gif"></sub> (ver <a href="#fig03">Figura  3(b)</a>), y las salidas son el grado de <i>delgadez</i> (i<sub>Th</sub>) y <i>apertura</i> (i<sub>Op</sub>)  del gesto de la boca. La <a href="#fig04">Figura 4</a> muestra los conjuntos difusos seleccionados  para la variable borrosa de entrada <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq028.gif"></sub>. La forma  de las funciones de membresía de los conjuntos difusos de entrada está descrita  en la Ecuación 4. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq04.gif"></font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig04"></a><img src="/img/revistas/dyna/v75n154/a18fig04.gif">    <br>   Figura       4.</b> Comportamiento del Sistema de Inferencia Borrosa en t&eacute;rminos        de <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq054.gif"></sub>.    <br>      <b>Figure 4.</b> Fuzzy inference system behavior shown in terms of <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq054.gif"></sub>.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las posiciones<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq032.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq034.gif"></sub>, en la  variable de apertura, son puntos que definen el valor medio de apertura y  delgadez para los gestos de boca abierta y boca delgada respectivamente.  Dichos valores pueden ser obtenidos a partir de un análisis estadístico de  la media en un conjunto de estudio. El valor de <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq036.gif"></sub> (<i>a</i> y <i>b</i> en  la <a href="#fig04">Figura 4</a>), define el intervalo de incertidumbre con respecto a las posiciones  de apertura y delgadez. Nótese que, para el primer o segundo caso, si el  valor <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq038.gif"></sub> tiende  a 0, los conjuntos difusos asociados tienden a ser conjuntos clásicos. Por  otro lado, si los valores difusos son grandes tendrán un área de superposición  grande. El conjunto difuso es complementario si los dos valores de caída  (<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq040.gif"></sub>y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq042.gif"></sub>) tienen  un valor igual a <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq044.gif"></sub>. Seleccionando  el método de inferencia por centro de masa, el valor de los índices de apertura  y de delgadez puede ser calculado como se muestra en la Ecuación 5.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq05.gif"></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq046.gif"></sub> es igual  a 1 si el gesto de la boca está con “labios escondidos”, y decrece rápidamente,  hasta que alcanza el valor de 0. <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq048.gif"></sub> es igual  a 1 si la boca se abre considerablemente, y decrece rápidamente hacia 0  cuando el gesto tiende a un estado normal de la boca o estado de reposo.  Nótese que los valores de <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq050.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq052.gif"></sub> tienen  un control indirecto sobre las pendientes de caída y crecimiento de los índices,  como se muestra en la <a href="#fig04">Figura 4</a>. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra característica que se usó, es el ángulo entre el eje horizontal de  la imagen y el eje principal de la boca (identificado como &#952;  en la <a href="#fig03">Figura 3b</a>). Esta característica, ayuda a determinar la rotación de  la boca.</font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>4.2 Cálculo iterativo de la región de interés por medio de recorte  elíptico    <br>  </b>La elipse de recorte que rodea la región de interés se puede parametrizar  a través de su centro<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq057.gif"></sub>y la diagonal  mayor y menor <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq059.gif"></sub>; dos vectores  ortonormales <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq061.gif"></sub> sirven  a su vez como bases del sistema rotado de referencia de la elipse. Estos  parámetros son calculados gracias a la información proveniente de la inicialización  del algoritmo, en la cual se realiza la detección de los puntos base sin  tener en cuenta el recorte. El centro de la elipse es calculado como el centro  de masa de la boca en la imagen actual. Los vectores normales y la distancia  de cada eje se calculan a partir de las comisuras <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq063.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq065.gif"></sub>, como muestra  en la Ecuación (6) y en la Ecuación (7).</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq06.gif"></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq07.gif"></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los valores calculados      son utilizados para determinar la ROI, la cual está definida  por la Ecuación (8).</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/dyna/v75n154/a18eq08.gif"></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La relación elíptica <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq067.gif"></sub> define  la relación de aspecto de la elipse, y una matriz de transformación bidimensional  traslada las coordenadas de la imagen (<i>x</i> y <i>y</i>) a las coordenadas  de la elipse (<i>u</i> y <i>v</i>). Esta transformación ajusta la rotación  y la traslación apropiada, tal que el centro de la elipse localizado en (<i>u  = 0</i>, <i>v = 0</i>), corresponda al centro de masa del área de la boca  en la iteración anterior, y el eje principal de la elipse tenga la misma  pendiente del eje principal de la boca en la iteración actual.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>4.3 Resultados        de la extracción  de características y la detección inicial de los gestos    <br>  </b>La <a href="#tab01">Tabla 1</a> muestra  las medidas de las características obtenidas en las imágenes  de la <a href="#fig02">Figura 2</a>. </font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="tab01"></a>Tabla        1.</b> Valores calculados de las caracter&iacute;sticas para la <a href="#fig02">Figura        2</a>.    ]]></body>
<body><![CDATA[<br>      <b>Table 1.</b> Calculated feature values for Figure 2. </font>    <br>  <img src="/img/revistas/dyna/v75n154/a18tab01.gif"></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con la información obtenida de los puntos se pueden calcular los índices    de apertura y de cierre, que sirven para determinar de forma inicial el gesto    que se observa. Para efectos interpretativos, se toman como gestos iniciales    la boca delgada, que corresponde a <i>i<sub>th</sub></i>=1, la boca    abierta, que corresponde a <i>i<sub>op</sub></i>=1, y se considera    como   “otro” cualquier combinación diferente.</font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>5. CLASIFICACIÓN    DE GESTOS Y CONTROL DEL ROBOT</b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para controlar      los movimientos del robot, se diseñó una máquina de estados,  donde las entradas son los índices difusos de “apertura” y “delgadez”, y  la rotación de la boca. Estas entradas son filtradas usando una media temporal  deslizante de orden 8. En otras palabras, la decisión que se tome en un instante  de tiempo depende de las detecciones halladas en dicho cuadro y siete anteriores. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El diagrama de      estados de la máquina utilizada se muestra en la <a href="#fig05">Figura      5</a>.  La máquina de estados está dividida en dos partes principales: desactivado  (D) y activado (A). Con el objeto de aumentar la fiabilidad del sistema,  se debe asegurar que cualquier movimiento involuntario de la boca no pueda  causar un movimiento del robot. Por esta razón, se diseñó una secuencia de  movimientos, que controla el paso entre desactivado y activado a través de tres estados intermedios (Pa1… Pa3). </font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig05"></a><img src="/img/revistas/dyna/v75n154/a18fig05.gif">    <br>   Figura  5. </b>Máquina de Estados para el comando del robot<b>.    <br>    Figure 5. </b>Robot command state machine</font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Adicionalmente,      hay un tiempo límite de 10 segundos entre cada transición.  Si la transición supera el tiempo límite, el sistema retorna automáticamente  al estado desactivado. Una vez el sistema se encuentra activado, este puede  ser llevado a seis diferentes tipos de movimientos asociados a los tres grados  de libertad controlados (ver <a href="#fig06">Figura 6</a>). Dos movimientos utilizan la rotación  cuando la boca no se encuentra ni abierta ni cerrada. Los otros cuatro dependen  de la localización del centro de masa relativo con el centro de imagen, con  la condición adicional que la boca debe estar abierta.</font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig06"></a><img src="/img/revistas/dyna/v75n154/a18fig06.gif">    <br>   Figura       6.</b> Seis diferentes tipos de gestos de la boca utilizados en el mando        del robot<b>.    <br> Figure 6. </b>Six different mouth gestures are used in the robot command.</font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>6. PRUEBAS Y RESULTADOS</b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El sistema está  conformado por un computador con procesador Pentium IV 3.2GHz y 1 GB de memoria  RAM, una cámara de video de tele-conferencia SONY con auto compensación  de la iluminación y un robot Staübli RX90 con su interfaz de mando. Para  la adquisición del video se utilizó la tarjeta de digitalización IMAQ 1411,  la cual se enlaza usando las librerías provistas por el fabricante. Los  algoritmos fueron implementados en lenguaje C++. El sistema de video fue  configurado en estándar PAL, con una resolución de 640x480 píxeles a 25  fps. Para compensar el efecto de las sombras en las inmediaciones de la  región de la boca se utilizaron dos lámparas de 20 vatios. La utilización  de dos focos de luz a los lados de la cara permite la adecuada manipulación  de las sombras causadas por la nariz y los pómulos, de forma independiente  al tipo de iluminación de techo. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cinco secuencias      de video de cuatro sujetos diferentes, con más de 5000  cuadros en total, fueron clasificadas de forma manual con el fin de medir  el rendimiento del segmentador y del pre-clasificador (detección previa a  la máquina de estados). El índice de detección global fue de un 82.72%. Esto  indica el número de detecciones correctas en todos los cuadros de todas las  secuencias. De la totalidad de los cuadros, el 35.39% corresponden al gesto  denominado “boca abierta”; el 5.30% corresponden al gesto denominado “boca  delgada”; y el 59.31% corresponden a los gestos diferentes y denominados “otros”.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="#tab02">Tabla        2</a>  se presentan los resultados comparativos para cada gesto, generados por   el algoritmo de detección (los valores de la diagonal corresponden  al porcentaje de detecciones correctas en cada caso):</font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="tab02"></a>Tabla 2. </b>Comparación de la  detección inicial de gestos.    ]]></body>
<body><![CDATA[<br>  <b>Table 2. </b>Initial gesture detection  comparisons.</font>    <br>  <img src="/img/revistas/dyna/v75n154/a18tab02.gif"></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se realizó un estudio similar para los diferentes estados de rotación de  la boca. Dado que la forma de la boca es aproximadamente simétrica con respecto  al eje vertical central, para la prueba se unieron en una clase las inclinaciones  derecha e izquierda, y en otra la postura normal. Los resultados obtenidos  se muestran en la <a href="#tab03">Tabla 3</a>.</font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="tab03"></a>Tabla        3. </b>Comparaci&oacute;n de la detecci&oacute;n de la rotaci&oacute;n        de la boca.    <br>  <b>Table 3. </b>Comparisons of the detection rate in the mouth rotation.</font>    <br>  <img src="/img/revistas/dyna/v75n154/a18tab03.gif"></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un estudio de      la media y desviación estándar de las características sobre  secuencias de video pregrabadas, permitió seleccionar los valores de 0.01  para <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq040.gif"></sub> y<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq042.gif"></sub>, 0.38 para <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq071.gif"></sub> y 0.1 para <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq073.gif"></sub>. Usando  estos valores, el método propuesto pudo detectar y clasificar los gestos  de la boca con exactitud en las secuencias de video, incluso con los individuos  barbados. El movimiento del robot utilizando los gestos de la boca se puede  observar en las <a href="#fig07">Figuras 7</a> y <a href="#fig08">8</a>.</font></p>      <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig07"></a><img src="/img/revistas/dyna/v75n154/a18fig07.gif">    <br>   Figura       7.</b> Secuencia de gestos para el movimiento de la articulaci&oacute;n        de la base del robot.    <br>        <b>Figure 7.</b> Gesture sequence for the movement of the robot&rsquo;s base.</font></p>      ]]></body>
<body><![CDATA[<p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b><a name="fig08"></a><img src="/img/revistas/dyna/v75n154/a18fig08.gif">    <br>   Figura       8.</b> Secuencia de gestos que muestran el movimiento de rotaci&oacute;n        del robot.    <br>        <b>Figure 8.</b> Gesture sequence for the rotation of the robot&rsquo;s tool.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El tiempo de      detección de los gestos  del algoritmo se mantiene por debajo de 25ms, permitiendo su implementación  para aplicaciones en tiempo real. En las pruebas realizadas, con la cámara  PAL fue posible mantener su operación sin pérdida de cuadros mientras que,  en secuencias pre-grabadas, la tasa de cuadros por segundo se mantenía entre  30 y 60 cuadros por segundo. Parte del costo computacional de los algoritmos  dependen del tamaño de la región de interés estimada para la siguiente iteración.  Así, cuando la boca es detectada como delgada, el costo de detectarla en  el siguiente cuadro es mucho menor que cuando se detecta abierta. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A pesar de que      el tiempo de detección de los gestos es pequeño comparado  con el tiempo de muestreo del estándar PAL (~40ms), el uso de la media temporal  introduce un retardo de 320ms en la toma de la decisión para el cambio en  la máquina de estados. Por lo tanto, este es el tiempo mínimo de permanencia  que debe tener un gesto para ser tomado en cuenta como un comando para el  robot. Esto eleva de forma considerable la confiabilidad en la realización  de las operaciones, y le permite al usuario sostener conversaciones sin que  estas sean interpretadas como comandos. Una vez que alguna decisión sea tomada,  el sistema de comunicación con el robot tarda aproximadamente un segundo  en convertirla en movimiento. </font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>7. CONCLUSIONES  </b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se diseñó un método      capaz de detectar apropiadamente la boca en secuencias de video de diferentes  individuos. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El sistema es      capaz de segmentar el área de la boca en condiciones de luz  variable, siempre que el efecto de las sombras generadas sobre el rostro  se pueda compensar en algún grado. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El recorte elíptico utilizado ayuda en la selección de la región de interés  ROI y en el descarte del ruido ocasionado por los orificios nasales. Sin  embargo puede ser inestable cuando el gesto de boca delgada tiene un espesor  de menos de cinco píxeles, o cuando se presentan cambios bruscos entre un  cuadro y otro en la secuencia. En dichos casos, es necesario recurrir al  cálculo inicial de la región de interés tomando como base la imagen completa.</font></p>      ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aunque el sistema      tiene la capacidad de procesar las imágenes y clasificar  los gestos de la boca en tiempo real, la interfaz con el robot no alcanza  la misma velocidad. Además, el uso de la media temporal introduce un tiempo  de retardo que depende del número de cuadros utilizados y del tiempo de muestreo  fijado por el estándar que se utilice.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los valores óptimos      de <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq073.gif"></sub>,<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq071.gif"></sub>,<sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq040.gif"></sub> y <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq042.gif"></sub> son medidas  particulares de cada persona, y estadísticamente son objeto de estudio. Sin  embargo, una selección conveniente se logra escogiendo los valores usados.  Se propone un método para la estimación de los parámetros en línea, comenzando  desde los valores recomendados. El método consiste en el cálculo incremental  de la detección de la región de la boca delgada y abierta en cada imagen  de la secuencia de video. El valor promedio de <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq079.gif"></sub> para cada  caso puede ser usado como la media <sub><img border=0 src="/img/revistas/dyna/v75n154/a18eq081.gif"></sub> correspondiente,  y los valores delta pueden ser escogidos a partir del máximo valor entre  las desviaciones medidas del mismo parámetro en la secuencia de imágenes de  boca abierta y boca delgada. </font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aunque las pruebas      se realizaron gracias a la ayuda de personas que fueron instruidas en el      manejo del software, se presentan ciertas prácticas comunes  en el movimiento de la boca y la generación de los gestos que afectan de  forma clara los índices de error. Los casos más significativos son la visibilidad  de los dientes en imágenes con la boca abierta y el exceso de presión en  los labios en la boca delgada. En el primer caso, el efecto puede ser compensado  con técnicas de preprocesamiento de imágenes y visión artificial; sin embargo,  el segundo no es compensable y por tanto depende directamente del entrenamiento  que reciba el usuario antes de operar el sistema.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El sistema se      ha probado de forma exitosa en personas de tez clara y trigueña,  con y sin vello facial. Dado que el método elegido para la segmentación del área  de la boca se fundamenta en características de color, los resultados pueden  variar para personas de tez oscura.</font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>8. AGRADECIMIENTOS  </b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los autores agradecen al soporte dado por el programa ECOS Franco-Colombiano  (ECOS- Nord/COLCIENCIAS/ICFES/ICETEX). </font></p>      <p>&nbsp;</p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>REFERENCIAS  </b></font></p>      <!-- ref --><p> 	 	 <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b> [1]</b> J. 	 M. Sackier; Y. Wang. “Robotically assisted laparoscopic surgery from concept to development,” Surgical Endoscopy, vol. 8, no. 1, pp. 63–66, 	 Jan. 1994.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000152&pid=S0012-7353200800010001800001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[2]</b> V. F. Murioz; C. Vara-Thorbeck; J. G. DeGabriel; J. F. Lozano; E. 	 Sanchez-Badajoz; A. Garcia-Cerezo; R. Toscano; A. Jimenez-Garrido. “A medical robotic assistant for minimally invasive surgery,” in Proc. IEEE Int. Conf. Robotics and Automation, San Francisco, CA, Apr. 2000, pp. 2901–2906.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000153&pid=S0012-7353200800010001800002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[3]</b> A. Nishikawa; T. Hosoi; K. Koara; D. Negoro; A. Hikita; S. Asano; 	 H. Kakutani; F. Miyazaki; M. Sekimoto; M. Yasui; Y. Miyake; S. Takiguchi; 	 M. Monden. “Face Mouse: A Novel human-machine interface for controlling the position of a laparoscope,” IEEE 	 Trans. On Robotics and Automation, vol. 19, no. 5, pp. 825-841, Oct. 2003.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000154&pid=S0012-7353200800010001800003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[4]</b> A. Casals; J. Amat; E. Laporte. “Automatic guidance of an assistant robot in laparoscopic surgery,” in Proc. IEEE Int. Conf. Robotics and Automation, Minneapolis, MN, Apr. 1996, pp. 895–900.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000155&pid=S0012-7353200800010001800004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[5]</b> The DaVinci Surgical Systems. Página web, <a href="http://www.davincisurgery.com/surgery/system/index.aspx" target="ventana">http://www.davincisurgery.com/surgery/system/index.aspx</a>     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000156&pid=S0012-7353200800010001800005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[6]</b> L. POWERS; D.M.W. Powers. “Lip Feature Extraction Using Red Exclusion”. 	 Trent W. Pan-Sydney Workshop on Visual Information Processing, 2001.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000157&pid=S0012-7353200800010001800006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[7]</b> R.L. Hsu; M. Abdel-Mottaleb: A.K. Jain. “Face Detection in Color Images”. 	 IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, no. 5, pp. 	 696-706, May 2002.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000158&pid=S0012-7353200800010001800007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[8]</b> N. Eveno; A. Caplier; P.Y. Coulon. “A new color transformation for lips segmentation”. 	 In: IEEE Fourth Workshop on Multimedia Signal Processing. (2001).     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000159&pid=S0012-7353200800010001800008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[9]</b> M. Liévin, P.Delmas, P.Y. Coulon; F. Luthon; V. Fristot. “Automatic lip tracking: Bayesian segmentation and active contours in a cooperative scheme”. 	 In: ICMCS. (1999) vol. 1.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000160&pid=S0012-7353200800010001800009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[10]</b> M. Eckert. “Compensación de movimiento avanzada para codificación de vídeo”. PhD thesis, Universidad Politécnica 	 de Madrid (2003).     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000161&pid=S0012-7353200800010001800010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[11]</b> S.L.Wang; W.H. Lau; S.H. Leung; A.W.C. Liew. “Lip segmentation with the presence of beards”. 	 In: IEEE International Conference on Acoustics, Speech and Signal Processing. 	 (2004).     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000162&pid=S0012-7353200800010001800011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[12]</b> I. Arsic; R.Vilagut; J.P. Thiran. “Automatic extraction of geometric lip features with application to multi-modal speaker identification”. 	 In: IEEE International Conference on Multimedia and Expo (ICME). (2006).     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000163&pid=S0012-7353200800010001800012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[13]</b> P. Gacon; P.Y. Coulon; G. Bailly. “Non–linear active model for mouth inner and outer contours detection”. 	 In: 13th European Signal Processing Conference. (2005).     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000164&pid=S0012-7353200800010001800013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[14]</b> M. Hasanuzzaman; T. Zhang; V. Ampornaramveth; H. Ueno. “Gesture-based human-robot interaction using a knowledge-based software platform”. Industrial Robot: An International Journal. Vol. 33, 2006. pp. 37 – 49.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000165&pid=S0012-7353200800010001800014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[15]</b> A. Zelinsky; J. Heinzmann. “Human-robot interaction using facial gesture recognition”. In Proceedings of the International Workshop on Robot and Human Communication. 1996. pp. 256–261.     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000166&pid=S0012-7353200800010001800015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><br> 	 <b>[16]</b> J. Heinzmann. “Real-time human face tracking and gesture recognition”. Master’s thesis, Universitat Karlsruhe, Fakultat für Informatik. (1996). </font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000167&pid=S0012-7353200800010001800016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sackier]]></surname>
<given-names><![CDATA[J. M.]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Robotically assisted laparoscopic surgery from concept to development”]]></article-title>
<source><![CDATA[Surgical Endoscopy]]></source>
<year>Jan.</year>
<month> 1</month>
<day>99</day>
<volume>8</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>63-66</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Murioz]]></surname>
<given-names><![CDATA[V. F.]]></given-names>
</name>
<name>
<surname><![CDATA[Vara-Thorbeck]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[DeGabriel]]></surname>
<given-names><![CDATA[J. G.]]></given-names>
</name>
<name>
<surname><![CDATA[Lozano]]></surname>
<given-names><![CDATA[J. F.]]></given-names>
</name>
<name>
<surname><![CDATA[Sanchez-Badajoz]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[Garcia-Cerezo]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Toscano]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Jimenez-Garrido]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“A medical robotic assistant for minimally invasive surgery”]]></article-title>
<source><![CDATA[Proc. IEEE Int. Conf. Robotics and Automation]]></source>
<year>Apr.</year>
<month> 2</month>
<day>00</day>
<page-range>2901-2906</page-range><publisher-loc><![CDATA[San Francisco^eCA CA]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nishikawa]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Hosoi]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Koara]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
<name>
<surname><![CDATA[Negoro]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Hikita]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Asano]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Kakutani]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Miyazaki]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Sekimoto]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Yasui]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Miyake]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
<name>
<surname><![CDATA[Takiguchi]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Monden]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Face Mouse: A Novel human-machine interface for controlling the position of a laparoscope”]]></article-title>
<source><![CDATA[IEEE Trans. On Robotics and Automation]]></source>
<year>Oct.</year>
<month> 2</month>
<day>00</day>
<volume>19</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>825-841</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Casals]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Amat]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Laporte]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Automatic guidance of an assistant robot in laparoscopic surgery”]]></article-title>
<source><![CDATA[Proc. IEEE Int. Conf. Robotics and Automation]]></source>
<year>Apr.</year>
<month> 1</month>
<day>99</day>
<page-range>895-900</page-range><publisher-loc><![CDATA[Minneapolis^eMN MN]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="">
<source><![CDATA[]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[POWERS]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[Powers]]></surname>
<given-names><![CDATA[D.M.W.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Lip Feature Extraction Using Red Exclusion”]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[ Trent W. Pan-Sydney Workshop on Visual Information Processing]]></conf-name>
<conf-date>2001</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hsu]]></surname>
<given-names><![CDATA[R.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Abdel-Mottaleb]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Jain]]></surname>
<given-names><![CDATA[A.K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Face Detection in Color Images”]]></article-title>
<source><![CDATA[IEEE Trans. Pattern Analysis and Machine Intelligence]]></source>
<year>May </year>
<month>20</month>
<day>02</day>
<volume>24</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>696-706</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Eveno]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
<name>
<surname><![CDATA[Caplier]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Coulon]]></surname>
<given-names><![CDATA[P.Y.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“A new color transformation for lips segmentation”]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[ IEEE Fourth Workshop on Multimedia Signal Processing]]></conf-name>
<conf-date>2001</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Liévin]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Delmas]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Coulon]]></surname>
<given-names><![CDATA[P.Y.]]></given-names>
</name>
<name>
<surname><![CDATA[Luthon]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Fristot]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Automatic lip tracking: Bayesian segmentation and active contours in a cooperative scheme”]]></article-title>
<source><![CDATA[ICMCS]]></source>
<year>1999</year>
<volume>1</volume>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Eckert]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[“Compensación de movimiento avanzada para codificación de vídeo”]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[S.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Lau]]></surname>
<given-names><![CDATA[W.H.]]></given-names>
</name>
<name>
<surname><![CDATA[Leung]]></surname>
<given-names><![CDATA[S.H.]]></given-names>
</name>
<name>
<surname><![CDATA[Liew]]></surname>
<given-names><![CDATA[A.W.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Lip segmentation with the presence of beards”]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[ IEEE International Conference on Acoustics, Speech and Signal Processing]]></conf-name>
<conf-date>2004</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Arsic]]></surname>
<given-names><![CDATA[I.]]></given-names>
</name>
<name>
<surname><![CDATA[Vilagut]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Thiran]]></surname>
<given-names><![CDATA[J.P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Automatic extraction of geometric lip features with application to multi-modal speaker identification”]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[ IEEE International Conference on Multimedia and Expo]]></conf-name>
<conf-date>2006</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gacon]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Coulon]]></surname>
<given-names><![CDATA[P.Y.]]></given-names>
</name>
<name>
<surname><![CDATA[Bailly]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Non-linear active model for mouth inner and outer contours detection”]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[13 European Signal Processing Conference]]></conf-name>
<conf-date>2005</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hasanuzzaman]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Ampornaramveth]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
<name>
<surname><![CDATA[Ueno]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Gesture-based human-robot interaction using a knowledge-based software platform”]]></article-title>
<source><![CDATA[Industrial Robot: An International Journal]]></source>
<year>2006</year>
<volume>33</volume>
<page-range>37 - 49</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zelinsky]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Heinzmann]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[“Human-robot interaction using facial gesture recognition”]]></article-title>
<source><![CDATA[In Proceedings of the International Workshop on Robot and Human Communication]]></source>
<year>1996</year>
<page-range>256-261</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Heinzmann]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[“Real-time human face tracking and gesture recognition”]]></source>
<year></year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
