<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0120-5609</journal-id>
<journal-title><![CDATA[Ingeniería e Investigación]]></journal-title>
<abbrev-journal-title><![CDATA[Ing. Investig.]]></abbrev-journal-title>
<issn>0120-5609</issn>
<publisher>
<publisher-name><![CDATA[Facultad de Ingeniería, Universidad Nacional de Colombia.]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0120-56092009000300015</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Preproceso de datos en bioseñales: una aplicación en detección de patologías de voz]]></article-title>
<article-title xml:lang="en"><![CDATA[Biosignal data preprocessing: a voice pathology detection application]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Daza-Santacoloma]]></surname>
<given-names><![CDATA[Genaro]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Suárez-Cifuentes]]></surname>
<given-names><![CDATA[Julio Fernando]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Castellanos-Domínguez]]></surname>
<given-names><![CDATA[Germán]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Colombia  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional de Colombia Departamento de Matemáticas y Estadística ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad Técnica de Moscú de Comunicaciones e Informática Departamento de Ingeniería Eléctrica, Electrónica y Computación ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2009</year>
</pub-date>
<volume>29</volume>
<numero>3</numero>
<fpage>92</fpage>
<lpage>96</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0120-56092009000300015&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0120-56092009000300015&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0120-56092009000300015&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Se presenta una metodología para el preproceso de características generadas a partir de registros electrónicos de bioseñales, particularmente se experimenta con señales de voz en la detección automática de patologías. La metodología de proceso propuesta se limita a tres fases: detección de datos atípicos, verificación de normalidad y transformación de distribuciones. La metodología conlleva al mejoramiento en la detección de las patologías de voz, además de reducir la complejidad computacional de los algoritmos de clasificación. El desempeño del clasificador indica un aumento superior a 15 puntos porcentuales en la detección de disfonías al emplear la metodología.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[A methodology for biosignal data preprocessing is presented. Experiments were mainly carried out with voice signals for automatically detecting pathologies. The proposed methodology was structured on 3 elements: outlier detection, normality verification and distribution transformation. It improved classification performance if basic assumptions about data structure were met. This entailed a more accurate detection of voice pathologies and it reduced the computational complexity of classification algorithms. Classification performance improved by 15%.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[preproceso]]></kwd>
<kwd lng="es"><![CDATA[datos atípicos]]></kwd>
<kwd lng="es"><![CDATA[normalidad]]></kwd>
<kwd lng="es"><![CDATA[Box-Cox]]></kwd>
<kwd lng="es"><![CDATA[reconocimiento de patrones]]></kwd>
<kwd lng="es"><![CDATA[clasificación]]></kwd>
<kwd lng="es"><![CDATA[patologías de voz]]></kwd>
<kwd lng="en"><![CDATA[preprocessing]]></kwd>
<kwd lng="en"><![CDATA[outlier, normality]]></kwd>
<kwd lng="en"><![CDATA[Box-Cox]]></kwd>
<kwd lng="en"><![CDATA[pattern recognition]]></kwd>
<kwd lng="en"><![CDATA[classification]]></kwd>
<kwd lng="en"><![CDATA[voice pathology]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font size = "2" face = "verdana">     <p>    <center><font size = "4"><b> Preproceso de datos en biose&ntilde;ales: una aplicaci&oacute;n en detecci&oacute;n de patolog&iacute;as de voz </b></font></center></p>     <p>    <center><font size = "3"><b> Biosignal data preprocessing: a voice pathology detection application </b></font></center></p>     <p><b> Genaro Daza-Santacoloma<sup>1</sup> , Julio Fernando Su&aacute;rez-Cifuentes<sup>2</sup> y Germ&aacute;n Castellanos-Dom&iacute;nguez<sup>3</sup>  </b></p>     <p>    <br><sup>1</sup>  Ingeniero electr&oacute;nico, M.Sc., en Automatizaci&oacute;n Industrial y &copy;Ph.D., en Ingenier&iacute;a Autom&aacute;tica, Universidad Nacional de Colombia, Manizales. Miembro, Grupo de Control y Procesamiento Digital de Se&ntilde;ales, Universidad Nacional de Colombia, Manizales. <a href = "mailto:gdazas@unal.edu.co">gdazas@unal.edu.co</a>     <br><sup>2</sup>  Estad&iacute;stico, Universidad Nacional de Colombia. M.Sc., en Estad&iacute;stica Matem&aacute;tica, Centro Iberoamericano de Ense&ntilde;anza Estad&iacute;stica - CIENES-OEA, Chile. Profesor, Departamento de Matem&aacute;ticas y Estad&iacute;stica y Miembro, Grupo de Control y Procesamiento Digital de Se&ntilde;ales, Universidad Nacional de Colombia, Manizales. <a href = "mailto:jfsuarezc@unal.edu.co">jfsuarezc@unal.edu.co</a>     <br><sup>3</sup>  Ingeniero de sistemas radiot&eacute;cnicos y Ph.D., en Dispositvos y Sistemas de Proceso, Universidad T&eacute;cnica de Mosc&uacute; de Comunicaciones e Inform&aacute;tica, Rusia. Profesor, Departamento de Ingenier&iacute;a El&eacute;ctrica, Electr&oacute;nica y Computaci&oacute;n y L&iacute;der, Grupo de Control y Procesamiento Digital de Se&ntilde;ales, Universidad Nacional de Colombia, Manizales.<a href = "mailto:cgcastellanosd@unal.edu.co">cgcastellanosd@unal.edu.co</a></p>  <hr size = "1">      ]]></body>
<body><![CDATA[<p><b>RESUMEN</b></p>      <p>Se presenta una metodolog&iacute;a para el preproceso de caracter&iacute;sticas generadas a partir de registros electr&oacute;nicos de biose&ntilde;ales, particularmente se experimenta con se&ntilde;ales de voz en la detecci&oacute;n autom&aacute;tica de patolog&iacute;as. La metodolog&iacute;a de proceso propuesta se limita a tres fases: detecci&oacute;n de datos at&iacute;picos, verificaci&oacute;n de normalidad y transformaci&oacute;n de distribuciones. La metodolog&iacute;a conlleva al mejoramiento en la detecci&oacute;n de las patolog&iacute;as de voz, adem&aacute;s de reducir la complejidad computacional de los algoritmos de clasificaci&oacute;n. El desempe&ntilde;o del clasificador indica un aumento superior a 15 puntos porcentuales en la detecci&oacute;n de disfon&iacute;as al emplear la metodolog&iacute;a.</p>      <p><b>Palabras clave:</b> preproceso, datos at&iacute;picos, normalidad, Box-Cox, reconocimiento de patrones, clasificaci&oacute;n, patolog&iacute;as de voz.</p> <hr size = "1">     <p><b> ABSTRACT </b></p>     <p>A methodology for biosignal data preprocessing is presented. Experiments were mainly carried out with voice signals for automatically detecting pathologies. The proposed methodology was structured on 3 elements: outlier detection, normality verification and distribution transformation. It improved classification performance if basic assumptions about data structure were met. This entailed a more accurate detection of voice pathologies and it reduced the computational complexity of classification algorithms. Classification performance improved by 15%.</p>     <p><b>Keywords:</b> preprocessing, outlier, normality, Box-Cox, pattern recognition, classification, voice pathology.</p> <hr size = "1">     <p>Recibido: octubre 5 de 2008     <br>Aceptado: noviembre 3 de 2009</p>      <p><font size = "3"><b> Introducci&oacute;n </b></font></p>     <p>Los sistemas de an&aacute;lisis de datos y de reconocimiento de patrones est&aacute;n frecuentemente afectados por los efectos que pueden acarrear mediciones err&oacute;neas o distorsi&oacute;n de la informaci&oacute;n medida. Sin embargo, m&uacute;ltiples procesos de verificaci&oacute;n de la calidad y de la representatividad de dichas mediciones se realizan para ajustar los datos de an&aacute;lisis de forma objetiva. Adem&aacute;s, seleccionar correctamente el volumen de la muestra y aplicar una apropiada metodolog&iacute;a de registro, son factores igualmente importantes en la obtenci&oacute;n de mediciones adecuadas. El preproceso de datos tiene como objetivo la disminuci&oacute;n de la influencia, y en lo posible, la eliminaci&oacute;n de los errores de medida ocasionados por fallas sistem&aacute;ticas u ocasionales durante el registro de las se&ntilde;ales. El preproceso permite ejercer control sobre la homogeneidad de las propiedades estad&iacute;sticas de las diferentes caracter&iacute;sticas del fen&oacute;meno aleatorio (Daza-Santacoloma <i>et al</i>., 2007). Convencionalmente, el preproceso de los datos puede dividirse, por lo menos, en tres etapas b&aacute;sicas: remoci&oacute;n de valores at&iacute;picos, verificaci&oacute;n de normalidad y transformaci&oacute;n de distribuciones.</p>     ]]></body>
<body><![CDATA[<p>La etapa de remoci&oacute;n de valores at&iacute;picos es imprescindible. La consecuencia directa de la inclusi&oacute;n de observaciones at&iacute;picas dentro de los datos de an&aacute;lisis es la distorsi&oacute;n de las estimaciones de los valores de aleatoriedad, por ejemplo de las medias y desviaciones t&iacute;picas, construyendo falsas relaciones entre los datos (Pe&ntilde;a y Prieto, 2001). La verificaci&oacute;n de normalidad consiste en corroborar que la funci&oacute;n de densidad de probabilidad de las variables corresponda con una distribuci&oacute;n normal, esto es necesario porque muchos an&aacute;lisis posteriores de los datos se realizan bajo este supuesto. Cuando la hip&oacute;tesis de normalidad de los datos no se cumple, es preferible aplicar una transformaci&oacute;n sobre ellos que permita que dicha hip&oacute;tesis s&iacute; se verifique. Con el fin de evidenciar los beneficios del preproceso aplicado a sistemas de reconocimiento de patrones en biose&ntilde;ales se presenta un ejemplo de reconocimiento autom&aacute;tico de patolog&iacute;as de voz y sus mejoras al aplicar cada una de las etapas de preproceso se&ntilde;aladas. Se puede apreciar c&oacute;mo la precisi&oacute;n final del sistema de reconocimiento es contundentemente mayor.</p>     <p>Este art&iacute;culo tiene la siguiente estructura: corta descripci&oacute;n de un sistema b&aacute;sico de reconocimiento de patrones, descripci&oacute;n de las tres etapas del preproceso de los datos, en la tercera secci&oacute;n se plantea el marco experimental y se especifican las pruebas realizadas, finalmente se discuten los resultados y presentan las conclusiones.</p>      <p><font size = "3"><b>Reconocimiento de patrones y preproceso de datos</b></font></p>      <p><b>Sistema de reconocimiento de patrones</b></p>      <p>Usualmente un sistema de reconocimiento de patrones se describe en concordancia con el diagrama que se aprecia en la <a href="#fig1">figura 1</a>. En una primera etapa, a partir del objeto (observaci&oacute;n) se extraen mediciones (se&ntilde;ales capturadas por medio de sensores) que se deben revisar y adecuar a fin de reducir o descartar problemas derivados del ruido o falla en los instrumentos de medida. A partir de las se&ntilde;ales capturadas y adecuadas, se inicia la generaci&oacute;n de caracter&iacute;sticas, que permite construir valores representativos que revelen o permitan descubrir alg&uacute;n tipo de patr&oacute;n en los objetos que se analizan. Una vez construido el conjunto de caracter&iacute;sticas es necesario realizar el preproceso, con el fin de disminuir la influencia de los errores de registro sobre los datos caracterizados. Posteriormente, es posible hacer adaptaciones y transformaciones de dicho conjunto, de tal manera que se resalte el patr&oacute;n subyacente en los objetos por medio de t&eacute;cnicas de selecci&oacute;n o extracci&oacute;n de caracter&iacute;sticas. Finalmente, en la etapa de clasificaci&oacute;n, es donde se hace una asociaci&oacute;n del objeto a un tipo de clase (Daza-Santacoloma <i>et al</i>., 2007). La clasificaci&oacute;n requiere ser validada y afinada, a fin de obtener un sistema con capacidad de generalizaci&oacute;n y precisi&oacute;n de respuesta.</p>      <p>    <center><a name="fig1"><img src="img/revistas/iei/v29n3/3a15f1.jpg"></a></center></p>      <p><b>Remoci&oacute;n de valores at&iacute;picos</b></p>      <p>Los valores at&iacute;picos son entendidos como observaciones que parecen haber sido generadas por distribuciones diferentes a las del resto de los datos, y pueden conllevar dr&aacute;sticos efectos sobre el an&aacute;lisis a realizar a partir de las observaciones (Pe&ntilde;a y Prieto, 2001), (Pe&ntilde;a y Guttman, 1993). La estimaci&oacute;n de cualquier caracter&iacute;stica a partir de biose&ntilde;ales es muy sensible a factores tales como las condiciones de toma y registro electr&oacute;nico (ruido de fondo, perturbaciones del <i>hardware</i>, hora de adquisici&oacute;n de las muestras, estado emocional, etc.). Cuando las condiciones de registro son adversas, suelen aparecer observaciones con valores de medida que claramente no corresponden con la estructura de aleatoriedad asumida; este tipo de observaciones se conocen como datos at&iacute;picos. Existen m&uacute;ltiples formas de detectar datos at&iacute;picos. A continuaci&oacute;n se presentan dos formas frecuentemente empleadas en esta labor.</p>      <p><b><i>Con base en intervalos de confianza</i></b></p>      ]]></body>
<body><![CDATA[<p>Sea  &xi; la caracter&iacute;stica a la que le corresponde un vector de observaciones <img src="img/revistas/iei/v29n3/3a15s1.jpg"> . La remoci&oacute;n de valores at&iacute;picos consiste, en este caso, en definir los intervalos de confianza para la estimaci&oacute;n de una variable, y luego establecer un criterio de eliminaci&oacute;n de observaciones. Si la distribuci&oacute;n de una variable se considera gaussiana, el intervalo de confianza de las estimaciones de la media y la varianza de dicha caracter&iacute;stica, para un nivel de significaci&oacute;n  , est&aacute;n dados por:</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e1.jpg"></a></center></p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e2.jpg"></a></center></p>      <p> <img src="img/revistas/iei/v29n3/3a15e2a.jpg"  align="middle" > es la cuantilla de nivel  <img src="img/revistas/iei/v29n3/3a15e2b.jpg"  align="middle" > de la distribuci&oacute;n  <i>t</i>-Student con <img src="img/revistas/iei/v29n3/3a15e2g.jpg"  align="middle" >  grados de libertad y <img src="img/revistas/iei/v29n3/3a15e2d.jpg"  align="middle" >  es la cuantilla de nivel <img src="img/revistas/iei/v29n3/3a15e2b.jpg"  align="middle" >  de la distribuci&oacute;n <img src="img/revistas/iei/v29n3/3a15e2f.jpg">  con <img src="img/revistas/iei/v29n3/3a15e2h.jpg">  grados de libertad.</p>      <p>Cuando el volumen de la muestra es relativamente peque&ntilde;o, <img src="img/revistas/iei/v29n3/3a15e5.jpg" align="middle" > , se puede emplear el m&eacute;todo del c&aacute;lculo del valor de la desviaci&oacute;n m&aacute;xima respecto a la estimaci&oacute;n de la media. Considerando solamente (1) se tiene que:</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e3.jpg"></a></center></p>      <p>siendo <img src="img/revistas/iei/v29n3/3a15e3a.jpg" align="middle" > . Si para una observaci&oacute;n se tiene un valor dado <img src="img/revistas/iei/v29n3/3a15el.jpg" align="middle">  , la desigualdad (3) no se cumple, entonces este valor se remueve. Sobre la muestra acortada de volumen  <img src="img/revistas/iei/v29n3/3a15e2g.jpg" align="middle">  se vuelve a realizar el procedimiento con el siguiente valor encontrado de <img src="img/revistas/iei/v29n3/3a15el.jpg" align="middle">  . El procedimiento se repite hasta obtener la muestra con volumen<i> n</i> -<i> m</i> , siendo   la cantidad de valores an&oacute;malos extra&iacute;dos. El t&eacute;rmino  <img src="img/revistas/iei/v29n3/3a15em.jpg" align="middle">  corresponde al coeficiente de correcci&oacute;n en la estimaci&oacute;n sesgada de la varianza.</p>     ]]></body>
<body><![CDATA[<p>Si el volumen de la muestra es <img src="img/revistas/iei/v29n3/3a15er.jpg" align="middle"> , y teniendo en cuenta el valor cr&iacute;tico, l&iacute;mite del intervalo en (3), expresado en funci&oacute;n del valor cr&iacute;tico de la distribuci&oacute;n<i> t</i>-Student <img src="img/revistas/iei/v29n3/3a15e3c.jpg" align="middle">  , se presenta la desigualdad (Lvovsky, 1988):</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e4.jpg"></a></center></p>      <p>con base en la cual se toma la decisi&oacute;n de eliminar o no el valor que se analiza, seg&uacute;n los siguientes tres criterios:</p>      <p>1.	Si <img src="img/revistas/iei/v29n3/3a15en.jpg" align="middle">  , no se remueve.</p>      <p>2.	Si <img src="img/revistas/iei/v29n3/3a15eo.jpg" align="middle">  , se remueve s&oacute;lo si se existe una condici&oacute;n adicional.</p>      <p>3.	Si <img src="img/revistas/iei/v29n3/3a15ep.jpg" align="middle">  , se remueve</p>      <p>El procedimiento descrito para la detecci&oacute;n y remoci&oacute;n de valores at&iacute;picos se efect&uacute;a por cada una de las caracter&iacute;sticas del vector inicial <img src="img/revistas/iei/v29n3/3a15e4d.jpg" align="middle">  . Adem&aacute;s, si durante el registro de una se&ntilde;al perteneciente a un paciente dado   ocurre un error sistem&aacute;tico de medici&oacute;n es de esperar que para esta observaci&oacute;n aparezcan  <img src="img/revistas/iei/v29n3/3a15e4e.jpg" align="middle">  valores at&iacute;picos. En este caso, se toma un n&uacute;mero m&aacute;ximo de coincidencias <img src="img/revistas/iei/v29n3/3a15eq.jpg" align="middle">  , a partir del cual se juzga que se debe eliminar el registro de observaci&oacute;n correspondiente al paciente<i> m</i> . Por otra parte, si para una caracter&iacute;stica, que se asume con distribuci&oacute;n normal, m&aacute;s de  <img src="img/revistas/iei/v29n3/3a15e4f.jpg" align="middle">  valores son identificados como at&iacute;picos, es posible tomar la decisi&oacute;n de remover dicha caracter&iacute;stica del conjunto completo de variables.</p>      <p><b><i>Basado en el c&aacute;lculo de la mediana</i></b></p>      <p>Cuando existe m&aacute;s de un dato at&iacute;pico en la muestra, es posible que se presenten efectos de enmascaramiento, en el cual observaciones at&iacute;picas similares se ocultan entre s&iacute;. Sea<b> x</b>  la matriz original de datos de dimensi&oacute;n <i>n</i> x <i>p</i> , donde las filas corresponden a las observaciones y las columnas a las variables; adem&aacute;s, se denota por <img src="img/revistas/iei/v29n3/3a15es.jpg">  al elemento gen&eacute;rico de esta matriz. Una regla para la detecci&oacute;n de valores at&iacute;picos de forma univariada est&aacute; dada por se&ntilde;alar como datos at&iacute;picos aquellos que cumplan la siguiente condici&oacute;n,</p>      ]]></body>
<body><![CDATA[<p>    <center><img src="img/revistas/iei/v29n3/3a15e5.jpg"></a></center></p>      <p>donde <img src="img/revistas/iei/v29n3/3a15et.jpg">  es la mediana de las observaciones, y <img src="img/revistas/iei/v29n3/3a15ev.jpg">  es la mediana de las desviaciones absolutas con respecto a la mediana.</p>      <p><b>Verificaci&oacute;n de normalidad</b></p>      <p>Con el fin de juzgar si la estructura de los datos es gaussiana, m&uacute;ltiples pruebas de hip&oacute;tesis y procedimientos gr&aacute;ficos han sido propuestos. Las t&eacute;cnicas pueden ser univariadas o multivariadas (Montgomery y Runger, 2003). En este trabajo se presentan algunas formas convencionales para verificaci&oacute;n de normalidad univariada.</p>      <p>La verificaci&oacute;n de normalidad por medio del procedimiento de prueba de hip&oacute;tesis se resume en las siguientes etapas:</p>      <p>1.	Se formulan las hip&oacute;tesis <i><b>H</b></i><sub>0</sub>  y <i><b>H</b></i><sub>1</sub>  y se fija el nivel de significaci&oacute;n <i>&alpha;</i> , cuyo valor depende del conocimiento que se tenga sobre la validez de las hip&oacute;tesis; a mayor certeza, menor valor de  significaci&oacute;n se puede dar.</p>      <p>2.	Se selecciona el criterio estad&iacute;stico para la verificaci&oacute;n de <i><b>H</b></i><sub>0</sub> , cuya estad&iacute;stica <img src="img/revistas/iei/v29n3/3a15e4g.jpg" align="middle">  es funci&oacute;n de las observaciones  <i>x<sub>j</sub></i> que tienen distribuci&oacute;n conocida  <img src="img/revistas/iei/v29n3/3a15e4h.jpg" align="middle"> . El intervalo cr&iacute;tico<i> w</i> se halla del subconjunto del espacio de observaciones &xi; , tal que se cumpla</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e6.jpg"></a></center></p>      ]]></body>
<body><![CDATA[<p>	De acuerdo a la hip&oacute;tesis alternativa, que puede tomar una de las formas: a) <img src="img/revistas/iei/v29n3/3a15e4i.jpg" align="middle">  el intervalo cr&iacute;tico, expresado a trav&eacute;s de los valores de la estad&iacute;stica  , puede tomar una de las siguientes formas (Petrovich y Davidovich, 1989): a) <img src="img/revistas/iei/v29n3/3a15e4k.jpg" align="middle">   o  , siendo <img src="img/revistas/iei/v29n3/3a15e4l.jpg" align="middle">  las cuantillas de la distribuci&oacute;n conocida, escogidas de tal manera que al cumplirse<b><i> H</i></b><sub>0</sub>  se cumple una de las relaciones:  <img src="img/revistas/iei/v29n3/3a15e4m.jpg" align="middle"> .</p>      <p>3.	Si la estad&iacute;stica <i>T</i> , calculada de las observaciones, tiene un valor que no pertenece al intervalo cr&iacute;tico, esto es, <img src="img/revistas/iei/v29n3/3a15e4N.jpg" align="middle"> , entonces la hip&oacute;tesis <b><i> H</i></b><sub>0</sub>   se acepta, en caso contrario se rechaza.</p>     <p>Los diversos criterios de verificaci&oacute;n de hip&oacute;tesis sobre la pertenencia de un conjunto de datos observados  <img src="img/revistas/iei/v29n3/3a15e4p.jpg" align="middle"> a una distribuci&oacute;n dada <img src="img/revistas/iei/v29n3/3a15e4h.jpg" align="middle">  o <i>criterio de concordancia</i>, est&aacute;n basados en la selecci&oacute;n de una medida determinada de diferenciaci&oacute;n entre las distribuciones emp&iacute;rica y te&oacute;rica (Thode, 2002).</p>      <p>Criterio de Kolmogorov-Smirnov. La estad&iacute;stica para este criterio es el m&aacute;ximo valor de desviaci&oacute;n entre la distribuci&oacute;n observada (emp&iacute;rica)   de la distribuci&oacute;n   pronosticada por la hip&oacute;tesis  :</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e7.jpg"></a></center></p>      <p>El c&aacute;lculo de  <i>T</i> se lleva a cabo de la siguiente manera:</p>      <p>-Construcci&oacute;n de la serie variacional  <img src="img/revistas/iei/v29n3/3a15e5e.jpg" align="middle"> a partir de la observaci&oacute;n <img src="img/revistas/iei/v29n3/3a15e5f.jpg" align="middle"> .</p>      <p>-C&aacute;lculo de la funci&oacute;n emp&iacute;rica de distribuci&oacute;n.</p>      <p>-C&aacute;lculo de <img src="img/revistas/iei/v29n3/3a15e5g.jpg" align="middle"> </p>      ]]></body>
<body><![CDATA[<p>-Los par&aacute;metros de la distribuci&oacute;n normal, se estiman de la observaci&oacute;n. La estad&iacute;stica del criterio se asume  <img src="img/revistas/iei/v29n3/3a15e5h.jpg" align="middle"> para valores <img src="img/revistas/iei/v29n3/3a15e5i.jpg" align="middle"> . Para valores <img src="img/revistas/iei/v29n3/3a15e5k.jpg" align="middle">  es conveniente realizar ajustes en la estad&iacute;stica (Petrovich y Davidovich, 1989).</p>     <p>-C&aacute;lculo del valor cr&iacute;tico <img src="img/revistas/iei/v29n3/3a15e5l.jpg" align="middle">  de acuerdo a la expresi&oacute;n:</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e8.jpg"></a></center></p>      <p>-C&aacute;lculo<i> p </i>de   empleando la distribuci&oacute;n de la estad&iacute;stica <img src="img/revistas/iei/v29n3/3a15e5n.jpg" align="middle"> .</p>     <p><b> Transformaci&oacute;n de distribuciones </b></p>     <p>Cuando la prueba de verificaci&oacute;n de la distribuci&oacute;n da como resultado el rechazo de la hip&oacute;tesis de normalidad, entonces se deben tomar las medidas para transformar la observaci&oacute;n, de tal manera que pueda aceptarse la hip&oacute;tesis sobre la normalidad de los datos (Teugels y Vanroelen, 2004). Despu&eacute;s de realizar la transformaci&oacute;n se debe aplicar de nuevo la prueba de verificaci&oacute;n de normalidad, y tomar aquella transformaci&oacute;n que permita aceptar la hip&oacute;tesis de normalidad, o bien, aquella que m&aacute;s se aproxime. En la pr&aacute;ctica, la familia de transformaciones m&aacute;s utilizada para resolver los problemas de falta de normalidad y de heterocedasticidad es la familia de<i> Box-Cox</i>, mediante la cual se transforma la variable <i><b>x</b></i> , cu-yos valores muestrales se suponen positivos, en caso contrario se suma una cantidad fija<i> k<sub>x</sub> </i>tal que<i>  x + k<sub>x</sub></i>  , la transformaci&oacute;n consiste en:</p>      <p>    <center><img src="img/revistas/iei/v29n3/3a15e9.jpg"></a></center></p>      <p>El valor   se puede estimar por criterio de m&aacute;xima verosimilitud, as&iacute;, para diferentes valores de   se realiza la transformaci&oacute;n</p>      ]]></body>
<body><![CDATA[<p>    <center><img src="img/revistas/iei/v29n3/3a15e10.jpg"></a></center></p>      <p>siendo   la media geom&eacute;trica de la variable  .</p>      <p>La transformaci&oacute;n de variables con distribuciones no normales es frecuente en procesos de an&aacute;lisis de datos, y se realiza principalmente con el fin de obtener mayor interpretaci&oacute;n del proceso. Sin embargo, en el caso especial del reconocimiento de patrones existen problemas para desarrollar esta etapa del preproceso. Debido a que la etapa de verificaci&oacute;n de normalidad de las caracter&iacute;sticas se lleva a cabo de forma separada para cada una de las clases, es muy posible que se encuentren diferentes transformaciones de la misma variable, para cada una de las clases, mientras se busca una distribuci&oacute;n normal. Esta situaci&oacute;n dificulta la clasificaci&oacute;n de una muestra nueva, de la cual no se tiene conocimiento acerca de su pertenencia de clase, porque no se sabr&iacute;a cu&aacute;l de las transformaciones encontradas aplicar.</p>      <p><font size = "3"><b>Marco experimental</b></font></p>      <p><b>Base de datos</b></p>      <p>La base de datos pertenece a la Universidad de Las Palmas, Gran Canaria, y contiene grabaciones de audio de 160 individuos (hombres y mujeres), 80 pacientes sin anomal&iacute;as de voz y 80 pacientes con disfon&iacute;a. La grabaci&oacute;n de voz ha sido realizada en una habitaci&oacute;n de un centro hospitalario. El contenido de las grabaciones corresponde a la fonaci&oacute;n de la vocal /a/ del idioma espa&ntilde;ol, de forma sostenida y no susurrada. El formato de grabaci&oacute;n es audiodigital, con una frecuencia de muestreo de 22.050 Hz y resoluci&oacute;n de 16 bits. La caracterizaci&oacute;n de las se&ntilde;ales se llev&oacute; a cabo con base en 4 dominios que se emplean frecuentemente en el procesamiento de se&ntilde;ales de voz: dominio temporal, dominio espectral, dominio cepstral y dominio del modelo inverso. En este sentido, sobre la vocal son calculadas 144 caracter&iacute;sticas.</p>      <p><b>Pruebas de preproceso</b></p>      <p>Las pruebas de preproceso consisten en: 1) identificaci&oacute;n de variables que contienen datos no convergentes (cuando la variable no se puede medir para cierto individuo o cuando el resultado de su medida fue &infin;), 2) identificaci&oacute;n de datos at&iacute;picos, y 3) verificaci&oacute;n de gaussividad univariada. El esquema de preproceso seguido es el siguiente:</p>      <p>1.<i> Revisar los valores al interior de cada una de las variables para detectar la presencia de datos no convergentes, datos iguales a 8, o datos faltantes.</i> En caso de detectar este tipo de datos, la variable no se borra directamente, sino que debe analizarse la cantidad de observaciones con las que se cuenta, y determinar si es preferible eliminar la observaci&oacute;n o la variable. Cabe anotar que no se recomienda eliminar observaciones cuando la cantidad inicial de observaciones es relativamente baja, debido que ello conllevar&iacute;a a estimaciones con menor nivel de significancia. En particular, se opta por eliminar las variables y no reducir el n&uacute;mero de observaciones.</p>      ]]></body>
<body><![CDATA[<p>2.	<i>Detecci&oacute;n de datos at&iacute;picos</i>. Aquellas observaciones que parecen tener un comportamiento diferente a las dem&aacute;s de una misma clase en an&aacute;lisis, son eliminadas. Al igual que para el caso anterior, debe tenerse cuidado con retirar observaciones de la base de datos, porque es posible que la muestra resultante no posea suficientes observaciones para trabajar con estimadores estad&iacute;sticos. En particular, se prefiere identificar las variables que poseen m&aacute;s de un 10% de datos at&iacute;picos y descartar dicha variable; este proceso se lleva a cabo de forma univariada con base en intervalos de confianza y en el an&aacute;lisis de la mediana de las desviaciones absolutas.</p>     <p>3.	<i>Verificaci&oacute;n de gaussividad univariada.</i> Busca comprobar que las variables para cada una de las clases posean distribuci&oacute;n normal. Se eliminan sobre todas las clases, las variables que no presentan distribuci&oacute;n normal en cualquiera de las clases. Se lleva a cabo por medio de la prueba de Kolmogorov-Smirnov.</p>      <p><b>Clasificaci&oacute;n y evaluaci&oacute;n</b></p>      <p>Como algoritmos de decisi&oacute;n entre voces patol&oacute;gicas y normales se emplean dos clasificadores: uno basado en decisi&oacute;n bayesiana sobre distribuciones gaussianas y el otro es el clasificador de vecinos m&aacute;s cercanos (k-NN) (Duda y Hart, 2000), (Webb, 2002), particularmente las pruebas se realizan fijando k = 3.</p>      <p>Con el objetivo de evaluar el desempe&ntilde;o de cada una de las etapas de preproceso, los conjuntos de variables son clasificados antes y despu&eacute;s de cada una de estas etapas, y se comparan medidas de discriminancia y confiabilidad obtenidas de los resultados de clasificaci&oacute;n. Como medida de discriminancia se emplea la tasa de aciertos en validaci&oacute;n, y como medida de confiabilidad se considera el intervalo de confianza para la tasa de aciertos de validaci&oacute;n. Para la estimaci&oacute;n de los errores de validaci&oacute;n se usa la estrategia de validaci&oacute;n cruzada <i>leave-M-out </i>(Webb, 2002), la cual consiste en generar   conjuntos que corresponden a particiones aleatorias del conjunto de   observaciones en pares de entrenamiento-validaci&oacute;n donde se retienen   observaciones para validar (se entrena con N-M observaciones). En este trabajo   (80 por clase) se construyen   conjuntos disyuntos de   (8 por clase) muestras de validaci&oacute;n.</p>      <p><font size = "3"><b>Resultados y discusi&oacute;n</b></font></p>      <p>Se considera el conjunto total de 144 variables como el conjunto inicial a ser procesado. La primera prueba es identificar aquellas variables que contienen datos no convergentes; dichas variables son eliminadas del conjunto inicial de caracter&iacute;sticas, esto conlleva a reducir el conjunto inicial de variables a un subconjunto nombrado Conjunto 1. Se contin&uacute;a con la identificaci&oacute;n de datos at&iacute;picos a partir del<i> Conjunto 1</i>; en este caso en particular, debido al n&uacute;mero reducido de observaciones con que se cuenta, no se eliminan las observaciones identificadas como at&iacute;picas, sino que se buscan y eliminan las variables que poseen m&aacute;s de un 10% de valores at&iacute;picos. Puesto que se emplean dos t&eacute;cnicas diferentes, el subconjunto de variables resultante luego de esta segunda etapa de preproceso se nombra como <i>Conjunto 2a </i>cuando se utilizan intervalos de confianza y <i>Conjunto 2b </i>cuando se emplea an&aacute;lisis de la mediana de las desviaciones absolutas. Finalmente, la etapa de preproceso termina con la verificaci&oacute;n univariada de distribuci&oacute;n normal. Esta prueba se desarrolla a partir de los <i>Conjuntos 2a</i> y<i> 2b</i> de variables, con base en la prueba de Kolmogorov-Smirnov, con un nivel de significancia  . La prueba de normalidad se realiza para cada una de las clases, aquellas variables que no posean distribuci&oacute;n normal se eliminan de todas las clases; y el conjunto resultante de variables no eliminadas ser&aacute; <i>Conjunto 3a</i> &oacute; <i>3b</i>, seg&uacute;n corresponda.</p>      <p>    <center><a name="tab1"><img src="img/revistas/iei/v29n3/3a15t1.jpg"></a></center></p>      <p>Una vez terminado el preproceso de los datos, se aplican dos tipos de t&eacute;cnicas de clasificaci&oacute;n sobre cada uno de los conjuntos de variables identificados anteriormente. Con el procedimiento de clasificaci&oacute;n se determina la efectividad del preproceso.</p>      ]]></body>
<body><![CDATA[<p>    <center><a name="tab2"><img src="img/revistas/iei/v29n3/3a15t2.jpg"></a></center></p>      <p><font size = "3"><b>Conclusiones</b></font></p>      <p>En este art&iacute;culo se presenta un esquema de preproceso de datos como etapa esencial en los sistemas de reconocimiento automatizado de patrones. Se comprob&oacute; la eficacia de la metodolog&iacute;a de preproceso propuesta por medio de an&aacute;lisis experimental en la detecci&oacute;n de patolog&iacute;as de voz. Un adecuado preproceso de los datos para el entrenamiento de sistemas de apoyo al diagn&oacute;stico m&eacute;dico contribuye con el incremento del acierto y la confiabilidad de los resultados, lo cual contribuye socialmente mejorando la calidad de vida de los pacientes que son sometidos a procesos diagn&oacute;sticos modernos, no invasivos, de alta precisi&oacute;n y confianza.</p>      <p>Sin embargo, aunque se ha planteado una metodolog&iacute;a b&aacute;sica de preproceso, es necesario aclarar que sus resultados son absolutamente dependientes de la t&eacute;cnica particular que se utilice en cada una de las etapas de dicho preproceso. Por ende, el rendimiento del preproceso puede variar sustancialmente al modificar alguna de las t&eacute;cnicas. Debe tenerse presente que aunque las t&eacute;cnicas que emplean umbrales heur&iacute;sticos tienen, en general, una implementaci&oacute;n algor&iacute;tmica m&aacute;s simple, sus resultados son menos generales, y al emplear bases de datos u observaciones diferentes puede ser necesario recalcular las cotas emp&iacute;ricas. De los experimentos es evidente que el preproceso fue altamente efectivo cuando se emplea clasificador bayesiano para funciones de densidad de probabilidad gaussianas, esto se debe a que la mayor&iacute;a de t&eacute;cnicas presentadas en el preproceso est&aacute;n dise&ntilde;adas sobre la presunci&oacute;n de gaussividad. Sin embargo, cuando se emple&oacute; el clasificador de vecinos m&aacute;s cercanos, los resultados del preproceso no mejoraron de manera importante el acierto de clasificaci&oacute;n, esto se debe a que el clasificador k-nn es enteramente no param&eacute;trico, no depende de la funci&oacute;n de densidad de probabilidad de los datos. Con base en lo anterior, se propone como trabajo futuro plantear una metodolog&iacute;a de preproceso de datos en casos no param&eacute;tricos o cuando la presunci&oacute;n de gaussividad sea falsa.</p>      <p><font size = "3"><b>Agradecimientos</b></font></p>      <p>Agradecemos a la Universidad de Las Palmas de Gran Canaria, por su colaboraci&oacute;n y pr&eacute;stamo de la base de datos. A la Universidad Nacional de Colombia, a trav&eacute;s del proyecto, &quot;Identificaci&oacute;n de posturas labiales en pacientes con labio o paladar hendido corregido&quot;, y a Colciencias por una beca para estudios de doctorado, convocatoria 2007.</p>      <p><font size = "3"><b>Bibliograf&iacute;a</b></font></p>      <!-- ref --><p>Daza-Santacoloma, G., S&aacute;nchez-Giraldo, L. G., Su&aacute;rez-Cifuentes, J. F., Selecci&oacute;n de caracter&iacute;sticas orientada a sistemas de reconocimiento de granos maduros de caf&eacute;., Scientia et Technica, Vol. 35, 2007, pp. 139-144.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000111&pid=S0120-5609200900030001500001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Daza-Santacoloma, G., Soto-Mej&iacute;a J., Castellanos-Dom&iacute;nguez, C. G., Reducci&oacute;n de dimensi&oacute;n para el reconocimiento autom&aacute;tico de patrones sobre biose&ntilde;ales., Scientia et Technica, Vol. 37,  2007, pp. 163-168.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000112&pid=S0120-5609200900030001500002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Duda, R. O., Hart, P. E., Stork, D. G., Pattern Classification., 2nd ed., Wiley, 2000.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000113&pid=S0120-5609200900030001500003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Thode, H. C. Jr., Testing for normality, Statistics: textbooks and monographs., Vol 164, Marcel Dekker Inc., 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000114&pid=S0120-5609200900030001500004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Lvovsky, E., Statistichekije metody postrojenija empiricheskij formul., Vysschaja Shkola, Moskva, 1988.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000115&pid=S0120-5609200900030001500005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Montgomery, D. C., Runger, G. C., Applied Statistics and Probability for Engineers., John Wiley and Sons, Inc., 2003.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000116&pid=S0120-5609200900030001500006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Pe&ntilde;a, D., Guttman, I., Comparing probabilistic methods for outlier detection in linear models., Biometrika, Vol. 80, No. 3, 1993, pp. 603-610.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000117&pid=S0120-5609200900030001500007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Pe&ntilde;a, D., Prieto, F. J., Multivariate Outlier Detection and Robust Covariance Matrix Estimation., Technometrics, Vol. 43, No 3, 2001, pp. 286-310.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000118&pid=S0120-5609200900030001500008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Petrovich, M. L., Davidovich, M. I., Statistichoskoe Otsenivanije I proverka Gipotez na EBM., Financy i Statistika, Moskva, 1989.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000119&pid=S0120-5609200900030001500009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Teugels, J. L., Vanroelen, G., Box-Cox Transformations and Heavy-tailed Distributions., Journal of Applied Probability, Vol. 41, 2004, pp.213-227.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000120&pid=S0120-5609200900030001500010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Webb, A. R., Statistical Pattern Recognition., 2nd ed., Wiley, 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000121&pid=S0120-5609200900030001500011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Daza-Santacoloma]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Sánchez-Giraldo]]></surname>
<given-names><![CDATA[L. G.]]></given-names>
</name>
<name>
<surname><![CDATA[Suárez-Cifuentes]]></surname>
<given-names><![CDATA[J. F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Selección de características orientada a sistemas de reconocimiento de granos maduros de café]]></article-title>
<source><![CDATA[Scientia et Technica]]></source>
<year>2007</year>
<volume>35</volume>
<page-range>139-144</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Daza-Santacoloma]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Soto-Mejía]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Castellanos-Domínguez]]></surname>
<given-names><![CDATA[C. G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reducción de dimensión para el reconocimiento automático de patrones sobre bioseñales]]></article-title>
<source><![CDATA[Scientia et Technica]]></source>
<year>2007</year>
<volume>37</volume>
<page-range>163-168</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Duda]]></surname>
<given-names><![CDATA[R. O.]]></given-names>
</name>
<name>
<surname><![CDATA[Hart]]></surname>
<given-names><![CDATA[P. E.]]></given-names>
</name>
<name>
<surname><![CDATA[Stork]]></surname>
<given-names><![CDATA[D. G.]]></given-names>
</name>
</person-group>
<source><![CDATA[Pattern Classification]]></source>
<year>2000</year>
<edition>2nd</edition>
<publisher-name><![CDATA[Wiley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Thode]]></surname>
<given-names><![CDATA[H. C. Jr.]]></given-names>
</name>
</person-group>
<source><![CDATA[Testing for normality, Statistics: textbooks and monographs]]></source>
<year>2002</year>
<volume>164</volume>
<publisher-name><![CDATA[Marcel Dekker Inc.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lvovsky]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistichekije metody postrojenija empiricheskij formul]]></source>
<year>1988</year>
<publisher-loc><![CDATA[Vysschaja Shkola^eMoskva Moskva]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Montgomery]]></surname>
<given-names><![CDATA[D. C.]]></given-names>
</name>
<name>
<surname><![CDATA[Runger]]></surname>
<given-names><![CDATA[G. C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Applied Statistics and Probability for Engineers]]></article-title>
<source><![CDATA[John Wiley and Sons, Inc.]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Peña]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Guttman]]></surname>
<given-names><![CDATA[I.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparing probabilistic methods for outlier detection in linear models]]></article-title>
<source><![CDATA[Biometrika]]></source>
<year>1993</year>
<volume>80</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>603-610</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Peña]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Prieto]]></surname>
<given-names><![CDATA[F. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multivariate Outlier Detection and Robust Covariance Matrix Estimation]]></article-title>
<source><![CDATA[Technometrics]]></source>
<year>2001</year>
<volume>43</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>286-310</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Petrovich]]></surname>
<given-names><![CDATA[M. L.]]></given-names>
</name>
<name>
<surname><![CDATA[Davidovich]]></surname>
<given-names><![CDATA[M. I.]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistichoskoe Otsenivanije I proverka Gipotez na EBM]]></source>
<year>1989</year>
<publisher-loc><![CDATA[Moskva ]]></publisher-loc>
<publisher-name><![CDATA[Financy i Statistika]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Teugels]]></surname>
<given-names><![CDATA[J. L.]]></given-names>
</name>
<name>
<surname><![CDATA[Vanroelen]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Box-Cox Transformations and Heavy-tailed Distributions]]></article-title>
<source><![CDATA[Journal of Applied Probability]]></source>
<year>2004</year>
<volume>41</volume>
<page-range>213-227</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Webb]]></surname>
<given-names><![CDATA[A. R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistical Pattern Recognition]]></source>
<year>2002</year>
<edition>2nd</edition>
<publisher-name><![CDATA[Wiley]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
