<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0121-4993</journal-id>
<journal-title><![CDATA[Revista de Ingeniería]]></journal-title>
<abbrev-journal-title><![CDATA[rev.ing.]]></abbrev-journal-title>
<issn>0121-4993</issn>
<publisher>
<publisher-name><![CDATA[Universidad de los Andes.]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0121-49932006000200008</article-id>
<title-group>
<article-title xml:lang="en"><![CDATA[Boosting Support Vector Machines]]></article-title>
<article-title xml:lang="es"><![CDATA[Máquinas de vectores de soporte]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[García Díaz]]></surname>
<given-names><![CDATA[Elkin Eduardo]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Lozano Martínez]]></surname>
<given-names><![CDATA[Fernando]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de los Andes Departamento de Ingenieria Electrica y Electronica ]]></institution>
<addr-line><![CDATA[Bogota D.C.]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de los Andes Departamento de Ingenieria Electrica y Electronica ]]></institution>
<addr-line><![CDATA[Bogota D.C.]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>11</month>
<year>2006</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>11</month>
<year>2006</year>
</pub-date>
<numero>24</numero>
<fpage>62</fpage>
<lpage>70</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0121-49932006000200008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0121-49932006000200008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0121-49932006000200008&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En este articulo, se presenta un algoritmo de clasificacion binaria basado en Support Vector Machines (Maquinas de Vectores de Soporte) que combinado apropiadamente con tecnicas de Boosting consigue un mejor desempeno en cuanto a tiempo de entrenamiento y conserva caracteristicas similares de generalizacion con un modelo de igual complejidad pero de representacion mas compacta.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[In this paper we present an algorithm of binary classification based on Support Vector Machines. It is combined with a modified Boosting algorithm. It run faster than the original SVM algorithm with a similar generalization error and equal complexity model but it has more compact representation.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Boosting]]></kwd>
<kwd lng="es"><![CDATA[generalizacion]]></kwd>
<kwd lng="es"><![CDATA[SMO]]></kwd>
<kwd lng="es"><![CDATA[SVM]]></kwd>
<kwd lng="en"><![CDATA[Boosting]]></kwd>
<kwd lng="en"><![CDATA[generalization]]></kwd>
<kwd lng="en"><![CDATA[SMO]]></kwd>
<kwd lng="en"><![CDATA[SVM]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font face="Verdana" size="3">    <p align="center"><b>Boosting Support Vector Machines</b></p></font> <font face="Verdana" size="2">    <p align="center"><b> M&aacute;quinas de vectores de soporte</b></p>     <p><b>Elkin Eduardo Garc&iacute;a D&iacute;az</b>    <br> Ingeniero Electronico, M.Sc. en Ingenieria Electronica. Profesor Instructor, Departamento de Ingenieria Electrica y Electronica, Universidad de los Andes, Bogota D.C., Colombia.    <br> <a href="mailto:elkin-ga@uniandes.edu.co">elkin-ga@uniandes.edu.co</a></p>     <p><b>Fernando Lozano Mart&iacute;nez</b>    <br>Ingeniero Electronico, Ph. D. Electrical Engineering. Profesor Asistente, Departamento de Ingenieria Electrica y Electronica, Universidad de los Andes, Bogota D.C., Colombia.    <br> <a href="mailto:flozano@uniandes.edu.co">flozano@uniandes.edu.co</a></p>     <p>Recibido 13 de marzo de 2006, aprobado 7 de noviembre de 2006.</p> <hr size="1">     ]]></body>
<body><![CDATA[<p><b>PALABRAS CLAVE</b>    <br> Boosting, generalizacion, SMO, SVM.</p>     <p><b>RESUMEN</b>    <br>   En este articulo, se presenta un algoritmo de clasificacion binaria basado en Support Vector Machines (Maquinas de Vectores de Soporte) que combinado apropiadamente con tecnicas de Boosting consigue un mejor desempeno en cuanto a tiempo de entrenamiento y conserva caracteristicas similares de generalizacion con un modelo de igual complejidad pero de representacion mas compacta.</p>     <p><b>KEYWORDS</b>    <br> Boosting, generalization, SMO, SVM.</p>     <p><b>ABSTRACT</b>    <br>   In this paper we present an algorithm of binary classification based on Support Vector Machines. It is combined with a modified Boosting algorithm. It run faster than the original SVM algorithm with a similar generalization error and equal complexity model but it has more compact representation.</p> <hr size="1">     <p><b>INTRODUCCION</b></p>     <p>Las m&aacute;quinas de vectores de soporte (<i>SVM</i> por sus siglas en ingl&eacute;s) han sido, en los &uacute;ltimos a&ntilde;os, una t&eacute;cnica ampliamente aplicada a problemas de clasificaci&oacute;n y regresi&oacute;n [<a href="#r1">1</a>]. Desde el punto de vista de aprendizaje estad&iacute;stico, una de las razones de su &eacute;xito es que para ciertas funciones kernel se ha demostrado que <i>SVM</i> es un aprendiz fuerte [<a href="#r2">2</a>], es decir que puede alcanzar un error de generalizaci&oacute;n arbitrariamente cercano al error de Bayes con un conjunto de entrenamiento lo suficientemente grande. La principal desventaja de <i>SVM</i> es la complejidad temporal del algoritmo. Siendo <i>m</i> el n&uacute;mero de elementos del conjunto de entrenamiento, <i>SVM</i> resuelve un problema de programaci&oacute;n cuadr&aacute;tica que implica inicialmente complejidad <i>O(m</i><sup>3</sup><i>)</i>. M&uacute;ltiples investigaciones han propuesto m&eacute;todos para mejorar esta complejidad [<a href="#r3">3</a>] [<a href="#r6">6</a>] llegando a que sea <i>O(m</i><sup>2</sup><i>)</i>.</p>     ]]></body>
<body><![CDATA[<p>Por otra parte, algoritmos como Adaboost [<a href="#r7">7</a>] encuentran una buena hip&oacute;tesis combinando adecuadamente hip&oacute;tesis dadas por un aprendiz d&eacute;bil, es decir un algoritmo que retorna una hip&oacute;tesis cuyo desempe&ntilde;o es mejor que adivinar. Sin embargo, usar un algoritmo fuerte como clasificador base de Adaboost no representa gran ventaja desde el punto de vista de la generalizaci&oacute;n. Wickramaratna, Holden y Buxton han usado <i>SVM</i> como clasificador base de Adaboost, pero el desempe&ntilde;o del clasificador resultante se degrada con el aumento del n&uacute;mero de rondas [<a href="#r8">8</a>]. Por esta raz&oacute;n puede ser &uacute;til hacer de <i>SVM</i> un algoritmo d&eacute;bil para aprovechar las ventajas de Adaboost.</p>     <p>Adicionalmente, el debilitar <i>SVM</i> trae otras ventajas ya que puede utilizarse para reducir el conjunto de entrenamiento con el fin de simplificar la representaci&oacute;n de <i>SVM</i> [<a href="#r9">9</a>], lo que se conoce como <i>algoritmo de editing.</i></p>     <p>A continuaci&oacute;n, en la secci&oacute;n II se revisan los conceptos b&aacute;sicos de <i>clasificaci&oacute;n</i>, as&iacute; como los fundamentos de los algoritmos de <i>Boosting</i> y <i>SVM</i>. La secci&oacute;n III presenta el algoritmo propuesto de <i>Boosting Support Vector Machines (BSVM)</i>. La secci&oacute;n IV muestra el an&aacute;lisis de los experimentos realizados y finalmente la secci&oacute;n V presenta las conclusiones.</p>     <p><b>PRELIMINARES</b></p>     <p>Sea &Xi; un espacio de entrada, &Psi; un espacio de etiquetas y &Delta; una distribuci&oacute;n sobre &Xi;. Dada una secuencia <img src="/img/revistas/ring/n24/n24a8e1.jpg" align="absmiddle">= de ejemplos etiquetados donde cada <i>x<sub>i</sub></i> <font face="Symbol">&Icirc;</font> &Xi; es independiente e id&eacute;nticamente distribuido de acuerdo a &Delta;, se asigna cada <i>y<sub>i</sub></i> <font face="Symbol">&Icirc;</font> &Psi; de acuerdo a una regla posiblemente estoc&aacute;stica. En el caso de clasificaci&oacute;n binaria se restringe &Psi; = {-1,+1}</p>     <p>Se define una <i>regla de clasificaci&oacute;n</i> llamada <i>hip&oacute;tesis</i> como una funci&oacute;n <i>h</i>: &Xi; &alpha; &Psi; que asigna una etiqueta a cada elemento en el espacio de entrada. En el problema de clasificaci&oacute;n binaria se tiene que <i>h</i>: &Xi; &alpha;[-1,+1], donde el signo de <i>h(x)</i> es interpretado como la predicci&oacute;n de la etiqueta a ser asignada a la instancia <i>x</i>, mientras que la magnitud |<i>h(x)</i>| es interpretada como la    &quot;confianza&quot; de esta predicci&oacute;n. Adicionalmente una <i>clase de hip&oacute;tesis</i>  &Eta; es un conjunto compuesto por diferentes hip&oacute;tesis en el espacio de entrada.</p>     <p>El desempe&ntilde;o de una hip&oacute;tesis ser&aacute; evaluado utilizando el <i>error de generalizaci&oacute;n R</i> y el error emp&iacute;rico <i>R<sub>emp</sub></i> definidos como:</p>     <p><img src="/img/revistas/ring/n24/n24a8e2.jpg"></p>     <p>Donde <i>D</i> <font face="Symbol">&Icirc;</font> <i>R<sup>m</sup></i> es una distribuci&oacute;n discreta sobre el conjunto de muestras etiquetadas y  es la funci&oacute;n indicadora.</p>     <p>Un <i>algoritmo de aprendizaje</i> es un procedimiento eficiente que toma como entradas un conjunto de muestras etiquetadas &sum; y una distribuci&oacute;n discreta <i>D</i> para retornar una hip&oacute;tesis <i>h</i> <font face="Symbol">&Icirc;</font> &Eta;. Un <i>clasificador combinado H(x)</i> es la combinaci&oacute;n convexa de varias hip&oacute;tesis <i>h<sub>i</sub> (clasificador base)</i> de tal forma que</p>     ]]></body>
<body><![CDATA[<p><img src="/img/revistas/ring/n24/n24a8e3.jpg"></p>     <p>A. BOOSTING</p>     <p>Las estrategias de Boosting pretenden elevar el desempe&ntilde;o de un algoritmo de aprendizaje d&eacute;bil combinando varias hip&oacute;tesis adecuadamente y generando un algoritmo de aprendizaje fuerte. El algoritmo Adaboost [<a href="#r10">10</a>] o Boosting adaptativo introducido en [<a href="#r11">11</a>] es un meta-algoritmo (un procedimiento que usa otro procedimiento como subrutina) que toma un conjunto de muestras etiquetadas &sum;, una distribuci&oacute;n discreta <i>D</i> y un aprendiz d&eacute;bil <i>Weak</i> para retornar un clasificador combinado en <i>T</i> iteraciones. En cada iteraci&oacute;n <i>t</i> Adaboost ejecuta <i>Weak</i> sobre el conjunto &sum;  con la distribuci&oacute;n <i>D<sub>t</sub></i> para obtener la hip&oacute;tesis <i>h<sub>t</sub></i>. De acuerdo al desempe&ntilde;o de <i>h<sub>t</sub></i>, el algoritmo modifica <i>D<sub>t</sub></i> d&aacute;ndole menor peso a las muestras bien clasificadas y mayor peso a las muestras mal clasificadas con el objetivo que el siguiente clasificador se concentre en estas &uacute;ltimas, maximizando la cantidad de informaci&oacute;n que obtendr&aacute; en la siguiente ronda. La <i><a href="#f1">figura 1</a></i> muestra este algoritmo como fue presentado en [<a href="#r10">10</a>].</p>     <p><img src="/img/revistas/ring/n24/n24a8f1.jpg"><a name="f1"></a></p>     <p>Fig. 1. Algoritmo Adaboost</p>     <p>B. SUPPORT VECTOR MACHINES</p>     <p>El objetivo de Support Vector Machines en el problema de clasificaci&oacute;n binario es encontrar el hiperplano separador &oacute;ptimo (aquel que maximiza el margen geom&eacute;trico) en el <i>espacio de caracter&iacute;sticas</i> &Xi; &#39;. &Eacute;ste est&aacute; relacionado con el <i>espacio de entrada</i> &Xi; (espacio original de los datos) por medio de una transformaci&oacute;n no lineal &Phi;(<i>x</i>) de altas dimensiones que busca que los datos del conjunto de elementos etiquetados &sum; sean separables. Cuando el conjunto de ejemplos etiquetados no es linealmente separable, el inter&eacute;s es encontrar el hiperplano con el menor error emp&iacute;rico. Sin embargo, el problema de encontrar este clasificador es NP-Hard [<a href="#r12">12</a>], raz&oacute;n por la cual se pueden descartar algunos puntos con alg&uacute;n margen positivo fijado, en cuyo caso el problema tiene complejidad polinomial.</p>     <p>Cortes y Vapnik [<a href="#r13">13</a>] [<a href="#r14">14</a>] proponen resolver el siguiente problema de optimizaci&oacute;n, formulaci&oacute;n conocida como <i>C</i>-<i>SVM</i></p>     <p><i><img src="/img/revistas/ring/n24/n24a8e4.jpg"></i></p>     <p>Donde <i>C</i> &gt;0 es una constante que controla el &quot;trade- off&quot; entre minimizar el error de entrenamiento y maximizar el margen. N&oacute;tese que cuando &xi;<sub><i>i</i></sub> = 0, no existe un margen de error, sin embargo &xi;<sub><i>i</i></sub><i></i> &gt; 0 implica que las clases se traslapan. Adicionalmente, este problema requiere el c&aacute;lculo de la transformaci&oacute;n &Phi;(<i>x</i>) para todos los datos de entrenamiento y de la minimizaci&oacute;n de <b>w</b> en el espacio de caracter&iacute;sticas. Por estas razones se plantea el problema dual de (4)</p>     ]]></body>
<body><![CDATA[<p><img src="/img/revistas/ring/n24/n24a8e5.jpg"></p>     <p>Donde <i>Q<sub>ij</sub></i> = <i>y<sub>i</sub>y<sub>j</sub>k</i>(<i>x<sub>i</sub>, x<sub>j</sub></i>) y <b>e</b> el vector de todos unos, definiendo <img src="/img/revistas/ring/n24/n24a8e6.jpg" align="absmiddle"> como un kernel positivo definido. Adicionalmente la hip&oacute;tesis est&aacute; dada por</p>     <p><img src="/img/revistas/ring/n24/n24a8e7.jpg"></p>     <p>Es de destacar que este hiperplano en el espacio de caracter&iacute;sticas X&#39; est&aacute; en funci&oacute;n de los datos de entrenamiento para los que &alpha;<i><sub>i</sub></i> &ne; 0, &eacute;stos son los vectores de soporte. Es claro que (5), el problema dual de (4), es un problema de programaci&oacute;n cuadr&aacute;tica con restricciones lineales mucho m&aacute;s sencillos de resolver que el original puesto que &uacute;nicamente est&aacute; en funci&oacute;n de los kernel. Sin embargo, no puede ser f&aacute;cilmente resuelto por t&eacute;cnicas tradicionales dado que involucra una matriz Hessiana de dimensi&oacute;n <i>m</i> &times; <i>m</i>. Por esta raz&oacute;n, para resolver (5) han surgido m&uacute;ltiples m&eacute;todos que buscan ser m&aacute;s eficientes [<a href="#r3">3</a>] [<a href="#r6">6</a>] destac&aacute;ndose <i>Secuential Minimal Optimization (SMO)</i> en donde se descompone el problema original de tal forma que s&oacute;lo se requiere resolver problemas cuadr&aacute;ticos de dos variables de forma anal&iacute;tica. La combinaci&oacute;n de <i>SMO</i> con t&eacute;cnicas de <i>shrinking</i> y <i>caching</i> [<a href="#r5">5</a>] ha permitido que la complejidad computacional en la resoluci&oacute;n de (5) est&eacute; entre cuadr&aacute;tica y c&uacute;bica, dependiendo del tipo de problema y dominada b&aacute;sicamente por el n&uacute;mero de evaluaciones que se requieren de la funci&oacute;n kernel [<a href="#r15">15</a>].</p>     <p><b>BOOSTING SUPPORT VECTOR MACHINES</b></p>     <p>Debido a que la complejidad de <i>SVM</i> depende intr&iacute;nsecamente del n&uacute;mero de datos de entrenamiento, se busca que en el planteamiento del problema cuadr&aacute;tico intervenga s&oacute;lo un subconjunto de los datos originales, sin que esto implique que se descarten totalmente. Raz&oacute;n por la cual las estrategias de Boosting son una alternativa para combinar varias hip&oacute;tesis generadas de esta forma. Adicionalmente, entrenar con una fracci&oacute;n de los datos &mu;<i>m</i> y combinar <i>q</i> hip&oacute;tesis puede demorar mucho menos tiempo que entrenar con los datos completos, pues si la complejidad del algoritmo original est&aacute; acotada por <i>Am<sup>x</sup></i> con <i>A</i><font face="Symbol">&Icirc;</font> <i>R</i>, al entrenar con la fracci&oacute;n &mu;<i>m</i> est&aacute; acotado por <i>A(</i>&mu;<i>m)<sup>x</sup></i>; y combinando <i>q</i> hip&oacute;tesis por <i>Aq(</i>&mu;<i>m)<sup>x</sup></i>(despreciando la complejidad del algoritmo que las combina). Con <i>x</i> &gt; 1, 0 &gt; &mu; &gt; 1 y <i>q</i> &le; 1/&mu; se tiene que:</p>     <p><img src="/img/revistas/ring/n24/n24a8e8.jpg"></p>     <p>De donde aunque el algoritmo resultante sigue siendo <i>O(m<sup>x</sup>)</i>, la constante que lo acota es menor.</p>     <p>Por esta raz&oacute;n se busca utilizar <i>SVM</i> como clasificador d&eacute;bil de un algoritmo de Boosting similar a Adaboost, para ello se hace necesario modificar el problema de optimizaci&oacute;n (5) para tener en cuenta las distribuciones y garantizar que <i>SVM</i> es un algoritmo d&eacute;bil.</p>     <p>A. SUPPORT VECTOR MACHINES PARA DISTRIBUCIONES</p>     ]]></body>
<body><![CDATA[<p>Para el caso en el que se tenga una distribuci&oacute;n discreta <i>D</i> <font face="Symbol">&Icirc;</font> <i>R<sup>m</sup></i> sobre el conjunto de muestras etiquetadas &sum;, se hace necesario dar mayor importancia a aquellos datos con mayor peso dentro de la distribuci&oacute;n, en otras palabras es m&aacute;s grave tener un bajo margen o un margen negativo para un dato o conjunto de datos con peso considerable que para uno con bajo peso, por esta raz&oacute;n se deben involucrar los valores de las distribuciones en el planteamiento original de <i>C</i>-<i>SVM</i>. Por lo cual se modifica el planteamiento original de <i>SVM</i> en t&eacute;rminos de distribuciones penalizando en la funci&oacute;n objetivo las variables de holgura &xi;<i><sub>i</sub></i> de forma proporcional al peso del dato <i>x<sub>i</sub></i> de acuerdo a <i>D</i>. De esta forma el planteamiento del problema de optimizaci&oacute;n y su dual son</p>     <p><img src="/img/revistas/ring/n24/n24a8e9.jpg"></p>     <p>B. SUPPORT VECTOR MACHINES COMO ALGORITMO DEBIL</p>     <p>Debido a la degradaci&oacute;n del desempe&ntilde;o que experimentan las t&eacute;cnicas de Boosting con <i>SVM</i> respecto al n&uacute;mero de rondas [<a href="#r8">8</a>], resulta &uacute;til debilitarlo para aprovechar las ventajas de Boosting con respecto a la generalizaci&oacute;n.</p>     <p>Para hacer de <i>SVM</i> un clasificador d&eacute;bil y teniendo en cuenta que la complejidad est&aacute; entre cuadr&aacute;tica y c&uacute;bica respecto al n&uacute;mero de datos, es posible despreciar cierta cantidad de datos &mu;, de tal forma que se resuelva el problema con un porcentaje mucho menor, siempre y cuando con respecto al conjunto total, el error pesado no supere el 50%.</p>     <p>Adicionalmente, los datos que se descarten deben ser los menos representativos del conjunto, es decir los que tengan menos peso en la distribuci&oacute;n. De esta forma el subconjunto <font face="Symbol">J &Igrave;</font> &sum; estar&aacute; definido por &sum;<sub><i>j</i><font face="Symbol">&Icirc;J</font></sub> <i>D<sub>j</sub></i> &le; <i>(1</i> - &mu;<i>)</i> donde <font face="Symbol">J</font> tiene m&iacute;nima cardinalidad, presentando como ventaja adicional que el nuevo conjunto de entrenamiento es el m&aacute;s peque&ntilde;o posible, minimizado al m&aacute;ximo el tiempo de entrenamiento. &mu; es un par&aacute;metro adicional del algoritmo el cual se puede determinar mediante alguna estrategia de selecci&oacute;n de modelo.</p>     <p>C. BOOSTING SUPPORT VECTOR MACHINES</p>     <p>Luego de tener un algoritmo debilitado para <i>SVM,</i> se puede aplicar directamente un algoritmo de Boosting como Adaboost, con lo cual la hip&oacute;tesis final del clasificador combinado de acuerdo a (6) est&aacute; dada por</p>     <p><img src="/img/revistas/ring/n24/n24a8e10.jpg"></p>     <p>Sin embargo, es claro que no es un hiperplano clasificador en el espacio de caracter&iacute;sticas y que la complejidad de la hip&oacute;tesis <i>H<sub>T</sub>(x)</i> es mucho mayor que la de <i>SVM</i> dada por (6) Por esta raz&oacute;n se desea modificar el algoritmo Adaboost de la <i><a href="#f1">figura 1</a></i> de tal forma que el clasificador combinado tambi&eacute;n tenga la forma de (6). Este algoritmo denominado <i>BSVM</i> se detalla en la <i><a href="#f2">figura 2</a>.</i></p>     ]]></body>
<body><![CDATA[<p><img src="/img/revistas/ring/n24/n24a8f2.jpg"><a name="f2"></a></p>     <p>Fig. 2. Algoritmo BSVM</p>     <p>El algoritmo <i>BSVM</i> conserva las caracter&iacute;sticas principales de Adaboost. En cada iteraci&oacute;n modifica de la misma forma la distribuci&oacute;n de los datos; sin embargo, la principal diferencia radica en que, debido a que la hip&oacute;tesis final es tambi&eacute;n un hiperplano clasificador en el espacio de caracter&iacute;sticas, la forma de hallar los coeficientes &alpha;<sub><i>t</i></sub> de cada hip&oacute;tesis base se hace planteando un problema de optimizaci&oacute;n cuyo objetivo es minimizar el error en los datos de entrenamiento de la combinaci&oacute;n convexa de la hip&oacute;tesis actual <i>h<sub>t</sub>(x)</i> y la hip&oacute;tesis combinada de los clasificadores anteriores <i>H(x)</i>. Por esta raz&oacute;n el problema de hallar &alpha;<sub><i>t</i></sub> en cada ronda se reduce a un problema de b&uacute;squeda de l&iacute;nea con restricciones, de f&aacute;cil resoluci&oacute;n por m&eacute;todos num&eacute;ricos como b&uacute;squeda dorada o interpolaci&oacute;n con la c&uacute;bica.</p>     <p>Adicionalmente, puesto que <i>BSVM</i> no aumenta la complejidad del modelo y por esta raz&oacute;n cada vez se hace m&aacute;s dif&iacute;cil encontrar un hiperplano combinado mejor, existe otro criterio de parada diferente al n&uacute;mero de rondas, el criterio es &alpha;<sub><i>t</i></sub> = 0 pues esto implica que el error de entrenamiento no mejor&oacute; y que la hip&oacute;tesis resultante <i>H(x)</i> no sufre modificaciones. Tambi&eacute;n lo es <i>R<sub>emp</sub>(H(x),</i> &sum;,<i> D<sub>1</sub>)</i> = 0 pues cuando el error de entrenamiento es cero, no es posible mejorar m&aacute;s.</p>     <p>Teniendo en cuenta que el objetivo de este proceso de entrenamiento es la generalizaci&oacute;n, no necesariamente el obtener el error m&aacute;s bajo en entrenamiento implica un error bajo de generalizaci&oacute;n, puesto que se puede presentar sobre ajuste a los datos, por lo cual se hace necesario incluir otros criterios de parada cuyo objetivo sea prevenir esto. Una primera alternativa es utilizar un sistema de <i>parada temprana</i> en donde a partir de un subconjunto de los datos de entrenamiento se verifique y controle cuando existe sobre ajuste y as&iacute; finalizar el algoritmo. Otra alternativa es utilizar los valores de error de entrenamiento de rondas anteriores para, aprovechando que forman una sucesi&oacute;n descendente, hallar en qu&eacute; porcentaje se mejor&oacute; el error; un porcentaje muy bajo es indicio de sobre ajuste. Con lo cual se puede utilizar</p>     <p><img src="/img/revistas/ring/n24/n24a8e11.jpg"></p>     <p>siendo <i>f</i>[<i>t</i>] decreciente o constante. As&iacute; mismo los &alpha;<sub>&tau;</sub> forman una sucesi&oacute;n, en la mayor&iacute;a de los casos descendente, y valores muy bajos son prohibitivos para la generalizaci&oacute;n. De all&iacute; que otro criterio de terminaci&oacute;n es &alpha;<sub><i>t</i></sub> &le; <i>g</i>[<i>t</i>] con <i>g</i>[<i>t</i>] decreciente o constante.</p>     <p><b>EXPERIMENTOS</b></p>     <p>En esta secci&oacute;n se muestran algunos experimentos de clasificaci&oacute;n binaria aplicando el algoritmo <i>BSVM</i> propuesto, utilizando tanto datos artificiales como de problemas reales de diversas caracter&iacute;sticas respecto a dimensi&oacute;n y n&uacute;mero de datos de entrenamiento y validaci&oacute;n.</p>     <p>Para el conjunto de datos <i>MNIST</i> de d&iacute;gitos manuscritos [<a href="#r16">16</a>] se toma el problema binario de clasificar las clases 3 y 8 por su alta complejidad, es un conjunto de gran tama&ntilde;o y de alt&iacute;simas dimensiones. <i>Fournorm</i> es un problema de clasificaci&oacute;n binario de 20 dimensiones en donde los datos de la primera clase provienen con igual probabilidad de dos distribuciones normales con matriz de covarianza identidad y medias en (<i>a,a,...,a</i>) y (<i>-a,-a,...,-a</i>), mientras los datos de la segunda clase provienen con igual probabilidad de dos distribuciones normales con matriz de covarianza identidad y medias en (<i>a,-a,...,a,-a</i>) y (<i>-a,a,...,-a,a</i>) para este caso se toma <img src="/img/revistas/ring/n24/n24a8e12.jpg" align="absmiddle">, se destaca en este conjunto, adicional a su dimensi&oacute;n, que las clases est&aacute;n bastante superpuestas, raz&oacute;n por la cual el error de Bayes es apreciable, pero a diferencia de un problema real, es calculable te&oacute;ricamente. <i>Breast cancer, diabetes y australian</i> son tres bases de datos del repositorio de UCI [<a href="#r17">17</a>]; la primera para identificar si un tumor es benigno o maligno, separable f&aacute;cilmente, la segunda para diagnosticar diabetes y la tercera para aprobar cr&eacute;ditos; este grupo aunque es de menor n&uacute;mero de datos respecto a las primeras, los datos son de dimensiones apreciables. En los casos en los que el conjunto no est&aacute; fraccionado en entrenamiento y validaci&oacute;n, se toma el 90% para entrenamiento y el 10% para validaci&oacute;n. En todos los experimentos se utiliz&oacute; un kernel gaussiano <i>k</i>(<i>x<sub>i</sub></i>, <i>x<sub>j</sub></i>) = exp(-||<i>x<sub>i</sub></i> - <i>x<sub>j</sub></i>||<sup>2</sup>/&sigma;). Las caracter&iacute;sticas de las bases de datos y los par&aacute;metros del kernel utilizado en cada caso se encuentran en la <i><a href="#t1">tabla I</a>.</i></p>     ]]></body>
<body><![CDATA[<p><a name="t1"></a><a href="/img/revistas/ring/n24/n24a8t1.jpg" target="_blank">TABLA I</a>. Caracter&iacute;sticas de las bases de Datos y Comparaci&oacute;n de SVM y BSVM</p>     <p>Para el algoritmo de <i>SVM</i> con distribuciones se usa la misma filosof&iacute;a de <i>SMO</i> [<a href="#r6">6</a>] as&iacute; como las mejoras propuestas por otros autores [<a href="#r18">18</a>] [<a href="#r15">15</a>] haciendo las modificaciones necesarias para resolver (9). Por el amplio n&uacute;mero de datos en entrenamiento y validaci&oacute;n, se utiliza MNIST para hacer un an&aacute;lisis general del algoritmo. Durante los experimentos se utiliz&oacute; <i>f</i>[<i>t</i>]=0.25 y <i>g</i>[<i>t</i>]=1/<i>t</i><sup>2</sup>. Aunque para el entrenamiento no se disminuya tanto el error a medida que se rechazan datos, para la evaluaci&oacute;n s&iacute; se mejora el desem- pe&ntilde;o, disminuyendo el error sobre todo a medida que se rechazan m&aacute;s datos y mejorando la generalizaci&oacute;n con los criterios de parada aplicados.</p>     <p>La <i><a href="#f3">figura 3</a></i> muestra la relaci&oacute;n entre el error de validaci&oacute;n (sin sobre entrenamiento) y el tiempo de entrenamiento a medida que se rechazan m&aacute;s datos. A pesar que el algoritmo sigue generalizando a valores similares a los del modelo obtenido sin rechazar datos, el tiempo de entrenamiento decrece dram&aacute;ticamente a valores inferiores a 1/10 del tiempo original. Sin embargo, el modelo no generaliza bien si se desprecian demasiados datos. Respecto al n&uacute;mero de vectores de soporte, la <i><a href="#f4">figura 4</a>.</i> muestra c&oacute;mo, aplicando los criterios de parada descritos, a medida que se rechazan m&aacute;s datos el n&uacute;mero de vectores de soporte tambi&eacute;n disminuye independientemente del error de entrenamiento y de evaluaci&oacute;n; pero, se destaca que en pruebas preliminares en ausencia de estos criterios el sobre ajuste del modelo tambi&eacute;n implicaba, en algunos casos, un incremento sustancial en el n&uacute;mero de vectores de soporte, lo que puede aprovecharse como un criterio adicional de parada.</p>     <p><img src="/img/revistas/ring/n24/n24a8f3.jpg"><a name="f3"></a></p>     <p>Fig. 3. Relaci&oacute;n entre el error de validaci&oacute;n, el tiempo de entrenamiento y el  porcentaje de datos rechazados &mu;</p>     <p><img src="/img/revistas/ring/n24/n24a8f4.jpg"><a name="f4"></a></p>     <p>Fig. 4. Relaci&oacute;n entre el n&uacute;mero de vectores de soporte y el porcentaje de  datos rechazados &mu; sin sobreentrenamiento</p>     <p>La <i>tabla I.</i> tambi&eacute;n resume los resultados obtenidos para los diferentes conjuntos probados. De acuerdo a esto hay varios aspectos a destacar. El primero de ellos hace referencia a que en todos los casos <i>BSVM</i> obtuvo con muy pocas rondas un error de generalizaci&oacute;n similar al del algoritmo original, demostrando la efectividad y r&aacute;pida convergencia del algoritmo dise&ntilde;ado. Adicionalmente, en la mayor&iacute;a de los casos lo hace en un tiempo menor, en particular con <i>MNIST</i> y <i>australian,</i> conjuntos con muchos datos y/o altas dimensiones. En relaci&oacute;n con el n&uacute;mero de vectores de soporte se puede apreciar como <i>BSVM</i> obtiene un n&uacute;mero reducido de vectores de soporte, sin comprometer la generalizaci&oacute;n del modelo, esta reducci&oacute;n es mucho mayor en aquellas clases que son no separables y por lo tanto tienen un error de Bayes apreciable, como es el caso de <i>four-norm</i> o <i>diabetes.</i></p>     <p><b>CONCLUSIONES</b></p>     <p>El algoritmo propuesto <i>BSVM</i> combina eficientemente diversos clasificadores <i>SVM</i> por medio de t&eacute;cnicas de Boosting, sin aumentar la complejidad de la hip&oacute;tesis resultante y en un tiempo mucho menor, en particular cuando el conjunto de entrenamiento es extenso y/o la dimensi&oacute;n de los datos es alta.</p>     ]]></body>
<body><![CDATA[<p>Adicionalmente, con esta implementaci&oacute;n los modelos son mucho m&aacute;s compactos puesto que poseen un n&uacute;mero menor de vectores de soporte.</p>     <p>Las estrategias propuestas para evitar el sobre ajuste son efectivas, de tal forma que <i>BSVM</i> presenta valores similares en cuanto a generalizaci&oacute;n respecto a la implementaci&oacute;n original.</p>     <p>Quedan planteados como temas de investigaci&oacute;n futuros: el hallar cotas te&oacute;ricas m&aacute;s ajustadas para el porcentaje de datos rechazado y determinar criterios anal&iacute;ticos de parada m&aacute;s precisos.</p> <hr size="1">     <p><b>REFERENCIAS</b></p>     <!-- ref --><p><a name="r1"></a>[1] B. Sch&ouml;lkopf and A. Smola. <i>Learning With Kernels</i>. Cambridge, MA: MIT Press, 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000087&pid=S0121-4993200600020000800001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r1"></a>[2] I. Steinwart. &quot;Cosistency of support vector machines and other regularized kernel classifiers&quot;, <i>IEEE Transactions on Information Theory</i>, vol. 51, no. 1, pp. 128-142, January 2005.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000088&pid=S0121-4993200600020000800002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r3"></a>[3] V. Vapnik. <i>Estimation of Dependences Based on Empirical Data</i>. Springer- Verlag, 1982.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000089&pid=S0121-4993200600020000800003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r4"></a>[4] E. Osuna, R. Freund, and F. Girosi. Improved training algorithm for support vector machines. In <i>Proc. IEEE Neural Networks in Signal Processing &#39;97</i>, p p. 276 - 285, 1997.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000090&pid=S0121-4993200600020000800004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r5"></a>[5] T. Joachims. &quot;Making large-scale SVM learning practical&quot; in <i>Advances in Kernel Methods - Support Vector Learning</i>, B. Sch&ouml;lkopf, C. J. C. Burges, and A. J. Smola, Eds. Cambridge, MA: MIT Press, 1999, pp. 169-184.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000091&pid=S0121-4993200600020000800005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r6"></a>[6] J. Platt. &quot;Fast training of support vector machines using sequential minimal optimization&quot;, in <i>Advances in Kernel Methods - Support Vector Learning</i>, B. Sch&ouml;lkopf, C. J. C. Burges, and A. J. Smola, Eds. Cambridge, MA: MIT Press, 1999, pp. 185-208.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000092&pid=S0121-4993200600020000800006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r7"></a>[7] Y. Freund and R. Schapire. &quot;A decision-theoretic generalization of online learning and an application to boosting&quot;, <i>Journal of Computer and System Sciences</i>, vol. 55, no. 1, pp. 119-139, Aug. 1997.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000093&pid=S0121-4993200600020000800007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r8"></a>[8] J. Wickramaratna, S. Holden, and B. Buxton. &quot;Performance degradation in boosting&quot;, in <i>Proceedings of the 2nd International Workshop on Multiple Classifier Systems MCS2001</i>, ser. LNCS, J. Kittler and F. Roli, Eds. Springer, 2001, vol. 2096, pp. 11-21.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000094&pid=S0121-4993200600020000800008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r9"></a>[9] P. Rangel, F. Lozano, E. Garc&iacute;a. &quot;Boosting of Support Vector Machines with application to editing&quot; in <i>Proceeding of the 4th Int. Conf. of Machine Learning and Applications ICMLA&acute;&#39;05,</i> Dec. 2005.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000095&pid=S0121-4993200600020000800009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r10"></a>[10] R. Schapire and Y. Singer. &quot;Improved boosting algorithms using confidence-rated predictions&quot;, <i>Machine Learning,</i> vol. 37, no. 3, pp. 297-336, Dec. 1999. [Online]. Available: <a href="http://www.boosting. org/papers/SchSin99b" target="_blank">http://www.boosting. org/papers/SchSin99b</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000096&pid=S0121-4993200600020000800010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r11"></a>[11] Y. Freund and R. E. Schapire. &quot;A decision-theoretic generalization of on-line learning and an application to boosting&quot;, <i>Journal of Computer and System Sciences</i>, vol. 55, no. 1, pp. 119-139, Aug. 1997. [Online]. Available: <a href="http://www.boosting.org/papers/FreSch97.ps.gz" target="_blank">http://www.boosting.org/papers/FreSch97.ps.gz</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000097&pid=S0121-4993200600020000800011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r12"></a>[12] D. Johnson and F. Preparata. &quot;The densest hemisphere problem&quot;, Theorical Computer Science, no. 6, pp. 93-107, 1978.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000098&pid=S0121-4993200600020000800012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><a name="r13"></a>[13] C. Cortes and V. Vapnik. Support-vector network. <i>Machine Learning</i>, 20:273-297, 1995.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000099&pid=S0121-4993200600020000800013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Schölkopf]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Smola]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[Learning With Kernels]]></source>
<year>2002</year>
<publisher-loc><![CDATA[Cambridge^eMA MA]]></publisher-loc>
<publisher-name><![CDATA[MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Steinwart]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Cosistency of support vector machines and other regularized kernel classifiers]]></article-title>
<source><![CDATA[IEEE Transactions on Information Theory]]></source>
<year>Janu</year>
<month>ar</month>
<day>y </day>
<volume>51</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>128-142</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vapnik]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Estimation of Dependences Based on Empirical Data]]></source>
<year>1982</year>
<publisher-name><![CDATA[Springer- Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Osuna]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Freund]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Girosi]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improved training algorithm for support vector machines]]></article-title>
<source><![CDATA[Proc. IEEE Neural Networks in Signal Processing &#39;97]]></source>
<year>1997</year>
<page-range>276 - 285</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Joachims]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Making large-scale SVM learning practical]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Schölkopf]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Burges]]></surname>
<given-names><![CDATA[C. J. C]]></given-names>
</name>
<name>
<surname><![CDATA[Smola]]></surname>
<given-names><![CDATA[A. J]]></given-names>
</name>
</person-group>
<source><![CDATA[Advances in Kernel Methods - Support Vector Learning]]></source>
<year>1999</year>
<page-range>169-184</page-range><publisher-loc><![CDATA[Cambridge^eMA MA]]></publisher-loc>
<publisher-name><![CDATA[MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Platt]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Fast training of support vector machines using sequential minimal optimization]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Schölkopf]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Burges]]></surname>
<given-names><![CDATA[C. J. C]]></given-names>
</name>
<name>
<surname><![CDATA[Smola]]></surname>
<given-names><![CDATA[A. J]]></given-names>
</name>
</person-group>
<source><![CDATA[Advances in Kernel Methods - Support Vector Learning]]></source>
<year>1999</year>
<page-range>185-208</page-range><publisher-loc><![CDATA[Cambridge^eMA MA]]></publisher-loc>
<publisher-name><![CDATA[MIT Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Freund]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Schapire]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A decision-theoretic generalization of online learning and an application to boosting]]></article-title>
<source><![CDATA[Journal of Computer and System Sciences]]></source>
<year>Aug.</year>
<month> 1</month>
<day>99</day>
<volume>55</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>119-139</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wickramaratna]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Holden]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Buxton]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Performance degradation in boosting]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Kittler]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Roli]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Proceedings of the 2nd International Workshop on Multiple Classifier Systems MCS2001]]></source>
<year>2001</year>
<volume>2096</volume>
<page-range>11-21</page-range><publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rangel]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Lozano]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Boosting of Support Vector Machines with application to editing]]></article-title>
<source><![CDATA[Proceeding of the 4th Int. Conf. of Machine Learning and Applications ICMLA´&#39;05]]></source>
<year>Dec.</year>
<month> 2</month>
<day>00</day>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Schapire]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Singer]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improved boosting algorithms using confidence-rated predictions]]></article-title>
<source><![CDATA[Machine Learning]]></source>
<year>Dec.</year>
<month> 1</month>
<day>99</day>
<volume>37</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>297-336</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Freund]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Schapire]]></surname>
<given-names><![CDATA[R. E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A decision-theoretic generalization of on-line learning and an application to boosting]]></article-title>
<source><![CDATA[Journal of Computer and System Sciences]]></source>
<year>Aug.</year>
<month> 1</month>
<day>99</day>
<volume>55</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>119-139</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Johnson]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Preparata]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The densest hemisphere problem]]></article-title>
<source><![CDATA[Theorical Computer Science]]></source>
<year>1978</year>
<numero>6</numero>
<issue>6</issue>
<page-range>93-107</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cortes]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Vapnik]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Support-vector network]]></article-title>
<source><![CDATA[Machine Learning]]></source>
<year>1995</year>
<numero>20</numero>
<issue>20</issue>
<page-range>273-297</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
