<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0123-3475</journal-id>
<journal-title><![CDATA[Revista Colombiana de Biotecnología]]></journal-title>
<abbrev-journal-title><![CDATA[Rev. colomb. biotecnol]]></abbrev-journal-title>
<issn>0123-3475</issn>
<publisher>
<publisher-name><![CDATA[Instituto de Biotecnología, Universidad Nacional de Colombia]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0123-34752012000100022</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Predicción de la estructura secundaria de proteínas usando Máquinas de soporte Vectorial]]></article-title>
<article-title xml:lang="en"><![CDATA[Protein secondary structure prediction using support vector machines]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Delgado]]></surname>
<given-names><![CDATA[D. J]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Arguello]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Torres]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Industrial de Santander  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Industrial de Santander  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2012</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2012</year>
</pub-date>
<volume>14</volume>
<numero>1</numero>
<fpage>233</fpage>
<lpage>244</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0123-34752012000100022&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0123-34752012000100022&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0123-34752012000100022&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Entre los métodos computacionales utilizados para la predicción de la estructura secundaria de proteínas, se destaca el uso de máquinas de soporte vectorial. Este trabajo de investigación presenta la predicción de la estructura secundaria de proteínas desde su secuencia primaria de aminoácidos usando Máquinas de Soporte Vectorial. Como entradas, en la metodología propuesta, se utilizan características de los diferentes motivos estructurales o cadenas de texto asociadas a la estructura primaria que representa la estructura secundaria, tales como el R-grupo y la probabilidad de que el aminoácido en la posición central adopte una determinada estructura secundaria. Para la extracción de características se utiliza un método de codificación de secuencias en el que cada símbolo en la estructura primaria se relaciona con cada símbolo en la estructura secundaria. El uso de este método de codificación permite reducir la dimensionalidad de los datos de miles de características a sólo 220 de estas. Los resultados obtenidos son comparables a los registrados en la literatura, teniendo cerca de un 70% de precisión. Además, se logra reducir los costos computacionales en la construcción de los clasificadores debido a que este trabajo modela el problema de multi-clasificación como un grupo de clasificadores binarios.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Among the computational methods used for predicting secondary structure proteins highlights the use of support vector machines. This research shows the predicted secondary structure of protein from its primary amino acid sequence using Support Vector Machines. As inputs, in the proposed methodology, features are used from different structural motifs or text strings associated with the primary structure which represents the secondary structure, such as R-group and the probability that the amino acid at position adopts a central particular secondary structure. For feature extraction method is used coding of sequences in which each symbol in the primary structure is associated with each symbol in the secondary structure. The use of this encoding method reduces the dimensionality of the data of thousands of characteristics only 220 of these. The results obtained are comparable to those reported in the literature, taking about 70% accuracy. Furthermore, it is possible to reduce computational cost in the construction of classifiers because this work models the problem of multi classification as a group of binary classifiers.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[máquinas de soporte vectorial]]></kwd>
<kwd lng="es"><![CDATA[metodología de codificación]]></kwd>
<kwd lng="es"><![CDATA[predicción de la estructura secundaria de proteínas]]></kwd>
<kwd lng="en"><![CDATA[coding methodology]]></kwd>
<kwd lng="en"><![CDATA[support vector machines]]></kwd>
<kwd lng="en"><![CDATA[prediction of protein secondary structure.]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font face="verdana" size="2">     <p align="right"><font face="verdana" size="2"><b>ART&Iacute;CULO CORTO</b></font></p>     <p><font size="4"><b>Predicci&oacute;n de la estructura secundaria de prote&iacute;nas usando M&aacute;quinas de soporte Vectorial </b></font></p>     <p><font size="3"> Protein secondary structure prediction    using  support vector machines </font></p>     <p><i> D. J. Delgado<sup>1,2</sup>, H. Arguello<sup>1</sup>, R. Torres<sup>2</sup>.</i></p>     <p> <sup>1</sup> Grupo de Investigaci&oacute;n en Ingenier&iacute;a Biom&eacute;dica GIIB, Universidad Industrial de Santander, Colombia.    <br> <sup>2</sup> Grupo de Investigaci&oacute;n en Bioqu&iacute;mica y Microbiolog&iacute;a GIBIM, Universidad Industrial de Santander, Colombia     <br> </p>     <p>Recibido: mayo 18 de 2011 Aprobado: junio 29 de 2012</p>  <hr>      <p><b>Resumen</b></p>     ]]></body>
<body><![CDATA[<p> Entre los m&eacute;todos computacionales utilizados para la predicci&oacute;n de la estructura secundaria de prote&iacute;nas, se destaca el uso de m&aacute;quinas de soporte vectorial. Este trabajo de investigaci&oacute;n presenta la predicci&oacute;n de la estructura secundaria de prote&iacute;nas desde su secuencia primaria de amino&aacute;cidos usando M&aacute;quinas de Soporte Vectorial. Como entradas, en la metodolog&iacute;a propuesta, se utilizan caracter&iacute;sticas de los diferentes motivos estructurales o cadenas de texto asociadas a la estructura primaria que representa la estructura secundaria, tales como el R-grupo y la probabilidad de que el amino&aacute;cido en la posici&oacute;n central adopte una determinada estructura secundaria. Para la extracci&oacute;n de caracter&iacute;sticas se utiliza un m&eacute;todo de codificaci&oacute;n de secuencias en el que cada s&iacute;mbolo en la estructura primaria se relaciona con cada s&iacute;mbolo en la estructura secundaria. El uso de este m&eacute;todo de codificaci&oacute;n permite reducir la dimensionalidad de los datos de miles de caracter&iacute;sticas a s&oacute;lo 220 de estas. Los resultados obtenidos son comparables a los registrados en la literatura, teniendo cerca de un 70% de precisi&oacute;n. Adem&aacute;s, se logra reducir los costos computacionales en la construcci&oacute;n de los clasificadores debido a que este trabajo modela el problema de multi-clasificaci&oacute;n como un grupo de clasificadores binarios.</p>     <p><b>Palabras clave</b>: m&aacute;quinas de soporte vectorial, metodolog&iacute;a de codificaci&oacute;n, predicci&oacute;n de la estructura secundaria de prote&iacute;nas.</p>      <p><b>Abstract</b></p>     <p> Among the computational methods used for predicting secondary structure proteins highlights the use of support vector machines. This research shows the predicted secondary structure of protein from its primary amino acid sequence using Support Vector Machines. As inputs, in the proposed methodology, features are used from different structural motifs or text strings associated with the primary structure which represents the secondary structure, such as R-group and the probability that the amino acid at position adopts a central particular secondary structure. For feature extraction method is used coding of sequences in which each symbol in the primary structure is associated with each symbol in the secondary structure. The use of this encoding method reduces the dimensionality of the data of thousands of characteristics only 220 of these. The results obtained are comparable to those reported in the literature, taking about 70% accuracy. Furthermore, it is possible to reduce computational cost in the construction of classifiers because this work models the problem of multi classification as a group of binary classifiers.</p>     <p><b>Key words</b>: coding methodology, support vector machines, prediction of protein secondary structure.</p>  <hr>      <p><b>Introducci&oacute;n</b></p>      <p> Las prote&iacute;nas son macromol&eacute;culas polim&eacute;ricas constituidas por cadenas lineales de 20 diferentes amino&aacute;cidos (aa), a estas cadenas se les denomina estructuras primarias, estas cadenas de aa generan tres grandes grupos estructurales al interior de las prote&iacute;nas: las h&eacute;lices o estructuras &alpha; <i>(H)</i>, las l&aacute;minas o estructuras &beta; <i>(E)</i>  y las conformaciones coil (C), ver <a href="#f1">figura 1</a>. A estas conformaciones se les denomina estructuras secundarias. En este trabajo se propone una metodolog&iacute;a de predicci&oacute;n para la estructura secundaria de prote&iacute;nas que reduzca el n&uacute;mero de caracter&iacute;sticas medidas para la creaci&oacute;n de m&aacute;quinas de aprendizaje que infieran el contenido estructural de una prote&iacute;na. </p>      <p align="center"><a name="f1"></a><img src="img/revistas/biote/v14n1/v14n1a22f1.jpg"></p>        <p> Diversos han sido los m&eacute;todos computacionales utilizados para predecir la estructura secundaria de una prote&iacute;na desde su secuencia primaria de amino&aacute;cidos; estos m&eacute;todos incluyen: aquellos basados en la composici&oacute;n de los amino&aacute;cidos (Chou, 1980; Nakashima et al, 1985; Muskal and Kim, 1992), redes neuronales (Rost and Sander, 1993b), modelos ocultos Markov (HMM) (Hubbard and Park, 1995) y m&aacute;quinas de soporte vectorial (MSV). </p>      <p> Hoy en d&iacute;a las MSV est&aacute;n siendo usadas para la soluci&oacute;n de problemas en bioinform&aacute;tica, m&aacute;s que otras herramientas. La predicci&oacute;n de la estructura secundaria de prote&iacute;nas no es la excepci&oacute;n (Hua and Sun, 2001). Predecir la estructura secundaria de una prote&iacute;na puede analizarse como un t&iacute;pico problema de reconocimiento o clasificaci&oacute;n de patrones, en el cual cada aa en la estructura primaria, debe ser clasificado en uno de los tres diferentes grupos estructurales: h&eacute;lices-&alpha;, l&aacute;minas-&beta;  o coil. </p>      ]]></body>
<body><![CDATA[<p> Este problema de clasificaci&oacute;n se puede abordar mediante la clasificaci&oacute;n de los patrones que generan las representaciones textuales de la estructura primaria y secundaria, ver <a href="#f2">figura 2</a>. Dichas representaciones son generadas por dos alfabetos, el alfabeto que representa la estructura primaria el cual contiene los s&iacute;mbolos que representan a los 20 amino&aacute;cidos de los cuales se componen la mayor parte de las prote&iacute;nas, este alfabeto se denominar&aacute; &sum; = {A,R,N,D,C,E,Q,G,H,I,L,M,F,P,S,T,W,Y,V}.</p>      <p align="center"><a name="f2"></a><img src="img/revistas/biote/v14n1/v14n1a22f2.jpg"></p>        <p> El segundo alfabeto, el cual representa simb&oacute;licamente los diferentes motivos estructurales que pueden tener los diferentes amino&aacute;cidos se denominar&aacute; &Gamma; = {E,H,C}  . Donde   representa a las l&aacute;minas-&beta;,   a las h&eacute;lices-&alpha;  y   a las estructuras coil. Con estos conjuntos de s&iacute;mbolos se puede representar textualmente tanto a la estructura primaria como la estructura secundaria.</p>       <p><b> Metodolog&iacute;a </b></p>       <p><i> Las M&aacute;quinas de Soporte Vectorial </i></p>     <p> Para abordar el problema de clasificaci&oacute;n de patrones asociado a la predicci&oacute;n de la estructura secundaria de una prote&iacute;na se necesita de una herramienta matem&aacute;tica que permita clasificar las caracter&iacute;sticas extra&iacute;das de las cadenas de caracteres que representan las estructuras primarias y que se asocian con su respectiva estructura secundaria. En este trabajo la herramienta usada fueron las m&aacute;quinas de soporte vectorial (MSV) las cuales son un m&eacute;todo efectivo en el &aacute;rea de reconocimiento de patrones en general. Una tarea de clasificaci&oacute;n o reconocimiento de patrones generalmente necesita de un conjunto de datos para entrenamiento y otro para realizar las pruebas.</p>      <p> Cada instancia en el conjunto de entrenamiento tiene un valor objetivo (etiqueta de clase) y varios atributos (caracter&iacute;sticas). La meta de una MSV es generar un modelo que sea capaz de predecir correctamente los valores objetivo de alguna instancia perteneciente al grupo de pruebas sin conocer c&oacute;mo est&aacute; etiquetado, para luego poder extrapolar dicho modelo a cualquier individuo perteneciente al universo del cual se tomaron los ejemplos de entrenamiento.</p>     <p> Para generar un modelo de clasificaci&oacute;n se parte de un conjunto de entrenamiento constituido por parejas  (x<sub>i</sub>, y<sub>i</sub>) i = 1,2,...,/,, donde  x<sub>i</sub> &epsilon; R<sup>n</sup> e   y &epsilon; {–1, + 1}/ y /  es el n&uacute;mero de ejemplos de entrenamiento. Una MSV (Vapnik, 1995; Cortes and Vapnik, 1995) requiere de la soluci&oacute;n del siguiente problema de optimizaci&oacute;n, ver <a href="#e1">ecuaci&oacute;n 1</a>.</p>      <p align="center"><a name="e1"></a><img src="img/revistas/biote/v14n1/v14n1a22e1.jpg"></p>        <p> Donde W<sup>T</sup>&Phi;(x<sub>i</sub>) + b  representa el hiperplano de separaci&oacute;n, C  controla el equilibrio entre la complejidad de la m&aacute;quina y el n&uacute;mero de puntos no separables por un hiperplano, &xi;<sub>i</sub> mide la desviaci&oacute;n de un punto x<ub>i</sub>  del punto de separaci&oacute;n  W<sup>T</sup>&Phi;(x<sub>i</sub>) + b . Los vectores x<sub>i</sub>  son mapeados a un espacio dimensional mayor por la funci&oacute;n &Phi; . Las MSV buscan un hiperplano que realice una separaci&oacute;n lineal que tenga un margen de separaci&oacute;n m&aacute;ximo entre los grupos a clasificar. C&gt;0  permite el balance entre maximizar el margen y minimizar el error. Adem&aacute;s, K(X<sub>i</sub>, X<sub>j</sub>) &equiv; &phi;(X<sub>i</sub>)T &phi;(X<sub>j</sub>)  es llamada la funci&oacute;n kernel.</p>      ]]></body>
<body><![CDATA[<p><i><b> La base de datos </b></i></p>      <p> Para elaborar el algoritmo de predicci&oacute;n de la estructura secundaria de prote&iacute;nas es necesario contar con una buena colecci&oacute;n de secuencias de p&eacute;ptidos (cadenas de texto que representan la estructura primaria), los cuales se deben usar para poder ense&ntilde;arle a una m&aacute;quina de aprendizaje las caracter&iacute;sticas que deben tener las diferentes combinaciones de segmentos de prote&iacute;nas que pueden formar los diferentes motivos estructurales (cadena de texto asociada a la estructura primaria que representa la estructura secundaria). As&iacute; como tambi&eacute;n se deben usar otros p&eacute;ptidos para probar el correcto aprendizaje de las m&aacute;quinas elaboradas. Para este trabajo se utilizaron dos conjuntos de secuencias de prote&iacute;nas, uno para poder proporcionar conocimiento y otro para evaluar el conocimiento adquirido. Estos dos conjuntos son los denominados CB513 y el RS126 donde RS216 ? CB513 .</p>     <p> La base de datos CB513 (Cuff and Barton, 1999) consta de 513 secuencias de prote&iacute;nas en donde todas ellas tienen una longitud mayor a 30 residuos. Esta base de datos fue usada en este trabajo como el conjunto de entrenamiento para las m&aacute;quinas de aprendizaje desarrolladas excluyendo las 126 secuencias incluidas en ella pertenecientes a la  . Mientras que de las RS126 (Rost and Sander, 1993a) se seleccionaron 126 secuencias de prote&iacute;nas con una homolog&iacute;a menor del 25%. Estas bases de datos contin&uacute;an siendo hoy en d&iacute;a referentes de comparaci&oacute;n para el rendimiento de los diferentes algoritmos, pues contienen informaci&oacute;n no redundante del espacio de prote&iacute;nas (Sui et al., 2011; Qu et al., 2011; Chatterjee et al., 2011), por lo que se usaron en este trabajo para validar los modelos que se construyeron.</p>      <p><i><b> Codificaci&oacute;n de las secuencias</b> </i></p>      <p> Con las dos bases de datos se obtienen los individuos que permitir&aacute;n tanto implementar como verificar las m&aacute;quinas de aprendizaje sin embargo, la informaci&oacute;n presente en estas bases de datos (secuencias de estructuras primarias y secundarias) no se pueden usar directamente y hay que transformar dicha informaci&oacute;n. Para poder extraer informaci&oacute;n proveniente de una secuencia de amino&aacute;cidos, es necesario convertir dicha cadena en informaci&oacute;n num&eacute;rica, vectores que describan el contenido de una secuencia, de un segmento de secuencia o incluso de un amino&aacute;cido en particular. Existen diversas formas de codificar la informaci&oacute;n presente en la estructura primaria de una prote&iacute;na como diversos son tambi&eacute;n los problemas en los que se aplican estas codificaciones de la estructura primaria.</p>     <p> Para este trabajo se implement&oacute; una metodolog&iacute;a para codificar las secuencias que permitiera generar vectores codificados de una dimensionalidad baja y que a su vez trataran de reducir la correlaci&oacute;n de los vectores codificados para las diferentes clases existentes. Para ello se emplearon algunos conceptos expuestos por Yang and Wang 2003 y Ruan et al., 2005.</p>      <p> Se necesita relacionar cada s&iacute;mbolo en la estructura primaria con cada s&iacute;mbolo en la estructura secundaria sin embargo, tambi&eacute;n se debe tener en cuenta a sus vecinos. Para poder extraer dicha informaci&oacute;n se realiza un ventaneo sobre la secuencia, el resultado de dicho ventaneo es una colecci&oacute;n de N-gramas pertenecientes a una misma estructura primaria.</p>      <p><i><b> El N-grama </b></i></p>     <p> Para obtener informaci&oacute;n de cada motivo estructural presente en la secuencia de una prote&iacute;na es necesario recorrer de f1orma adecuada dicha cadena. En Yang and Wang 2003 se muestra una metodolog&iacute;a denominada N-grama, la cual se emplea en este trabajo para extraer los segmentos de secuencias pertenecientes a la estructura primaria. Estos segmentos deben ser posteriormente codificados en vectores de caracter&iacute;sticas. Para extraer estos segmentos de secuencia se debe tener en cuenta lo siguiente:</p>      <p> O = {O<sub>1</sub>, O<sub>2</sub>, &hellip;, O<sub>n</sub>} es la estructura primaria de una prote&iacute;na la cual est&aacute; compuesta por una cadena de caracteres O<sub>i</sub> &epsilon; &sum; y n es la longitud de la secuencia.</p>     ]]></body>
<body><![CDATA[<p> S = {S<sub>1</sub>, S<sub>2</sub>, ..., S<sub>n</sub>} es la estructura secundaria la cual est&aacute; compuesta por otra cadena de caracteres S<sub>1</sub>  	&epsilon; &Gamma; de la misma longitud que O.</p>      <p> C<sub>S</sub> = {(cs<sub>i,1</sub>, cs<sub>f,1</sub>),..., (cs<sub>i,w</sub>, cs<sub>f,w</sub>)} es el conjunto de parejas (cs<sub>i</sub>, cs<sub>f</sub>)  que denotan los puntos de inicio (i)  y fin (f)  de cada una de las subsecuencias de amino&aacute;cidos que tienen asociado un mismo s&iacute;mbolo S<sub>1</sub> &epsilon; S  al interior de una misma prote&iacute;na siendo   el n&uacute;mero de sub segmentos en &eacute;sta. Ver <a href="#f3">figura  3</a>.</p>      <p align="center"><a name="f3"></a><img src="img/revistas/biote/v14n1/v14n1a22f3.jpg"></p>        <p> A partir de la cadena O  y la cadena S  se extraen las posiciones de inicio y fin de cada uno de los segmentos de estructura que pertenecen a un mismo motivo estructural. Cada uno de estos segmentos es una secuencia perteneciente a un motivo estructural al cual se desea codificar.</p>      <p> El N-grama hace referencia a segmentos de N caracteres consecutivos O<sub>i</sub> &epsilon; &sum;  donde el caracter en el centro de esta subcadena es aquel al cual se desea codificar. La forma como se deben extraer dichos N-gramas de las diferentes subsecuencias se puede ver en el <a href="#f3">algoritmo 1</a>.</p>     <p> Es evidente que aquellos segmentos que se encuentran al inicio y al final de la secuencia   corresponden a posiciones fuera del rango de las estructuras primaria y secundaria, estas posiciones en el N-grama deben ser reemplazadas por alg&uacute;n s&iacute;mbolo que permita su posterior codificaci&oacute;n.</p>      <p><i><b> Codificaci&oacute;n de las subsecuencias </b></i></p>     <p> Los segmentos de amino&aacute;cidos que se obtienen (los N-gramas) deben ser convertidos en vectores de caracter&iacute;sticas que permitan plantear un algoritmo de clasificaci&oacute;n. Las metodolog&iacute;as empleadas en este trabajo plantean la codificaci&oacute;n de las secuencias con base en el VCM y las propiedades de grupo de los amino&aacute;cidos, las cuales permitir&aacute;n descorrelacionar la informaci&oacute;n que se obtiene. Para convertir en vectores de caracter&iacute;sticas los N-gramas extra&iacute;dos de una secuencia, el procedimiento a seguir es el siguiente:  Primero se halla el VCM modificado (VCMM) para un N-grama dado, ver procedimiento para calcular el VCMM en el <a href="#a2">algoritmo 2</a>, hay que tener en cuenta que se deben hacer ciertas modificaciones sobre el c&aacute;lculo de dicho vector, dichas modificaciones radican en el cambio del alfabeto sobre el que se realizan los c&aacute;lculos, el nuevo alfabeto debe contemplar las posiciones nulas del principio y fin de la secuencia   en la extracci&oacute;n de los N-gramas (Ruan et al., 2005; Ganapathiraju et al., 2004; Yang and Wang, 2003).</p>      <p align="center"><a name="a2"></a><img src="img/revistas/biote/v14n1/v14n1a22a2.jpg"></p>        <p> El <a href="#a2">algoritmo 2</a>, muestra el c&aacute;lculo del VCMM. Para este trabajo se utilizaron los vectores de orden cero y uno V<sub>cmm</sub>=(X<sub>i</sub><sup>0</sup>, X<sub>i</sub><sup>1</sup>,), con los cuales se realiza una primera etapa de la codificaci&oacute;n de un N-grama. Dado un   perteneciente a un N-grama el cual representa un segmento de secuencia en una prote&iacute;na, se desea dar importancia al caracter central en el N-grama, para ello se le incorporar&aacute; informaci&oacute;n estad&iacute;stica perteneciente a dicho caracter. Tambi&eacute;n se desea descorrelacionar los N-gramas de acuerdo a dicho caracter para lo cual se emplear&aacute;n las propiedades f&iacute;sicoqu&iacute;micas de los diferentes aa. Este enfoque de codificaci&oacute;n considera las probabilidades de que cada caracter en &Sigma; pueda adoptar un determinado tipo estructural &Gamma; dados los diferentes grupos biol&oacute;gicos a los que puede pertenecer cada amino&aacute;cido (Nelson and Cox, 2000), ver <a href="#t1">tabla 1</a>.</p>      ]]></body>
<body><![CDATA[<p align="center"><a name="t1"></a><img src="img/revistas/biote/v14n1/v14n1a22t1.jpg"></p>        <p> La informaci&oacute;n estad&iacute;stica que se puede agregar a la codificaci&oacute;n es la probabilidad de que un amino&aacute;cido pueda adoptar una estructura &Gamma; dada una de las clasificaciones f&iacute;sicoqu&iacute;micas en las que se pueden clasificar cada amino&aacute;cido. Estas clasificaciones se codificar&aacute;n y se les llama los R-grupos, los cuales tambi&eacute;n forman parte de la codificaci&oacute;n, ver <a href="#t1">tabla 1</a>. Estas probabilidades se pueden encontrar de la siguiente manera: dado un conjunto de entrenamiento &Delta; y un conjunto de grupos C = {C<sub>1</sub>, C<sub>2</sub>, C<sub>3</sub>, C<sub>4</sub>, C<sub>5</sub>} en los que se puedan clasificar los amino&aacute;cidos, la probabilidad de que un residuo aa<sub>i</sub>  en C<sub>i</sub>  para j = 1, 2,...,5 sea una h&eacute;lice (E), una l&aacute;mina (H) o una conformaci&oacute;n coil (C) es, ver <a href="#e2">ecuaci&oacute;n 2</a>:</p>      <p align="center"><a name="e2"></a><img src="img/revistas/biote/v14n1/v14n1a22e2.jpg"></p>        <p> Donde P&#91;aa<sub>i</sub>/c<sub>j</sub>&#93;<sub>&Gamma;</sub>  para i = 1, 2, ...,20 es la probabilidad de que el residuo aa<sub>i</sub>  dado un grupo C<sub>j</sub>  est&eacute; en &Gamma;, es decir la probabilidad de que el residuo aa<sub>i</sub> sea una h&eacute;lice P&#91;O<sub>c</sub>/c<sub>i</sub>&#93;<sub>H</sub>, una l&aacute;mina P&#91;O<sub>c</sub>/c<sub>j</sub>&#93;<sub>E</sub>  o Coil P&#91;O<sub>c</sub>/c<sub>j</sub>&#93;<sub>c</sub>  en un conjunto de entrenamiento &Delta;.  N<sub>&Gamma;</sub> es el n&uacute;mero total de residuos de cada una de las diferentes conformaciones H, E y C que hay en &Delta;, y N<sub>&Gamma;</sub>  es el n&uacute;mero en el que el residuo aa<sub>i</sub>  que pertenece a el grupo C<sub>i</sub> adopta una conformaci&oacute;n &Gamma;.</p>     <p> En este trabajo se usa el producto de Kronecker (Zwillinger 1996) entre las probabilidades encontradas, los vectores de codificaci&oacute;n que obtienen de los R-grupos y los VCMM que se calculan a partir de los N-gramas para descorrelacionar los vectores de caracter&iacute;sticas (Yang and Wang, 2003). Obteniendo de esta forma la codificaci&oacute;n de los segmentos de los amino&aacute;cidos para ser usados m&aacute;s adelante. La codificaci&oacute;n de las secuencias se puede ver en la <a href="#e3">ecuaci&oacute;n 3</a>.</p>      <p align="center"><a name="e3"></a><img src="img/revistas/biote/v14n1/v14n1a22e3.jpg"></p>        <p> En donde P&#91;aa<sub>i</sub>/c<sub>j</sub>&#93;<sub>&Gamma;</sub> es la probabilidad de que el amino&aacute;cido en la posici&oacute;n central de un N-grama adopte una determinada estructura secundaria dado uno de los diferentes  C<sub>i</sub> grupos en los que se pueden agrupar los diferentes residuos. C<sub>i</sub>  es la codificaci&oacute;n del amino&aacute;cido en la posici&oacute;n central del N-grama (el R-grupo) y V<sub>cmm</sub>  es el VCMM que se calcula del N-grama, el operador (X)  representa el producto elemento a elemento entre dos vectores, y el operador   representa  el producto de Kronecker.</p>     <p> Una vez codificados los N-gramas, lo que se busca es encontrar funciones F<sub>s</sub>, ver <a href="#e4">ecuaci&oacute;n 4</a>, que permitan asociar vectores &Gamma;  con una de las diferentes estructuras &Gamma; 	&epsilon;{C,E,H} . </p>      <p align="center"><a name="e4"></a><img src="img/revistas/biote/v14n1/v14n1a22e4.jpg"></p>         <p><i><b> Planteamiento del problema </b></i></p>     ]]></body>
<body><![CDATA[<p> Sea VCS  el conjunto de posibles vectores codificados pertenecientes a N-gramas extra&iacute;dos de secuencias de prote&iacute;nas empleadas como ejemplos de entrenamiento. Sea &Gamma;  el conjunto finito de clases en las que se pueden clasificar los ejemplos VCS  y k el tama&ntilde;o de &Gamma;  (k=3, C, E, H). Formalmente el algoritmo de aprendizaje   (para este trabajo MSV) toma un conjunto de ejemplos de entrenamiento ((v<sub>1</sub>, y<sub>1</sub>), (v<sub>2</sub>, y<sub>2</sub>),...,(v<sub>m</sub>, y<sub>m</sub>))  como entradas, donde y<sub>1</sub>&epsilon; &Gamma; son las etiquetas asignadas a los ejemplos de entrenamiento v<sub>1</sub> &epsilon; VCS. El objetivo del algoritmo de aprendizaje es generar una hip&oacute;tesis f:Vx&Gamma; &rarr; <b>R</b> donde  f pertenece al espacio de hip&oacute;tesis F.</p>      <p> El algoritmo de clasificaci&oacute;n a utilizar son las MSV, las cuales son clasificadores binarios y el problema de clasificaci&oacute;n que se tiene cuenta con m&aacute;s de dos clases, para problemas binarios (  clases) los ejemplos son etiquetados como -1 y +1, por conveniencia. Lo que se busca es generar una hip&oacute;tesis f : V ? {-1, + 1}  . Por tanto se debe adecuar un problema de multi-clasificaci&oacute;n en t&eacute;rminos de problemas de clasificaci&oacute;n binaria.</p>      <p><i><b> Descripci&oacute;n de la soluci&oacute;n </b></i></p>     <p> Un problema de multi-clasificaci&oacute;n se puede reducir a m&uacute;ltiples problemas de clasificaci&oacute;n binarios los cuales se pueden resolver separadamente. Existen diversas formas de reducir un problema de multi-clasificaci&oacute;n en problemas de clasificaci&oacute;n binaria (Trevor and Tibshirani, 1998; Dietterich and Bakiri, 1994), uno de ellos indica que a cada clase k&epsilon;&Gamma;  se puede asociar con una fila de una matriz de codificaci&oacute;n M &epsilon; {-1,0,1}<sup>k×l</sup>  la cual relaciona los diferentes clasificadores binarios f<sub>s</sub>  que se pueden conformar mediante combinaciones de las clases &Gamma;  en las cuales se desea clasificar, en esta matriz se muestran las respuestas que se esperan de cada clasificador binario cuando los datos provienen de una clase en particular, ver <a href="#t2">tabla 2</a>. Donde <i>I</i>  representa el n&uacute;mero de clasificadores binarios f<sub>s</sub>  que se crearon empleando un algoritmo de aprendizaje, para S = 1,2,...,l,, adem&aacute;s l  tambi&eacute;n representa el n&uacute;mero de clasificadores en los que se puede descomponer el problema de multiclasificaci&oacute;n. Los clasificadores binarios S  se pueden desarrollar teniendo en cuenta el enfoque de emparejamiento total (Allwein et al., 2000) de las k  clases. Para este problema en particular se tiene I=(k/2)  clasificadores (f<sub>1</sub> = E|H, f<sub>2</sub> = E|C, f<sub>3</sub> = C|H). Los clasificadores f<sub>s</sub>  son entrenados para cada columna de la matriz M, es decir cada columna de la matriz de codificaci&oacute;n contempla un problema de clasificaci&oacute;n binaria donde las etiquetas (vi, M(yi.s))  indican cuales son los ejemplos de entrenamiento para cada clasificador f<sub>s</sub> . Los datos donde  (vi, M(yi.s)) = 0 no se contemplan para el entrenamiento, pues son aquellos datos que no corresponden al clasificador binario en cuesti&oacute;n.</p>      <p align="center"><a name="t2"></a><img src="img/revistas/biote/v14n1/v14n1a22t2.jpg"></p>        <p> Para el entrenamiento de los diferentes clasificadores binarios, los cuales se muestran en las columnas de la matriz de codificaci&oacute;n  M, se debe entrenar una MSV las cuales tienen dos par&aacute;metros que se deben ajustar, C y &gamma;, donde &gamma;  es el par&aacute;metro libre de la funci&oacute;n Kernel que se us&oacute;, en este caso la funci&oacute;n de base radial (RBF), ver <a href="#e5">ecuaci&oacute;n 5</a>.</p>      <p align="center"><a name="e5"></a><img src="img/revistas/biote/v14n1/v14n1a22e5.jpg"></p>        <p> Se tom&oacute; como funci&oacute;n Kernel la RBF debido a que en diversos trabajos esta funci&oacute;n es la que mejores resultados ha ofrecido (Shoyaib et al., 2007; Chen et al., 2006; Hua and Sun, 2001; Cai et al., 2001). Como se tienen dos par&aacute;metros libres, el problema es encontrar qu&eacute; valores deben asumir estos dos par&aacute;metros para encontrar el mejor clasificador. El objetivo es identificar (C,&gamma)  tales que el clasificador sea capaz de predecir adecuadamente los datos de prueba, es decir aquellos que no se utilizan para generar el modelo. Se recomienda una combinaci&oacute;n de los diferentes par&aacute;metros C y &gamma;, para ello se toma un intervalo de estos dos par&aacute;metros C  y g  donde C<sub>inicial</sub>  y C<sub>final</sub>  as&iacute; como &gamma;<sub>inicial</sub>  y &gamma;<sub>final</sub>  denotan los l&iacute;mites entre los cuales se desea probar las MSV, &Delta;C  y &Delta;&gamma;  es el paso que se toma para construir los intervalos y m  es el n&uacute;mero de muestras que se desea tomar.</p>      <p align="center"><a name="e6"></a><img src="img/revistas/biote/v14n1/v14n1a22e6.jpg"></p>        <p> Lo que se busca es encontrar la combinaci&oacute;n (C<sub>i</sub>,?<sub>j</sub>)  que genere la MSV que tenga el mejor rendimiento  Q<sub>i</sub>,<sub>j</sub> (ver <a href="#t3">tabla 3</a>). Realizado esto con las MSV que se deben entrenar con los datos que proporciona la matriz M, se tendr&aacute;n los diferentes clasificadores binarios que se van a utilizar.</p>      ]]></body>
<body><![CDATA[<p align="center"><a name="t3"></a><img src="img/revistas/biote/v14n1/v14n1a22t3.jpg"></p>        <p> El problema de multi-clasificaci&oacute;n, se necesita que, para un ejemplo V<sub>cs</sub>, se pueda saber a qu&eacute; clase K  pertenece. Para ello se utiliza el enfoque denominado c&oacute;digos de correcci&oacute;n de errores de salida (por sus siglas en ingl&eacute;s ECOC) (Dietterich and Bakiri, 1994). Tomando M(k)  como una fila de la matriz de codificaci&oacute;n y sea  f(V<sub>i</sub>) el vector de las predicciones que se obtienen de los clasificadores f<sub>s</sub>  para un vector  V.</p>      <p align="center"><a name="e7"></a><img src="img/revistas/biote/v14n1/v14n1a22e7.jpg"></p>        <p> La forma de encontrar la clase k&epsilon;&Gamma;  de cualquier vector f(V)  es encontrando la fila de M  que minimice la distancia d(M(k), f(V))  para alguna distancia d . Para medir estas distancias y encontrar las clases a las cuales se le puede asociar un dato V, se puede realizar mediante una funci&oacute;n de p&eacute;rdida L, ver <a href="#e8">ecuaci&oacute;n 9</a>, la cual mide el margen de p&eacute;rdida cuando un clasificador f<sub>s</sub>  es evaluado con un ejemplo V<sub>i</sub>  respecto a  M(yi, s). La funci&oacute;n  L se eval&uacute;a sobre sobre las diferentes filas de la matriz M .</p>      <p align="center"><a name="e8"></a><img src="img/revistas/biote/v14n1/v14n1a22e8.jpg"></p>        <p> Se selecciona la clase k  que m&aacute;s coincida con las predicciones realizadas por los diferentes clasificadores  f<sub>s</sub>, para ello mediante el uso de la funci&oacute;n de p&eacute;rdida L  se calculan las distancias entre el vector f(V)  y las filas de la matriz M, con las cuales se quiere buscar a qu&eacute; clase k  pertenece el vector V, esta clase k  es la que tenga la m&iacute;nima de las distancias yˆ ver <a href="#e9">ecuaci&oacute;n 10</a>. En donde yˆ  permite inferir con cu&aacute;l de las filas de la matriz M  tiene una mayor similitud el vector de resultados del clasificador f, con lo cual se puede tambi&eacute;n inferir en qu&eacute; clase se va a clasificar el vector V . Este enfoque es denominado decodificaci&oacute;n basada en p&eacute;rdida  (Allwein et al., 2000).</p>      <p align="center"><a name="e9"></a><img src="img/revistas/biote/v14n1/v14n1a22e9.jpg"></p>        <p><i><b> Implantaci&oacute;n de la soluci&oacute;n </b></i></p>     <p> Dados los 3 clasificadores  f<sub>s</sub> y la estrategia para combinarlos con el fin de generar un multiclasificador, lo que se busca es crear una metodolog&iacute;a que permita clasificar subsecuencias de caracteres que representan amino&aacute;cidos, donde a dichas subsecuencias no se les conoce su estructura secundaria. Los pasos descritos en apartados anteriores, dicen que se deben determinar los N-gramas contenidos al interior de la secuencia que representa a una prote&iacute;na, (ver <a href="#a2">algoritmo 2</a>), se debe a partir de dicha subsecuencia y m&aacute;s concretamente del caracter que se encuentra justo en el centro de &eacute;sta, clasificar este amino&aacute;cido en uno de los grupos mostrados en la <a href="#t1">tabla 1</a>, de donde se obtiene el R-grupo y, adem&aacute;s de este mismo amino&aacute;cido, interesa encontrar la probabilidad  P&#91;aa<sub>i</sub>/c<sub>j</sub>&#93;<sub>&Gamma;</sub> que adopte.</p>      <p> Dichas probabilidades en la etapa de entrenamiento son f&aacute;ciles de calcular debido a que se conoce a qu&eacute; tipo de estructura pertenece un determinado amino&aacute;cido. Sin embargo, para realizar la predicci&oacute;n s&oacute;lo se cuenta con la estructura primaria de la prote&iacute;na. Por lo cual se plantea una forma de calcular dichas probabilidades con el siguiente enfoque:</p>      ]]></body>
<body><![CDATA[<p> Sea &Ocirc;&epsilon;O  un N-grama, sea O<sub>c</sub>  el caracter que se ubica en la parte central de &Ocirc;, lo que se busca es que con base en la informaci&oacute;n que se pueda extraer de  	&Ocirc;  predecir a qu&eacute; tipo de estructura secundaria &Gamma;  pertenece O<sub>c</sub> . De acuerdo al enfoque mostrado en este trabajo se debe calcular la probabilidad  P&#91;aa<sub>i</sub>/c<sub>j</sub>&#93;<sub>&Gamma;</sub>, donde O<sub>c</sub>  es el caracter central, O<sub>i</sub>  es la clasificaci&oacute;n que se puede realizar sobre los caracteres  	&Sigma;, ver <a href="#t1">tabla 1</a>. Sin embargo &gamma;<sub>i</sub>  no se conoce. Para ello se supone que O<sub>c</sub>  puede adoptar cualquiera de las estructuras secundarias &gamma;, se van a calcular  P&#91;O<sub>c</sub>/c<sub>i</sub>&#93;<sub>E</sub>, P&#91;O<sub>c</sub>/c<sub>i</sub>&#93;<sub>H</sub>  y P&#91;O<sub>c</sub>/c<sub>i</sub>&#93;<sub>C</sub>, para poder hacer uso de los clasificadores f<sub>s</sub>, ver <a href="#a3">algoritmo 3</a>, con lo cual se puede inferir qu&eacute; tipo de estructura secundaria puede tomar O<sub>c</sub> .</p>      <p align="center"><a name="a3"></a><img src="img/revistas/biote/v14n1/v14n1a22a3.jpg"></p>        <p><b> Resultados </b></p>      <p><i><b> Entrenamiento y pruebas </b></i></p>     <p> En la validaci&oacute;n de los modelos elaborados para predecir la estructura secundaria de una prote&iacute;na se utiliz&oacute; la base de datos denominada RS125, para la cual se codificaron todas sus secuencias y se evaluaron en las MSV entrenadas con la base de datos CB513. Para medir la capacidad de estas m&aacute;quinas en la interpretaci&oacute;n de los patrones que se encuentran en la estructura primaria de las prote&iacute;nas y as&iacute; poder comparar su efectividad con los enfoques elaborados en otros trabajos de investigaci&oacute;n similares.</p>      <p><i> Medidas de rendimiento </i></p>     <p> La medida de rendimiento que se utiliz&oacute; para evaluar los modelos elaborados para cada algoritmo de clasificaci&oacute;n es la que se usa usualmente y se define como.</p>      <p> Donde la funci&oacute;n P(&Gamma;)  calcula el n&uacute;mero de aciertos en las diferentes clases &Gamma;  y N es el n&uacute;mero de ejemplos para prueba (125). Tambi&eacute;n se evaluaron por separado cada uno de los clasificadores f<sub>s</sub> para ello se emple&oacute; el coeficiente de correlaci&oacute;n de Mathews (CCM) (Baldi et al., 2000), la sensibilidad (Sens)  y la especificidad (Espc)  de cada una de las m&aacute;quinas creadas, ver <a href="#e12">ecuaciones 12</a> y <a href="#e13">13</a> . Donde la sensibilidad y la especificidad son mediciones probabil&iacute;sticas sobre los clasificadores que se crearon. La sensibilidad mide la proporci&oacute;n de verdaderos positivos (amino&aacute;cidos correctamente clasificados), la especificidad mide la proporci&oacute;n de aspectos negativos que han sido identificados correctamente. Para las <a href="#e12">ecuaciones 12</a>, <a href="#e13">13</a> y <a href="#e14">14</a> se tiene que VP  representa a los amino&aacute;cidos que son correctamente clasificados en una clase determinada, FN  representa a los amino&aacute;cidos que sin pertenecer a una clase se clasifican como no pertenecientes a ellas,  VN representa aquellos amino&aacute;cidos que perteneciendo a una clase son identificados como no miembros y FP son aquellos amino&aacute;cidos que siendo no miembros de una clase son identificados como miembros de ella. Adicionalmente el coeficiente de correlaci&oacute;n de Mathews proporciona una medida de la calidad de los clasificadores binarios que se crearon, un CCM de 1 indica que se construy&oacute; un clasificador binario eficiente y un CCM de 0 indica que el clasificador fue deficiente.</p>      <p><b> Resultados obtenidos </b></p>     <p> Luego de montar la infraestructura de los diferentes clasificadores y haberlos configurado como un solo clasificador, se procedi&oacute; a evaluar su rendimiento de acuerdo a las medidas de rendimiento antes mencionadas. Primero se evalu&oacute; c&oacute;mo fue el comportamiento global y tambi&eacute;n el de cada una de las clases a clasificar, ver <a href="#t4">tabla 4</a>.</p>      ]]></body>
<body><![CDATA[<p align="center"><a name="t4"></a><img src="img/revistas/biote/v14n1/v14n1a22t4.jpg"></p>        <p> Se evalu&oacute; tambi&eacute;n el rendimiento de cada uno de los clasificadores f<sub>si</sub>  para poder tener una noci&oacute;n m&aacute;s detallada del funcionamiento del clasificador general. Ver <a href="#t5">tabla 5</a>.</p>      <p align="center"><a name="t5"></a><img src="img/revistas/biote/v14n1/v14n1a22t5.jpg"></p>        <p> Se realiz&oacute; la comparaci&oacute;n del rendimiento global del clasificador con algunos trabajos realizados por otros autores, los cuales emplearon las mismas bases de datos para realizar los procesos de entrenamiento y validaci&oacute;n. Ver <a href="#t6">tabla 6</a>.</p>      <p align="center"><a name="t6"></a><img src="img/revistas/biote/v14n1/v14n1a22t6.jpg"></p>        <p><b> Discusi&oacute;n de resultados </b></p>     <p> Los resultados obtenidos por el modelo de clasificaci&oacute;n construido dejan entrever el grado de dificultad que existe para dar soluci&oacute;n al problema de la predicci&oacute;n de la estructura secundaria de prote&iacute;nas, empleando cadenas de texto para inferir los diferentes motivos estructurales.</p>      <p> En la <a href="#t4">tabla 4</a> se muestra el rendimiento global del clasificador, as&iacute; como tambi&eacute;n se muestra el rendimiento que dicho clasificador obtiene con cada uno de los motivos estructurales a clasificar. En esta tabla se evidencia que la clase que mayor dificultad presenta es aquella etiquetada con el caracter C . Si se observa la <a href="#t5">tabla 5</a>, el cual muestra con m&aacute;s detalle el clasificador. Esto debido a que se muestra c&oacute;mo es el rendimiento de cada clasificador binario. Se observa en la tabla un comportamiento especial en el clasificador f<sub>HC</sub>  en el cual el CCM  y la Espc  arrojan valores que sugieren que para los grupos etiquetados con los caracteres H  y C  existe un desbalanceo de informaci&oacute;n, lo que lleva a que se presente este comportamiento.</p>     <p> El m&eacute;todo de codificaci&oacute;n empleado permite generar vectores de caracter&iacute;sticas de una dimensionalidad baja en comparaci&oacute;n a otros m&eacute;todos existentes actualmente, alcanzando valores de rendimiento similares a aquellas metodolog&iacute;as que por su gran dimensionalidad en sus vectores de caracter&iacute;sticas aseguran la descorrelaci&oacute;n entre las diferentes clases pero hacen del proceso de clasificaci&oacute;n una tarea m&aacute;s dif&iacute;cil, ver <a href="#t6">tabla 6</a>.</p>      <p> No es posible realizar una comparaci&oacute;n del costo computacional o la cantidad de recursos que se consumen en la clasificaci&oacute;n debido a que otros autores no incluyen este tipo de informaci&oacute;n, pero adem&aacute;s de obtener resultados comparables a los obtenidos por otros autores como se menciona anteriormente, el hecho de modelar el problema como un conjunto de clasificadores binarios y utilizar un vector de caracter&iacute;sticas de menor dimensionalidad produce reducci&oacute;n del costo computacional.</p>     ]]></body>
<body><![CDATA[<p> Los resultados obtenidos muestran un porcentaje menor de rendimiento sin embargo, cabe resaltar que en los conjuntos de validaci&oacute;n, la base de datos RS126 est&aacute; contenida dentro de la base de datos CB513. Los estudios muestran que se realiza el entrenamiento de las diferentes m&aacute;quinas de aprendizaje empleadas en la literatura con el conjunto de datos CB513 y la validaci&oacute;n con el conjunto RS126. Lo cual muestra que las m&aacute;quinas en cierta forma conocen los datos con los cuales ser&aacute;n evaluadas. En este trabajo se excluy&oacute; el conjunto de datos RS126 del conjunto de secuencias CB513, por lo cual aseguramos que los resultados obtenidos son producto de la generalizaci&oacute;n producida por el entrenamiento de los datos y no por la memorizaci&oacute;n de estos.</p>      <p><b> Conclusiones </b></p>      <p> Los resultados obtenidos con las m&aacute;quinas de soporte vectorial para la predicci&oacute;n de la estructura secundaria de una prote&iacute;na ratifican la capacidad de esta herramienta para llevar a cabo miner&iacute;a de datos o predicci&oacute;n, en este caso el &eacute;xito de las predicciones estuvo cercano al 65%, lo cual para este tipo de problema se considera un rendimiento aceptable.</p>      <p> La herramienta asegura que es capaz de encontrar los hiperplanos de separaci&oacute;n &oacute;ptimos para dos conjuntos de datos cualesquiera, presentando variaciones en el rendimiento dependiendo de c&oacute;mo se ajusten los par&aacute;metros libres presentes en el modelo sin embargo, el &eacute;xito de las MSV radica en gran medida en la manera como se codifiquen dichos datos y en c&oacute;mo dicha codificaci&oacute;n asegure la menor correlaci&oacute;n entre las clases presentes.</p>      <p> El uso del m&eacute;todo de codificaci&oacute;n de las secuencias permiti&oacute; generar vectores de caracter&iacute;sticas de una dimensionalidad baja y la reducci&oacute;n de correlaci&oacute;n entre las diferentes clases, lo que en todo problema de clasificaci&oacute;n conlleva a una reducci&oacute;n del costo computacional.</p>      <p> El rendimiento global obtenido es comparable con los resultados obtenidos por otros autores, pero se destaca que reduce la dificultad del proceso de clasificaci&oacute;n al crear un vector de caracter&iacute;sticas de muy baja dimensi&oacute;n, pasando de miles de caracter&iacute;sticas a 220 de estas.</p>      <p> Los rendimientos promedio de la mayor&iacute;a de soluciones en esta &aacute;rea de investigaci&oacute;n dejan entrever que es una problem&aacute;tica no resuelta a&uacute;n y que los resultados obtenidos por un solo modelo de clasificaci&oacute;n no son confiables. Por tanto, el uso de este tipo de herramientas es &uacute;til cuando se realizan las predicciones con diferentes herramientas y que con base en los resultados obtenidos por todos ellos, se puede tomar una decisi&oacute;n acerca de cu&aacute;l podr&iacute;a ser el contenido estructural presente en una prote&iacute;na.</p>      <p> Para mejorar los resultados obtenidos, se propone mejorar la selecci&oacute;n de los par&aacute;metros libres en las m&aacute;quinas de aprendizaje, as&iacute; como la incorporaci&oacute;n de informaci&oacute;n inherente al contexto biol&oacute;gico que pueda incrementar la precisi&oacute;n del m&eacute;todo. Se propone adem&aacute;s, que en el conjunto de caracter&iacute;sticas obtenido a partir de la codificaci&oacute;n propuesta, se apliquen m&eacute;todos como el an&aacute;lisis de componentes principales (PCA) en pro de reducir la informaci&oacute;n redundante y a&uacute;n m&aacute;s la informaci&oacute;n presente en los vectores de codificaci&oacute;n y as&iacute; disminuir los tiempos de c&oacute;mputo.</p>      <p><b>Referencias bibliogr&aacute;ficas</b></p>      <!-- ref --><p>1 Allwein E.L., Schapire R.E., and Singer Y. 2000. Reducing multiclass to binary: a unifying approach for margin classifiers. <i>Journal of Machine Learning Research</i>. 1:113-141.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000112&pid=S0123-3475201200010002200001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>2 Baldi P., Brunak S., Chauvin Y., Andersen C.A.F. and Nielsen H. 2000. Assessing the accuracy of prediction algorithms for classification: an overview. <i>Bioinformatics</i>. 16:412-424.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000113&pid=S0123-3475201200010002200002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>3 Cai Y.D., Liu X.J., Xu X.B. and Zhou, G.P. 2001. Support vector machines for predicting protein structural class. <i>BMC Bioinformatics</i>. 2:3.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000114&pid=S0123-3475201200010002200003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>4 Chatterjee P., Basu, S., Kundu, M., Nasipuri, M., and Plewczynski, D. 2011. PSP_MCSVM: brainstorming consensus prediction of protein secondary structures using two-stage multiclass support vector machines. <i>Journal of Molecular Modeling</i>. 17(9):2191-2201.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000115&pid=S0123-3475201200010002200004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>5 Chen C., Tian Y., Zou X., Cai P., and Mo J. 2006. Prediction of protein secondary structure content using support vector machine. <i>Talanta</i>. 71(5): 2069-2073.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000116&pid=S0123-3475201200010002200005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>6 Chou P.Y. 1980. Amino acid composition of four classes of proteins. Second Chemical Congress of the North American Continent, Las Vegas, Nevada.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000117&pid=S0123-3475201200010002200006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>7 Cortes C. and Vapnik V. 1995. Support-vector networks. <i>Machine Learning</i>. 20(3):273-297.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000118&pid=S0123-3475201200010002200007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>8 Cuff J.A., Barton G.J. 1999. Evaluation and improvement of multiple sequence methods for protein secondary structure prediction. <i>Proteins: Structure, Function, and Bioinformatics</i>. 34(4): 508-519.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000119&pid=S0123-3475201200010002200008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>9 Dietterich T.G. and Bakiri G. 1994. Solving multiclass learning problems via error-correcting output codes. <i>Journal of Artificial Intelligence Research</i>. 2(1): 263-286.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000120&pid=S0123-3475201200010002200009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>10 Ganapathiraju M.K., Klein-Seetharaman J., Balakrishnan N. and Reddy, R. 2004. Characterization of protein secondary structure. <i>IEEE Signal Processing Magazine</i>. 21(3): 78-87.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000121&pid=S0123-3475201200010002200010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>11 Garnier J., Osguthorpe D.J. and Robson, B. 1978. Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. <i>Journal of Molecular Biology</i>. 120(1): 97-120.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000122&pid=S0123-3475201200010002200011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>12 Hua S. and Sun Z. 2001. A novel method of protein secondary structure prediction with high segment overlap measure: support vector machine approach. <i>Journal of Molecular Biology</i>. 308(2): 397-407.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000123&pid=S0123-3475201200010002200012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>13 Hubbard T.J., Park J. 1995. Fold recognition and ab initio structure predictions using hidden markov models and beta-strand pair potentials. <i>Proteins</i>. 23(8): 398-402.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000124&pid=S0123-3475201200010002200013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>14 Muskal S.M. and Kim, S.H. 1992. Predicting protein secondary structure content: A tandem neural network approach. <i>Journal of Molecular Biology</i>. 225(3): 713-727.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000125&pid=S0123-3475201200010002200014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>15 Nakashima H., Nishikawa K. and Ooi T. 1985. The folding type of a protein is relevant to the amino acid composition. Oxford Journals Life Sciences. <i>The Journal of Biochemistry</i>. 99(1): 153-162.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000126&pid=S0123-3475201200010002200015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>16 Nelson, D. and Cox, M. 2000. Lehninger principles of biochemestry. W.H. Freeman and company. New York. 1152.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000127&pid=S0123-3475201200010002200016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>17 Qu W., Yang B., Jiang W. and Wang L. 2011. HYBP_PSSP: a hybrid back propagation method for predicting protein secondary structure. <i>Neural computing and applications</i>. 21(2):337-349.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000128&pid=S0123-3475201200010002200017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>18 Rost B. and Sander C. 1993a. Improved prediction of protein secondary structure by use of sequence profiles and neural networks. <i>Proceedings of the National Academy of Sciences of the United States of America. Biophysics</i>. 90:7558-7562.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000129&pid=S0123-3475201200010002200018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>19 Rost B. and Sander C. 1993b. Prediction of protein secondary structure at better than 70% accuracy. <i>Journal of Molecular Biology</i>. 232(2): 584-599.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000130&pid=S0123-3475201200010002200019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>20 Ruan J., Wang K., Yang J., Kurgan L.A. and Cios K.J. 2005. Highly accurate and consistent method for prediction of helix and strand content from primary protein sequences. <i>Artificial Intelligence in Medicine</i>. 35(1-2): 19-35.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000131&pid=S0123-3475201200010002200020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>21 Shoyaib M., Baker S., Jabid T., Anwar F. and Khan H. 2007. Protein secondary structure prediction with high accuracy using support vector machine. 10th International Conference on Computer and Information Technology. 1-4.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000132&pid=S0123-3475201200010002200021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>22 Sui H., Qu W., Yan B., and Wang L. 2011. Improved protein secondary structure prediction using an intelligent HSVM method with a new encoding scheme. <i>International Journal of Advancements in Computing Technology</i>. 3(3):239-250.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000133&pid=S0123-3475201200010002200022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>23 Trevor H. and Tibshirani. 1998. Classification by pairwise coupling. <i>The Annals of Statistics</i>. 26:451-471.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000134&pid=S0123-3475201200010002200023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>24 Vapnik, V.N. 1995. The nature of statistical learning theory. Springer-Verlag New York.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000135&pid=S0123-3475201200010002200024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>25 Yang X. and Wang B. 2003. Weave amino acid sequences for protein secondary structure prediction. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery. 80-87.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000136&pid=S0123-3475201200010002200025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>26 Zhang G.Z., Huang D.S., Zhu, Y.P., and Li, Y.X. 2005. Improving protein secondary structure prediction by using the residue conformational classes. <i>Pattern Recognition Letters</i>.  26(15): 2346-2352.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000137&pid=S0123-3475201200010002200026&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>27 Zwillinger, D. 1996. Standard mathematical tables and formulae. University of California. 30th Edition. CRC Press. p 812.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000138&pid=S0123-3475201200010002200027&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Allwein]]></surname>
<given-names><![CDATA[E.L]]></given-names>
</name>
<name>
<surname><![CDATA[Schapire]]></surname>
<given-names><![CDATA[R.E]]></given-names>
</name>
<name>
<surname><![CDATA[Singer]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Reducing multiclass to binary: a unifying approach for margin classifiers]]></source>
<year>2000</year>
<volume>1</volume>
<page-range>113-141</page-range><publisher-name><![CDATA[Journal of Machine Learning Research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Baldi]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Brunak]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Chauvin]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Andersen]]></surname>
<given-names><![CDATA[C.A.F]]></given-names>
</name>
<name>
<surname><![CDATA[Nielsen]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Assessing the accuracy of prediction algorithms for classification: an overview]]></source>
<year>2000</year>
<volume>16</volume>
<page-range>412-424</page-range><publisher-name><![CDATA[Bioinformatics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cai]]></surname>
<given-names><![CDATA[Y.D]]></given-names>
</name>
<name>
<surname><![CDATA[Liu]]></surname>
<given-names><![CDATA[X.J]]></given-names>
</name>
<name>
<surname><![CDATA[Xu]]></surname>
<given-names><![CDATA[X.B]]></given-names>
</name>
<name>
<surname><![CDATA[Zhou]]></surname>
<given-names><![CDATA[G.P]]></given-names>
</name>
</person-group>
<source><![CDATA[Support vector machines for predicting protein structural class]]></source>
<year>2001</year>
<volume>2</volume>
<page-range>3</page-range><publisher-name><![CDATA[BMC Bioinformatics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chatterjee]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Basu]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Kundu]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Nasipuri]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Plewczynski]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[PSP_MCSVM: brainstorming consensus prediction of protein secondary structures using two-stage multiclass support vector machines]]></article-title>
<source><![CDATA[Journal of Molecular Modeling]]></source>
<year>2011</year>
<volume>17</volume>
<numero>9</numero>
<issue>9</issue>
<page-range>2191-2201</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Tian]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Zou]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Cai]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Mo]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Prediction of protein secondary structure content using support vector machine]]></article-title>
<source><![CDATA[Talanta]]></source>
<year>2006</year>
<volume>71</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>2069-2073</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chou]]></surname>
<given-names><![CDATA[P.Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Amino acid composition of four classes of proteins]]></source>
<year>1980</year>
<conf-name><![CDATA[ econd Chemical Congress of the North American Continent]]></conf-name>
<conf-loc>Las Vegas </conf-loc>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cortes]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Vapnik]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Support-vector networks]]></article-title>
<source><![CDATA[Machine Learning]]></source>
<year>1995</year>
<volume>20</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>273-297</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cuff]]></surname>
<given-names><![CDATA[J.A]]></given-names>
</name>
<name>
<surname><![CDATA[Barton]]></surname>
<given-names><![CDATA[G.J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Evaluation and improvement of multiple sequence methods for protein secondary structure prediction]]></article-title>
<source><![CDATA[Proteins: Structure, Function, and Bioinformatics]]></source>
<year>1999</year>
<volume>34</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>508-519</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dietterich]]></surname>
<given-names><![CDATA[T.G]]></given-names>
</name>
<name>
<surname><![CDATA[Bakiri]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Solving multiclass learning problems via error-correcting output codes]]></article-title>
<source><![CDATA[Journal of Artificial Intelligence Research]]></source>
<year>1994</year>
<volume>2</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>263-286</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ganapathiraju]]></surname>
<given-names><![CDATA[M.K]]></given-names>
</name>
<name>
<surname><![CDATA[Klein-Seetharaman]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Balakrishnan]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Reddy]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Characterization of protein secondary structure]]></article-title>
<source><![CDATA[IEEE Signal Processing Magazine]]></source>
<year>2004</year>
<volume>21</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>78-87</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Garnier]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Osguthorpe]]></surname>
<given-names><![CDATA[D.J]]></given-names>
</name>
<name>
<surname><![CDATA[Robson]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins]]></article-title>
<source><![CDATA[Journal of Molecular Biology]]></source>
<year>1978</year>
<volume>120</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>97-120</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hua]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Sun]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A novel method of protein secondary structure prediction with high segment overlap measure: support vector machine approach]]></article-title>
<source><![CDATA[Journal of Molecular Biology]]></source>
<year>2001</year>
<volume>308</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>397-407</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hubbard]]></surname>
<given-names><![CDATA[T.J]]></given-names>
</name>
<name>
<surname><![CDATA[Park]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Fold recognition and ab initio structure predictions using hidden markov models and beta-strand pair potentials]]></article-title>
<source><![CDATA[Proteins]]></source>
<year>1995</year>
<volume>23</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>398-402</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Muskal]]></surname>
<given-names><![CDATA[S.M]]></given-names>
</name>
<name>
<surname><![CDATA[Kim]]></surname>
<given-names><![CDATA[S.H]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Predicting protein secondary structure content: A tandem neural network approach]]></article-title>
<source><![CDATA[Journal of Molecular Biology]]></source>
<year>1992</year>
<volume>225</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>713-727</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nakashima]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Nishikawa]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Ooi]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The folding type of a protein is relevant to the amino acid composition. Oxford Journals Life Sciences]]></article-title>
<source><![CDATA[The Journal of Biochemistry]]></source>
<year>1985</year>
<volume>99</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>153-162</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nelson]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Cox]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Lehninger principles of biochemestry. W.H]]></source>
<year>2000</year>
<page-range>1152</page-range><publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Freeman and company]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Qu]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Yang]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Jiang]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[HYBP_PSSP: a hybrid back propagation method for predicting protein secondary structure]]></article-title>
<source><![CDATA[Neural computing and applications]]></source>
<year>2011</year>
<volume>21</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>337-349</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rost]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Sander]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Improved prediction of protein secondary structure by use of sequence profiles and neural networks]]></source>
<year>1993</year>
<volume>90</volume>
<conf-name><![CDATA[ Proceedings of the National Academy of Sciences of the United States of America]]></conf-name>
<conf-loc> </conf-loc>
<page-range>7558-7562</page-range></nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rost]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Sander]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Prediction of protein secondary structure at better than 70% accuracy]]></article-title>
<source><![CDATA[Journal of Molecular Biology]]></source>
<year>1993</year>
<volume>232</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>584-599</page-range></nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ruan]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Yang]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Kurgan]]></surname>
<given-names><![CDATA[L.A]]></given-names>
</name>
<name>
<surname><![CDATA[Cios]]></surname>
<given-names><![CDATA[K.J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Highly accurate and consistent method for prediction of helix and strand content from primary protein sequences]]></article-title>
<source><![CDATA[Artificial Intelligence in Medicine]]></source>
<year>2005</year>
<volume>35</volume>
<numero>1-2</numero>
<issue>1-2</issue>
<page-range>19-35</page-range></nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shoyaib]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Baker]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Jabid]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Anwar]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Khan]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Protein secondary structure prediction with high accuracy using support vector machine.]]></source>
<year>2007</year>
<conf-name><![CDATA[10 International Conference on Computer and Information Technology]]></conf-name>
<conf-loc> </conf-loc>
<page-range>1-4</page-range></nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sui]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Qu]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Yan]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improved protein secondary structure prediction using an intelligent HSVM method with a new encoding scheme]]></article-title>
<source><![CDATA[International Journal of Advancements in Computing Technology]]></source>
<year>2011</year>
<volume>3</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>239-250</page-range></nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Trevor]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Tibshirani]]></surname>
</name>
</person-group>
<source><![CDATA[Classification by pairwise coupling]]></source>
<year>1998</year>
<volume>26</volume>
<page-range>451-471</page-range><publisher-name><![CDATA[The Annals of Statistics]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vapnik]]></surname>
<given-names><![CDATA[V.N]]></given-names>
</name>
</person-group>
<source><![CDATA[The nature of statistical learning theory]]></source>
<year>1995</year>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Springer-Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Yang]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<source><![CDATA[Weave amino acid sequences for protein secondary structure prediction. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery]]></source>
<year>2003</year>
<page-range>80-87</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[G.Z]]></given-names>
</name>
<name>
<surname><![CDATA[Huang]]></surname>
<given-names><![CDATA[D.S]]></given-names>
</name>
<name>
<surname><![CDATA[Zhu]]></surname>
<given-names><![CDATA[Y.P]]></given-names>
</name>
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[Y.X]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improving protein secondary structure prediction by using the residue conformational classes]]></article-title>
<source><![CDATA[Pattern Recognition Letters]]></source>
<year>2005</year>
<volume>26</volume>
<numero>15</numero>
<issue>15</issue>
<page-range>2346-2352</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zwillinger]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Standard mathematical tables and formulae]]></source>
<year>1996</year>
<edition>30</edition>
<page-range>812</page-range><publisher-name><![CDATA[University of CaliforniaCRC Press]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
