<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0121-1935</journal-id>
<journal-title><![CDATA[Revista de Ciencias]]></journal-title>
<abbrev-journal-title><![CDATA[rev. cienc.]]></abbrev-journal-title>
<issn>0121-1935</issn>
<publisher>
<publisher-name><![CDATA[Universidad del Valle]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0121-19352014000200010</article-id>
<title-group>
<article-title xml:lang="en"><![CDATA[Structured Secant Method for the Multilayer Perceptron Training]]></article-title>
<article-title xml:lang="es"><![CDATA[Método secante estructurado para el entrenamiento del perceptrón multicapa]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Vivas]]></surname>
<given-names><![CDATA[Hevert]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Martínez]]></surname>
<given-names><![CDATA[Héctor Jairo]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pérez]]></surname>
<given-names><![CDATA[Rosana]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad del Cauca Departamento de Matemáticas ]]></institution>
<addr-line><![CDATA[Popayán ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad del Valle Departamento de Matemáticas ]]></institution>
<addr-line><![CDATA[Cali ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad del Cauca Departamento de Matemáticas ]]></institution>
<addr-line><![CDATA[Popayán ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2014</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2014</year>
</pub-date>
<volume>18</volume>
<numero>2</numero>
<fpage>131</fpage>
<lpage>150</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0121-19352014000200010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0121-19352014000200010&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0121-19352014000200010&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="en"><p><![CDATA[In the group of models of artificial neural networks, it is the multilayer perceptron, a unidirectional neural network consisting of three or more layers, its training is done by an algorithm called backpropagation. In this work, we introduced the structured secant method for the training of multilayer perceptron and we compare its numerical performance with other methods widely used with the same purpose. Some numerical experiments show a good performance of this algorithm]]></p></abstract>
<abstract abstract-type="short" xml:lang="es"><p><![CDATA[Dentro del grupo de modelos de redes neuronales artificiales está el perceptrón multicapa: una red neuronal unidireccional constituida por tres o más capas, cuyo entrenamiento se hace mediante un algoritmo denominado retro-propagacion de errores. En este trabajo, proponemos e implementamos por primera vez, el método secante estructurado para el entrenamiento del perceptrón multicapa y analizamos su desempeño numérico comparandolo con métodos ampliamente usados con el mismo proposito]]></p></abstract>
<kwd-group>
<kwd lng="en"><![CDATA[Multilayer perceptron]]></kwd>
<kwd lng="en"><![CDATA[structured secant method]]></kwd>
<kwd lng="en"><![CDATA[training neural network]]></kwd>
<kwd lng="en"><![CDATA[nonlinear least squares]]></kwd>
<kwd lng="es"><![CDATA[método secante estructurado]]></kwd>
<kwd lng="es"><![CDATA[entrenamiento de redes neuronales artificiales]]></kwd>
<kwd lng="es"><![CDATA[perceptrón multicapa]]></kwd>
<kwd lng="es"><![CDATA[mínimos cuadrados no lineales]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[   <font size="2" face="verdana">      <p align="center"><font size="4"><b>Structured Secant Method for the Multilayer Perceptron Training</b></font></p>       <p align="center"><font size="3"><b>M&eacute;todo secante estructurado para el entrenamiento del perceptr&oacute;n multicapa</b></font></p>      <p><i>Hevert Vivas</i>    <br> Departamento de Matem&aacute;ticas, Universidad del Cauca, Popay&aacute;n-Colombia    <br> E-mail: <a href="mailto:hevivas@unicauca.edu.co">hevivas@unicauca.edu.co</a></p>      <p><i>H&eacute;ctor Jairo Mart&iacute;nez</i>    <br> Departamento de Matem&aacute;ticas, Universidad del Valle, Cali- Colombia    <br> E-mail: <a href="mailto:hector.martinez@correounivalle.edu.co">martinez@correounivalle.edu.co</a></p>      <p><i>Rosana P&eacute;rez</i>    ]]></body>
<body><![CDATA[<br> Departamento de Matem&aacute;ticas, Universidad del Cauca, Popay&aacute;n-Colombia    <br> E-mail: <a href="mailto:rosana@unicauca.edu.co">rosana@unicauca.edu.co</a></p>      <p><b>Received:</b> May 6, 2014    <br> <b>Accepted:</b> August 22, 2014</p>   <hr>      <p><font size="3"><b>Abstract</b></font></p>     <p>In the group of models of artificial neural networks, it is the multilayer perceptron, a unidirectional neural network consisting of three or more layers, its training is done by an algorithm called backpropagation. In this work, we introduced the structured secant method for the training of multilayer perceptron and we compare its numerical performance with other methods widely used with the same purpose. Some numerical experiments show a good performance of this algorithm.</p>     <p><b>Keywords: </b>Multilayer perceptron, structured secant method, training neural network, nonlinear least squares.</p> <hr>      <p><font size="3"><b>Resumen</b></font></p>     <p> Dentro del grupo de modelos de redes neuronales artificiales est&aacute; el perceptr&oacute;n multicapa: una red neuronal unidireccional constituida por tres o m&aacute;s capas, cuyo entrenamiento se hace mediante un algoritmo denominado retro-propagacion de errores. En este trabajo, proponemos e  implementamos por primera vez, el m&eacute;todo secante estructurado para el entrenamiento del perceptr&oacute;n  multicapa y analizamos su desempe&ntilde;o num&eacute;rico comparandolo con m&eacute;todos ampliamente usados  con el mismo proposito. </p>      <p><b>Palabras clave</b>:m&eacute;todo secante estructurado, entrenamiento de redes neuronales artificiales, perceptr&oacute;n multicapa, m&iacute;nimos cuadrados no lineales. </p> <hr>      ]]></body>
<body><![CDATA[<p><font size="3"><b>1 Introducci&oacute;n</b></font></p>      <p>Las Redes Neuronales Artificiales (RN A) son sistemas de procesamiento de informaci&oacute;n que funcionan de manera similar a las redes neuronales biol&oacute;gicas. Estas redes tienen en com&uacute;n con el cerebro humano la distribuci&oacute;n de las operaciones a realizar en una serie de elementos b&aacute;sicos que, por analog&iacute;a con los sistemas biol&oacute;gicos, se denominan neuronas artificiales; las cuales est&aacute;n relacionadas entre s&iacute;, mediante una serie de conexiones que se conocen como pesos sin&aacute;pticos. En las RNA supervisadas, estos pesos y conexiones var&iacute;an mediante un proceso, usualmente iterativo, conocido como aprendizaje o entrenamiento de la red en el cual, est&aacute; inmersa una funci&oacute;n error que depende expl&iacute;citamente de los pesos sin&aacute;pticos y proporciona el error que comete la red. Matem&aacute;ticamente, el proceso de aprendizaje consiste en encontrar un vector (una configuraci&oacute;n de pesos) que minimice dicha funci&oacute;n error. Esto conduce a un problema de minimizaci&oacute;n, m&aacute;s exactamente, un problema de m&iacute;nimos cuadrados no lineales.</p>      <p>El modelo de redes neuronales artificiales m&aacute;s empleado en aplicaciones pr&aacute;cticas es el del perceptr&oacute;n multicapa, una red neuronal unidireccional constituida por al menos, tres capas junto con su algoritmo de entrenamiento denominado retropropagaci&oacute;n de errores (backpropagation) (Mart&iacute;n del Br&iacute;o y Sanz, 2007).</p>      <p>En este art&iacute;culo, proponemos e implementamos por primera vez, el m&eacute;todo secante estructurado para el entrenamiento del perceptr&oacute;n multicapa, y analizamos su desempe&ntilde;o num&eacute;rico compar&aacute;ndolo con m&eacute;todos ampliamente usados con el mismo prop&oacute;sito, tales como: Gauss-Newton y Levenverg-Marquardt (Mart&iacute;n del Br&iacute;o y Sanz, 2007). Pruebas num&eacute;ricas preliminares muestran un buen desempe&ntilde;o num&eacute;rico del m&eacute;todo propuesto.</p>      <p>Organizamos la presentaci&oacute;n de este documento de la siguiente forma. En la Secci&oacute;n 2, presentamos el problema de M&iacute;nimos Cuadrados No Lineales como un caso particular de minimizaci&oacute;n sin restricciones y describimos diferentes m&eacute;todos de soluci&oacute;n y sus propiedades de convergencia, centr&aacute;ndonos en el m&eacute;todo secante estructurado. En la Secci&oacute;n 3, presentamos en forma descriptiva las redes neuronales artificiales, su estructura y su funcionamiento, profundizando en el perceptr&oacute;n multicapa y en su algoritmo de entrenamiento denominado retropropagaci&oacute;n de errores. En la Secci&oacute;n 4, proponemos e implementamos por primera vez, el m&eacute;todo secante estructurado para el entrenamiento del perceptr&oacute;n multicapa y analizamos num&eacute;ricamente su desempe&ntilde;o para diferentes actualizaciones secantes. Finalmente, en la Secci&oacute;n 5, hacemos algunos comentarios finales y propuestas de trabajos futuros sobre el tema.</p>      <p><font size="3"><b>2. M&iacute;nimos cuadrados no l&iacute;neales (MCNL)</b></font></p>      <p>En esta secci&oacute;n, abordamos un problema particular de miniminizaci&oacute;n sin restricciones que surge con frecuencia en problemas pr&aacute;cticos, tales como: ajuste de curvas, reconocimiento y clasificaci&oacute;n de patrones y en redes neuronales artificiales, entre otros. Nos referimos al problema de M&iacute;nimos Cuadrados No Lineales.</p>        <p><font size="3">2.1. Planteamiento del problema</font></p>      <p>Dada <i>R</i> : <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>n</i></sup> &rarr; <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>m</i></sup>, <i>m</i> &ge; <i>n</i>m <i>R</i>(<b>x</b>) = (<i>r</i><sub>1</sub> (<b>x</b>),...,<i>r</i><sub>m</sub>(<b>x</b>))<sup>T</sup>, funci&oacute;n no lineal y dos veces continuamente diferenciable, el problema de M&iacute;nimos Cuadrados No Lineales (MCNL) consiste en resolver el problema de minimizaci&oacute;n sin restricciones</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec01.jpg">      <p>La estructura particular del problema <b>(1), </b>se observa claramente en las expresiones para el vector gradiente y la matriz hessiana de <i>f,</i>en x. En efecto,</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec02.jpg">      ]]></body>
<body><![CDATA[<p>Observemos que la matriz jacobiana <i>J(x) </i>contiene solamente informaci&oacute;n de primer orden (primeras derivadas parciales) y <i>S </i>( x) contiene informaci&oacute;n de segundo orden (es una combinaci&oacute;n lineal de matrices hessianas). Esta estructura especial de la matriz hessiana de <i>f</i>, es la que se aprovecha en algunos de los m&eacute;todos usados para resolver el problema (1) y es la raz&oacute;n por la cual no se usan m&eacute;todos de prop&oacute;sito general para resolver el mismo. La informaci&oacute;n de primer orden es relativamente f&aacute;cil de calcular, mientras que la de segundo orden es num&eacute;ricamente dif&iacute;cil de calcular, ya que involucra el c&aacute;lculo de <i>m </i>hessianos, lo que implica un alto costo computacional (Dennis &amp; Schnabel, 1983; Nocedal &amp; Wright, 2006; Fletcher, 2000) .</p>      <p><font size="3">2.2. M&eacute;todos de soluci&oacute;n</font></p>      <p>En esta secci&oacute;n, describimos algunos m&eacute;todos de soluci&oacute;n del problema MCNL. Incluimos, dada su popularidad e importancia, m&eacute;todos de prop&oacute;sito general para resolver problemas de minimizaci&oacute;n tales como el m&eacute;todo de Newton y los m&eacute;todos secantes, los cuales debido a que no aprovechan la estructura particular del problema (1), no son muy apropiados para resolverlo. Adem&aacute;s, describimos m&eacute;todos especialmente dise&ntilde;ados para resolver el problema MCNL, como Gauss Newton, Levenberg-Marquardt y secante estructurado. Todos estos m&eacute;todos coinciden en que una iteraci&oacute;n b&aacute;sica incluye la soluci&oacute;n de un sistema de ecuaciones lineales para posteriormente, generar la aproximaci&oacute;n siguiente.</p>         <p><font size="3">2.2.1. M&eacute;todo de Newton</font></p>      <p>La idea b&aacute;sica del m&eacute;todo de Newton para resolver un problema de minimizaci&oacute;n sin restricciones consiste en, dada una aproximaci&oacute;n a la soluci&oacute;n del problema, resolver en cada iteraci&oacute;n un sistema de ecuaciones lineales, cuya &quot;soluci&oacute;n&quot; es usada para generar la aproximaci&oacute;n siguiente. Es decir, su iteraci&oacute;n b&aacute;sica es:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec03.jpg">      <p>La convergencia de este m&eacute;todo es <i>q</i>-cuadr&aacute;tica, siempre y cuando <img width="30" src="img/revistas/rcien/v18n2/v18n2a10-car04.jpg"> 72 <i>f</i>sea Lipschitz continua alrededor de <i>X</i><sub><i>k</i></sub> y <img width="30" src="img/revistas/rcien/v18n2/v18n2a10-car04.jpg">(x<sub>k</sub>) sea definida positiva (Dennis &amp; Schnabel, 1983). A pesar de que las propiedades de convergencia del m&eacute;todo de Newton son muy buenas comparadas con otros m&eacute;todos, el t&eacute;rmino <i>S</i>(<b>x</b>) es, computacionalmente, costoso de calcular.</p>      <p><font size="3">2.2.2. M&eacute;todo Gauss-Newton</font></p>      <p>El m&eacute;todo de Gauss-Newton es una variante del m&eacute;todo de Newton y su iteraci&oacute;n b&aacute;sica es:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car03.jpg">      <p>Este m&eacute;todo surgi&oacute; para evitar dificultades del m&eacute;todo Gauss-Newton cuando, a lo largo del proceso iterativo, la matriz Jacobiana no tiene rango completo o est&aacute; mal condicionada. Las propiedades de convergencia del m&eacute;todo de Levenberg-Marquard son similares a las del m&eacute;todo de Gauss-Newton; sin embargo, muchas implementaciones de su algoritmo superan las desventajas propias del m&eacute;todo de Gauss-Newton (Dennis &amp; Schnabel, 1983).</p>      <p><font size="3">2.2.4. M&eacute;todos Secantes</font></p>      ]]></body>
<body><![CDATA[<p>En la iteraci&oacute;n de Newton (3), es necesario calcular la matriz hessiana de <i>f </i>en <i>x<sub>k</sub></i> y, para encontrar el paso de Newton, v&iacute;a factorizaci&oacute;n de Cholesky, se requiere que la matriz <img width="40" src="img/revistas/rcien/v18n2/v18n2a10-car04.jpg">(<i>x<sub>k</sub></i>) </i>sea definida positiva; por lo cual, a no ser que ella tenga una estructura particular, dicha factorizaci&oacute;n es muy costosa computacionalmente. Si a lo anterior le agregamos el hecho de que, en general, el s&oacute;lo c&aacute;lculo del hessiano de <i>f </i>en (<i>x<sub>k</sub></i>) ya es muy costoso, se hace indispensable tener m&eacute;todos que resuelvan el mismo problema de minimizaci&oacute;n, sin tener que realizar estos c&aacute;lculos. De esta manera, surgen los denominados m&eacute;todos cuasi Newton, los cuales usan una aproximaci&oacute;n de la matriz hessiana en lugar de ella misma. As&iacute;, si <i>B<sub>k</sub></i> es una &quot;buena&quot; aproximaci&oacute;n de la matriz hessiana <img width="40" src="img/revistas/rcien/v18n2/v18n2a10-car04.jpg">(<i>x<sub>k</sub></i>)<i>, </i>entonces la direcci&oacute;n cuasi newton ser&aacute; la soluci&oacute;n al sistema de ecuaciones lineales</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car07.jpg">      <p>Cuando decimos una &quot;buena&quot; aproximaci&oacute;n, nos referimos a que requerimos que <i>B<sub>k</sub></i> conserve las buenas propiedades del hessiano (simetr&iacute;a) y que permita encontrar direcciones de descenso (definida positiva). As&iacute;, al resolver un problema de minimizaci&oacute;n, usando un m&eacute;todo cuasi Newton, ganamos estabilidad num&eacute;rica, eficiencia y convergencia (P&eacute;rez y D&iacute;az, 2010). Si adem&aacute;s, actualizamos la aproximaci&oacute;n <i>B<sub>k</sub></i> de tal forma que satisfaga la llamada ecuaci&oacute;n secante<a href="#1" name="v1"><sup>1</sup></a></p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car08.jpg">      <p>entonces surgen los denominados m&eacute;todos secantes, cuya iteraci&oacute;n b&aacute;sica es la siguiente:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car09.jpg">      <p>donde <b>s</b><sub><i>k</i>+1</sub> - <b>x</b><sub><i>k</i></sub> , <b>y</b><sub><i>k</i></sub> = &nabla;<i>f</i>(<b>X</b><sub><i>k</i>+1</sub>) - &nabla;<i>f</i>(<b>x</b><sub><i>k</i></sub>) y <i>B</i><sub><i>k</i>+1</sub> es llamada actualizaci&ograve;n secante.</p>      <p>Existen varias actualizaciones secantes exitosas. Entre ellas, est&aacute;n la BFGS, propuesta independientemente por Broyden en (1969) y Fletcher, Goldfarb y Shano en (1970), dada por:    <p>   <img src="img/revistas/rcien/v18n2/v18n2a10-car11.jpg">      <p>y la actualizaci&oacute;n DFP propuesta por Davidon en (1959), Fletcher y Powell en (1963) definida por</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car12.jpg">      <p>En la pr&aacute;ctica, se recomienda la actualizaci&oacute;n BFGS, debido a que su desempe&ntilde;o num&eacute;rico es mejor; sin embargo, la actualizaci&oacute;n DFP fue la primera actualizaci&oacute;n secante propuesta, por lo cual tiene un gran inter&eacute;s tanto hist&oacute;rico como anal&iacute;tico (P&eacute;rez y D&iacute;az, 2010; Dennis &amp; Schnabel, 1983).</p>      <p><font size="3">2.2.5. M&eacute;todos secantes estructurados</font></p>      <p>Desafortunadamente, los m&eacute;todos secantes tal y como han sido descritos hasta aqu&iacute;, no aprovechan la estructura de la matriz hessiana dada en (2). Es decir, no aprovechan los c&aacute;lculos del jacobiano ya realizados. Una alternativa para ello, la representan los llamados m&eacute;todos secantes estructurados. Estos m&eacute;todos son apropiados para problemas en los cuales la matriz hessiana, tal como sucede en el problema (1), se puede expresar en la forma:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car13.jpg">       ]]></body>
<body><![CDATA[<p>donde <i>C</i>(<b>x</b>) contiene informaci&oacute;n "f&aacute;cil" de obtener y <i>S</i>(<b>x</b>) contiene informaci&oacute;n que es "dif&iacute;cil" o imposible de calcular. As&iacute;, en un m&eacute;todo secante estructurado, basta hacer una aproximaci&oacute;n secante de la parte "dif&iacute;cil", <i>S</i>(<b>x</b>), conservando el resto de la estructura.</p>      <p>En particular, para el problema MCNL (1), tenemos que &nabla;<sup>2</sup> <i>f</i>(<b>x</b>) = <i>C</i>(<b>x</b>) + <i>S</i>(<b>x</b>), donde:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car14.jpg">      <p>Con ello, en un m&eacute;todo secante estructurado, para el problema de m&iacute;nimos cuadrados no lineales (1), hacemos el proceso iterativo</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car15.jpg">      <p>donde <i>A</i><sub><i>k</i></sub> es una aproximaci&ograve;n a <img src="img/revistas/rcien/v18n2/v18n2a10-car16.jpg"> correcci&oacute;n de actualizaci&oacute;n secante, est&aacute; definida por</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car17.jpg">      <p>El vector <b>v</b><sub><i>k</i></sub> &isin; <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>n</i></sup> es denominado la escala y con frecuencia es funci&oacute;n de <b>s</b>, <b>y</b> y <i>B</i> Diferentes valores de la escala permiten obtener actualizaciones reconocidas y muy utilizadas (Mart&iacute;nez &amp; Engels, 1991) como por ejemplo:</p>      <p><img src="img/revistas/rcien/v18n2/v18n2a10-car18.jpg"></p>      <p><img src="img/revistas/rcien/v18n2/v18n2a10-car19.jpg"><a href="#2" name="v2"><sup>2</sup></a></p>      <p>Entre las ventajas del m&eacute;todo secante estructurado, est&aacute; el hecho de que no es necesario el c&aacute;lculo anal&iacute;tico de la matriz hessiana; basta aproximar solo la parte que contiene la informaci&oacute;n de segundo orden, la cual es costosa de obtener computacionalmente y dif&iacute;cil de obtener anal&iacute;ticamente. Adem&aacute;s, su convergencia es <i>q</i>-superlineal y no depende del tama&ntilde;o del residuo de la funci&oacute;n objetivo (Dennis &amp; Schnabel, 1983).</p>      <p>La teor&iacute;a de convergencia para los m&eacute;todos secante estructurados PSB, DFP ue desarrollada en 1981 (Dennis &amp; Walker, 1983)mientras que la del m&eacute;todo BFGS estructurado fue establecida en 1989 (Mart&iacute;nez et al., 1989). Una aplicaci&oacute;n directa de esta teor&iacute;a da la primera prueba de convergencia local y <i>q </i>-superlineal del m&eacute;todo BFGS estructurado para el problema de m&iacute;nimos cuadrados no lineales, el cual es usado por Dennis, Gay, y Welsh en la versi&oacute;n actual del c&oacute;digo NL2SOL (Dennis et al., 1981).</p>      <p><font size="3"><b>3. Redes Neuronales Artificiales (RNA)</b></font></p>      ]]></body>
<body><![CDATA[<p>La historia de las redes neuronales artificiales est&aacute; llena de creatividad individual en diferentes campos y ha sido documentada por varios autores. Desde antes de la aparici&oacute;n del primer computador hasta hoy, han ocurrido varios hechos que marcaron la historia de las redes neuronales artificiales. En la actualidad, son numerosos los trabajos que se realizan y publican cada a&ntilde;o las aplicaciones nuevas que surgen (sobretodo en el &aacute;rea de control) y las empresas que lanzan al mercado productos nuevos, tanto en hardware como en software (sobre todo para simulaci&oacute;n) (Mart&iacute;n del Br&iacute;o y Sanz, 2007).</p>     <p>Informalmente, un sistema neuronal artificial tiene una estructura an&aacute;loga al sistema neuronal biol&oacute;gico cuyos elementos b&aacute;sicos, llamadas neuronas artificiales, se conectan entre s&iacute; y se organizan en capas para formar la red neuronal.</p>      <p><font size="3">3.1 Modelo general de neurona artificial</font></p>      <p>Al igual que una neurona biol&oacute;gica, una neurona artificial posee unas entradas que pueden provenir del exterior o de otras neuronas conectadas a ella y proporciona una &uacute;nica salida. En una red neuronal artificial, los elementos que constituyen la &quot;neurona i&quot; son las entradas <i>x<sub>j</sub></i> (<i>t</i>), los pesos sin&aacute;pticos, <i>w<sub>ij</sub>,</i>la regla de propagaci&oacute;n, <i>h</i><sub>i</sub>(<i>t</i>) = <i>&sigma;(w<sub>ij</sub>,X<sub>j</sub>(t)), </i>donde &sigma;(&middot;,&middot;) proporciona el valor del potencial postsin&aacute;ptico; la funci&oacute;n de activaci&oacute;n, <i>f<sub>i</sub></i>(<i>a<sub>i</sub> </i>(<i>t</i>- 1), <i>h<sub>i</sub></i>( t)) , donde <i>a<sub><i>i</i></sub>(<i>t</i>) </i>proporciona el estado de activaci&oacute;n actual; finalmente, la funci&oacute;n de salida, <i>F</i><sub><i>i</i></sub>(<i>a</i><sub><i>i</i></sub>(<i>t</i>)).</p>      <p>En general, el modelo que habitualmente se usa es aquel cuya regla de propagaci&oacute;n es la suma ponderada de las entradas y de sus pesos respectivos, la funci&oacute;n de activaci&oacute;n proporciona su salida y tiene un par&aacute;metro adicional <i>(&theta;)<sub>i</sub></i>, conocido como umbral o bias, el cual puede tener diferentes usos dependiendo del modelo (<a href="#fig1">Figura 1</a>). As&iacute;, dicho modelo se puede expresar por la igualdad</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-car20.jpg">      <p>donde en la &uacute;ltima parte hemos incluido el par&aacute;metro (&theta;)<sub><i>i</i></sub> como si fuera el peso <i>w</i><sub><i>i0</i></sub>, con la convenci&oacute;n de que <i>x</i><sub>0</sub> = -1</p>      <p align="center">Figura 1. Principales elementos de una neurona artificial</p>      <p align="center"><a name="fig1"><img src="img/revistas/rcien/v18n2/v18n2a10-fig01.jpg"></a></p>      <p><font size="3">3.2. Estructura</font></p>      <p>En una red neuronal artificial, podemos distinguir tres tipos de capas. Una capa de entrada formada por las neuronas que reciben la informaci&oacute;n del medio exterior, una capa de salida formada por las neuronas que transfieren la informaci&oacute;n procesada al exterior y una capa intermedia u oculta (la cual puede o no existir), en la cual se procesa toda la informaci&oacute;n sin tener conexi&oacute;n con el entorno donde opera.</p>     ]]></body>
<body><![CDATA[<p>Dependiendo del enfoque, se pueden establecer diferentes arquitecturas de redes neuronales artificiales. De acuerdo al n&uacute;mero de capas hablamos de redes neuronales monocapa compuestas por una &uacute;nica capa; o redes neuronales multicapa compuestas por varias capas. En relaci&oacute;n a la manera como fluye la informaci&oacute;n, tenemos las redes neuronales unidireccionales (feedforward), en las cuales la informaci&oacute;n fluye en un solo sentido y las redes recurrentes o retroalimentadas (feedback), en las que la informaci&oacute;n puede fluir en cualquier sentido, incluido el de entrada-salida.</p>      <p><font size="3">3.3. Aprendizaje</font></p>      <p>En una red neuronal artificial, podemos distinguir tres tipos de capas. Una capa de entrada formada por las neuronas que reciben la informaci&oacute;n del medio exterior, una capa de salida Una RNA no est&aacute; completa si no podemos garantizar que funcione correctamente con un cierto grado de confianza; para ello, al igual que nuestro cerebro, funciona mejor en la medida que reciba un buen aprendizaje o entrenamiento, una vez definida su estructura, las redes neuronales artificiales necesitan pasar por un proceso de aprendizaje, en el cual se ajustan sus pesos sin&aacute;pticos, con el fin de adaptar su desempe&ntilde;o al entorno donde operar&aacute;. El tipo de aprendizaje es determinado de acuerdo a la manera en que dichos pesos son ajustados.</p>      <p>En efecto, con la estructura de la red fija, el proceso de aprendizaje consiste en modificar los pesos sin&aacute;pticos siguiendo una cierta regla de aprendizaje. En este sentido, b&aacute;sicamente, existen dos tipos de aprendizaje: el supervisado que se caracteriza por tener un control externo a trav&eacute;s de un supervisor o maestro, el cual conoce las salidas deseadas correspondientes a un conjunto de entradas; dichas salidas permiten definir una funci&oacute;n error que se desea minimizar. El otro tipo de aprendizaje es el no supervisado o  autoorganizado que consiste en estimar los pesos de la red, en funci&oacute;n de la caracterizaci&oacute;n de los datos de entrada de acuerdo a un objetivo espec&iacute;fico que permita detectar sus patrones.</p>      <p><font size="3">3.4. Perceptr&oacute;n multicapa</font></p>      <p>Dentro del grupo de redes unidireccionales que usan aprendizaje supervisado, est&aacute;n el perceptr&oacute;n simple, la adalina y el perceptr&oacute;n multicapa. El perceptr&oacute;n simple y la adalina son de gran inter&eacute;s hist&oacute;rico, pues su evoluci&oacute;n representa la historia misma de las redes neuronales artificiales (Mart&iacute;n del Br&iacute;o y Sanz, 2007). En general, la importancia de estos modelos se debe a su car&aacute;cter de dispositivos entrenables.</p>     <p>El perceptr&oacute;n multicapa es una red neuronal unidireccional constituida por tres o m&aacute;s capas: una capa de entrada, otra capa de salida y el resto de capas intermedias denominadas capas ocultas. La estructura de un perceptr&oacute;n multicapa, con una capa oculta<a href="#3" name="v3"><sup>3</sup></a> , se representa en la <a href="#fig2">Figura 2</a>.</p>      <p align="center">Figura 2. Perceptr&oacute;n multicapa (MLP).</p>      <p align="center"><a name="fig2"><img src="img/revistas/rcien/v18n2/v18n2a10-fig02.jpg"></a></p>      <p>Sean <i>x<sub>i</sub></i>las entradas de la red; <i>y</i><sub>j</sub>, las salidas de la capa oculta; <i>z</i><sub>k</sub>, las salidas de la capa final; <i>w<sub><i>ij</i></sub>, </i>los pesos de la capa oculta y <i>&theta;</i><sub><i>j</i></sub>, sus umbrales; <i>w</i><sup><i>t</i></sup><sub><i>kj</i></sub>, los pesos de la capa de salida, y <i>&theta;</i>'<sub><i>k</i></sub>, sus umbrales, para todo <i>i</i> = <b>1, </b>...,<i>n</i>, <i>j </i>= <b>1, </b>... , <i>q </i>y para todo <i>k </i>= <b>1, ... , </b><i>m. </i>La operaci&oacute;n de un perceptr&oacute;n multicapa con estas caracter&iacute;sticas se expresa matem&aacute;ticamente por la ecuaci&oacute;n:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec04.jpg">      ]]></body>
<body><![CDATA[<p>Como ya mencionamos, el aprendizaje de un perceptr&oacute;n multicapa se hace a trav&eacute;s de la minimizaci&oacute;n de una funci&oacute;n error que mide la diferencia entre la salida z obtenida por la red y la salida deseada t. Matem&aacute;ticamente, la funci&oacute;n error es es un campo escalar <i>E</i> : <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>n</i></sup> &rarr; <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font>, en la variable <b>w</b>, que para nuestro caso es un vector cuyas componentes son los pesos sin&aacute;pticos. As&iacute;, asociado al aprendizaje de un perceptr&oacute;n multicapa, tenemos el siguiente problema de optimizaci&oacute;n:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec05.jpg">      <p>En el caso de una muestra finita formada por los patrones de entrada, <b>x</b><sup>1</sup>, <b>x</b><sup>2</sup>,...,<b>x</b><sup>P</sup>, vectores <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>n</i></sup> de cada uno de los cuales tiene como componentes las entradas de la red, y de los vectores de <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>m</i></sup>, <b>t</b><sup>1</sup>, <b>t</b><sup>2</sup>,...,<b>t</b><sup><i>P</i></sup>, que contienen las salidas deseadas, la funci&oacute;n error <i>E</i> es la siguiente</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec06.jpg">      <p>donde cada vector <b>z</b><sup>&micro;</sup> (<b>w</b>) <i>&micro;</i> &isin;	</i> <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>m</i></sup>, con <i>&micro;</i> = 1,...,<i>p</i>, contiene las respuestas de la red correspondientes al patr&oacute;n de entrada <i>x</i><sup>&micro;</sup>, cuando los pesos sin&aacute;pticos est&aacute;n dados por <b>w</b>. As&iacute;, la funci&oacute;n <i>E</i> permite obtener el error cuadr&aacute;tico medio de las salidas de la red respecto de las deseadas (Mart&iacute;n del Br&iacute;o y Sanz, 2007).</p>      <p>En el proceso iterativo del algoritmo de entrenamiento de una red neuronal multicapa, se lleva a cabo una fase de ejecuci&oacute;n de la red para los patrones de entrenamiento. Existen dos maneras de hacer esta ejecuci&oacute;n; una denominada aprendizaje por lotes, que consiste en presentar a la red todos y cada uno de los patrones de entrenamiento, calcular para cada patr&oacute;n, el error en la salida y por &uacute;ltimo, proceder a hacer la actualizaci&oacute;n de los pesos sin&aacute;pticos; y la otra llamada aprendizaje en serie que consiste en calcular el error en la salida y actualizar los pesos sin&aacute;pticos tras la presentaci&oacute;n de cada patr&oacute;n de aprendizaje, teniendo presente que en cada iteraci&oacute;n, el orden en la presentaci&oacute;n de los patrones sea aleatorio (Mart&iacute;n del Br&iacute;o y Sanz, 2007).</p>      <p>Para el perceptr&oacute;n multicapa definido anteriormente, si <i>x</i><sup>&micro;</sup> para &micro; = 1,..., <i>p</i> es un patr&oacute;n de entrada, la ejecuci&oacute;n de la red (4) se expresa como:</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec06-1.jpg">      <p>donde <i>g</i> es la funci&oacute;n de activaci&oacute;n de las neuronas de salida y <i>f</i> de las ocultas. En este sentido, la funci&oacute;n error cuadr&aacute;tico medio es</p>  <img src="img/revistas/rcien/v18n2/v18n2a10-ec07.jpg">      <p>El problema (5) con E dada por (7) es un problema MCNL &#91;2&#93;.</p>      <p><font size="3"><b>4. Pruebas num&eacute;ricas</b></font></p>      <p>En esta secci&oacute;n, implementamos por primera vez, el m&eacute;todo secante estructurado para el entrenamiento del perceptr&oacute;n multicapa. Con el prop&oacute;sito de comparar su desempe&ntilde;o num&eacute;rico, tambi&eacute;n implementamos los m&eacute;todos de GaussNewton y Levenverg-Marquardt, ampliamente utilizados con el mismo prop&oacute;sito, en paquetes (o programas) como el Toolbox de redes neuronales de MATLAB&reg;. Usamos las cuatro f&oacute;rmulas dadas en (4) para actualizar en cada iteraci&oacute;n la matriz <i>Ak </i>dada por (4), con lo cual tenemos cuatro versiones del algoritmo secante estructurado, las cuales llamaremos: m&eacute;todo PSBE, DFPE, BFGSE y SR1E, respectivamente.</p>     <p> Para las pruebas num&eacute;ricas, consideramos el entrenamiento de dos redes del tipo perceptr&oacute;n multicapa para resolver sendos problemas: evaluar la funci&oacute;n seno y predecir el consumo de energ&iacute;a el&eacute;ctrica en una determinada regi&oacute;n, en un d&iacute;a dado y una hora determinada usando la red propuesta por (<i>Medicina y Complejidad</i>, s.f.). Para escribir los c&oacute;digos de los algoritmos y de las funciones objetivo de cada problema, usamos el software MATLAB&reg; versi&oacute;n 2010. Realizamos las pruebas num&eacute;ricas en un computador Intel (R) Core (TM) i5-CPU de 2.67 GHz. La presentaci&oacute;n de los par&aacute;metros de entrenamiento la hicimos usando la t&eacute;cnica de entrenamiento por lotes descrita en la Secci&oacute;n 3.</p>      ]]></body>
<body><![CDATA[<p><font size="3">4.1 Algoritmo general</font></p>      <p> Como lo mencionamos anteriormente, en el entrenamiento del perceptr&oacute;n multicapa, resolvemos el problema de minimizaci&oacute;n (5) con <i>E </i>definida por (6). En general, para la obtenci&oacute;n de los pesos iniciales, se recomienda iniciar con vectores aleatorios (Mart&iacute;n del Br&iacute;o y Sanz, 2007); los algoritmos est&aacute;n implementados, usando una estrategia de globalizaci&oacute;n denominada b&uacute;squeda lineal, que permita iniciar desde cualquier punto &#91;12, 2&#93;.</p>      <p>Los m&eacute;todos globalizados, en cada iteraci&oacute;n, determinan una direcci&oacute;n de descenso <i>s<sub>k</sub></i> y con una estrategia de b&uacute;squeda lineal (Dennis &amp; Schnabel, 1983)encuentran un tama&ntilde;o de paso <i>&lambda;<sub>k</sub>, </i>con el cual se define la aproximaci&oacute;n siguiente <i>W</i><sub><i>k</i>+1</sub>&middot;</p>      <p>  Usamos dos criterios de parada en nuestro algoritmo: uno relacionado con el tama&ntilde;o del gradiente de la funci&oacute;n objetivo (<b>b</b>  &nabla; <i>E</i>(<b>w</b>) ) y el otro, relacionado con el n&uacute;mero de iteraciones (<i>n</i>). Exactamente, declaramos convergencia si &#124;&#124;<b>g</b>&#124;&#124;<sub>2</sub> &le; <i>tol</i> y divergencia si <i>n</i> &gt; <i>N</i>, es el n&uacute;mero m&aacute;ximo de iteraciones en el algoritmo.</p>      <p>A continuaci&oacute;n, presentamos la estructura general del algoritmo para el entrenamiento de un perceptr&oacute;n multicapa, en el cual se asume conocida la arquitectura de red neuronal artificial.</p>      <p><b>Algoritmo 1</b> <i>Dados los patrones de entrenamiento: <b>x</b><sup>&micro;</sup> y <b>t</b><sup>&micro;</sup>, >&micro; = 1,...,p, se procede como sigue:</i></p>      <p><i>P. O. Inicializaci&oacute;n    <br> Generar los pesos iniciales w<sub>0</sub>.    <br> Calcular la salida de la red para los p patrones de entrenamiento, y el error en la salida.</i>      <p><i>P.1. Criterios de parada</i>    ]]></body>
<body><![CDATA[<br>  &#124;&#124;&nabla;<i>E</i>(<i><b>w</b></i><sub><i>k</i></sub>&#124;&#124;<sub>2</sub> &gt; <i>Tol y k</i> &le; <i>N</i></p>      <p><i>P.2. B&uacute;squeda direccional    <br> Calcule B<sub>k</sub> y encuentre <b>s</b><sub>k</sub> tal que B<sub>k</sub><b>s</b><sub>k</sub></i> = - &nabla;<i>E</i>(<i><b>w</b></i><sub><i>k</i></sub>).</p>      <p><i>P.3. B&uacute;squeda lineal</i>    <br> <i>Calcular &lambda;<sub>k</sub> tal que E</i>(<i><b>w</b></i> + &lambda;<sub><i>k</i></sub> <i><b>s</b></i><sub><i>k</i></sub> = &nabla;<i>E</i>(<b><i>w</i></b><sub><i>k</i></sub>).</p>      <p><i>P.4. Actualizaci&oacute;n</i>    <br> <i>Definir</i> <b>w</b> : <b>w</b><sub><i>k</i>+1</sub> = <b>w</b><sub>k</sub> + &lambda;<sub><i>k</i></sub><b>s</b><sub>k</sub></p>      <p>Para el paso P.3 del algoritmo, en las pruebas num&eacute;ricas, usamos como valor inicial del tama&ntilde;o de paso &lambda;<sub>0</sub> = 1 y como valores de la constante a usamos dos valores 0.0001 y 0.01.</p>       <p>Realizamos dos tipos de pruebas num&eacute;ricas:</p>       <blockquote>      ]]></body>
<body><![CDATA[<p>l. Comparar el desempe&ntilde;o num&eacute;rico de las cuatro versiones del m&eacute;todo secante estructurado. Haremos referencia a estas versiones como m&eacute;todos PSBE, DFPE, BFGSE y SRlE, respectivamente.</p>      <p>2. Comparar el desempe&ntilde;o num&eacute;rico de los m&eacute;todos BFGS, LevenvergMarquard, Gauss-Newton y "el mejor" de los m&eacute;todos estructurados mencionados en el numeral anterior.</p> </blockquote>      <p><b>Problema 1: Evaluaci&oacute;n de la funci&oacute;n seno</b></p>      <p>Este problema ilustra el uso del percetr&oacute;n multicapa como aproximador universal de funciones. En efecto, para cualquier funci&oacute;n de    <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>n</i></sup> en <font face="Lucida Grande, Lucida Sans Unicode, Lucida Sans, DejaVu Sans, Verdana, sans-serif">&#8477;</font><sup><i>m</i></sup>,  siempre es posible dise&ntilde;ar y entrenar un perceptr&oacute;n multicapa, de tal manera que realice un ajuste de los datos de dicha funci&oacute;n con un grado de precisi&oacute;n predefinido (Caicedo, y L&oacute;pez, 2009). En particular, es relativamente sencillo evaluar una funci&oacute;n de variable y valor real  tal como la funci&oacute;n seno, mediante una de estas redes.</p>      <p>Resolvimos el problema mediante una percetr&oacute;n multicapa de tres capas (<a href="#fig3">Figura 3</a>), donde el n&uacute;mero de neuronas en la capa oculta (neo) es definido por el usuario. Los patrones de entrenamiento fueron <b>x</b> = (<i>x</i><sub>1</sub>,...,<i>x</i><sub><i>p</i></sub>)<sup><i>T</i></sup>, <i>p</i> = 41 y <b>t</b> (<i>t</i><sub>1</sub>,...,<i>t</i><sub><i>p</i></sub>)<sup><i>T</i></sup> cob <i>t</i><sub><i>i</i></sub> = <i>senx</i><sub><i>i</i></sub>, donde las componentes de <b>x</b> (entradas de la red) son n&uacute;meros reales distribuidos uniformemente en el intervalo &#91;0,2&pi;&#93;. Usamos como funci&oacute;n de activaci&oacute;n la sigmoidal (logsig) y la identidad (purelin) en la capa oculta y de salida, respectivamente (Caicedo, y L&oacute;pez, 2009).</p>      <p align="center">Figura 3. Perceptr&oacute;n multicapa que aproxima laf&uacute;nci&oacute;n seno.</p>      <p align="center"><a name="fig3"><img src="img/revistas/rcien/v18n2/v18n2a10-fig03.jpg"></a></p>      <p>El vector de pesos iniciales para cada valor de <i>neo</i>, <b><i>w</i></b><sub>0</sub><sup><i>nco</i></sup>, lo generamos aleatoriamente con la funci&oacute;n de MATLAB&reg; <i>randan</i>(&middot;,&middot;), exactamente <b><i>w</i></b><sub>0</sub><sup><i>nco</i></sup> = <i>randn</i>(3<i>neo</i> + 1, 1) (Vivas, 2014).</p>      <p>Presentamos los resultados de estas pruebas en dos tablas, cuyas dos primeras columnas contienen la informaci&oacute;n sobre el n&uacute;mero de neuronas en la capa oculta (<i>neo</i>) y la tolerancia usada (<i>Tal</i>). Las cuatro columnas siguientes contienen, para cada m&eacute;todo, el tiempo de ejecuci&oacute;n (<i>t</i>) , medido en segundos, y el n&uacute;mero de iteraciones (<i>n</i>). El s&iacute;mbolo "-" indica que hubo divergencia del m&eacute;todo considerado (se excedi&oacute; el n&uacute;mero m&aacute;ximo de iteraciones permitido (<i>N</i>= 500 )).</p>      <p>En la <a href="#tab1">Tabla 1</a>, podemos observar que en general, el m&eacute;todo BFGSE convergi&oacute; en el menor tiempo y n&uacute;mero de iteraciones, mientras que los m&eacute;todos DFPE y SR1E no convergieron en ning&uacute;n de los casos. De la <a href="#tab2">Tabla 2</a>, observamos que para <i>Tol</i> &le;; 10<sup>-5</sup> y <i>neo</i> = 4 y 5, el m&eacute;todo BFGSE siempre converge y lo hace con un mejor desempe&ntilde;o num&eacute;rico que los otros m&eacute;todos comparados aqu&iacute;. Adem&aacute;s, el m&eacute;todo Levenberg-Marquardt present&oacute; mejor desempe&ntilde;o num&eacute;rico que Gauss-Newton.</p>      ]]></body>
<body><![CDATA[<p align="center">Tabla 1. Resultados de los m&eacute;todos secantes estructurados para la evaluaci&oacute;n de la funci&oacute;n seno</p>      <p align="center"><a name="tab1"><img src="img/revistas/rcien/v18n2/v18n2a10-tab01.jpg"></a></p>      <p align="center">Tabla 2. Resultados de los m&eacute;todos de Gauss-Newton (GN), Levenberg-Marquardt (LM) y secante estructurado (BFGSE) para la evaluaci&oacute;n de la funci&oacute;n seno</p>      <p align="center"><a name="tab2"><img src="img/revistas/rcien/v18n2/v18n2a10-tab02.jpg"></a></p>      <p>Cabe mencionar que, la divergencia en los m&eacute;todos secantes estructurados PSBE, DFPE, Levenberg-Marquardt y Gauss-Newton, ilustrada en las Tablas <a href="#tab1">1</a> y <a href="#tab2">2</a>, se debe a que se alcanz&oacute; el n&uacute;mero m&aacute;ximo de iteraciones permitido. Sin embargo, las Tablas <a href="#tab3">3</a> y <a href="#tab4">4</a> muestran lo que sucede si el n&uacute;mero m&aacute;ximo de iteraciones se aumenta suficientemente (o considerablemente).</p>      <p align="center">Tabla 3. Otros resultados de los m&eacute;todos secantes estructurados, N = 25 ,000, para la evaluaci&oacute;n de la funci&oacute;n seno.</p>      <p align="center"><a name="tab3"><img src="img/revistas/rcien/v18n2/v18n2a10-tab03.jpg"></a></p>      <p align="center">Tabla 4. Otros resultados de los m&eacute;todos de Gauss-Newton (GN), Levenberg-Marquardt (LM) y secante estructurado (BFGSE), <i>N</i>= 25,000, para la evaluaci&oacute;n de la funci&oacute;n seno</p>      <p align="center"><a name="tab4"><img src="img/revistas/rcien/v18n2/v18n2a10-tab04.jpg"></a></p>      <p><b>Problema 2: Predicci&oacute;n de consumo el&eacute;ctrico &#91;8, 15&#93;.</b></p>      ]]></body>
<body><![CDATA[<p>Una empresa abastecedora de energ&iacute;a el&eacute;ctrica, en una poblaci&oacute;n, debe garantizar que el servicio siempre llegue con buena calidad y, de ser posible, a un precio justo. Para que esto ocurra, el servicio debe entregar energ&iacute;a a todos los puntos que lo requieran, mantener los l&iacute;mites de la frecuencia y la tensi&oacute;n con valores dentro de un rango tolerable y operar con costos m&iacute;nimos, tanto econ&oacute;micos como ambientales. Por tal motivo, es indispensable una planeaci&oacute;n exhaustiva del sistema que nos permita, no solo conocer su estado actual en cualquier momento sino tambi&eacute;n estados futuros, con el fin de no producir en exceso, ya que habr&iacute;a desperdicio del servicio y da&ntilde;os en el medio ambiente; ni producir tan poco, que  no sea suficiente para cubrir las necesidades del servicio.     <p>U na de las partes indispensables en esta planeaci&oacute;n es la predicci&oacute;n del consumo de carga el&eacute;ctrica. El inter&eacute;s de esta predicci&oacute;n radica en la necesidad de que las empresas productoras o vendedoras de energ&iacute;a de la regi&oacute;n, conozcan con antelaci&oacute;n las necesidades de su mercado para poder planear la distribuci&oacute;n futura de la energ&iacute;a el&eacute;ctrica, con el fin de optimizar tanto la producci&oacute;n como su abastecimiento. Por tal motivo, este problema consiste en predecir la demanda de consumo el&eacute;ctrico en una regi&oacute;n para una hora y un d&iacute;a cualquiera, en a&ntilde;os futuros.</p>     <p>Para resolver este problema, usamos el modelo propuesto en una investigaci&oacute;n realizada en la Universidad Tecnol&oacute;gica de Pereira (<i>Medicina y Complejidad</i>, s.f.), este modelo consiste en una red neuronal de 4 capas (<a href="#fig4">Figura 4</a>): la capa de entrada, con dos neuronas que corresponden al d&iacute;a y la hora; la capa de salida, con una neurona que corresponde al consumo el&eacute;ctrico en kilovatios ( <i>kw); </i>la primera capa oculta, con doce neuronas, y la segunda capa oculta, con ocho neuronas. Como funciones de activaci&oacute;n usaron la tangente sigmoidal (tansig), en ambas capas ocultas, y la identidad (purelin), en la capa de salida, y como algoritmo de entrenamiento, el m&eacute;todo de Levenberg-Marquardt  que aparece en el Toolbox de MATLAB&reg;.</p>      <p align="center">Figura 4. Perceptr&oacute;n multicapa para el consumo el&eacute;ctrico</p>      <p align="center"><a name="fig4"><img src="img/revistas/rcien/v18n2/v18n2a10-fig04.jpg"></a></p>      <p>Para generar vectores iniciales, procedimos de la siguiente forma. Inicialmente, generamos aleatoriamente dos vectores <img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car23.jpg"><sub>0</sub> = <i>randan</i>(149,1) y <img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car23.jpg"><sub>1</sub> = <i>randan</i>(149,1). Luego generamos otros vectores iniciales de la forma &alpha;<img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car23.jpg"><sub>0</sub> y &micro;<img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car23.jpg"><sub>0</sub> + <img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car23.jpg"><sub>0</sub>, para <img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car24.jpg"> = 1, 1.2, 2, 2.5, 10, -10, 10<sup>2</sup> y &micro; = 1, 10, 10<sub>2</sub> , respectivamente (Vivas, 2014).</p>      <p>En las pruebas numencas para el Problema 2, usamos 112 datos de entrenamiento extra&iacute;dos de los datos usados en (<i>Medicina y Complejidad</i>, s.f.) y los cuales, corresponden a los promedios hist&oacute;ricos de consumo el&eacute;ctrico, en una poblaci&oacute;n de muestra a la que se le hizo un seguimiento, hora a hora, durante una semana.</p>      <p>Los resultados de las pruebas num&eacute;ricas para el Problema 2, los presentamos en las Tablas <a href="#tab5">5</a> y <a href="#tab6">6</a>. La primera tabla contiene informaci&oacute;n de los algoritmos secantes estructurados obtenida a partir de puntos iniciales de la forma <img width="20" src="img/revistas/rcien/v18n2/v18n2a10-car24.jpg"><b>w</b><sub>0</sub> y &micro;<b>w</b><sub>1</sub> + <b>w</b><sub>0</sub>.  Exactamente, la primer columna contiene los valores de &alpha; y de &micro; utilizados. Las cuatro columnas siguientes contienen, para cada m&eacute;todo secante estructurado, la tolerancia usada (<i>Tol</i>), el tiempo de ejecuci&oacute;n (<i>t</i>), medido en segundos y el n&uacute;mero de iteraciones (<i>n</i>). La segunda tabla, contiene los resultados de la comparaci&oacute;n de los m&eacute;todos de Gauss-Newton, Levenberg-Marquardt y secante estructurado (BFGSE), a partir de estos puntos iniciales. El s&iacute;mbolo "-" indica que hubo divergencia del m&eacute;todo considerado (se excedi&oacute; el n&uacute;mero m&aacute;ximo de iteraciones permitido, (N= 200 )).</p>      <p>En la <a href="#tab5">Tabla 5</a>, podemos observar que, en general, los 4 m&eacute;todos secantes estructurados tienen un buen desempe&ntilde;o num&eacute;rico (similar en todos los casos), en cuanto a tiempo de ejecuci&oacute;n y n&uacute;mero de iteraciones, excepto, cuando &micro; = 10<sup>2</sup>, y <i>Tol</i> = 10<sup>-3</sup>, caso en el cual, el m&eacute;todo PSBE emple&oacute; m&aacute;s tiempo y convergi&oacute; en un n&uacute;mero mayor de iteraciones que los otros m&eacute;todos.</p>      <p align="center">Tabla 5. Resultados de los m&eacute;todos secantes estructurados para el problema del consumo el&eacute;ctrico</p>      ]]></body>
<body><![CDATA[<p align="center"><a name="tab5"><img src="img/revistas/rcien/v18n2/v18n2a10-tab05.jpg"></a></p>      <p align="center">Tabla 6. Resultados de los m&eacute;todos Gauss-Newton (GN), Levenberg-Marquardt (LM), BFGS y secante estructurado BFGSE para el problema del consumo el&eacute;ctrico</p>      <p align="center"><a name="tab6"><img src="img/revistas/rcien/v18n2/v18n2a10-tab06.jpg"></a></p>      <p>Con relaci&oacute;n a la <a href="#tab6">Tabla 6</a>, podemos observar, como esper&aacute;bamos, el buen desempe&ntilde;o num&eacute;rico del m&eacute;todo BFGSE en comparaci&oacute;n con los m&eacute;todos BFGS, Gauss-Newton y Levenberg-Marquardt, en todos los aspectos comparados. Ahora, si solo comparamos los m&eacute;todos Gauss-Newton y Levenberg-Marquardt, vemos que en casi todos los casos hay divergencia. Esta divergencia est&aacute; condicionada al n&uacute;mero m&aacute;ximo de iteraciones permitido en cada algoritmo (N), tal como sucedi&oacute; para el Problema l.</p>      <p>Por otra parte, podemos observar que los resultados obtenidos est&aacute;n acordes con la teor&iacute;a sobre los m&eacute;todos estudiados, la cual garantiza que para problemas de gran tama&ntilde;o, la convergencia de los m&eacute;todos secantes estructurados, en especial el m&eacute;todo BFGSE, en general, es mejor que la de los otros m&eacute;todos con los cuales hicimos las comparaciones (Dennis &amp; Schnabel, 1983).</p>      <p><font size="3"><b>5. Comentarios finales</b></font></p>      <p>El estudio de redes neuronales artificiales constituye en la actualidad un amplio y activo campo en el que pueden interactuar investigadores de muchas y diferentes &aacute;reas, para resolver problemas pr&aacute;cticos y &uacute;tiles tales como control de procesos industriales, reconocimiento de veh&iacute;culos en los peajes de las autopistas, previsi&oacute;n de consumo el&eacute;ctrico, entre otros. En este contexto, es quiz&aacute; el perceptr&oacute;n multicapa, con su algoritmo de entrenamiento de retropropagaci&oacute;n de errores, el modelo neuronal m&aacute;s utilizado.</p>      <p>M&eacute;todos num&eacute;ricos tradicionalmente usados en el entrenamiento supervisado del perceptr&oacute;n multicapa como por ejemplo Newton, Gauss-Newton y LevenvergMarquardt requieren del c&aacute;lculo de la matriz hessiana de la funci&oacute;n error; es decir, requieren informaci&oacute;n de segundo orden, lo que representa, a pesar de las buenas propiedades de los m&eacute;todos, una desventaja de ellos, ya que los hace inadecuados para problemas con un elevado n&uacute;mero de neuronas. En este caso, el c&aacute;lculo anal&iacute;tico del hessiano es muy dif&iacute;cil o muy costoso, computacionalmente, dado el gran n&uacute;mero de operaciones involucradas en el proceso. Una alternativa la representa el m&eacute;todo secante estructurado, el cual no requiere expl&iacute;citamente el c&aacute;lculo directo de la matriz hessiana de la funci&oacute;n a minimizar y adem&aacute;s, aprovecha la estructura del problema, sin contar con las buenas propiedades de convergencia que posee.</p>      <p>Motivados por las buenas caracter&iacute;sticas del m&eacute;todo secante estructurado, en este art&iacute;culo lo proponemos e implementamos, por primera vez, para el entrenamiento del perceptr&oacute;n multicapa, y analizamos num&eacute;ricamente su desempe&ntilde;o compar&aacute;ndolo con los m&eacute;todos Gauss-Newton y Levenverg-Marquardt. Resultados de pruebas num&eacute;ricas presentadas indican un buen comportamiento num&eacute;rico del m&eacute;todo propuesto, pero creemos que es necesario realizar m&aacute;s experimentaci&oacute;n num&eacute;rica con diversos problemas de aplicaci&oacute;n e introducir otros m&eacute;todos de globalizaci&oacute;n, con lo cual se abre la puerta a nuevas investigaciones.</p>      <p><font size="3"><b>Agradecimientos</b></font></p>      ]]></body>
<body><![CDATA[<p>Los autores agradecen a la Universidad del Cauca por el tiempo concedido para este trabajo mediante el Proyecto de investigaci&oacute;n VRI ID 3908.</p>      <p><font size="3"><i>Citas de pie de p&aacute;gina</i></font></p>      <p><a href="#v1" name="1">1.</a> El nombre de ecuaci&oacute;n secante se utiliza porque en el caso <i>n </i>= 1, <i>B</i><sub><i>k</i>+<i>l</i></sub> representa la pendiente de la recta  secante a la gr&aacute;fica de la funci&oacute;n <i>f'</i>que une los puntos <i>(<i>x<sub>k</sub></i>,<i>f'</i>(<i>x<sub>k</sub></i>)) </i>y <i>(<i>x</i><sub><i>k</i>+<i>l</i></sub>, <i>f'</i>(<i>x</i><sub><i>k</i>+<i>l</i></sub>))&middot;</i></p>     <p><a href="#v2" name="2">2.</a> <i>NL2SOL </i>es una biblioteca en FORTRAN90 que implementa un algoritmo para resolver problemas de m&iacute;nimos cuadrados no lineales y fue creada por John Dennis, David Gay y Roy Welsch. Este es un m&eacute;todo de implementaci&oacute;n para el algoritmo secante estructurado que usa una estrategia de regi&oacute;n de confianza para globalizarlo (Mart&iacute;nez &amp; Engels, 1991; Dennis &amp; Schnabel 1983). </p>     <p><a href="#v3" name="3">3.</a> Existen diversas demostraciones de que este modelo de perceptr&oacute;n multicapa es un aproximador universal de funciones (Mart&iacute;n del Br&iacute;o y Sanz, 2007).</p>  <hr>      <p><font size="3"><b>Referencias</b></font></p>     <!-- ref --><p>Caicedo, E. F., y L&oacute;pez,  J. A. (2009). <i>Una aproximaci&oacute;n Pr&aacute;ctica a las Redes Neuronales Artificiales</i>. Cali, Colombia: Programa Editorial Universidad del Valle.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346193&pid=S0121-1935201400020001000001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> </p>     <!-- ref --><p>Dennis, J. E., &amp; Schnabel, R. B. (1983). <i>Numerical methods for unconstrained optimization and nonlinear equations</i>. New Jersey, USA: Prentice-Hall.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346195&pid=S0121-1935201400020001000002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     ]]></body>
<body><![CDATA[<!-- ref --><p>Dennis, J . E., &amp; Walker, H. F. (1983). Covergence theorems for least change secant update methods. <i>SIAM Journal Numerical Analisys</i>, <i>18</i>, 949-987.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346197&pid=S0121-1935201400020001000003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p> Dennis Jr, J. E., Gay, D. M., &amp; Welsch, R. E. (1981). Algorithm 573: NL2SOL-an adaptive nonlinear least-squares algorithm &#91;E4&#93;. <i>ACM Transactions on Mathematical Software (TOMS)</i>, <i>7</i>(3), 369-383.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346199&pid=S0121-1935201400020001000004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> </p>     <!-- ref --><p>Fletcher, R. (2000). <i>Practica! Methods of Optimization</i> (3 ed.). New York, USA: Wiley.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346201&pid=S0121-1935201400020001000005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p> Gavin, P. H. (2013). <i>The Levenberg-Marquardt method for nonlinear least squares curve-fitting problems</i>. Durham, USA: Duke University.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346203&pid=S0121-1935201400020001000006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>Kandel, E. R., Schwartz, T. H., &amp; Jessel, T. M. (1999). <i>Principies of Neural Science</i> (4 ed.). New York: McGraw-Hill.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346205&pid=S0121-1935201400020001000007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     ]]></body>
<body><![CDATA[<!-- ref --><p>Mart&iacute;n del Br&iacute;o, B., y Sanz, A. (2007). <i>Redes Neuronales y Sistemas Borrosos</i>. Barcelona, Espa&ntilde;a: Alfaomega.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346207&pid=S0121-1935201400020001000008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p> Mart&iacute;nez, R.H.J., &amp; Engels, J. (1991). Local and superlinear convergence for   partially known quasi-Newton methods. <i>Siam Journal on Optimization</i>, <i>1</i>(1),  42 - 56.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346209&pid=S0121-1935201400020001000009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p> Mart&iacute;nez, R.H.J., Dennis, J., &amp; Tapia, R. (1989). Convergence theory for the structured BFGS secant method with an application to nonlinear least squares. <i>Journal of Optimization Theory And Applications</i>, <i>61</i>, 161 - 178.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346211&pid=S0121-1935201400020001000010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref -->&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346212&pid=S0121-1935201400020001000011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> Mor&eacute;, J.J., Garbow, B. S., &amp; Hillstrom, K. E. (1980). <i>User guide for MINPACK-1. Argonne National Labs Report ANL-80-74</i>.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346213&pid=S0121-1935201400020001000012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>Nocedal, J., &amp; Wright, S. J. (2006). <i>Numerical Optimization</i> (2 ed.). London, UK: Springer.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346215&pid=S0121-1935201400020001000013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> </p>     ]]></body>
<body><![CDATA[<!-- ref --><p>P&eacute;rez, R., y D&iacute;az, T. (2010). <i>Minimizaci&oacute;n sin Restricciones</i>. Popay&aacute;n, Colombia: Editorial Universidad del Cauca.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346217&pid=S0121-1935201400020001000014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>Vivas, H. (2014). <i>Optimizaci&oacute;n en entrenamiento del perceptr&oacute;n multicapa</i>. Tesis de Maestr&iacute;a. Universidad del Cauca, Popay&aacute;n, Colombia.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=6346219&pid=S0121-1935201400020001000015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>      <p><img src="img/revistas/rcien/v18n2/cc.jpg">    <br> Revista de Ciencias por Universidad del Valle se encuentra bajo una licencia <a href="https://creativecommons.org/licenses/by/4.0/" target="_blank">Creative Commons Reconocimiento 4.0.</a></p>  </font>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Caicedo]]></surname>
<given-names><![CDATA[E. F.]]></given-names>
</name>
<name>
<surname><![CDATA[López]]></surname>
<given-names><![CDATA[J. A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Una aproximación Práctica a las Redes Neuronales Artificiales]]></source>
<year>2009</year>
<publisher-loc><![CDATA[Cali ]]></publisher-loc>
<publisher-name><![CDATA[Programa Editorial Universidad del Valle]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dennis]]></surname>
<given-names><![CDATA[J. E.]]></given-names>
</name>
<name>
<surname><![CDATA[Schnabel]]></surname>
<given-names><![CDATA[R. B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Numerical methods for unconstrained optimization and nonlinear equations]]></source>
<year>1983</year>
<publisher-loc><![CDATA[New Jersey ]]></publisher-loc>
<publisher-name><![CDATA[Prentice-Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dennis]]></surname>
<given-names><![CDATA[J . E.]]></given-names>
</name>
<name>
<surname><![CDATA[Walker]]></surname>
<given-names><![CDATA[H. F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Covergence theorems for least change secant update methods]]></article-title>
<source><![CDATA[SIAM Journal Numerical Analisys]]></source>
<year>1983</year>
<volume>18</volume>
<page-range>949-987</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dennis Jr]]></surname>
<given-names><![CDATA[J. E.]]></given-names>
</name>
<name>
<surname><![CDATA[Gay]]></surname>
<given-names><![CDATA[D. M.]]></given-names>
</name>
<name>
<surname><![CDATA[Welsch]]></surname>
<given-names><![CDATA[R. E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Algorithm 573: NL2SOL-an adaptive nonlinear least-squares algorithm [E4]]]></article-title>
<source><![CDATA[ACM Transactions on Mathematical Software (TOMS)]]></source>
<year>1981</year>
<volume>7</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>369-383</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fletcher]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Practica! Methods of Optimization]]></source>
<year>2000</year>
<edition>3</edition>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Wiley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gavin]]></surname>
<given-names><![CDATA[P. H.]]></given-names>
</name>
</person-group>
<source><![CDATA[The Levenberg-Marquardt method for nonlinear least squares curve-fitting problems]]></source>
<year>2013</year>
<publisher-loc><![CDATA[Durham ]]></publisher-loc>
<publisher-name><![CDATA[Duke University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kandel]]></surname>
<given-names><![CDATA[E. R.]]></given-names>
</name>
<name>
<surname><![CDATA[Schwartz]]></surname>
<given-names><![CDATA[T. H.]]></given-names>
</name>
<name>
<surname><![CDATA[Jessel]]></surname>
<given-names><![CDATA[T. M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Principies of Neural Science]]></source>
<year>1999</year>
<edition>4</edition>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[McGraw-Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martín del Brío]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[Sanz]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Redes Neuronales y Sistemas Borrosos]]></source>
<year>2007</year>
<publisher-loc><![CDATA[Barcelona ]]></publisher-loc>
<publisher-name><![CDATA[Alfaomega]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez]]></surname>
<given-names><![CDATA[R.H.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Engels]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Local and superlinear convergence for partially known quasi-Newton methods]]></article-title>
<source><![CDATA[Siam Journal on Optimization]]></source>
<year>1991</year>
<volume>1</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>42 - 56</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez]]></surname>
<given-names><![CDATA[R.H.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Dennis]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Tapia]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Convergence theory for the structured BFGS secant method with an application to nonlinear least squares]]></article-title>
<source><![CDATA[Journal of Optimization Theory And Applications]]></source>
<year>1989</year>
<volume>61</volume>
<page-range>161 - 178</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<source><![CDATA[Medicina y Complejidad]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Moré]]></surname>
<given-names><![CDATA[J.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Garbow]]></surname>
<given-names><![CDATA[B. S.]]></given-names>
</name>
<name>
<surname><![CDATA[Hillstrom]]></surname>
<given-names><![CDATA[K. E.]]></given-names>
</name>
</person-group>
<source><![CDATA[User guide for MINPACK-1. Argonne National Labs Report ANL-80-74]]></source>
<year>1980</year>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nocedal]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Wright]]></surname>
<given-names><![CDATA[S. J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Numerical Optimization]]></source>
<year>2006</year>
<edition>2</edition>
<publisher-loc><![CDATA[London ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pérez]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Díaz]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
</person-group>
<source><![CDATA[Minimización sin Restricciones]]></source>
<year>2010</year>
<publisher-loc><![CDATA[Popayán ]]></publisher-loc>
<publisher-name><![CDATA[Editorial Universidad del Cauca]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vivas]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
</person-group>
<source><![CDATA[Optimización en entrenamiento del perceptrón multicapa]]></source>
<year>2014</year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
