<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0123-4226</journal-id>
<journal-title><![CDATA[Revista U.D.C.A Actualidad & Divulgación Científica]]></journal-title>
<abbrev-journal-title><![CDATA[rev.udcaactual.divulg.cient.]]></abbrev-journal-title>
<issn>0123-4226</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Ciencias Aplicadas y Ambientales]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0123-42262011000100018</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[EL ROL DEL ALGORITMO DE ENTRENAMIENTO EN LA SELECCIÓN DE MODELOS DE REDES NEURONALES]]></article-title>
<article-title xml:lang="en"><![CDATA[ROLE OF THE TRAINING ALGORITHM IN MODEL SELECTION ON NEURAL NETWORKS]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sánchez]]></surname>
<given-names><![CDATA[Paola]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Velásquez]]></surname>
<given-names><![CDATA[Juan]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Colombia Facultad de Minas ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional de Colombia Facultad de Minas ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>30</day>
<month>06</month>
<year>2011</year>
</pub-date>
<pub-date pub-type="epub">
<day>30</day>
<month>06</month>
<year>2011</year>
</pub-date>
<volume>14</volume>
<numero>1</numero>
<fpage>149</fpage>
<lpage>156</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0123-42262011000100018&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0123-42262011000100018&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0123-42262011000100018&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La capacidad de ajuste de una red neuronal se ve a menudo afectada por la configuración usada, en especial, en relación al número de neuronas ocultas y de variables de entrada, toda vez que, a medida que el número de parámetros del modelo aumenta, se favorece el aprendizaje de la red y, por tanto, el ajuste es mejor. Teóricamente, un proceso constructivo de adición de parámetros debería conducir a reducciones sistemáticas en el error, siempre y cuando, los modelos sean anidados en cada paso del proceso. En este trabajo, se valida la hipótesis que la adición de neuronas ocultas en modelos anidados debe conducir a reducciones en el error, sin importar el algoritmo de entrenamiento usado; para ejemplificar la discusión, se usaron la serie de pasajeros en líneas aéreas y de manchas solares de Box & Jenkins y los métodos de entrenamiento de Regla Delta y RProp. La evidencia experimental demuestra que los métodos de entrenamiento evaluados exhiben comportamientos diferentes a los teóricamente esperados, incumpliendo el supuesto de reducción del error.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The Neural net’s fit ability is often affected by the network configuration, particularly the number of hidden neurons and input variables. As the size of these parameters increases, the learning also increases, then the fit of network is better. Theoretically, if parameters are increasing regularly, the error should be reduced systematically, provided that the models are nested for each step of the process. In this work, we validated the hypothesis that the addition of hidden neurons in nested models lead to systematic reductions in error, regardless of the learning algorithm used; to illustrate the discussion we used the number of airline passengers and Sunspots in Box & Jenkins, and RProp and Delta Rule as learning methods. Experimental evidence shows that the evaluated training methods show different behaviors as those theoretically expected, it means, not fulfilling the assumption of error reduction.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Redes Neuronales]]></kwd>
<kwd lng="es"><![CDATA[Algoritmo de Entrenamiento]]></kwd>
<kwd lng="en"><![CDATA[Artificial neural networks]]></kwd>
<kwd lng="en"><![CDATA[training algorithm]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font size="2" face="verdana">     <p align=right><b> Ciencias B&aacute;sicas - Art&iacute;culo Cient&iacute;fico</b></p>             <p align="center"><b>EL ROL DEL ALGORITMO DE ENTRENAMIENTO EN LA SELECCI&Oacute;N DE MODELOS DE REDES NEURONALES</b></p>           <p align="center"><b> ROLE OF THE TRAINING ALGORITHM IN MODEL SELECTION ON NEURAL NETWORKS </b></p>      <p><b>Paola S&aacute;nchez<sup>1</sup> ; Juan Vel&aacute;squez <sup>2</sup></b></p>         <p><sup>1</sup> Ph.D. (c). Escuela de Sistemas. Facultad de Minas. Universidad Nacional de Colombia. Carrera 80 No. 65 – 223. Medell&iacute;n, Colombia. Autor para Correspondencia. E-mail:   <a href="mailto:pasanche@unal.edu.co"> pasanche@unal.edu.co</a></p>         <p><sup>2</sup> Ph.D. Escuela de Sistemas. Facultad de Minas. Universidad Nacional de Colombia. E-mail: <a href="mailto:jdvelasq@unal.edu.co">jdvelasq@unal.edu.co</a></p>      <p>Rev. U.D.C.A Act. &amp; Div. Cient. 14(1): 149 - 156, 2011</p> <hr>            <p><b>RESUMEN</b></p>     <p>La capacidad de ajuste de una red neuronal se ve a menudo afectada por la configuraci&oacute;n usada, en especial, en relaci&oacute;n al n&uacute;mero de neuronas ocultas y de variables de entrada, toda vez que, a medida que el n&uacute;mero de par&aacute;metros del modelo aumenta, se favorece el aprendizaje de la red y, por tanto, el ajuste es mejor. Te&oacute;ricamente, un proceso constructivo de adici&oacute;n de par&aacute;metros deber&iacute;a conducir a reducciones sistem&aacute;ticas en el error, siempre y cuando, los modelos sean anidados en cada paso del proceso. En este trabajo, se valida la hip&oacute;tesis que la adici&oacute;n de neuronas ocultas en modelos anidados debe conducir a reducciones en el error, sin importar el algoritmo de entrenamiento usado; para ejemplificar la discusi&oacute;n, se usaron la serie de pasajeros en l&iacute;neas a&eacute;reas y de manchas solares de Box &amp;Jenkins y los m&eacute;todos de entrenamiento de Regla Delta y RProp. La evidencia experimental demuestra que los m&eacute;todos de entrenamiento evaluados exhiben comportamientos diferentes a los te&oacute;ricamente esperados, incumpliendo el supuesto de reducci&oacute;n del error.</p>     ]]></body>
<body><![CDATA[<p>Palabras clave: Redes Neuronales, Algoritmo de Entrenamiento.</p> <hr>     <p><b>SUMMARY</b></p>     <p>The Neural net’s fit ability is often affected by the network configuration, particularly the number of hidden neurons and input variables. As the size of these parameters increases, the learning also increases, then the fit of network is better. Theoretically, if parameters are increasing regularly, the error should be reduced systematically, provided that the models are nested for each step of the process. In this work, we validated the hypothesis that the addition of hidden neurons in nested models lead to systematic reductions in error, regardless of the learning algorithm used; to illustrate the discussion we used the number of airline passengers and Sunspots in Box &amp;Jenkins, and RProp and Delta Rule as learning methods. Experimental evidence shows that the evaluated training methods show different behaviors as those theoretically expected, it means, not fulfilling the assumption of error reduction.</p>     <p>Key words: Artificial neural networks, training algorithm.</p> <hr>     <p><b>INTRODUCCI&Oacute;N</b></p> El pron&oacute;stico de series de tiempo es un &aacute;rea que ha despertado el inter&eacute;s de investigadores en diversos campos del conocimiento. Esta motivaci&oacute;n ha conducido al surgimiento de una amplia gama de modelos, donde las redes neuronales artificiales, vistas como una t&eacute;cnica no param&eacute;trica y no lineal de regresi&oacute;n, han demostrado un enorme potencial, debido a sus capacidades de adaptabilidad, generalizaci&oacute;n, aprendizaje y capacidad para representar relaciones no lineales (Zhang <i>et al.</i> 1998; Vel&aacute;squez <i>et al.</i> 2008). El creciente inter&eacute;s en el desarrollo de aplicaciones de pron&oacute;stico con redes neuronales, se denota con la publicaci&oacute;n de m&aacute;s de 5000 art&iacute;culos de investigaci&oacute;n presentes en la literatura (Crone &amp;Kourentzes, 2009; Adya &amp;Collopy, 1998).    <p>     <p>Si bien, existen muchos reportes exitosos sobre el uso de las redes neuronales en el pron&oacute;stico de series de tiempo, tambi&eacute;n y tal como lo enuncian Zhang <i>et al.</i> (1998), se han reportado resultados que contradicen estas evidencias, generando as&iacute; inconsistencias sobre este t&oacute;pico. Una explicaci&oacute;n aceptada de las razones que conducen a resultados inconsistentes est&aacute; relacionada con el elevado n&uacute;mero de factores determinantes en el proceso de construcci&oacute;n del modelo. Dicho proceso de construcci&oacute;n incluye:</p> <ul>    <p>&bull; La selecci&oacute;n del algoritmo de aprendizaje o entrenamiento utilizado y de los valores de sus par&aacute;metros, los cuales, impactan, directamente, aspectos, como el tiempo de convergencia, el valor de los estad&iacute;sticos de ajuste y la robustez del modelo final (Hagan <i>et al.</i> 1996; Fahlman, 1989; Tang &amp;Koehler, 1994).</p>     <p>&bull; La selecci&oacute;n del n&uacute;mero adecuado de neuronas en la capa oculta (Zhang <i>et al.</i> 2001; Murata <i>et al.</i> 1994).    </ul></p>     ]]></body>
<body><![CDATA[<p>Se sabe que estos aspectos est&aacute;n interrelacionados y que influyen en la bondad del modelo para ajustarse a los datos, as&iacute; como en su capacidad de generalizaci&oacute;n. Qi &amp;Zhang (2001) analizan la influencia del n&uacute;mero de neuronas ocultas en el ajuste del modelo, pero no presentan resultados concluyentes; por lo que no existe, una visi&oacute;n clara, coherente y com&uacute;nmente aceptada sobre esta interrelaci&oacute;n. La multiplicidad de criterios en cada una de las fases del proceso de construcci&oacute;n del modelo hace que la t&eacute;cnica sea inestable, ya que cualquier cambio en un solo criterio conduce a grandes cambios en el ajuste. Consecuentemente, un an&aacute;lisis del comportamiento de estos factores es de especial inter&eacute;s a la hora de implementar un modelo de red neuronal.</p>     <p>Se sabe que un proceso adecuado para la estimaci&oacute;n de los par&aacute;metros de una red neuronal es el punto de partida para determinar la forma del modelo, toda vez que se parte del supuesto que dicha estimaci&oacute;n es &oacute;ptima. Con respecto a esto, se ha demostrado que las redes neuronales artificiales son aproximadores universales de funciones, tal como lo establecen Hornik <i>et al.</i> (1989), basado en el teorema de superposici&oacute;n de Kolmogorov, un perceptr&oacute;n multicapa con un n&uacute;mero suficiente de neuronas ocultas puede aproximar, con un nivel arbitrario de precisi&oacute;n, cualquier funci&oacute;n continua definida en un espacio finito; sin embargo, la demostraci&oacute;n matem&aacute;tica no da indicios de c&oacute;mo se deben estimar los par&aacute;metros de la red neuronal tal que el error se pueda llevar arbitrariamente a cero; igualmente, tampoco presenta indicios que indiquen si el error de ajuste para un modelo m&aacute;s complejo (con m&aacute;s neuronas de entrada o m&aacute;s neuronas ocultas), respecto a un modelo m&aacute;s simple, deber&iacute;a aumentar, disminuir o permanecer igual. Uno de los intereses de este art&iacute;culo es mostrar que el error de ajuste a la muestra de entrenamiento debe disminuir o, a lo sumo, permanecer igual, cuando se aumentan las neuronas de la capa oculta o de la capa de entrada; no obstante, este aspecto no es discutido profundamente en la literatura.</p>     <p>El primer objetivo de este art&iacute;culo fue analizar las implicaciones te&oacute;ricas y conceptuales de esta propiedad y los requerimientos que de ella se derivan, los cuales, deber&iacute;an ser cumplidos por las diferentes metodolog&iacute;as de estimaci&oacute;n de modelos de redes neuronales artificiales.</p>     <p>Se debe anotar, que pareciera que la comunidad cient&iacute;fica diera por cierto que siempre es posible obtener un modelo que cumpla con el grado de precisi&oacute;n deseado en el ajuste, de tal forma que, el primer objetivo planteado, careciera de importancia real. As&iacute;, la contribuci&oacute;n realizada en esta investigaci&oacute;n consiste en analizar este aspecto, para determinar sus implicaciones sobre el proceso de obtenci&oacute;n de un modelo de redes neuronales, con el fin de demostrar que se presentan consideraciones conceptuales con profundas implicaciones pr&aacute;cticas, que no han sido contempladas.</p>     <p>Por otra parte, se sabe que una de las razones del desempe&ntilde;o pobre de una red neuronal est&aacute; relacionada con las fortalezas y las falencias del algoritmo de entrenamiento utilizado para calcular sus pesos o par&aacute;metros; esto es, su capacidad para eludir los m&iacute;nimos locales de la funci&oacute;n de error de ajuste y la facilidad de calibraci&oacute;n de sus par&aacute;metros, para aplicarlo a cada caso particular. Este aspecto ha motivado el planteamiento de muchos algoritmos novedosos, para la optimizaci&oacute;n que realizan una b&uacute;squeda computacionalmente m&aacute;s r&aacute;pida del &oacute;ptimo o que permitan encontrar &oacute;ptimos de mejor calidad (mejor ajuste del modelo), que otros m&eacute;todos disponibles; no obstante, en el desarrollo de dichos algoritmos no se tienen en cuenta las implicaciones pr&aacute;cticas que las redes sean aproximadores universales de funciones y de la reducci&oacute;n del error de ajuste, a medida que se aumentan neuronas en la capa oculta.</p>     <p>El segundo objetivo de este trabajo fue analizar, de forma emp&iacute;rica, si dos de los principales algoritmos de optimizaci&oacute;n usados para entrenar redes neuronales -regla delta generalizada y <i>resilent back propagation</i> (Rprop)- cumplen con las implicaciones derivadas en el primer objetivo, en t&eacute;rminos de la reducci&oacute;n del error de ajuste. Existen dos aportes fundamentales en la consecuci&oacute;n de este objetivo: primero, el tipo de an&aacute;lisis planteado nunca ha sido realizado en la literatura t&eacute;cnica, de tal forma que, muchas razones que se podr&iacute;an dar, en principio, para rechazar este objetivo son basadas en la experiencia pr&aacute;ctica m&aacute;s que en un proceso riguroso de experimentaci&oacute;n, por lo que este rechazo carecer&iacute;a de fundamentos s&oacute;lidos. Y segundo, se presenta una nueva perspectiva del problema avalada por resultados experimentales que corroboran el an&aacute;lisis efectuado.</p>     <p>El an&aacute;lisis derivado de las conclusiones que se pueden lograr de los dos objetivos anteriores tiene profundas e importantes implicaciones conceptuales, te&oacute;ricas y pr&aacute;cticas del proceso de selecci&oacute;n del modelo, esto es, sobre las diferentes metodolog&iacute;as que se han desarrollado para determinar el n&uacute;mero adecuado de neuronas en la capa oculta. El tercer objetivo de esta investigaci&oacute;n es realizar dicho an&aacute;lisis.</p>     <p>La originalidad, importancia y relevancia de este trabajo est&aacute; basada en los siguientes aspectos:</p>     <p><ul>1. Se eval&uacute;an aspectos te&oacute;ricos de la construcci&oacute;n de modelos de redes neuronales, tales como el cumplimiento del supuesto de reducci&oacute;n del error en un proceso de adicci&oacute;n de neuronas ocultas y la inferencia del m&eacute;todo de entrenamiento en los resultados.</p>     <p>2. Se establecen criterios que deben ser considerados a la hora de construir una representaci&oacute;n de series de tiempo con redes neuronales, que son obviados en su implementaci&oacute;n y se discute c&oacute;mo estos afectan el modelo final obtenido.    ]]></body>
<body><![CDATA[</ul></p>     <p><b>MATERIALES Y M&Eacute;TODOS</b></p>     <p><u>El perceptr&oacute;n multicapa:</u> En la <a href="#f1">figura 1</a>, se presenta el esquema representativo de una red perceptr&oacute;n multicapa.</p>     <p>Este tipo de arquitectura de red neuronal consta de:</p>     <p><ul>&bull; Una capa de entrada, donde existe una neurona por cada valor rezagado de la serie de tiempo y<i><sub>t</sub></i>, con un n&uacute;mero de <i>P</i> retardos.</p>     <p>&bull; Una o m&aacute;s capas ocultas. En el caso particular analizado, se consider&oacute; &uacute;nicamente una capa oculta con <i>P</i> neuronas. Cada neurona de la capa oculta transforma su entrada neta usando una funci&oacute;n no lineal g(<sup>.</sup>), conocida t&eacute;cnicamente como funci&oacute;n de activaci&oacute;n o de transferencia, y la env&iacute;a hacia la siguiente capa, a trav&eacute;s de las conexiones &szlig;<i><i><sub>h</sub></i></i>.    <p>     <p>&bull; Una capa de salida. Para este caso, la capa de salida consta de una sola neurona, que corresponde al valor actual de la serie de tiempo y<i><sub>t</sub></i>.    </ul></p>     <p><a name=f1></a></p>    ]]></body>
<body><![CDATA[<p align="center"><img src="img/revistas/rudca/v14n1/v14n1a18f1.jpg"></p>     <p>Tanto las capas ocultas como la capa de salida reciben un pulso unitario de una neurona que no recibe entradas, la cual, es notada en la <a href="#f1">figura 1</a>, con la letra <i>B</i>. Las conexiones por las que se transmite este pulso son notadas como w<i><sub>h</sub></i>, para la capa oculta y, como <i>&eta;</i>, para la neurona de la capa de salida.</p>     <p>As&iacute;, el valor actual de una serie de tiempo es una funci&oacute;n no lineal de sus valores pasados y<sub>t–1</sub>, ... , y<sub>t–P</sub>, la cual, se define como:</p>     <p>    <p align="center"><img src="img/revistas/rudca/v14n1/v14n1a18ecu1.jpg"></p>     <p>donde e<i><sub>t</sub></i> representa los errores o residuos del modelo que son independientes e id&eacute;nticamente distribuidos (iid) con media cero y varianza constante &sigma;<sup>2</sup>.</p>     <p>Con el dise&ntilde;o de una red neuronal artificial, se pretende conseguir que, para ciertos valores rezagados de la variable explicada, &eacute;sta sea capaz de aproximar el valor actual de la serie de tiempo con una precisi&oacute;n deseada (Zhang et al. 1998). Para ello, adem&aacute;s de una estructura adecuada (determinada por los valores escogidos de <i>P</i> y <i>H</i>), se requiere de un proceso de aprendizaje, que permita modificar los valores de los pesos asociados a las distintas conexiones [<i>&eta;</i>, <i>&omega;</i><sub>h</sub>, &szlig;<i><sub>h</sub></i>, &alpha;<sub>p,h</sub> para <i>h</i> = 1, ... , <i>H</i> y <i>p</i> = 1, ... , <i>P</i>], tambi&eacute;n conocidos como par&aacute;metros del modelo. Tal como lo exponen Qi &amp;Zhang (2001) existe una estrecha relaci&oacute;n entre el desempe&ntilde;o del modelo y la selecci&oacute;n de los valores de <i>P</i> y <i>H</i>. La importancia primaria de hacer una selecci&oacute;n adecuada radica en las dificultades de convergencia del algoritmo de aprendizaje, que puede acarrear el incluir retardos irrelevantes y obtener un modelo final con pobre desempe&ntilde;o en ajuste y en generalizaci&oacute;n.</p>     <p>La literatura muestra el desarrollo de m&eacute;todos constructivos, que permiten la selecci&oacute;n del n&uacute;mero de neuronas ocultas dentro del proceso de entrenamiento, mediante una evaluaci&oacute;n de la conveniencia de adicionar o no un nuevo par&aacute;metro a la red, seg&uacute;n &eacute;ste disminuya el t&eacute;rmino del error. El desarrollo bajo el esquema constructivo exige que el error disminuya a medida que se adicionan par&aacute;metros al modelo; sin embargo, la base conceptual y las implicaciones pr&aacute;cticas de dicha reducci&oacute;n no son tenidas en cuenta a menudo.</p>     <p><u>Complejidad del modelo y reducci&oacute;n del error de ajuste:</u> Existen varios trabajos te&oacute;ricos que demuestran que una red neuronal, tipo perceptr&oacute;n multicapa, es un aproximador universal de funciones; un ejemplo es el trabajo de Hornik <i>et al.</i> (1989). En esta secci&oacute;n, se muestra que el error de ajuste debe disminuir o, en el por caso, permanecer igual, cuando se adicionan neuronas ocultas o de entrada. El razonamiento es el siguiente:</p>     <p><ul>&bull; Sea un perceptr&oacute;n multicapa con <i>H</i> neuronas en la capa oculta y que usa como entradas los primeros <i>P</i> rezagos de la serie. Se aplica la notaci&oacute;n MLP (<i>P</i>,<i>H</i>), para representar este modelo.</p>     ]]></body>
<body><![CDATA[<p>&bull; Los par&aacute;metros del modelo MLP (<i>P</i>,<i>H</i>) fueron estimados minimizado alguna funci&oacute;n de error medida sobre un conjunto fijo de patrones de entrenamiento. Este error es notado como E (<i>P</i>,<i>H</i>).</p>     <p>&bull; Sea un perceptr&oacute;n multicapa con una neurona oculta adicional; esto es, MLP (<i>P</i>,<i>H</i> + 1). Se cumple que E (<i>P</i>,<i>H</i>)>= E (<i>P</i>,<i>H</i>+1), lo cual, se puede demostrar usando una contradicci&oacute;n. Sup&oacute;ngase que E (<i>P</i>,<i>H</i>) < E (<i>P</i>,<i>H</i>+1), en teor&iacute;a esta situaci&oacute;n no se puede dar. El modelo MLP (<i>P</i>,<i>H</i> + 1), se puede obtener del modelo MLP (<i>P</i>,<i>H</i>), al agregar una neurona oculta adicional; si se conservan los valores de los pesos del modelo MLP (<i>P</i>,<i>H</i>) y se hace cero la conexi&oacute;n &szlig;<i><sub>h</sub></i>+1 (independientemente de los pesos de las conexiones de la capa de entrada a la capa oculta), se tiene que E (<i>P</i>,<i>H</i>) = E (<i>P</i>,<i>H</i>+1), sin aplicar ning&uacute;n proceso de optimizaci&oacute;n para ajustar los par&aacute;metros del modelo con una neurona adicional. Consecuentemente, el error debe permanecer igual o reducirse al agregar neuronas en la capa oculta.</p>     <p>&bull; Sea un perceptr&oacute;n multicapa con una entrada adicional; esto es, MLP (<i>P</i> + 1,<i>H</i>). Se cumple que E (<i>P</i>,<i>H</i>) >= E (<i>P</i>+1, <i>H</i>). Al igual que en el caso anterior, el modelo MLP (<i>P</i> +1,<i>H</i>), se puede obtener del modelo MLP (<i>P</i>,<i>H</i>) al agregar una nueva neurona de entrada para el rezago <i>P</i> +1; si se conservan los valores de los pesos del modelo MLP (<i>P</i>,<i>H</i>) y se hacen cero las conexiones &alpha;<sub><i>P</i>+1,h</sub> para <i>h</i>= 1, ... , <i>H</i>, se tiene que E (<i>P</i>+1, <i>H</i>) = E (<i>P</i>,<i>H</i>), sin aplicar ning&uacute;n proceso de optimizaci&oacute;n para ajustar los par&aacute;metros del modelo con una entrada adicional. Consecuentemente, el error debe permanecer igual o reducirse al agregar nuevas entradas al modelo.</p>    </ul>     <p>Lo anterior implica que un proceso de adici&oacute;n de neuronas ocultas va permitir (al menos te&oacute;ricamente) una reducci&oacute;n secuencial del error de ajuste del modelo hasta un nivel arbitrariamente cercano a cero; en otras palabras, un modelo con m&aacute;s neuronas ocultas se deber&iacute;a ajustar mejor a los datos de entrenamiento que un modelo con menos neuronas ocultas; sin embargo, usualmente, los algoritmos de optimizaci&oacute;n no tienen en cuenta, dentro de su especificaci&oacute;n, que se garantice dicha mejora, sugiriendo que la optimizaci&oacute;n, para cada posible modelo, se realiza de forma independiente.</p>     <p>En la literatura estad&iacute;stica, la reducci&oacute;n del error de ajuste al aumentar la complejidad del modelo es un concepto muy conocido; Hamilton (1994) es un ejemplo. El modelo MLP (<i>P</i>, <i>H</i>) es llamado modelo restringido, sub-modelo o modelo anidado respecto a los modelos MLP (<i>P</i>, <i>H</i>+1) y MLP (<i>P</i>, +1, <i>H</i>), que son conocidos como completos. De aqu&iacute; en adelante, el modelo completo, se refiere a MLP (<i>P</i>, <i>H</i>+1), a menos que se especifique lo contrario. La comparaci&oacute;n entre el modelo completo y el restringido es usada en el contraste del radio de verosimilitud, para determinar si una neurona oculta adicional es estad&iacute;sticamente significativa -una explicaci&oacute;n extensa es presentada por Hamilton (1994)-.</p>     <p>En conclusi&oacute;n, para un perceptr&oacute;n multicapa y bajo un esquema constructivo de adicci&oacute;n de neuronas ocultas, se deber&iacute;a presentar una reducci&oacute;n sistem&aacute;tica del error de ajuste, cada vez que se agrega una neurona en la capa oculta, hasta un nivel de precisi&oacute;n del ajuste arbitrariamente cercano a cero.</p>     <p><u>Informaci&oacute;n utilizada:</u> Con el fin de validar emp&iacute;ricamente la reducci&oacute;n de del error de ajuste, se desarrollaron experimentos con dos diferentes conjuntos:</p>     <p><ul>1. Uso de la serie del n&uacute;mero mensual de pasajeros en l&iacute;neas a&eacute;reas (Airline), la cual, consta de 144 observaciones que equivalen a los datos mensuales, entre 1949:01 y 1960:12. Para la serie Airline, se siguieron los lineamientos se&ntilde;alados por Faraway &amp;Chatfield (1998) y Ghiassi <i>et al.</i> (2005), transformando la serie, mediante la funci&oacute;n logaritmo natural, antes de llevar a cabo la experimentaci&oacute;n.</p>     <p>2. Uso de la serie anual de manchas solares (SunSpots), que corresponde a 221 datos, en el periodo 1700 y 1920. Los datos de la serie Sunspots no fueron transformados.</p>    ]]></body>
<body><![CDATA[</ul>     <p><u>Experimento 1:</u> Se pretende evaluar si el ajuste de la serie es el mismo sin depender del algoritmo de entrenamiento que se use. Para ambas series, se consideraron configuraciones de red neuronal fijas, las cuales, se especifican por sus respectivos valores de <i>P</i> y <i>H</i>, y se estimaron los valores &oacute;ptimos de los par&aacute;metros empleando los algoritmos de entrenamiento regla delta generalizada y Rprop. El m&eacute;todo de la regla delta fue elegido por ser el algoritmo m&aacute;s com&uacute;nmente usado en las aplicaciones descritas en la literatura t&eacute;cnica para el entrenamiento de redes neuronales, mientras que el algoritmo RProp fue seleccionado por ser considerado uno de los algoritmos con m&aacute;s alto nivel de desempe&ntilde;o, velocidad de convergencia y robustez (Anastasiadis <i>et al.</i> 2003).</p>     <p>Para evitar la dependencia de los puntos iniciales y garantizar aleatoriedad en los resultados, cada proceso fue repetido 50 veces y se conservaron los valores de los pesos, que presentaron el menor error de ajuste.</p>     <p><u>Experimento 2:</u> El objetivo fue evaluar si a medida que se adicionan neuronas en la capa oculta y manteniendo un n&uacute;mero de entradas fijas, se produce una reducci&oacute;n del error de ajuste de los modelos a la serie de tiempo.</p>     <p>El experimento fue conducido de la siguiente forma:</p>     <p><ul>&bull; Para la serie Airline, se consideraron, como entradas, los rezagos 1, 12 y 13 (par&aacute;metros usados por Faraway &amp;Chatfield,1998). Para la serie Sunspots, las entradas elegidas fueron los rezagos 1 al 4 (par&aacute;metros empleados por Cottrell <i>et al.</i> 1995).</p>     <p>&bull; Se consideraron modelos que var&iacute;an desde una hasta diez neuronas en la capa oculta.</p>     <p>&bull; Cada modelo fue optimizado separadamente, con los algoritmos de regla delta generalizada y Rprop.</p>     <p>&bull; Para cada modelo considerado (que se obtiene variando la cantidad de neuronas en la capa oculta), se obtuvo modelo con el menor error cuadr&aacute;tico medio, elegido tras repetir cada proceso 50 veces, donde cada punto de inicio se eligi&oacute; de manera aleatoria.</p>    </ul>     ]]></body>
<body><![CDATA[<p><b>RESULTADOS Y DISCUSI&Oacute;N</b></p>     <p><u>Resultados obtenidos Experimento 1:</u> En <a href="#t1">tabla 1</a>, se exhiben la configuraci&oacute;n de red neuronal usada en el experimento y los errores obtenidos con cada algoritmo de entrenamiento. Estos, igualmente, son exhibidos en la <a href="#f2">figura 2</a>. En la  <a href="#f2">figura 2a</a>, se presenta el gr&aacute;fico de la serie Airline y su respectivo ajuste con los algoritmos Regla Delta y RProp. La <a href="#f2">figura 2b</a>, ilustra el mismo proceso para la serie Sunspots.</p>     <p><a name=t1></a></p>    <p align="center"><img src="img/revistas/rudca/v14n1/v14n1a18t1.jpg"></p>     <p><a name=f2></a></p>    <p align="center"><img src="img/revistas/rudca/v14n1/v14n1a18f2.jpg"></p>     <p>Las <a href="#f2">figuras 2a y 2b</a> demuestran que los ajustes obtenidos por ambos algoritmos (regla delta y RProp), bajo iguales condiciones de la red neuronal, son altamente diferentes. Esto demuestra la incidencia que tiene en la pr&aacute;ctica el m&eacute;todo de entrenamiento utilizado.</p>     <p><u>Resultados obtenidos Experimento 2:</u> En la <a href="#f3">figura 3</a>, se grafican los respectivos MSE obtenidos con la ejecuci&oacute;n del experimento para cada algoritmo de entrenamiento considerado versus la cantidad de neuronas en la capa oculta para la serie Airline (3a) y Sunspots (3b). En ambos paneles, se observa que el algoritmo de Regla Delta no es la mejor opci&oacute;n de entrenamiento, toda vez que el MSE obtenido siempre es mayor que el logrado usando RProp. Si bien, al aumentar el n&uacute;mero de neuronas en la capa ocultase da un mejor ajuste a las muestras de calibraci&oacute;n; el comportamiento te&oacute;rico secuencialmente decreciente no es evidente siempre en &eacute;ste m&eacute;todo. Este comportamiento es opuesto a lo evidenciado te&oacute;ricamente.</p>     <p><a name=f3></a></p>    <p align="center"><img src="img/revistas/rudca/v14n1/v14n1a18f3.jpg"></p>     ]]></body>
<body><![CDATA[<p>Por su parte, el algoritmo RProp permite encontrar errores secuencialmente decrecientes en apariencia; sin embargo, a partir de determinada neurona no existe una disminuci&oacute;n notable en el error de ajuste, por lo que no se alcanza la meta de cero; incluso, manifestando aumentos leves en el error calculado.</p>     <p>La evaluaci&oacute;n emp&iacute;rica del desempe&ntilde;o de los m&eacute;todos de entrenamiento regla delta generalizada y Rprop permiten concluir que no se puede garantizar el cumplimiento del criterio de reducci&oacute;n del error de ajuste a medida que se aumenta la complejidad del modelo, adicionando neuronas en la capa oculta. Ambos algoritmos fallan al no presentar reducciones constantes en el error de ajuste y exhibir un equilibrio en un valor diferente a cero para el MSE, manifestando as&iacute;, un comportamiento diferente al te&oacute;ricamente planteado. Este resultado infiere, directamente, el proceso de construcci&oacute;n del modelo y, por ende, la selecci&oacute;n adecuada del mejor modelo, toda vez que no se podr&iacute;a garantizar que no haya un modelo con mejor ajuste que el elegido.</p>     <p>Si bien, la falta de cumplimiento del supuesto se puede deber a otros factores, como implementaci&oacute;n incorrecta del modelo de red neuronal, configuraci&oacute;n de red inadecuada para las caracter&iacute;sticas de los datos o m&eacute;todos de entrenamiento inadecuados, se descarta que dichos factores sean los causantes en este caso, puesto que, en primer lugar, los modelos de red neuronal adoptados son sugeridos como mejores modelos en los trabajos de Faraway &amp;Chatfield (1998) y Cottrell <i>et al.</i> (1995); y en segundo lugar, se sigui&oacute; un protocolo est&aacute;ndar para la especificaci&oacute;n, la construcci&oacute;n y la selecci&oacute;n del modelo, el cual, fue replicado una cantidad suficiente de veces, para descartar aleatoriedad en los resultados.</p>     <p><u>Implicaciones en la selecci&oacute;n de entradas relevantes:</u> La selecci&oacute;n de las variables de entrada depende, en gran medida, del conocimiento que posea el modelador acerca de la serie de tiempo y es tarea de &eacute;ste elegir, seg&uacute;n alg&uacute;n criterio previamente fijado, la necesidad de cada variable dentro del modelo. La importancia primaria de hacer una selecci&oacute;n adecuada radica en las dificultades de convergencia en el aprendizaje que puede acarrear el incluir entradas irrelevantes y el pobre desempe&ntilde;o del modelo.</p>     <p>Las metodolog&iacute;as para la selecci&oacute;n de entradas relevantes, se basan en el supuesto que el algoritmo de optimizaci&oacute;n esta adecuadamente desarrollado, lo que degenera en consecuencias relacionadas con el incumplimiento de este supuesto, donde no se puede garantizar que la selecci&oacute;n de las variables sea correcta y m&aacute;s a&uacute;n que no se incluyan variables irrelevantes.</p>     <p><u>Implicaciones en la selecci&oacute;n de neuronas ocultas:</u> El incumplimiento del supuesto de reducci&oacute;n del error imposibilita un proceso constructivo de selecci&oacute;n de variables, toda vez que, no se puede garantizar que el error disminuya al adicionar una nueva entrada. M&aacute;s a&uacute;n, esto degenera en las siguientes dificultades:</p>     <p><ul>&bull; Falta de convergencia de la red: el error no siempre alcanza el nivel deseado o el tiempo para hacerlo es alto.</p>     <p>&bull; Pobre generalizaci&oacute;n: a menudo, algunos algoritmos, como el de la regla delta generalizada, presentan dificultades para replicar comportamientos, manifestando un amplio rango de valores del error, incluso, al comprender muchas variables.</p>     <p>&bull; Selecci&oacute;n err&oacute;nea de variables: las dificultades en convergencia y generalizaci&oacute;n pueden conducir a la inclusi&oacute;n de variables irrelevantes en el modelo, con el af&aacute;n de alcanzar un nivel del error deseado y esto, a su vez, conduce a modelos altamente complejos (muchas variables).</p>    </ul>     ]]></body>
<body><![CDATA[<p><u>Implicaciones en la construcci&oacute;n del modelo:</u> El incumplimiento del supuesto de reducci&oacute;n del error influencia el proceso general de construcci&oacute;n del modelo, afectando el desempe&ntilde;o de la red en convergencia, capacidad de generalizaci&oacute;n o ajuste, selecci&oacute;n adecuada de criterios de parada y robustez, toda vez que:</p>     <p><ul>&bull; No es posible, a partir de los resultados obtenidos, extraer reglas de comportamiento que nos conduzcan a una selecci&oacute;n acertada de las variables y par&aacute;metros del modelo.</p>     <p>&bull; No es posible seguir una metodolog&iacute;a y proceso de modelado replicable.</p>     <p>&bull; Conduce a una pobre generalizaci&oacute;n afectando, directamente, procesos orientados a la predicci&oacute;n, en la medida que se dificulta replicar comportamientos, siendo acentuado en patrones desconocidos.</p>    </ul>     <p>Estos aspectos y otros tantos mencionados anteriormente, justifican estudios posteriores de la tem&aacute;tica, orientados a la evaluaci&oacute;n sistem&aacute;tica de diferentes m&eacute;todos de entrenamiento, que permitan extraer tales reglas de comportamiento, con miras a una adecuada especificaci&oacute;n del modelo de red neuronal.</p>     <p><u>Implicaciones metodol&oacute;gicas y conceptuales:</u> El incumplimiento del supuesto de reducci&oacute;n del error, se puede ver como una explicaci&oacute;n coherente de los resultados inconsistentes que, a menudo, se encuentran en la literatura acerca del desempe&ntilde;o de los modelos de redes neuronales. Las pruebas sobre los algoritmos de entrenamiento, se limitan a verificar la minimizaci&oacute;n del error, su capacidad de convergencia y generalizaci&oacute;n; sin embargo, aspectos como la verificaci&oacute;n de los supuestos de reducci&oacute;n del error no son tenidos en cuenta a la hora de evaluar las bondades de su uso.</p>     <p>Si se garantiza la convergencia del error es posible encontrar redes neuronales con un mejor de ajuste y una mejor generalizaci&oacute;n, mientras que, usando los m&eacute;todos tradicionales, se puede producir un estancamiento en cierto valor del error de tal forma que aunque se aumente la complejidad del modelo no es posible llegar a errores m&aacute;s bajos.</p>     <p><u>Conflictos de intereses:</u> Este art&iacute;culo fue preparado y revisado con la participaci&oacute;n de todos los autores, quienes declaran que no existe ning&uacute;n conflicto de intereses que ponga en riesgo la validez de los resultados presentados.</p>     <p><b>BIBLIOGRAF&Iacute;A</b></p>     ]]></body>
<body><![CDATA[<!-- ref --><p>1. ADYA, M.; COLLOPY, F. 1998. How effective are neural networks at forecasting; prediction? A review; evaluation. J. Forecasting (USA). 17:481-495.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000103&pid=S0123-4226201100010001800001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>2. ANASTASIADIS, A.D.; MAGOULAS, G.D.; VRAHATIS, M.N. 2003. An Efficient Improvement of the Rprop Algorithm. Proceedings of the First International Workshop on Artificial Neural Networks in Pattern Recognition. University of Florence (ITALY). p.197- 201.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000104&pid=S0123-4226201100010001800002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>3. COTTRELL, M.; GIRARD, B.; GIRARD, Y.; MANGEAS, M.; MULLER, C. 1995. Neural modeling for time series: a statistical stepwise method for weight elimination. IEEE Transactions on Neural Networks (USA). 6(6):1355-1364.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000105&pid=S0123-4226201100010001800003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>4. CRONE, S.; KOURENTZES, N. 2009. Input-variable Specification for Neural Networks - An Analysis of Forecasting low and high Time Series Frequency. Proceedings of the International Joint Conference on Neural Networks, IJCNN’09 (USA). p.619-626.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000106&pid=S0123-4226201100010001800004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>5. FAHLMAN, S. 1989. Faster-learning variations of backpropagation: An empirical study. En: Touretzky, D., Hinton, G.; Sejnowski, T. (eds) Proceedings of the 1988 Connectionist Models Summer School (USA). p.38-51&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000107&pid=S0123-4226201100010001800005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>6. FARAWAY, J.; CHATFIELD, C. 1998. Time series forecasting with neural networks: a comparative study using the airline data. Appl. Statist. (USA). 47:231- 250.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000108&pid=S0123-4226201100010001800006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>7. GHIASSI, M.; SAIDANE, H.; ZIMBRA, D.K. 2005. A dynamic neural network model for forecasting time series events. International J. Forecasting (USA). 21:341-362.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000109&pid=S0123-4226201100010001800007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>8. HAGAN, M.T.; DEMUTH, H.B.; BEALE, M.H. 1996. Neural Network Design. Ed. PWS Publishing,Boston: MA(USA).&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000110&pid=S0123-4226201100010001800008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>9. HAMILTON, J.D. 1994. Time Series Analysis. Princeton, New Jersey: Princeton University Press (USA). 820p.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000111&pid=S0123-4226201100010001800009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>10. HORNIK, K.; STINCHICOMBE, M.; WHITE, H. 1989. Multilayer Feedforward Networks are Universal Approximators. Neural Networks (USA). 2(5):359- 366.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000112&pid=S0123-4226201100010001800010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>11. MURATA, N.; YOSHIZAWA, S.; AMARI, S. 1994. Network information criterion-determining the number of hidden units for an artificial neural network model. IEEE Transactions on Neural Networks (USA). 5:865- 872.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000113&pid=S0123-4226201100010001800011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>12. QI, M.; ZHANG, P.G. 2001. An investigation of model selection criteria for neural network time series forecasting. European J. Operational Research (NORWAY). 132:666-680.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000114&pid=S0123-4226201100010001800012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>13. TANG, Z.; KOEHLER, J.G. 1994. Deterministic global optimal FNN training algorithms. Neural Networks (USA). 7:1405-1412.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000115&pid=S0123-4226201100010001800013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>14. VEL&Aacute;SQUEZ, J.D.; DYNER, I.; SOUZA, R.C. 2008. Modelado del precio de la electricidad en brasil usando una red neuronal autorregresiva. Ingeniare. Rev. Chilena Ingenier&iacute;a. 16(3):394-403.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000116&pid=S0123-4226201100010001800014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>15. ZHANG, P.G.; PATUWO, B.E.; HU, M.Y. 1998. Forecasting with artificial neural networks: the state of the art. International J. Forecasting (USA). 14(1):35-62.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000117&pid=S0123-4226201100010001800015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>16. ZHANG, G.P.; PATUWO, B.E.; HU, M.Y. 2001. A simulation study of artificial neural networks for non linear time-series forecasting. Computers & Operations Research (USA). 28(4):381-396.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000118&pid=S0123-4226201100010001800016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><p>Recibido: Noviembre de 12 de 2010 Aceptado: Marzo 28 de 2011</p> </font>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ADYA]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[COLLOPY]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[How effective are neural networks at forecasting; prediction?: A review; evaluation]]></article-title>
<source><![CDATA[J. Forecasting]]></source>
<year>1998</year>
<volume>17</volume>
<page-range>481-495</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ANASTASIADIS]]></surname>
<given-names><![CDATA[A.D.]]></given-names>
</name>
<name>
<surname><![CDATA[MAGOULAS]]></surname>
<given-names><![CDATA[G.D.]]></given-names>
</name>
<name>
<surname><![CDATA[VRAHATIS]]></surname>
<given-names><![CDATA[M.N.]]></given-names>
</name>
</person-group>
<source><![CDATA[An Efficient Improvement of the Rprop Algorithm: Proceedings of the First International Workshop on Artificial Neural Networks in Pattern Recognition]]></source>
<year>2003</year>
<page-range>197- 201</page-range><publisher-name><![CDATA[University of Florence]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>3.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[COTTRELL]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[GIRARD]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[GIRARD]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
<name>
<surname><![CDATA[MANGEAS]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[MULLER]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Neural modeling for time series: a statistical stepwise method for weight elimination]]></article-title>
<source><![CDATA[IEEE Transactions on Neural Networks]]></source>
<year>1995</year>
<volume>6</volume>
<numero>6</numero>
<issue>6</issue>
<page-range>1355-1364</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CRONE]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[KOURENTZES]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Input-variable Specification for Neural Networks - An Analysis of Forecasting low and high Time Series Frequency]]></article-title>
<source><![CDATA[Proceedings of the International Joint Conference on Neural Networks, IJCNN’09]]></source>
<year>2009</year>
<page-range>619-626</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5.</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FAHLMAN]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Faster-learning variations of backpropagation: An empirical study]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Touretzky]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Hinton]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Sejnowski]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
</person-group>
<source><![CDATA[Proceedings of the 1988 Connectionist Models Summer School]]></source>
<year>1989</year>
<page-range>38-51</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FARAWAY]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[CHATFIELD]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Time series forecasting with neural networks: a comparative study using the airline data]]></article-title>
<source><![CDATA[Appl. Statist.]]></source>
<year>1998</year>
<volume>47</volume>
<page-range>231- 250</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[GHIASSI]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[SAIDANE]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[ZIMBRA]]></surname>
<given-names><![CDATA[D.K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A dynamic neural network model for forecasting time series events]]></article-title>
<source><![CDATA[International J. Forecasting]]></source>
<year>2005</year>
<volume>21</volume>
<page-range>341-362</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HAGAN]]></surname>
<given-names><![CDATA[M.T.]]></given-names>
</name>
<name>
<surname><![CDATA[DEMUTH]]></surname>
<given-names><![CDATA[H.B.]]></given-names>
</name>
<name>
<surname><![CDATA[BEALE]]></surname>
<given-names><![CDATA[M.H.]]></given-names>
</name>
</person-group>
<source><![CDATA[Neural Network Design]]></source>
<year>1996</year>
<publisher-name><![CDATA[PWS Publishing,Boston]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9.</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HAMILTON]]></surname>
<given-names><![CDATA[J.D.]]></given-names>
</name>
</person-group>
<source><![CDATA[Time Series Analysis]]></source>
<year>1994</year>
<page-range>820</page-range><publisher-loc><![CDATA[Princeton^eNew Jersey New Jersey]]></publisher-loc>
<publisher-name><![CDATA[Princeton University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HORNIK]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
<name>
<surname><![CDATA[STINCHICOMBE]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[WHITE]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multilayer Feedforward Networks are Universal Approximators]]></article-title>
<source><![CDATA[Neural Networks]]></source>
<year>1989</year>
<volume>2</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>359- 366</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MURATA]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
<name>
<surname><![CDATA[YOSHIZAWA]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[AMARI]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Network information criterion-determining the number of hidden units for an artificial neural network model]]></article-title>
<source><![CDATA[IEEE Transactions on Neural Networks]]></source>
<year>1994</year>
<volume>5</volume>
<page-range>865- 872</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[QI]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[P.G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An investigation of model selection criteria for neural network time series forecasting]]></article-title>
<source><![CDATA[European J. Operational Research]]></source>
<year>2001</year>
<volume>132</volume>
<page-range>666-680</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[TANG]]></surname>
<given-names><![CDATA[Z.]]></given-names>
</name>
<name>
<surname><![CDATA[KOEHLER]]></surname>
<given-names><![CDATA[J.G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Deterministic global optimal FNN training algorithms]]></article-title>
<source><![CDATA[Neural Networks]]></source>
<year>1994</year>
<volume>7</volume>
<page-range>1405-1412</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[VELÁSQUEZ]]></surname>
<given-names><![CDATA[J.D.]]></given-names>
</name>
<name>
<surname><![CDATA[DYNER]]></surname>
<given-names><![CDATA[I.]]></given-names>
</name>
<name>
<surname><![CDATA[SOUZA]]></surname>
<given-names><![CDATA[R.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Modelado del precio de la electricidad en brasil usando una red neuronal autorregresiva]]></article-title>
<source><![CDATA[Ingeniare. Rev. Chilena Ingeniería.]]></source>
<year>2008</year>
<volume>16</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>394-403</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[P.G.]]></given-names>
</name>
<name>
<surname><![CDATA[PATUWO]]></surname>
<given-names><![CDATA[B.E.]]></given-names>
</name>
<name>
<surname><![CDATA[HU]]></surname>
<given-names><![CDATA[M.Y.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Forecasting with artificial neural networks: the state of the art]]></article-title>
<source><![CDATA[International J. Forecasting]]></source>
<year>1998</year>
<volume>14</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>35-62</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16.</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[ZHANG]]></surname>
<given-names><![CDATA[G.P.]]></given-names>
</name>
<name>
<surname><![CDATA[PATUWO]]></surname>
<given-names><![CDATA[B.E.]]></given-names>
</name>
<name>
<surname><![CDATA[HU]]></surname>
<given-names><![CDATA[M.Y.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A simulation study of artificial neural networks for non linear time-series forecasting]]></article-title>
<source><![CDATA[Computers & Operations Research]]></source>
<year>2001</year>
<volume>28</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>381-396</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
