<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0120-2596</journal-id>
<journal-title><![CDATA[Lecturas de Economía]]></journal-title>
<abbrev-journal-title><![CDATA[Lect. Econ.]]></abbrev-journal-title>
<issn>0120-2596</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Antioquia]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0120-25962006000200003</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Evaluación asimétrica de una red neuronal artificial: aplicación al caso de la inflación en Colombia]]></article-title>
<article-title xml:lang="en"><![CDATA[Colombian Experience under a Controlled Float of the Exchange Rate: The Role of Bank Interventions]]></article-title>
<article-title xml:lang="fr"><![CDATA[L' expérience de Colombie sous un régime de fluctuations contrôlées du taux de change: le rôle des interventions bancaires]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Aristizábal]]></surname>
<given-names><![CDATA[María Clara]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Directora de Acciones, Bolsa y Renta  ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>07</month>
<year>2006</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>07</month>
<year>2006</year>
</pub-date>
<numero>65</numero>
<fpage>75</fpage>
<lpage>116</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0120-25962006000200003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0120-25962006000200003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0120-25962006000200003&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El objetivo de este trabajo es explorar la relación no lineal entre el dinero y la inflación en Colombia a través de una red neuronal artificial, utilizando información mensual de la variación del Índice de Precios al Consumidor y del agregado monetario M3, desde enero de 1982 hasta febrero de 2005. Las redes neuronales artificiales aparecen como una excelente alternativa para las autoridades monetarias de contar con los mejores modelos para pronosticar la inflación y guiar sus decisiones de política. El presente artículo incorpora algunas innovaciones en la modelación del dinero e inflación que permiten generar pronósticos más confiables, debido a que el modelo se aproxima con mayor exactitud a la realidad.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[The objective of the present work is to explore the non-linear relationship between money and inflation in Colombia through an artificial neural network using monthly information for the variation of the consumer price index and the monetary aggregate M3 since January 1982 through February 2005. Artificial neural networks turn up as an excellent alternative for monetary authorities to count on the best models to forecast inflation and guide their policy decisions. This article incorporates some innovations in money and inflation modeling that allow to generate more reliable forecasts given that the model approximates reality with greater accuracy.]]></p></abstract>
<abstract abstract-type="short" xml:lang="fr"><p><![CDATA[L' objectif de ce travail consiste à explorer la relation non linéaire entre la quantité de monnaie et l' inflation en Colombie à travers la technique des réseaux de neurones artificiels. Nous utilisons les statistiques mensuelles concernant la variation de l' indice des prix à la consommation et l' agrégat monétaire M3 entre janvier 1982 et février 2005. Les réseaux neuronaux artificiels constituent une excellente alternative pour les autorités monétaires en vue d' améliorer leurs modèles qui servent à anticiper l' inflation. Cet article intègre quelques nouveautés dans la modélisation de la quantité de monnaie et l' inflation. Cette modélisation permet d' établir des prévisions plus précises car elle se rapproche avec plus d' exactitude de la réalité économique.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[red neuronal artificial]]></kwd>
<kwd lng="es"><![CDATA[no linealidad]]></kwd>
<kwd lng="es"><![CDATA[unidad escondida]]></kwd>
<kwd lng="es"><![CDATA[función de activación]]></kwd>
<kwd lng="es"><![CDATA[rolling de pronósticos]]></kwd>
<kwd lng="es"><![CDATA[función de pérdida asimétrica]]></kwd>
<kwd lng="en"><![CDATA[artificial neural network]]></kwd>
<kwd lng="en"><![CDATA[non-linearity]]></kwd>
<kwd lng="en"><![CDATA[hidden unit]]></kwd>
<kwd lng="en"><![CDATA[activation function]]></kwd>
<kwd lng="en"><![CDATA[rolling test]]></kwd>
<kwd lng="en"><![CDATA[asymmetric lost function]]></kwd>
<kwd lng="fr"><![CDATA[Réseaux de neurones artificiels]]></kwd>
<kwd lng="fr"><![CDATA[unité cachée]]></kwd>
<kwd lng="fr"><![CDATA[fonction d' activation]]></kwd>
<kwd lng="fr"><![CDATA[Rolling test]]></kwd>
<kwd lng="fr"><![CDATA[fonction de perte asymétrique]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[     <h1 align=center>Evaluaci&oacute;n asim&eacute;trica de una red neuronal artificial: aplicaci&oacute;n al caso de la inflaci&oacute;n en Colombia</h1>  <h2 align=center>Colombian Experience under a Controlled Float of the Exchange Rate: The Role of Bank Interventions</h2>  <h2 align=center>L' exp&eacute;rience de Colombie sous un r&eacute;gime de fluctuations contr&ocirc;l&eacute;es du taux de change: le r&ocirc;le des interventions bancaires</h2>        <p align=center>Mar&iacute;a Clara Aristizábal</p>    Mar&iacute;a Clara Aristizábal Restrepo: Directora de Acciones, Bolsa y Renta, Medell&iacute;n, Colombia. Direcci&oacute;n electr&oacute;nica: <a href="mailto:mcaristizabal@bolsayrenta.com">mcaristizabal@bolsayrenta.com</a>. Direcci&oacute;n postal: calle 50 No. 50-21, piso 16, Ed. Banco de la República, Medell&iacute;n, Colombia. Trabajo realizado durante la pasant&iacute;a de investigaci&oacute;n en el Banco de la República. Se agradece especialmente a Martha Misas A. por su valiosa direcci&oacute;n. Tambi&eacute;n se agradecen los comentarios y sugerencias de Enrique L&oacute;pez E. y Munir Jalil B. Por los c&oacute;digos en SAS, se agradece a Martha Misas A. y Munir Jalil B. Los resultados, errores y omisiones son responsabilidad exclusiva de la autora.        <p align=center><b> Introducci&oacute;n.  I. No linealidad.  II. Redes Neuronales Artificiales.  III. Aplicaci&oacute;n de redes neuronales al caso de la inflaci&oacute;n en Colombia.  Conclusiones.  Anexos.  Bibliograf&iacute;a.</b></p>      <p align=center><i>Primera versi&oacute;n recibida en abril de 2006; versi&oacute;n final aceptada en noviembre de 2006</i></p>        <p>  <b>Resumen</b>: El objetivo de este trabajo es explorar la relaci&oacute;n no lineal entre el dinero y la inflaci&oacute;n en Colombia a trav&eacute;s de una red neuronal artificial, utilizando informaci&oacute;n mensual de la variaci&oacute;n del Índice de Precios al Consumidor y del agregado monetario M3, desde enero de 1982 hasta febrero de 2005. Las redes neuronales artificiales aparecen como una excelente alternativa para las autoridades monetarias de contar con los mejores modelos para pronosticar la inflaci&oacute;n y guiar sus decisiones de pol&iacute;tica. El presente art&iacute;culo incorpora algunas innovaciones en la modelaci&oacute;n del dinero e inflaci&oacute;n que permiten generar pron&oacute;sticos más confiables, debido a que el modelo se aproxima con mayor exactitud a la realidad.    <br>  <b>Palabras Clave</b>: red neuronal artificial, no linealidad, unidad escondida, funci&oacute;n de activaci&oacute;n, rolling de pron&oacute;sticos, funci&oacute;n de p&eacute;rdida asim&eacute;trica. <b>Clasificaci&oacute;n JEL</b>: D87, C53.  </p>        <p>  <b>Abstract</b>: The objective of the present work is to explore the non-linear relationship between money and inflation in Colombia through an artificial neural network using monthly information for the variation of the consumer price index and the monetary aggregate M3 since January 1982 through February 2005. Artificial neural networks turn up as an excellent alternative for monetary authorities to count on the best models to forecast inflation and guide their policy decisions. This article incorporates some innovations in money and inflation modeling that allow to generate more reliable forecasts given that the model approximates reality with greater accuracy.    <br>  <b>Keywords</b>: artificial neural network, non-linearity, hidden unit, activation function, rolling test, asymmetric lost function.  </p>        <p>  <b>R&eacute;sum&eacute;</b>: L' objectif de ce travail consiste &agrave; explorer la relation non lin&eacute;aire entre la quantit&eacute; de monnaie et l' inflation en Colombie &agrave; travers la technique des r&eacute;seaux de neurones artificiels. Nous utilisons les statistiques mensuelles concernant la variation de l' indice des prix &agrave; la consommation et l' agr&eacute;gat mon&eacute;taire M3 entre janvier 1982 et f&eacute;vrier 2005. Les r&eacute;seaux neuronaux artificiels constituent une excellente alternative pour les autorit&eacute;s mon&eacute;taires en vue d' am&eacute;liorer leurs modèles qui servent &agrave; anticiper l' inflation. Cet article intègre quelques nouveaut&eacute;s dans la mod&eacute;lisation de la quantit&eacute; de monnaie et l' inflation. Cette mod&eacute;lisation permet d' &eacute;tablir des pr&eacute;visions plus pr&eacute;cises car elle se rapproche avec plus d' exactitude de la r&eacute;alit&eacute; &eacute;conomique.    <br>  <b>Mots cl&eacute;s</b>: R&eacute;seaux de neurones artificiels, unit&eacute; cach&eacute;e, fonction d' activation, Rolling test, fonction de perte asym&eacute;trique.  </p>    <h2 align=center>Introducci&oacute;n</h2>        ]]></body>
<body><![CDATA[<p>Las redes neuronales artificiales (ANN)<sup>1</sup> son modelos computacionales que tratan de replicar, de manera simplificada, el complejo funcionamiento del cerebro humano. Su capacidad de aprendizaje a trav&eacute;s de ensayos repetidos, las ha hecho muy populares en una amplia variedad de aplicaciones en todas las ciencias. Su reciente implementaci&oacute;n en econom&iacute;a se debe al hecho de que en las series econ&oacute;micas y financieras es más probable que aparezcan relaciones no lineales que lineales (Granger, 1991, citado por Shachmurove, 2000) como las exigidas por los modelos econom&eacute;tricos tradicionales. Las ANN han demostrado ser una herramienta muy útil por su sorprendente habilidad para capturar relaciones no lineales entre variables. De hecho, pueden aproximar cualquier funci&oacute;n no lineal si son correctamente especificadas (Tkacz y Hu, 1999).</p>        <p>El objetivo de este trabajo es explorar la relaci&oacute;n no lineal entre el dinero y la inflaci&oacute;n en Colombia a trav&eacute;s de una red neuronal artificial, utilizando informaci&oacute;n mensual de la variaci&oacute;n del Indice de Precios al Consumidor (IPC) y del agregado monetario M3, desde enero de 1982 hasta febrero de 2005.</p>        <p>La Constituci&oacute;n de 1991 le otorg&oacute; al Banco de la República la responsabilidad de velar por la estabilidad de precios. Este hecho, sumado al rezago con el que las pol&iacute;ticas monetarias afectan a su variable objetivo, en este caso la inflaci&oacute;n, hace indispensable para las autoridades monetarias contar con los mejores modelos para pronosticarla y guiar sus decisiones de pol&iacute;tica. Las ANN aparecen como una excelente alternativa para lograr este prop&oacute;sito, dado el comportamiento intr&iacute;nsecamente no lineal exhibido por la relaci&oacute;n entre estas variables.</p>        <p>Tradicionalmente, la meta intermedia de la pol&iacute;tica econ&oacute;mica fueron los agregados monetarios, pero los cambios estructurales experimentados por la econom&iacute;a colombiana a principios de los noventas, cuando la Junta Directiva del Banco de la República fue instituida como autoridad monetaria, cambiaria y crediticia, dificultaron enormemente el manejo monetario (Hernández y Tolosa, 2001) y condujeron a discusiones acerca de si era preferible continuar con este esquema o guiar la pol&iacute;tica monetaria a trav&eacute;s de la tasa de inter&eacute;s de intervenci&oacute;n del Banco. Sin embargo, dada la larga historia entre la inflaci&oacute;n y el dinero, esta aproximaci&oacute;n a trav&eacute;s de redes neuronales contará con los valores pasados de la inflaci&oacute;n misma como variables explicativas, as&iacute; como con la historia del agregado monetario M3. Trabajos posteriores podr&iacute;an, además, explorar la relaci&oacute;n entre inflaci&oacute;n y tasa de inter&eacute;s.</p>        <p>De acuerdo con Tkacz (2000) no puede justificarse el supuesto de linealidad, si se cree que los efectos de la pol&iacute;tica monetaria sobre la inflaci&oacute;n son asim&eacute;tricos. Un enfoque lineal implica que cambios incrementales en la cantidad de dinero tienen el mismo impacto sobre la inflaci&oacute;n, independientemente de las cantidades de dinero iniciales. Las asimetr&iacute;as tienen lugar cuando un est&iacute;mulo positivo de pol&iacute;tica tiene un menor impacto sobre la econom&iacute;a que un est&iacute;mulo negativo. De esta forma opera precisamente la relaci&oacute;n entre dinero e inflaci&oacute;n.</p>        <p>Especificaciones no lineales de la inflaci&oacute;n en Colombia han sido documentadas en el pasado. Melo y Misas (1998) explicaron el proceso inflacionario como un modelo switching con tres estados, Jalil y Tob&oacute;n (1999) como un proceso GARCH, Arango y González (1999) y Jalil y Melo (1999) como un proceso Autorregresivo de Transici&oacute;n Suave (STAR). Estos últimos incluyen agregados monetarios para explicar el comportamiento de la inflaci&oacute;n.</p>        <p>Más recientemente, Misas et al. (2002) modelaron la relaci&oacute;n entre dinero e inflaci&oacute;n utilizando un modelo de redes neuronales por su capacidad para capturar las no linealidades entre estas dos variables y, por lo tanto, generar pron&oacute;sticos más precisos de la inflaci&oacute;n.</p>        <p>El presente trabajo incorpora algunas innovaciones en la modelaci&oacute;n de dinero e inflaci&oacute;n que permiten generar pron&oacute;sticos más confiables, debido a que el modelo se aproxima con mayor exactitud a la realidad. Tales innovaciones se refieren a una selecci&oacute;n más sofisticada de los rezagos significativos que deben ser incorporados en el modelo, una construcci&oacute;n de pron&oacute;sticos que actualiza su base de datos y una funci&oacute;n de costos asim&eacute;tricos para su evaluaci&oacute;n. El trabajo de Jalil y Misas (2005) sobre el tipo de cambio es el primero en generar pron&oacute;sticos mediante un mecanismo de rolling y evaluarlos a trav&eacute;s de funciones de p&eacute;rdida asim&eacute;trica.</p>        <p>Generalmente, las redes neuronales artificiales minimizan una suma de residuales al cuadrado, tanto para su estimaci&oacute;n como para la evaluaci&oacute;n de sus pron&oacute;sticos por dentro y fuera de muestra. Sin embargo, Crone (2002) afirma que las aplicaciones han mostrado que los problemas de pron&oacute;sticos requieren de medidas alternativas del error y, por lo tanto, para su evaluaci&oacute;n se minimizará una funci&oacute;n de costos asim&eacute;trica que no penalice de igual forma cuando el pron&oacute;stico se ubique por encima o por debajo del dato observado, como ocurre en la realidad. Esto sucede porque para la autoridad monetaria resulta mucho más costoso en t&eacute;rminos de credibilidad cuando dentro de su esquema de inflaci&oacute;n objetivo anuncia una meta inferior a la que posteriormente se registra, que cuando lo contrario ocurre.</p>        <p>Este art&iacute;culo se compone de cuatro secciones principales. En la primera se justifica el uso de redes neuronales, dado el comportamiento no lineal de la relaci&oacute;n entre distintas variables econ&oacute;micas, haciendo particular &eacute;nfasis en la relaci&oacute;n no lineal entre dinero e inflaci&oacute;n y en alguna evidencia emp&iacute;rica que sugiera el comportamiento no lineal de la inflaci&oacute;n en Colombia. La segunda secci&oacute;n corresponde a una aproximaci&oacute;n a las redes neuronales propiamente, a su relaci&oacute;n con las redes neuronales biol&oacute;gicas, su arquitectura, estimaci&oacute;n y aplicaciones en distintas disciplinas. La tercera, presenta una aplicaci&oacute;n de redes neuronales al caso de la inflaci&oacute;n en Colombia. Finalmente, se presentan las conclusiones derivadas de la investigaci&oacute;n.</p>    <h3 align=center>I. No linealidad</h3>        ]]></body>
<body><![CDATA[<p>La creciente popularidad de las ANN en el campo de la econom&iacute;a y las finanzas, se debe a la presencia de comportamientos no lineales en una gran cantidad de relaciones entre variables econ&oacute;micas y financieras, lo que exige tratamientos econom&eacute;tricos distintos a los tradicionales, que sean capaces de capturar adecuadamente las trayectorias no lineales de dichas relaciones.</p>    <h3 align=left><i>A. Comportamiento no lineal entre variables econ&oacute;micas</i></h3>        <p>Existe una gran variedad de estudios que respaldan la modelaci&oacute;n no lineal de series de tiempo econ&oacute;micas. T&iacute;picamente se ha considerado que los ciclos econ&oacute;micos exhiben caracter&iacute;sticas no lineales, que se evidencian en las diferencias entre una transici&oacute;n desde una expansi&oacute;n hacia una recesi&oacute;n y viceversa. El hecho de que la producci&oacute;n tienda a expandirse lentamente y contraerse rápidamente puede asociarse a dos fuentes. Una de ellas es que la entrada a una industria es más costosa que la salida y la otra es la dificultad que para una firma representa incrementar su producci&oacute;n cuando se encuentra trabajando a capacidad plena, mientras que reducir su producci&oacute;n, cuando las &oacute;rdenes se reducen, le resulta relativamente fácil.</p>        <p>Trabajos como los de Teräsvirta y Anderson (1992) han documentado este fen&oacute;meno. En particular, rechazan el supuesto de linealidad para la mayor&iacute;a de los &iacute;ndices de producci&oacute;n de 13 pa&iacute;ses y Europa y asumen que si una serie de tiempo no es lineal, entonces puede describirse adecuadamente por un modelo STAR,<sup>2</sup> que refleje las respuestas de la producci&oacute;n a choques negativos considerables (de precios, por ejemplo del petr&oacute;leo). Este tipo de modelos permite que el indicador del ciclo econ&oacute;mico alterne suavemente entre dos reg&iacute;menes distintos que representan dos fases diferentes del ciclo, dando lugar a un cont&iacute;nuum de estados entre los dos reg&iacute;menes extremos.</p>        <p>Arango y Melo (2001) probaron la hip&oacute;tesis de fluctuaciones asim&eacute;tricas de la actividad econ&oacute;mica para algunos pa&iacute;ses latinoamericanos y encontraron evidencias a favor de un comportamiento asim&eacute;trico no lineal tipo STAR para Brasil, Colombia y M&eacute;xico. A su vez, las funciones de impulso respuesta FIR<sup>3</sup> mostraron respuestas asim&eacute;tricas de acuerdo con el signo del choque y el r&eacute;gimen en el que &eacute;ste ocurri&oacute;.</p>        <p>Uno de los primeros trabajos en examinar si la relaci&oacute;n entre la tasa de inter&eacute;s y la inflaci&oacute;n pod&iacute;a mejorarse usando un modelo no lineal fue Tkacz (1999). En esta oportunidad emple&oacute; un modelo de cambio discreto entre los reg&iacute;menes. Posteriormente, Tkacz (2000) extendi&oacute; este estudio, estimando modelos no param&eacute;tricos<sup>4</sup> y de redes neuronales para capturar no linealidades entre los cambios en la inflaci&oacute;n y el spread (diferencial) de las tasas de inter&eacute;s de largo y corto plazo. Un incremento, por parte de la autoridad monetaria, de la tasa de inter&eacute;s de corto plazo conduce a un spread negativo y viceversa. Las curvas de ambos modelos coinciden en una porci&oacute;n inclinada positivamente para los niveles negativos del spread y un tramo plano para los valores positivos, sugiriendo que los spreads negativos tienen un impacto marginal mayor sobre la inflaci&oacute;n que los spreads positivos. La explicaci&oacute;n de Friedman (1968) para este fen&oacute;meno es que cuando hay un endurecimiento de la pol&iacute;tica monetaria (la tasa de inter&eacute;s de corto plazo se incrementa) aumenta el costo de endeudarse para financiar proyectos de inversi&oacute;n, por lo que &eacute;stos se retrasan o incluso se posponen indefinidamente. Por el contrario, cuando hay un ablandamiento de la pol&iacute;tica monetaria, no existen incentivos inmediatos para que los individuos decidan incrementar sus niveles de consumo o de inversi&oacute;n. Desde la perspectiva de la autoridad monetaria, esto implica que cuando la pol&iacute;tica ya es contraccionista, una nueva contracci&oacute;n resultar&iacute;a en una reducci&oacute;n marginalmente mayor a la inflaci&oacute;n. Un endurecimiento similar tendr&iacute;a un menor impacto sobre la inflaci&oacute;n, si lo tiene, si se implementa durante un r&eacute;gimen de pol&iacute;tica expansionista.</p>        <p>Franses y van Dijk (1999) muestran c&oacute;mo los retornos de los activos financieros tambi&eacute;n presentan comportamientos erráticos. Ellos observan que las colas de las distribuciones de las series econ&oacute;micas y financieras son más gruesas que las de una distribuci&oacute;n normal, lo que implica que los valores extremos ocurren mucho más a menudo de lo que se esperar&iacute;a de una distribuci&oacute;n normal. Adicionalmente, observan que los retornos presentan un sesgo negativo y, por lo tanto, la cola izquierda de sus distribuciones es más gruesa que la cola derecha. Esto implica que grandes retornos negativos ocurren con mayor frecuencia que grandes retornos positivos. Al igual que  Cao y Tsay (1992) tambi&eacute;n señalan que los valores extremos tienden a ocurrir en grupos, implicando que las series de volatilidad evolucionan en forma no lineal y que los per&iacute;odos de retornos negativos son seguidos por per&iacute;odos de alta volatilidad. Arango et ál. (2000) presentan evidencia emp&iacute;rica sobre la relaci&oacute;n inversa y no lineal entre los precios de las acciones del mercado de valores de Bogotá y la tasa de inter&eacute;s, medida por la tasa interbancaria (TIB) que, de alguna forma, se encuentra afectada por la pol&iacute;tica monetaria.</p>        <p>De otro lado, ampliamente se acepta que los tipos de cambio son procesos I(1) o integrados de orden uno y que los cambios en dichas tasas no están correlacionados en el tiempo. Por lo tanto, estas series no son, generalmente, linealmente predecibles (Kuan y Liu, 1995). Imbs et ál. (1996) encuentran que el tipo de cambio real tambi&eacute;n presenta patrones no lineales debido a que los costos de transacci&oacute;n del proceso transitorio hacia el equilibrio de largo plazo hacen que el arbitraje no sea rentable como respuesta a pequeñas desviaciones, mientras que diferenciales considerables de precios s&iacute; inducen al arbitraje y, por lo tanto, a que &eacute;stos se ubiquen de nuevo en su valor de equilibrio. Este fen&oacute;meno es modelado a trav&eacute;s de un modelo TAR<sup>5</sup>, el cual asume que puede haber una zona de diferenciales de precios para la cual no existe una tendencia de regresar hacia la media, mientras que por fuera de esta zona los precios relativos son reversibles.</p>    <h3 align=left><i>B. Relaci&oacute;n no lineal entre dinero e inflaci&oacute;n</i></h3>        <p>Un enfoque lineal implica una serie de supuestos a los que no obedece la relaci&oacute;n entre dinero e inflaci&oacute;n. Por ejemplo, las funciones de impulso-respuesta derivadas de este análisis son sim&eacute;tricas, implicando que un choque monetario positivo y uno negativo de igual magnitud, conducirán a efectos id&eacute;nticos, pero con signo opuesto. Adicionalmente, son lineales, de tal forma que los efectos serán siempre proporcionales a la magnitud del choque y, finalmente, son independientes del momento en el que &eacute;ste ocurre, es decir, que les es indiferente si el choque ocurre en un momento de baja o elevada inflaci&oacute;n.</p>        <p>Claramente, estos tres rasgos van en contrav&iacute;a de la forma en la que realmente opera la relaci&oacute;n entre dinero e inflaci&oacute;n. En primer lugar, los agentes econ&oacute;micos son menos sensibles a est&iacute;mulos de pol&iacute;tica positivos que  negativos, luego el valor absoluto de los efectos de dichos choques no es de la misma magnitud. Además, las repercusiones de un choque monetario se encuentran estrechamente asociadas a las condiciones y ambiente inflacionario del momento en el que ocurren. Por ejemplo, cuando la inflaci&oacute;n es más alta, los choques monetarios afectan el nivel de precios más que proporcionalmente.</p>        <p>Investigaciones como las de Dabús y Tohme (2003) encuentran una relaci&oacute;n convexa entre los dos variables, indicando que la magnitud del efecto depende del nivel de inflaci&oacute;n al momento del choque. As&iacute;, una expansi&oacute;n de dinero conduce a un mayor efecto en per&iacute;odos de alta inflaci&oacute;n, puesto que la alta volatilidad e incertidumbre sobre el futuro desenvolvimiento de &eacute;sta y otras variables econ&oacute;micas decisivas ya han alterado bastante las expectativas de los agentes llevándolos a asumir comportamientos impredecibles e irracionales.</p>        ]]></body>
<body><![CDATA[<p>Una clave para explorar la posibilidad de un comportamiento no lineal entre el dinero y la inflaci&oacute;n es observar los diferentes reg&iacute;menes que exhibe un proceso inflacionario. Intuitivamente, la diversidad de efectos de los choques monetarios en distintos ambientes inflacionarios puede explicarse por las expectativas de los agentes, quienes al enfrentarse a altos niveles de inflaci&oacute;n, que implican mayor inestabilidad macroecon&oacute;mica y baja capacidad de predicci&oacute;n de la econom&iacute;a, suelen responder de manera errática e impredecible para protegerse de ella.</p>        <p>Siguiendo a Franses y van Dijk (1999) un acercamiento natural a la modelaci&oacute;n de series de tiempo econ&oacute;micas con modelos no lineales parece definir distintos estados o reg&iacute;menes y permitir la posibilidad de que el comportamiento dinámico de las variables econ&oacute;micas dependa del r&eacute;gimen que ocurre en un momento determinado. Por comportamiento dinámico dependiente del estado se quiere decir que algunas propiedades de las series de tiempo, como su media, su varianza y autocorrelaci&oacute;n, son distintas en diferentes reg&iacute;menes.</p>        <p>Dabús y Tohme (2003) exploraron la hip&oacute;tesis de existencia de no linealidades en la relaci&oacute;n entre dinero e inflaci&oacute;n para distintos niveles de &eacute;sta. En efecto, en un estudio para Argentina, encontraron evidencia de que la inflaci&oacute;n y la oferta de dinero exhiben un comportamiento no lineal, puesto que los choques monetarios afectaron el nivel de precios más que proporcionalmente cuando los niveles de inflaci&oacute;n fueron elevados. En particular, ellos dividieron el per&iacute;odo muestral en cuatro reg&iacute;menes: inflaci&oacute;n moderada, alta, muy alta e hiperinflaci&oacute;n y para la mayor parte de los per&iacute;odos de inflaci&oacute;n moderada y alta, la oferta de dinero vari&oacute; más que la  inflaci&oacute;n, mientras que lo contrario se observ&oacute; para los per&iacute;odos de muy alta e hiperinflaci&oacute;n. Estos resultados indican una relaci&oacute;n convexa entre el valor promedio de la serie de inflaci&oacute;n y la variaci&oacute;n de la oferta de dinero, es decir, que un choque monetario similar puede provocar un mayor efecto cuando los niveles de inflaci&oacute;n son altos e inducir a una respuesta inflacionaria más que proporcional, mientras que cuando los niveles son bajos, el efecto es más pequeño. Adicionalmente, el coeficiente de correlaci&oacute;n positivo y significativo para altos niveles de inflaci&oacute;n, es un argumento más a favor de la existencia de un comportamiento no lineal entre ambas variables.</p>        <p>En Colombia, especificaciones no lineales de la inflaci&oacute;n han sido abordadas directamente desde distintas aproximaciones. Melo y Misas (1998) explicaron el proceso inflacionario como un modelo switching de Hamilton con tres estados, que parte de un modelo autorregresivo y de unos valores iniciales para las medias, las varianzas y las probabilidades de transici&oacute;n asociadas a cada uno de los reg&iacute;menes. La inestabilidad de los parámetros asociados a la muestra completa y la estabilidad de los parámetros de las pruebas asociadas a cada una de las submuestras, fue un claro indicador de la existencia de distintos patrones en lo referente al nivel y volatilidad de la inflaci&oacute;n trimestral, lo que justific&oacute; la aplicaci&oacute;n de t&eacute;cnicas econom&eacute;tricas que consideraran cambios de r&eacute;gimen.</p>        <p>Por su parte, Jalil y Tob&oacute;n (1999) la modelaron como un proceso GARCH<sup>6</sup>. Su prop&oacute;sito era encontrar una medida para Colombia de la incertidumbre inflacionaria aproximada por la varianza de la inflaci&oacute;n. Los autores verificaron emp&iacute;ricamente para el caso colombiano dos hip&oacute;tesis comunes en la literatura. La primera de ellas es que una inflaci&oacute;n alta precede una mayor incertidumbre inflacionaria. La segunda, que la incertidumbre inflacionaria afecta el nivel de inflaci&oacute;n.</p>        <p>Como un proceso Autorregresivo de Transici&oacute;n Suave (STAR), fue explicado por Arango y González (1999) y Jalil y Melo (1999) con la diferencia de que estos últimos incluyeron agregados monetarios para explicar el comportamiento de la inflaci&oacute;n. Este tipo de modelos supone que el proceso generador de la serie oscila de forma suave entre dos reg&iacute;menes extremos a trav&eacute;s de una funci&oacute;n de transici&oacute;n, a diferencia del modelo TAR que da lugar a un cambio abrupto desde un r&eacute;gimen a otro.</p>    <h3 align=left><i>C. Alguna evidencia emp&iacute;rica sobre el comportamiento no lineal de la inflaci&oacute;n en Colombia</i></h3>        <p>El proceso inflacionario colombiano ha sido un caso muy particular de inflaciones moderadas y persistentes. En los setentas y ochentas, Colombia constitu&iacute;a un ejemplo de estabilidad en el contexto latinoamericano de hiperinflaciones.</p>        <p>En el <a href="#g1">gráfico 1</a> puede observarse c&oacute;mo la inflaci&oacute;n en Colombia durante los años setentas y ochentas se caracteriz&oacute; por alcanzar rápidamente niveles moderadamente altos, mientras que niveles bajos fueron más lentos y dif&iacute;ciles de obtener. De acuerdo con Arango y González (1999), lo anterior es un claro indicador de las asimetr&iacute;as intr&iacute;nsecas al proceso inflacionario colombiano.</p>        <p align=center><a name="g1"></a><img src="/img/revistas/le/n65/n65a3g1.gif"></p>      <p><i>Fuente</i>: Dane</p>      ]]></body>
<body><![CDATA[<p align=center>Gráfico 1. <i>Colombia: crecimiento anual del IPC total, 1970- 2005</i></p>        <p>Sin embargo, la importancia concedida a nivel internacional, durante la d&eacute;cada de los noventa, a la estabilidad de precios y la adopci&oacute;n de estrictas medidas monetarias, condujeron a las econom&iacute;as de los pa&iacute;ses en desarrollo a inflaciones de un solo d&iacute;gito. En ese nuevo contexto, comparada con econom&iacute;as similares, la inflaci&oacute;n en Colombia aparec&iacute;a relativamente alta.</p>        <p>Los alt&iacute;simos costos econ&oacute;micos y sociales asociados a la inflaci&oacute;n y un consenso a nivel internacional alrededor de privilegiar la estabilidad de precios, entre otras razones, condujeron a que la constituci&oacute;n de 1991 le  otorgara al Banco de la República la responsabilidad de velar por la estabilidad de precios.</p>        <p>Tales costos se refieren, entre otros, a que la inflaci&oacute;n constituye un impuesto sobre los saldos nominales en poder de individuos y empresas, que afecta en particular a aquellos agentes que no pueden reajustar rápidamente sus contratos nominales. Adicionalmente, las altas tasas de inflaci&oacute;n y, en particular, su variabilidad reducen la capacidad de predicci&oacute;n de la econom&iacute;a y obligan a los agentes a invertir recursos para protegerse de ella. Tal incertidumbre se traduce, finalmente, en costos en el crecimiento del largo plazo.</p>        <p>La prioridad que para la autoridad monetaria tiene el velar por mantener la inflaci&oacute;n en niveles bajos a trav&eacute;s de la adopci&oacute;n del programa de &quot;inflaci&oacute;n objetivo&quot; , sumada a la dificultad de modelar la relaci&oacute;n entre dinero e inflaci&oacute;n con las t&eacute;cnicas convencionales, dado su carácter no lineal, justifican la exploraci&oacute;n de alternativas de modelaci&oacute;n exitosas como las redes neuronales artificiales. En la cuarta secci&oacute;n se presentan los resultados de un test de Portmanteau para no linealidad, basado en redes neuronales artificiales, desarrollado por Lee et ál. (1993).</p>    <h3 align=center>II. Redes Neuronales Artificiales</h3>        <p>Las redes neuronales artificiales son sistemas de procesamiento de informaci&oacute;n, desarrolladas por cient&iacute;ficos cognitivos con el prop&oacute;sito de entender el sistema nervioso biol&oacute;gico e imitar los m&eacute;todos computacionales del cerebro (Shachmurove, 2002) y su impresionante habilidad para reconocer patrones (Tkacz, 1999).</p>    <h3 align=left><i>A. Relaci&oacute;n entre las redes neuronales biol&oacute;gicas y las redes neuronales artificiales</i></h3>        <p>El elemento funcional básico del cerebro es la neurona. La neurona, a su vez, está conformada por un cuerpo o soma, unas dendritas y un ax&oacute;n. Cada neurona recibe est&iacute;mulos el&eacute;ctricos de otras neuronas a trav&eacute;s de las dendritas. En el soma se lleva a cabo la integraci&oacute;n de toda la informaci&oacute;n obtenida en las dendritas. Estos est&iacute;mulos son amplificados o disminuidos durante la sinapsis y luego sumados. Finalmente, si la suma de todos los est&iacute;mulos es mayor que el umbral de resistencia máximo de la neurona, entonces el ax&oacute;n transmite a otras c&eacute;lulas el mensaje resultante de la integraci&oacute;n. Estas conexiones sinápticas, cuya intensidad es variable, se usan para enviar mensajes entre neuronas. Las neuronas coleccionan la informaci&oacute;n y aprenden patrones al  reforzar sus conexiones.</p>        <p>Las redes neuronales artificiales se inspiran en la estructura y funciones de las neuronas biol&oacute;gicas. Una red neuronal artificial es esencialmente una  colecci&oacute;n de neuronas interconectadas, agrupadas en capas (v&eacute;ase <a href="#g2">gráfico 2</a>). Haciendo un paralelo con el esquema reci&eacute;n descrito de procesamiento del cerebro, la neurona artificial recibe distintos valores de entrada (inputs) que son multiplicados por una ponderaci&oacute;n. En el escenario más simple, estos productos son sumados para obtener un valor de salida (output). La forma más básica de red neuronal se encuentra estrechamente vinculada con las t&eacute;cnicas econom&eacute;tricas de regresi&oacute;n estándar. Este tipo de red simplificada posee dos capas, una de inputs y otra de output. El <a href="#g3">gráfico 3</a> ilustra la representaci&oacute;n gráfica estándar de una red neuronal feedforward (alimentada hacia delante, es decir que la informaci&oacute;n fluye desde los inputs hacia el output.)</p>        <p align=center><a name="g2"></a><img src="/img/revistas/le/n65/n65a3g2.gif"></p>      <p align=center>Gráfico 2. <i>Neurona biol&oacute;gica</i></p>        ]]></body>
<body><![CDATA[<p align=center><a name="g3"></a><img src="/img/revistas/le/n65/n65a3g3.gif"></p>      <p align=center>Gráfico 3. <i>Red neuronal artificial simple</i></p>        <p>Cada neurona está representada por un c&iacute;rculo y las flechas indican conexiones entre ellas. El output <i>y<sub>t</sub></i> y los inputs <i>x</i><sub>1</sub>,<i>x</i><sub>2</sub>,...,<i>x<sub>I</sub></i> son vectores de <i>n</i> &#215; 1 donde <i>n</i> es el número de observaciones.</p>        <p>Cada conexi&oacute;n entre un input y un output está caracterizada por un peso <i>&#946;i</i> que expresa la importancia relativa de un input particular en el cálculo del output. Para calcular el valor del output en el momento t, la neurona output colecciona los valores de cada neurona input en la observaci&oacute;n t y multiplica cada uno de ellos por un peso asociado con la conexi&oacute;n relevante. A continuaci&oacute;n se suman estos productos y se obtiene</p>        <p> <i>y<sub>t</sub>= &#946;</i><sub>1</sub><i>x</i><sub>1</sub> + <i>&#946;</i><sub>2</sub><i>x</i><sub>2</sub> + ... + <i>&#946;<sub>I</sub>x<sub>I</sub></i> = <img src="/img/revistas/le/n65/n65a3c1.gif" align=middle> <i>&#946;<sub>i</sub>x<sub>i</sub></i> (1)</p>        <p>La ecuaci&oacute;n 1 indica que <i>y</i> es una suma ponderada de <i>x<sub>i</sub></i>, donde cada <i>x<sub>i</sub></i> (las neuronas input) se vincula con <i>y</i> (la neurona output) por los parámetros <i>&#946;<sub>i</sub></i> (las ponderaciones).</p>        <p>En este modelo lineal, cuando <i>x<sub>i</sub></i> cambia en una unidad, <i>y</i> cambia <i>&#946;<sub>i</sub></i> unidades.</p>        <p>La neurona output luego procesa este valor usando una funci&oacute;n de activaci&oacute;n. En la forma más simple de la red neuronal, la funci&oacute;n de activaci&oacute;n es la identidad. En este caso, el valor dador en (1) constituir&iacute;a el output final de la red para la observaci&oacute;n en <i>t</i>. En sus cálculos, la red tratará de reproducir el valor del output, dados los valores de los inputs.</p>        <p>Ahora, si se cree que existen asimetr&iacute;as entre los inputs o variables de pol&iacute;tica y el output, es decir que la relaci&oacute;n entre estas variables depende de la magnitud y la direcci&oacute;n de los inputs, entonces (1) debe generalizarse con la introducci&oacute;n de no linealidades en la relaci&oacute;n. Esto puede lograrse incorporando una funci&oacute;n de umbral, que permita que una suma ponderada de los inputs suficientemente grande active un cambio de r&eacute;gimen discreto. Sin embargo, el cambio de r&eacute;gimen no tiene que ser abrupto y para ello se emplean funciones de activaci&oacute;n suaves, tales como la funci&oacute;n log&iacute;stica (v&eacute;ase ecuaci&oacute;n 2 y <a href="#g4">gráfico 4</a>).</p>        <p><i>G</i>(<i>z</i>) = 1/[1+ exp(-<i>z</i>)] (2)</p>        ]]></body>
<body><![CDATA[<p align=center><a name="g4"></a><img src="/img/revistas/le/n65/n65a3g4.gif"></p>      <p align=center>Gráfico 4. <i>Funci&oacute;n log&iacute;stica</i></p>        <p>La funci&oacute;n (2) puede aplicarse al modelo lineal en (1) para permitir una relaci&oacute;n no lineal entre los inputs y el output. Si además se cree que el efecto de los inputs sobre el output no es directo, como usualmente ocurre en las relaciones econ&oacute;micas, sino que existen variables intermedias que operan entre ellas; entonces el uso de unidades escondidas como etapas intermedias, donde los inputs <i>x<sub>i</sub></i> y sus pesos son sometidos a una nueva ponderaci&oacute;n antes de afectar al output, permite que la red capture la relaci&oacute;n no lineal entre las variables input y el output.</p>        <p>Existe una amplia variedad de alternativas para explicar el comportamiento de una variable <i>y<sub>t</sub></i> en funci&oacute;n de sus propios valores pasados o de los rezagos de otras variables <i>X<sub>t</sub></i>. De acuerdo con Granger y Ter&auml;svirta (1993) estas alternativas podr&iacute;an clasificarse de acuerdo con la forma funcional mediante la cual se aproxima esta relaci&oacute;n. Si asumen una forma funcional espec&iacute;fica en la que usualmente deben estimarse parámetros, se tratar&iacute;a, naturalmente, de modelos param&eacute;tricos. Si, por el contrario, esta forma funcional no se encuentra restringida a pertenecer a ninguna clase particular de funci&oacute;n, el modelo ser&iacute;a no param&eacute;trico. En el medio se encontrar&iacute;an especificaciones semiparam&eacute;tricas dado que algunas variables entran de forma param&eacute;trica y otras lo hacen no parametricamente. A su vez, los modelos param&eacute;tricos pueden clasificarse de acuerdo con el carácter de la relaci&oacute;n entre las variables objeto de estudio.</p>        <p>Un modelo lineal <i>y<sub>t</sub> = &#946;<b>´</b>X<sub>t</sub> + e<sub>t</sub></i> es apto para modelar relaciones en las que choques positivos y negativos de igual magnitud producen efectos id&eacute;nticos,  pero en direcciones opuestas. As&iacute; mismo, es adecuado para describir relaciones en las que los efectos son siempre proporcionales a la magnitud del choque y además independientes del momento en el que &eacute;ste ocurre. Si, efectivamente, la relaci&oacute;n entre las variables objeto de estudio es no lineal, el investigador se enfrenta a una amplia gama de posibilidades entre las que se encuentran las redes neuronales artificiales.</p>    <h3 align=left><i>B. Arquitectura</i></h3>        <p>Por arquitectura de una red neuronal artificial se entiende el conjunto de inputs incluidos en la parte no lineal, <i>p</i>, que puede estar completamente contenido en el conjunto de <i>k</i> variables asociadas a la parte lineal; as&iacute; como el número de unidades escondidas, <i>q</i>, y el número de superficies escondidas, necesarias para la determinaci&oacute;n del componente no lineal (Misas et ál., 2003).</p>        <p>El tipo de red neuronal que se aborda en este trabajo es multicapa (posee tres superficies), se alimenta hacia delante (la informaci&oacute;n fluye desde la superficie input hacia la superficie output) y con una única superficie escondida o &quot;single hidden layer feedforward network&quot; . En el <a href="#g5">gráfico 5</a> puede observarse una representaci&oacute;n gráfica del tipo de red neuronal descrito.</p>        <p align=center><a name="g5"></a><img src="/img/revistas/le/n65/n65a3g5.gif"></p>      <p align=center>Gráfico 5. <i>Representaci&oacute;n de una red neuronal alimentada hacia adelante con una única superficie escondida o single layer feedforward network</i></p>        <p>En la base de esta red se encuentra una superficie input conformada por el conjunto de variables explicativas <i>X<sub>t</sub></i>. Estas <i>k</i> variables explicativas pueden ser rezagos de la misma variable dependiente, <i>l</i>, as&iacute; como de las variables ex&oacute;genas, <i>m</i>, <i>X<sub>t</sub></i>= {<i>y<sub>t-1</sub></i>,...,<i>y<sub>t-l</sub></i>,<i>w</i><sub>1<i>t</i></sub>,...,<i>w<sub>mt</sub></i>} y relacionarse tanto lineal como no linealmente con la variable explicada. Estas últimas conforman el conjunto <i>Z<sub>t</sub></i>, donde <i>Z<sub>t</sub></i> &#8838;<i> X<sub>t</sub></i>.</p>        ]]></body>
<body><![CDATA[<p>Cada uno de estos inputs es multiplicado por una ponderaci&oacute;n. Como es de esperarse, la estimaci&oacute;n de las ponderaciones iniciales correspondientes a la parte lineal <i>Ø<sub>i</sub></i> , para <i>i</i>= 1,...,<i>l+m</i> se lleva a cabo a trav&eacute;s de m&iacute;nimos cuadrados ordinarios y la sumatoria de los productos de estas variables por sus respectivos pesos se va directamente al output como lo ilustra el <a href="#g5">gráfico 5</a>.</p>        <p> <img src="/img/revistas/le/n65/n65a3f1.gif" align=middle> (3)</p>        <p>Por su parte, los pesos asociados a la parte no lineal <i>&#947;<sub>i,j</sub></i> para <i>i</i>=0,...,<i>p</i> y <i>j</i>=1,...,<i>q</i> son obtenidos aleatoriamente a partir de una distribuci&oacute;n uniforme en el intervalo [-<i>a,a</i>]. Antes de entrar a la superficie oculta, estos pesos se encargan de amplificar o disminuir el efecto de las señales originales. En la superficie oculta existen unidades escondidas que pueden estar asociadas a una variedad de funciones que permiten la transici&oacute;n suave o discreta desde un r&eacute;gimen a otro. En este trabajo se emplearon funciones log&iacute;sticas como la presentada en la ecuaci&oacute;n (2). All&iacute;, las funciones de activaci&oacute;n transforman las combinaciones <i>Z<b>´</b><sub>t</sub></i><i>&#947;<sub>i,j</sub></i> en los valores comprendidos entre cero y uno. Finalmente, estos valores son multiplicados por <i>&#946;<sub>j</sub></i> para <i>j</i>=1,...,<i>q</i>. Los valores iniciales de <i>&#946;<sub>j</sub></i> se hallan, una vez más, por m&iacute;nimos cuadrados ordinarios.</p>        <p> <img src="/img/revistas/le/n65/n65a3f2.gif" align=middle> (4)</p>        <p>La suma de la parte lineal y la parte no lineal produce el output <img src="/img/revistas/le/n65/n65a3f3.gif" align=middle>, donde</p>        <p> <img src="/img/revistas/le/n65/n65a3f4.gif" align=middle> (5)</p>        <p>Una especificaci&oacute;n con un número adecuado de unidades escondidas puede aproximar cualquier funci&oacute;n no lineal con un grado arbitrario de precisi&oacute;n (Tkacz, 1999). Esto se conoce como la propiedad universal de aproximaci&oacute;n de las redes neuronales y tal aproximaci&oacute;n no tendr&iacute;a lugar en ausencia de la capa de unidades escondidas (White, 1992).</p>        <p>Siguiendo a Swason y White (1995), en la terminolog&iacute;a de redes los parámetros asociados con la parte no lineal, <i>&#947;<sub>ij</sub></i> y <i>&#946;<sub>j</sub></i>, se conocen como ponderaciones del input to hidden layer y hidden layer to output, respectivamente,  mientras que los parámetros correspondientes a la parte lineal de la red, <i>&#966;<sub>i</sub></i>, se conocen como ponderaciones input to output. La red adquiere conocimiento a trav&eacute;s del conjunto de parámetros &#920;= {<i>&#947;<sub>ij</sub>,&#946;<sub>j</sub></i>,&#966;<sub><i>i</i></sub>}. El vector <i>&#920;</i> tiene  (<i>p</i>+1)*<i>q + q</i> + (<i>k</i>+1) parámetros. Los primeros (<i>p</i>+1)*<i>q</i> elementos se relacionan con los parámetros asociados al intercepto más las <i>p</i> variables incluidas en la parte no lineal, que a su vez se hallan vinculados con las distintas unidades escondidas <i>q</i>. Los siguientes <i>q</i> elementos se refieren a las ponderaciones que van desde las <i>q</i> unidades escondidas hasta el output. Los restantes (<i>k</i>+1) elementos corresponden a los parámetros asociados al intercepto más las <i>k</i> variables de la parte lineal. El aprendizaje de la red consiste en el ajuste repetido de estos parámetros hasta alcanzar un nivel de convergencia deseado. Este proceso será explicado en detalle en la siguiente secci&oacute;n.</p>    <h3 align=left><i>C. Estimaci&oacute;n</i></h3>        <p>De la misma manera que en el caso lineal, la estimaci&oacute;n de parámetros en modelos intr&iacute;nsecamente no lineales, se basa en la minimizaci&oacute;n o maximizaci&oacute;n de una funci&oacute;n objetivo como la suma de errores al cuadrado o la funci&oacute;n de verosimilitud. Las ponderaciones &#920;= {<i>&#947;<sub>ij</sub>,&#946;<sub>j</sub></i>,&#966;<sub><i>i</i></sub>} de la red presentada en este trabajo, se obtienen minimizando la suma de las desviaciones al cuadrado entre el output y el pron&oacute;stico de dicha red, es decir la suma de residuales al cuadrado.</p>        <p> <i>S</i>(&#920;) = <img src="/img/revistas/le/n65/n65a3c2.gif" align=middle>[<i>y<sub>t</sub> - f</i>(<i>X<sub>t</sub></i>,&#920;)]<sup>2</sup> (6)</p>        ]]></body>
<body><![CDATA[<p>donde, <i>f</i>(<i>X<sub>t</sub></i>,&#920;) = &#966;<sub>0</sub> + <i>X<sub>t</sub><sup><b>´</b></sup></i>&#966;<sub><i>i</i></sub> + <img src="/img/revistas/le/n65/n65a3c3.gif" align=middle> <i>&#946;<sub>j</sub>G</i>(<i>Z<sub>t</sub><sup><b>´</b></sup> &#947;<sub>i,j</sub></i>) + <i>&#949;<sub>t</sub></i> (7)</p>        <p>Precisamente, el aprendizaje de la red se encuentra en el proceso de entrenamiento durante el cual se estiman y ajustan sucesivamente los parámetros &#920;= { <i>&#947;<sub>ij</sub>,&#946;<sub>j</sub></i>,&#966;<sub><i>i</i></sub>} con el fin de minimizar el error y obtener el modelo de red neuronal que mejor capture el comportamiento de la serie bajo estudio. Para empezar, se requiere una conjetura sobre los valores iniciales de este vector. A cada iteraci&oacute;n, este vector actualiza el conocimiento adquirido en el momento r, de acuerdo con una regla de aprendizaje adecuada &#916;<sup>(<i>r</i>)</sup>.</p>        <p> <img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>+1)</sup> = <img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup> + &#916;<sup>(<i>r</i>)</sup> (8)</p>        <p>La definici&oacute;n de esta regla de aprendizaje conduce a una diversidad de formas para aproximarse al problema de optimizaci&oacute;n declarado en la ecuaci&oacute;n 6. Este problema de optimizaci&oacute;n puede resolverse mediante la aplicaci&oacute;n de m&eacute;todos de direccionamiento, cuyo objetivo es reducir un problema multidimensional a una serie de problemas unidimensionales, mediante la determinaci&oacute;n de un conjunto de direcciones hacia las cuales moverse para llevar a cabo búsquedas lineales en cada una de ellas, con la esperanza de encontrar un punto en el cual el gradiente desaparezca &#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) = 0, es decir, un punto &oacute;ptimo.</p>        <p>Entre estos m&eacute;todos se encuentran el direccionamiento gen&eacute;rico, direccionamiento por coordenadas o los m&eacute;todos de descenso. Estos últimos generan una direcci&oacute;n de búsqueda <i>d<sup>(r)</sup></i> tal que un ligero movimiento en esa direcci&oacute;n, desde un punto inicial <img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>, haga decrecer el valor de la funci&oacute;n objetivo &#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>). Del cálculo se sabe que la direcci&oacute;n más rápida de descenso es la negativa del gradiente.</p>        <p> <i>d<sup>(r)</sup></i> = -&#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) (9)</p>        <p>Si <i>d<sup>(r)</sup></i> &#8800; 0, &eacute;sta es una direcci&oacute;n de descenso y todav&iacute;a es posible, mediante iteraciones, mejorar el valor de la funci&oacute;n objetivo. Este tipo de m&eacute;todos se conoce como steepest descent (descenso más pronunciado) y entre ellos se encuentra el procedimiento más ampliamente usado para el entrenamiento supervisado<sup>7</sup> de redes neuronales multicapa alimentadas hacia adelante.</p>        <p>Una vez se ha obtenido la direcci&oacute;n del descenso, debe encontrarse el step length <i>&#955;</i>(longitud de paso) que responda al problema de cuánto debe ser el desplazamiento en esa direcci&oacute;n. Esto se logra a trav&eacute;s de una búsqueda lineal en la que se minimiza</p>        <p> <i>f</i>(<i>&#955;</i>) = <i>S</i>(&#920;<sup>(<i>r</i>)</sup> + <i>&#955;d<sup>(r)</sup></i>) sujeto a <i>&#955;</i> &#8805; 0 (10)</p>        <p>Si <i>f</i>(<i>&#955;</i>) es una funci&oacute;n convexa, la condici&oacute;n suficiente de optimalidad es <i>f<b>´</b></i>(<i>&#955;</i>) = 0, y se resuelve para <i>&#955;</i>. Ahora con este valor se actualiza</p>        ]]></body>
<body><![CDATA[<p> <img src="/img/revistas/le/n65/n65a3c4.gif"><sup>(<i>r</i>+1)</sup> = <img src="/img/revistas/le/n65/n65a3c4.gif"><sup>(<i>r</i>)</sup> + <i>&#955;d<sup>(r)</sup></i> (11)</p>        <p>Obs&eacute;rvese c&oacute;mo, para este caso, la regla de aprendizaje corresponde a un movimiento de longitud <i>&#955;</i> en la direcci&oacute;n opuesta del gradiente</p>        <p> &#8711;<sup>(<i>r</i>)</sup> = <i>&#955;</i>d<sup>(r)</sup></i> donde <i>d<sup>(r)</sup></i> = -&#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(r)</sup>) (12)</p>        <p>Recu&eacute;rdese que el gradiente de una funci&oacute;n evaluada en un punto se define como el vector de derivadas de la funci&oacute;n con respecto a cada una de las variables. Teniendo en cuenta que estas derivadas parciales miden el efecto que un cambio marginal de estas variables tiene sobre la funci&oacute;n, en este caso, la suma de residuales al cuadrado S(&#920;), este tipo de algoritmos, que usa informaci&oacute;n sobre el gradiente, lo que hace es mirar c&oacute;mo cambia el error cuando cambia el valor de las variables. Dado que no es posible cambiar el valor de las variables, se cambia el valor de sus pesos. Cuando se aplica una regla de aprendizaje, como la presentada en la ecuaci&oacute;n 12, lo que realmente se está haciendo es tomar la informaci&oacute;n o conocimiento disponible en <i>r</i>, y ajustarla en la direcci&oacute;n contraria del impacto que sobre el error tiene dicha ponderaci&oacute;n, con el fin de reducirlo a cada iteraci&oacute;n.</p>        <p>El valor de la funci&oacute;n objetivo evaluada en este nuevo punto <img src="/img/revistas/le/n65/n65a3c4.gif" align=middel><sup>(<i>r</i>+1)</sup>, será inferior que aquel evaluado en la iteraci&oacute;n anterior <img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup></p>        <p> <i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>+1)</sup>) < <i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) (13)</p>        <p>Este proceso iterativo debe continuar hasta que las condiciones de convergencia deseadas sean alcanzadas. Idealmente, el gradiente deber&iacute;a desaparecer por completo, pero dada la complejidad de ciertos problemas de optimizaci&oacute;n, es dif&iacute;cil que esta condici&oacute;n pueda satisfacerse y por lo tanto, en ocasiones, s&oacute;lo se exige que se aproxime a cero.</p>        <p>El m&eacute;todo reci&eacute;n descrito corresponde al algoritmo de backpropagation (propagaci&oacute;n hacia atrás). Su nombre se deriva del hecho de que las señales de error son propagadas hacia atrás, a trav&eacute;s de la red, capa por capa.</p>        <p>Este algoritmo fue popularizado en 1986 por Rumelhart, Hinton y Williams, aunque se trata realmente de una sofisticada aplicaci&oacute;n de la regla de la cadena del cálculo elemental de Werbos (1974).</p>        <p>Utilizando una analog&iacute;a biol&oacute;gica, las ponderaciones representan un estado de memoria, el &quot;mejor cálculo&quot;  de c&oacute;mo hacer predicciones a partir de los resultados de los nodos. Una vez que la entrada de inputs se procesa  a trav&eacute;s del sistema, puede compararse con el valor del resultado efectivo (aprendizaje supervisado). Los valores resultantes y efectivos se comparan. Si existe alguna diferencia entre los dos valores (parecida a un valor residual) entonces ser&iacute;a deseable ajustar el modelo con la esperanza de mejorarlo. Una vez calculado el error en el valor del output, &eacute;ste es distribuido hacia atrás en el sistema. Como funciona por su v&iacute;a a trav&eacute;s de nodos, las ponderaciones cambian proporcionalmente, aumentando o disminuyendo dependiendo de la direcci&oacute;n del error.</p>        ]]></body>
<body><![CDATA[<p>En la fase de preparaci&oacute;n, el objetivo es procesar un gran número de casos a trav&eacute;s de la red neuronal, de tal forma que &eacute;sta pueda hacer las mejores predicciones para todas las pautas de entrada de datos.</p>        <p>El <a href="#g6">gráfico 6</a> ilustra los dos pasos de c&oacute;mputo del entrenamiento de backpropagation. El forward pass (pase hacia adelante): en &eacute;ste, la red se alimenta de los inputs y produce un output. Durante esta etapa los pesos sinápticos son fijos. El backward pass (pase hacia atrás): los pesos sinápticos son todos ajustados de acuerdo con la señal de error, la cual es propagada hacia atrás por toda la red en direcci&oacute;n opuesta a las conexiones sinápticas.</p>        <p align=center><a name="g6"></a><img src="/img/revistas/le/n65/n65a3g6.gif"></p>      <p align=center>Gráfico 6. <i>Representaci&oacute;n del Algoritmo de Backpropagation</i></p>        <p>En general, en los m&eacute;todos de descenso, la búsqueda de la direcci&oacute;n viene dada por</p>        <p> <i>d<sup>(r)</sup> = A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middel><sup>(<i>r</i>)</sup>)<sup>-1</sup> &#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middel><sup>(<i>r</i>)</sup>) (14)</p>        <p>donde <i>A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=center><sup>(<i>r</i>)</sup>) es una matriz de direcci&oacute;n.</p>        <p>Obs&eacute;rvese que si <i>A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) es igual a la matriz id&eacute;ntica, la ecuaci&oacute;n (14) converge a (9) y se tiene el m&eacute;todo de descenso más pronunciado. El algoritmo de backpropagation hace parte de este tipo de algoritmos. Como ya se anot&oacute;, este m&eacute;todo es tan s&oacute;lo un caso especial de los m&eacute;todos de descenso, que a su vez son un tipo de m&eacute;todos de direccionamiento.</p>        <p>La mayor&iacute;a de estos algoritmos tiene la forma:</p>        <p> <img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>+1)</sup> = <img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup> - <i>&#955;A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>)<sup>-1</sup> &#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) (15)</p>        ]]></body>
<body><![CDATA[<p>El rasgo que diferencia los algoritmos alternativos es la definici&oacute;n de <i>A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>). Los m&eacute;todos de Newton hacen <i>A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) igual a la matriz Hessiana, es decir, que computan derivadas de segundo orden y luego proceden en direcci&oacute;n descendente para localizar un m&iacute;nimo despu&eacute;s de un número de iteraciones.</p>        <p> <i>A</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) = [&#8711;<sup>2</sup><i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>)] = <i>H</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) (16)</p>        <p>Dado que el cálculo num&eacute;rico de la matriz Hessiana es computacionalmente muy costoso, incluso en problemas de tamaño moderado, y que, adicionalmente, la direcci&oacute;n de la búsqueda requiere que esta matriz sea invertible, los m&eacute;todos Quasi-Newton tienen como punto inicial a una matriz sim&eacute;trica definida positiva, por ejemplo la matriz identidad, y a partir de la informaci&oacute;n sobre la funci&oacute;n <i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) y el gradiente &#8711;<i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) construyen, a cada iteraci&oacute;n, informaci&oacute;n sobre la curvatura &#8711;<sup>2</sup><i>S</i>(<img src="/img/revistas/le/n65/n65a3c4.gif" align=middle><sup>(<i>r</i>)</sup>) y hacen una aproximaci&oacute;n de la inversa de la matriz Hessiana usando una t&eacute;cnica de actualizaci&oacute;n apropiada.</p>        <p>Uno de los primeros esquemas para construir la inversa de la matriz Hessiana fue el DFP, propuesto originalmente por Davidon (1959) y posteriormente desarrollado por Fletcher y Powell (1963). Experimentos num&eacute;ricos han mostrado que el desempeño de la f&oacute;rmula de Broyden, Fletcher, Goldfarb y Shanno (BFGS) es superior, lo que la ha hecho particularmente popular en el trabajo de redes neuronales. En este trabajo se emple&oacute; la subrutina NLPQN<sup>8</sup> implementada en el paquete estad&iacute;stico Statistical Analysis System (SAS). Esta subrutina permite la especificaci&oacute;n de distintas f&oacute;rmulas de actualizaci&oacute;n, entre ellas BFGS, presentada en la siguiente ecuaci&oacute;n.</p>        <p> <i>H<sub>k+1</sub></i> = <i>H<sub>k</sub></i> + [(<i>q<sub>k</sub>q<sub>k</sub><sup>T</sup></i>)<font size=+2>/</font>(<i>q<sub>k</sub><sup>T</sup>s<sub>k</sub></i>)] - [(<i>H<sub>k</sub><sup>T</sup>s<sub>k</sub><sup>T</sup>s<sub>k</sub>H<sub>k</sub></i>)<font size=+2>/</font>(<i>s<sub>k</sub><sup>T</sup>H<sub>k</sub>s<sub>k</sub></i>)] (17)</p>        <p>donde:</p>      <p> <i>s<sub>k</sub></i> = &#920;<sup>(<i>r</i>+1)</sup>) - &#920;<sup>(<i>r</i>)</sup> (18)</p>      <p>y <i>q<sub>k</sub></i> = &#8711;<i>S</i>(&#920;<sup>(<i>r</i>+1)</sup>) - &#920;<i>S</i>(&#920;<sup>(<i>r</i>)</sup>) (19)</p>        <p>Dado que la suma de residuales al cuadrado <i>S</i>(&#920;) puede poseer numerosos m&iacute;nimos locales, Franses y van Dijk (1999) sugieren el uso de distintos valores iniciales para el vector de parámetros &#920; y elegir aquellos que conducen al menor valor de <i>S</i>(&#920;) con el fin de mejorar las posibilidades de encontrar un m&iacute;nimo global. Adicionalmente, proponen otros m&eacute;todos para mejorar las propiedades num&eacute;ricas de los estimadores, entre los que se encuentran reescalar las variables <i>y<sub>t</sub></i> y <i>X<sub>t</sub></i> de tal forma que tengan media cero y desviaci&oacute;n estándar igual a uno, as&iacute; como evitar que los estimadores asuman valores demasiado grandes. Esto podr&iacute;a lograrse aumentando la funci&oacute;n objetivo en (6) con un t&eacute;rmino penalizador conocido como weight decay. La funci&oacute;n objetivo a minimizar ser&iacute;a entonces:</p>        <p> <img src="/img/revistas/le/n65/n65a3f5.gif" align=middle> (20)</p>        ]]></body>
<body><![CDATA[<p>Donde, <i>r<sub>&#966;</sub>,r<sub>&#946;</sub></i> y <i>r<sub>&#947;</sub></i> deben ser especificados.<sup>9</sup>    <h3 align=left><i>D. Aplicaciones</i></h3>        <p>Las redes neuronales artificiales han sido ampliamente usadas en una variedad de disciplinas. Sus aplicaciones van desde convertir texto escrito a voz (Sejnowsky y Rosenberg, 1986), reconocer caracteres escritos a mano (LeCun et ál., 1990), jugar Backgammon (Tesauro, 1989), tocar música (Brecht y Aiken, 1995, Citado por González, 2000) hasta pronosticar el tiempo de supervivencia de pacientes enfermos.</p>        <p>Las aplicaciones más comunes en medicina cl&iacute;nica corresponden al diagn&oacute;stico de enfermedades. El trabajo de Ravdin et ál. fue uno de los primeros estudios en usar las redes neuronales para el análisis de supervivencia y producir estimadores precisos para pacientes con cáncer. Ohno-Machado et ál. estimaron el tiempo de supervivencia de pacientes infectados con sida.  La informaci&oacute;n con la que entrenaron la red corresponde al seguimiento de individuos por tantos intervalos como categor&iacute;as de output tiene el modelo. En su modelo los nodos output corresponden a la probabilidad de que un individuo muera durante el primer intervalo, el segundo y as&iacute; sucesivamente, siendo estos intervalos mutuamente excluyentes. Algunas variaciones de este modelo se refieren a la predicci&oacute;n de la supervivencia acumulada, es decir, si un paciente determinado estará muerto despu&eacute;s de un intervalo de tiempo dado; y la supervivencia condicional, es decir, la probabilidad de que cierto individuo que ha sobrevivido hasta cierta fecha seguirá vivo en el siguiente intervalo.</p>        <p>Otra aplicaci&oacute;n reciente de las redes neuronales se refiere a un problema que desde la antigüedad ha atra&iacute;do el inter&eacute;s de los cient&iacute;ficos: el pron&oacute;stico del flujo de los r&iacute;os. Este problema ha sido atacado con t&eacute;cnicas lineales como modelos AR, ARMAX y Filtros de Kalman y hasta hace muy poco se ha venido explotando el potencial de las redes neuronales en este campo. Particularmente, Atiya et ál. (1999) pronosticaron el flujo del r&iacute;o Nilo. Egipto depende casi exclusivamente de este r&iacute;o para la irrigaci&oacute;n agr&iacute;cola. Su flujo está lejos de ser estable y exhibe un comportamiento estacional, bajo durante los meses de invierno y alto en agosto y septiembre. La represa de Asuán retiene el agua que llega y la libera de una forma más uniforme para cubrir de manera &oacute;ptima las necesidades agr&iacute;colas y de generaci&oacute;n de electricidad. El pron&oacute;stico del flujo del r&iacute;o ha ayudado a determinar la cantidad &oacute;ptima de agua a liberar y, por lo tanto, a manejarla de manera más eficiente.</p>        <p>Las anteriores hacen parte de un sinnúmero de aplicaciones en las que las redes neuronales han demostrado su incre&iacute;ble capacidad para capturar comportamientos at&iacute;picos durante su fase de entrenamiento y generar pron&oacute;sticos acertados al generalizar el conocimiento adquirido por fuera de dicho conjunto de informaci&oacute;n.</p>    <h3 align=center>III. Aplicaci&oacute;n de redes neuronales al caso de la inflaci&oacute;n en Colombia<sup>10</sup></h3>        <p>La informaci&oacute;n utilizada en este trabajo corresponde a datos mensuales desde enero de 1982 hasta febrero de 2005 de la primera diferencia del  logaritmo del &iacute;ndice de precios al consumidor (DLIPC). Como variables explicativas se consideraron dieciocho rezagos de la variable end&oacute;gena, as&iacute; como igual número de rezagos de la variable ex&oacute;gena M3, definida tambi&eacute;n como la primera diferencia del logaritmo de esta serie (DLM3). Ambas series fueron normalizadas (NDLIPC y NDLM3) para que tuvieran media cero y desviaci&oacute;n estándar igual a uno, tal como lo sugieren Franses y van Dijk (1999), con el prop&oacute;sito de mejorar las propiedades num&eacute;ricas de los estimadores.</p>        <p>Dado que se calcularon dieciocho rezagos de ambas series, se cont&oacute; con informaci&oacute;n completa a partir de agosto de 1983, punto en el cual empezar&iacute;a la base de datos de entrenamiento de la red neuronal. Adicionalmente, los últimos dieciocho datos fueron removidos de esta muestra, para un total de 241 observaciones. Lo anterior se hizo con el fin de tener informaci&oacute;n suficiente para evaluar el desempeño de cada una de las redes estimadas por fuera de muestra.</p>        <p>Naturalmente, el primer paso en la selecci&oacute;n de la mejor red neuronal artificial consiste en la elecci&oacute;n del conjunto de variables explicativas. Estas pueden ser rezagos de las variables end&oacute;genas como variables ex&oacute;genas y/o sus rezagos. Lo usual es emplear la estrategia stepwise cuyos procedimientos básicos incluyen la identificaci&oacute;n de un modelo inicial, la iteraci&oacute;n de pasos, esto es, la alteraci&oacute;n repetida del modelo en el paso anterior, adicionando o removiendo una variable explicativa de acuerdo con un criterio de selecci&oacute;n<sup>11</sup> y la terminaci&oacute;n de la búsqueda cuando no sea posible dar más pasos, dado el criterio o cuando el número máximo de pasos especificado haya sido alcanzado.</p>        <p>Particularmente, la elecci&oacute;n del conjunto de inputs para esta red es el resultado de la intersecci&oacute;n de una serie de búsquedas que trae programadas SAS, como stepwise selection, forward entry o backward removal, que hacen uso de distintos criterios tales como el <i>R</i><sup>2</sup> más alto, el <i>R</i><sup>2</sup> ajustado o el estad&iacute;stico de Mallow <i>C(p)</i>.<sup>12</sup></p>        <p>El procedimiento forward (hacia adelante) adiciona una variable explicativa en cada paso, la cual s&oacute;lo es incluida en el conjunto de inputs si su entrada mejora los criterios de selecci&oacute;n del modelo anterior. Si ninguna variable tiene un valor que exceda el valor cr&iacute;tico especificado para entrar en el modelo, entonces el proceso concluye; de lo contrario, la variable con el valor más alto en la estad&iacute;stica de entrada ingresa en el modelo.</p>        ]]></body>
<body><![CDATA[<p>El esquema backward (hacia atrás), en cambio, parte de un modelo que contiene todas las variables explicativas posibles y a cada paso remueve las variables que menor aporte le hacen al modelo anterior. Si ninguna variable tiene un valor que sea menor que el valor cr&iacute;tico para ser removida del modelo, entonces el proceso concluye; de lo contrario, la variable con el menor valor es removida del modelo.</p>        <p>Despu&eacute;s de la adopci&oacute;n de las anteriores estrategias, a partir de la base de datos de entrenamiento, se encontr&oacute; que el mejor modelo en la parte lineal deb&iacute;a incluir como variables explicativas a los rezagos uno, cuatro, once y doce de NDLIPC y a los rezagos dos, cuatro y trece de NDLM3, para un total de siete variables en <i>X<sub>t</sub></i>. Los resultados se presentan en el anexo 1.</p>        <p>Una vez se han elegido la <i>k</i> variables que conformarán el conjunto <i>X<sub>t</sub></i> que se relaciona de forma lineal con el output <i>y<sub>t</sub></i>, debe decidirse el número <i>p</i> &oacute;ptimo de estas variables que entrarán a conformar el conjunto <i>Z<sub>t</sub></i> que se relaciona de manera no lineal con <i>y<sub>t</sub></i>. Lo anterior se logra paso a paso, incluyendo en primera instancia tan s&oacute;lo a la primera variable del conjunto de inputs y adicionando cada vez una variable más, hasta incluir a la totalidad de variables en <i>X<sub>t</sub></i>, es decir, hasta que <i>Z<sub>t</sub></i>sea igual a <i>X<sub>t</sub></i>.</p>        <p>As&iacute; mismo, debe decidirse sobre el número adecuado de unidades escondidas <i>q</i>, que responda adecuadamente a la disyuntiva entre capturar el comportamiento no lineal entre las variables y no generar un sobre ajuste del modelo que le impida hacer pron&oacute;sticos acertados. Para evitar que esto ocurra se deben probar simultáneamente todas las combinaciones posibles de <i>p</i> y <i>q</i>, es decir, de variables en la componente no lineal y de unidades escondidas.</p>        <p>Para este trabajo se estimaron 28 arquitecturas distintas, una para cada combinaci&oacute;n posible entre número de variables en la parte no lineal, <i>p</i> =1,...,7; y número de unidades escondidas, <i>q</i> =1,...,4; de tal forma que la primera red incluir&iacute;a tan s&oacute;lo a la primera variable del conjunto <i>X<sub>t</sub></i> y una unidad escondida, hasta completar siete variables en la parte no lineal y cuatro unidades escondidas. Recu&eacute;rdese que en la parte lineal siempre se considerará la totalidad de elementos del conjunto <i>X<sub>t</sub></i>.</p>        <p>Dado que la funci&oacute;n que se desea minimizar puede presentar diversos m&iacute;nimos locales, el hecho de que el algoritmo num&eacute;rico empleado converja, no significa que se haya encontrado un m&iacute;nimo global. Por lo tanto, se sigui&oacute; la recomendaci&oacute;n de Franses y van Dijk (1999) en cuanto a estimar las redes partiendo de múltiples valores iniciales del vector de parámetros &#920;.  En particular, cada una de las 28 redes fue estimada a partir de 30 valores iniciales<sup>13</sup> distintos del vector de parámetros, obtenidos de forma aleatoria a partir de una distribuci&oacute;n uniforme en el intervalo [-2,2]. Una vez estimados los 30 vectores de parámetros, resultantes del proceso de optimizaci&oacute;n, se verific&oacute; que cada uno de ellos cumpliera con la condici&oacute;n de primer orden<sup>14</sup>, para garantizar que ese vector de parámetros estimados efectivamente condujera a un punto cr&iacute;tico. Si un vector de parámetros no satisfac&iacute;a esta condici&oacute;n, entonces era rechazado. Los vectores de parámetros restantes se ordenaron de forma ascendente de acuerdo con el valor de la funci&oacute;n objetivo evaluada en cada uno de ellos. As&iacute; se completaron los cinco mejores vectores de parámetros para cada una de las 28 arquitecturas, para un total de 140 vectores de parámetros. A continuaci&oacute;n, cada uno de estos vectores de parámetros fue sometido a evaluaciones por dentro y por fuera de muestra. Usualmente, los trabajos de redes neuronales han partido de un solo conjunto de parámetros por cada arquitectura: aquel que al ser evaluado en la funci&oacute;n objetivo conduce a su menor valor. La elecci&oacute;n de los cinco mejores vectores para cada arquitectura constituye una innovaci&oacute;n que pretende responder al problema de modelos cuyo ajuste por dentro de muestra es el mejor, pero que presentan pobres desempeños por fuera de ella.</p>    <h3 align=left><i>A. Evaluaci&oacute;n por dentro de muestra</i></h3>        <p>La evaluaci&oacute;n de las distintas arquitecturas posibles que conduce a la elecci&oacute;n de la mejor red neuronal debe llevarse a cabo tanto dentro de muestra como por fuera de ella, dado que una red cuyo desempeño sea excelente dentro de muestra puede presentar problemas de pron&oacute;stico por fuera de muestra. Esto podr&iacute;a deberse a una sobre especificaci&oacute;n atribuida a un número elevado de unidades escondidas que le dar&iacute;a una gran flexibilidad a la red, permiti&eacute;ndole capturar y memorizar perfectamente el comportamiento no lineal de la serie bajo estudio, pero le impedir&iacute;a predecir su comportamiento futuro.</p>        <p>La evaluaci&oacute;n del desempeño dentro de muestra para cada una de las arquitecturas estimadas se lleva a cabo sobre la variaci&oacute;n anual del IPC, calculada como la primera diferencia del logaritmo del IPC en un mes dado y el logaritmo del IPC del mes correspondiente del año anterior. Recu&eacute;rdese que en la estimaci&oacute;n esta variable fue reescalada para que tuviera media cero y desviaci&oacute;n estándar uno. En la evaluaci&oacute;n por dentro de muestra esta variable deberá ser desnormalizada, es decir, que NDLIPC deberá multiplicarse por su desviaci&oacute;n estándar y sumársele su media. El anexo 2 presenta las medidas calculadas en esta etapa para cada uno de los vectores de parámetros &#920; asociados a cada una de las arquitecturas. En el anexo 3 se presenta un cuadro con las medidas de las tres mejores arquitecturas de acuerdo con cada uno de los criterios.</p>        <p>A la luz de criterios como AIC, RMSE, y MAPE la arquitectura 6_4 supera a las demás y es segunda en BIC y RMSPE. Ésta tiene seis variables en la parte no lineal (<i>p</i>=6), cuatro unidades escondidas en la capa oculta (<i>q</i>=4) y, por supuesto, siete variables en la parte lineal (<i>k</i>=7). Corresponde además a la primera replicaci&oacute;n del vector de parámetros (<i>w</i>=1). La arquitectura 7_4, la más compleja de todas, supera a las demás cuando se observan criterios como RMSPE, es segunda en RMSE y tercera en AIC y MAE.</p>        <p>De los anteriores resultados es evidente que para que la red logre el mejor ajuste dentro de la muestra requiere la mayor complejidad posible, esto es, un número alto de variables explicativas en la parte no lineal, as&iacute; como el mayor número de unidades escondidas, que le permitan capturar con exactitud el complejo comportamiento de la serie bajo estudio.</p>        ]]></body>
<body><![CDATA[<p>Sin embargo, como se verá en la siguiente secci&oacute;n, arquitecturas muy complejas le restan flexibilidad a la red neuronal para hacer pron&oacute;sticos por fuera de la muestra de entrenamiento.</p>    <h3 align=left><i>B. Evaluaci&oacute;n por fuera de muestra</i></h3>        <p>La evaluaci&oacute;n del desempeño por fuera de muestra representa un verdadero avance en el estudio que en Colombia se ha hecho sobre redes neuronales artificiales. El trabajo de Jalil y Misas (2005) para el tipo de cambio es el primero en generar pron&oacute;sticos mediante un mecanismo de rolling y evaluarlos a trav&eacute;s de funciones de p&eacute;rdida asim&eacute;trica. Tradicionalmente, esta evaluaci&oacute;n se ha llevado a cabo comparando los valores observados (que se dejaron por fuera de la muestra de entrenamiento con este prop&oacute;sito) frente a los valores  estimados de la variable end&oacute;gena a partir de los distintos conjuntos de parámetros estimados.</p>        <p>Sin embargo, esta metodolog&iacute;a desconoce que la entrada sucesiva de observaciones adicionales modifica el conjunto de informaci&oacute;n sobre el cual se estim&oacute; el vector de parámetros. Por lo tanto, lo ideal en estos casos consiste en reestimar este vector de parámetros cada vez que un nuevo dato es incorporado en la base de datos inicial.</p>        <p>Trabajos anteriores habr&iacute;an empleado el vector de parámetros &#920;<sub>_0</sub>, calculado a partir de la base de datos de entrenamiento, es decir, con las 241 observaciones que se dejaron por dentro de muestra, para hacer los pron&oacute;sticosque parten de cada una de las dieciocho observaciones que se dejaron por fuera de muestra a un horizonte h determinado.<sup>15</sup></p>        <p>El esquema de rolling adoptado en este trabajo se ilustra a continuaci&oacute;n.</p>        <p>N&oacute;tese c&oacute;mo el vector de parámetros &#920;<sub>_0</sub> s&oacute;lo es empleado para hacer pron&oacute;sticos h per&iacute;odos hacia adelante desde la última observaci&oacute;n que se dej&oacute; por dentro de la muestra, de tal forma que los pron&oacute;sticos realizados con dicho vector se extienden desde la observaci&oacute;n 242 hasta la observaci&oacute;n 253, como puede observarse en el <a href="#g7">gráfico 7</a>.</p>        <p align=center><a name="g7"></a><img src="/img/revistas/le/n65/n65a3g7.gif"></p>      <p align=center>Gráfico 7. <i>Esquema de rolling de pron&oacute;sticos</i></p>        <p>Una vez se adiciona el dato 242 en la muestra de entrenamiento, se reestima el vector de parámetros y se encuentra a &#920;<sub>_1</sub>. A su vez, este nuevo vector es empleado para realizar los pron&oacute;sticos desde la observaci&oacute;n 243, h per&iacute;odos hacia delante, hasta la observaci&oacute;n 254.</p>        <p>El proceso continúa reestimando vectores de parámetros cada vez que un nuevo dato es incorporado y proyectando <i>h</i> per&iacute;odos hacia adelante a partir de cada uno de ellos. Finalmente, se adiciona la penúltima observaci&oacute;n que se dej&oacute; por fuera de muestra, se encuentra a &#920;<sub>_17</sub> y con &eacute;l se proyecta informaci&oacute;n desde el dato en 259 hasta el dato en 270. No tendr&iacute;a sentido incorporar el último dato para reestimar parámetros y con ellos hacer más pron&oacute;sticos, puesto que &eacute;stos no tendr&iacute;an valores observados contra los cuales pudieran ser evaluados.</p>        ]]></body>
<body><![CDATA[<p>Al concluir este proceso, para cada arquitectura considerada, se obtiene una matriz de 18x12, compuesta por dieciocho vectores, uno por cada conjunto de parámetros que se reestim&oacute; al incluir una observaci&oacute;n adicional de aquellas que se dejaron por fuera de muestra; del tamaño del horizonte de pron&oacute;stico, en este caso doce.</p>        <p>Es decir que la primera columna contiene los pron&oacute;sticos, doce per&iacute;odos hacia adelante, realizados con los parámetros calculados a partir de la muestra de entrenamiento de la red. La última columna contiene los pron&oacute;sticos hechos a partir del vector de parámetros que se calcul&oacute; al incorporar los datos de las observaciones que se dejaron por fuera de muestra sin incluir el último.</p>        <p>Una vez se han obtenido los pron&oacute;sticos de cada una de las arquitecturas simuladas, debe construirse una medida del error de pron&oacute;stico de la red neuronal, para luego hallar cuál de ellas está arrojando los valores pronosticados más cercanos a los observados.</p>        <p>Existen diversas medidas del error. El error de pron&oacute;stico básico <i>&#949;<sub>t+h</sub></i> donde <i>h</i> denota el horizonte de pron&oacute;stico, se calcula como la diferencia entre el dato pronosticado <img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub><i>t+h</i></sub> y dato observado <i>y<sub>t+h</sub></i></p>        <p> <i>&#949;<sub>t+h</sub> = <img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub>t+h</sub> - y<sub>t+h</sub></i> (21)</p>        <p>De este error básico se derivan mediadas alternativas del error, tales como el error absoluto:</p>        <p> <i>AE<sub>t+h</sub> = &#124;<img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub>t+h</sub> - y<sub>t+h</sub></i> &#124; (22)</p>        <p>O el error cuadrático:</p>        <p> <i>SE<sub>t+h</sub></i> = (<i><img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub>t+h</sub> - y<sub>t+h</sub></i>)<sup>2</sup> (23)</p>        <p>Aunque estas medidas estad&iacute;sticas del error producen un valor de cero para un pron&oacute;stico &oacute;ptimo y son sim&eacute;tricas alrededor de este punto, cada una de ellas implica una ponderaci&oacute;n distinta para las desviaciones del valor del pron&oacute;stico con respecto al valor observado. Las medidas de error cuadráticas o cúbicas, as&iacute; como otras de potencias mayores tienen la ventaja de que penalizan más a las desviaciones extremas que a las pequeñas, mientras que medidas de error absolutas le dan pesos id&eacute;nticos a todos los errores sin importar su tamaño.</p>        ]]></body>
<body><![CDATA[<p>Sin embargo, todas estas medidas desconocen que los costos de que los pron&oacute;sticos se ubiquen por debajo o por encima del dato observado son frecuentemente no sim&eacute;tricos y t&iacute;picamente no cuadráticos. Por ejemplo, en el manejo de inventarios m&eacute;dicos los costos de subestimar o sobreestimar la cantidad necesaria de sangre de determinado grupo sangu&iacute;neo puede resultar en costos altamente asim&eacute;tricos. La sobreestimaci&oacute;n puede causar costos de almacenamiento de inventarios, mientras que la subestimaci&oacute;n puede ser fatal.</p>        <p>La calidad de un pron&oacute;stico debe evaluarse considerando su habilidad para mejorar la calidad de las decisiones que soportan y por lo tanto la evaluaci&oacute;n del desempeño de un m&eacute;todo particular debe medirse por los costos en los que se incurra por la toma de decisiones basada en pron&oacute;sticos incorrectos.</p>        <p>En un pa&iacute;s como Colombia, que todav&iacute;a debe enfrentar procesos desinflacionarios, a la autoridad monetaria le resulta mucho más costoso, en t&eacute;rminos de credibilidad, cuando anuncia una meta de inflaci&oacute;n inferior a la que posteriormente tiene lugar, que cuando lo contrario ocurre. En otras palabras, su evaluaci&oacute;n de pron&oacute;sticos por fuera de muestra debe penalizar más duramente cuando el dato efectivo supere al dato estimado.</p>        <p>Una vez se ha reconocido que los costos en los que la autoridad monetaria debe incurrir, como resultado de una subestimaci&oacute;n de la inflaci&oacute;n, no guardan simetr&iacute;a con los costos derivados de una sobreestimaci&oacute;n de esta variable, debe seleccionarse una medida de error compatible con estas caracter&iacute;sticas.</p>        <p>En un plano cuya abcisa mida la distancia entre el dato pronosticado y el dato efectivamente observado, es decir, la magnitud del error del modelo y cuya ordenada mida el grado de penalizaci&oacute;n de tales errores, este fen&oacute;meno podr&iacute;a capturarse a trav&eacute;s de una funci&oacute;n LINLIN cuya pendiente del tramo a la derecha de cero fuera inferior a la pendiente del tramo a su izquierda.</p>        <p>En otras palabras, bajo un esquema de inflaci&oacute;n objetivo, donde el Banco Central anuncia una meta o incluso un rango en el que deberá situarse la inflaci&oacute;n en el siguiente per&iacute;odo, resulta mucho más costoso que el modelo  que ayuda a soportar dicho anuncio arroje un valor inferior al que ocurre posteriormente.</p>        <p>Esto sucede porque los agentes econ&oacute;micos, que inicialmente creyeron en el anuncio de inflaci&oacute;n y con base en el negociaron sus contratos laborales para el siguiente per&iacute;odo, pero posteriormente debieron soportar un incremento inesperado en el nivel de precios que redujo sus salarios reales y su poder adquisitivo, perderán su confianza en la autoridad monetaria y esta a su vez perderá uno de sus activos más valiosos: credibilidad.</p>        <p>En el siguiente per&iacute;odo, el público hará caso omiso de la meta o rango anunciado y su expectativa de inflaci&oacute;n superará a aquella anunciada, luego pactará salarios nominales compatibles con su propia expectativa. Estos se traducirán en mayores costos laborales que finalmente se verán reflejados en los precios, confirmándose as&iacute; sus expectativas.</p>        <p>Este juego repetido en el que el Banco Central le fall&oacute; en una oportunidad al público, le signific&oacute; el fracaso de su programa desinflacionario en los per&iacute;odos posteriores. Por lo tanto, la red aqu&iacute; propuesta minimizará una funci&oacute;n de costos asim&eacute;trica. Muy poco se ha investigado sobre funciones de error no cuadráticas para el entrenamiento de las redes o sobre funciones de costos asim&eacute;tricas para la evaluaci&oacute;n por fuera de muestra.</p>        <p>Granger desarroll&oacute; una funci&oacute;n lineal asim&eacute;trica de costos para pron&oacute;sticos de manejos de inventarios. La funci&oacute;n LINLIN de costos es lineal a la izquierda y a la derecha de cero. Los parámetros <i>a</i> y <i>b</i> son las pendientes para cada tramo de la funci&oacute;n. El parámetro <i>a</i> corresponde a los costos asociados a la p&eacute;rdida de ingresos por ventas no realizadas como resultado de una subestimaci&oacute;n, mientras que <i>b</i> se relaciona con los costos de almacenamiento de inventario resultantes de una sobreestimaci&oacute;n. Para <i>a</i> &#8800; <i>b</i> estas funciones de costos son asim&eacute;tricas alrededor de cero y su grado de asimetr&iacute;a está dado por el ratio <i>a</i>/<i>b</i>.</p>        ]]></body>
<body><![CDATA[<p> <img src="/img/revistas/le/n65/n65a3f6.gif" align=middle> (24)</p>        <p>Para ilustrar este fen&oacute;meno, considere el popular ejemplo de una aerol&iacute;nea que debe destinar aviones de distintos tamaños, de tal forma que logre satisfacer la demanda de vuelos. Se asume que viajar con una silla vac&iacute;a por sobreestimar  la demanda de tiquetes y emplear un avi&oacute;n más grande de lo necesario, es menos costoso que, por una subestimaci&oacute;n, emplear un avi&oacute;n pequeño y dejar de vender un tiquete por falta de cupo. Esto equivale a tener un beneficio marginal mayor que un costo marginal. Por tanto, los costos <i>a</i> de subestimar la demanda y dejar de percibir ingresos por ventas, son mayores que aquellos derivados de una sobreestimaci&oacute;n, es decir, <i>a</i>><i>b</i> (v&eacute;ase <a href="#g8">gráfico 8</a>).</p>        <p align=center><a name="g8"></a><img src="/img/revistas/le/n65/n65a3g8.gif"></p>      <p align=center>Gráfico 8. <i>Funci&oacute;n LINLIN<sup>16</sup></i></p>        <p>Teniendo en cuenta las anteriores consideraciones, los pron&oacute;sticos por fuera de muestra, de las distintas redes neuronales estimadas en este trabajo, se evaluarán a trav&eacute;s de una funci&oacute;n de costos asim&eacute;trica como la LINLIN que describe adecuadamente la naturaleza del fen&oacute;meno bajo estudio. Dicha evaluaci&oacute;n se hará por horizonte de pron&oacute;stico y con parámetros que var&iacute;an con la lejan&iacute;a en el tiempo de dicho pron&oacute;stico. Es decir que la red que mejor pronostica un per&iacute;odo hacia adelante es aquella que minimiza la funci&oacute;n de costos elegida bajo unos parámetros a y b determinados. De igual forma, se hallarán las redes con mejor desempeño de pron&oacute;stico en cada uno de los horizontes siguientes. Sin embargo, los parámetros de esta funci&oacute;n se suavizarán, reflejando el hecho de que la informaci&oacute;n que la red tiene disponible para pronosticar a horizontes más elevados, es cada vez  más difusa.</p>        <p>La primera tabla del anexo <a href="#a5">5</a>, muestra la arquitectura que minimiza el error asim&eacute;trico en cada uno de los horizontes. Puede observarse c&oacute;mo, según  este criterio, la arquitectura 3_2 tiene el mejor desempeño pronosticando un per&iacute;odo hacia adelante, la 6_2 y la 2_2 son las mejores pronosticando dos y tres per&iacute;odos en el futuro, respectivamente, y del horizonte cuatro en adelante la mejor red es la 2_3. Esta es definitivamente una arquitectura sencilla, con tan s&oacute;lo dos variables en la parte no lineal, a diferencia de la complejidad de las mejores redes por dentro de muestra.</p>        <p>El anexo 4 incluye las mejores redes para cada uno de los horizontes, de acuerdo con medidas sim&eacute;tricas tradicionales del error como lo son el RMSE, el MAE, el RMSPE y el MAPE. Puede observarse c&oacute;mo la elecci&oacute;n de la mejor red en los primeros tres horizontes difiere de la decisi&oacute;n adoptada a trav&eacute;s de la minimizaci&oacute;n de una funci&oacute;n de costos asim&eacute;trica.</p>        <p>Hasta ahora tan s&oacute;lo se ha elegido, dentro de las distintas redes neuronales aqu&iacute; estimadas, la arquitectura con el menor error de pron&oacute;stico por horizonte; sin embargo, no se ha contrastado aún su desempeño frente a otros modelos.</p>        <p>Se ha estimado un modelo ARIMA<sup>17</sup> cuyos pron&oacute;sticos se han hecho tambi&eacute;n siguiendo un esquema de rolling como el adoptado para la red neuronal. La última columna de la segunda tabla del anexo <a href="#a5">5</a> contiene las medidas del error asim&eacute;trico calculadas para este modelo. La comparaci&oacute;n de ambas tablas comprueba la superioridad de los pron&oacute;sticos hechos por las redes neuronales en cada uno de los horizontes. En el primer horizonte, por ejemplo, la medida de la mejor red, de acuerdo con una medida de error asim&eacute;trica, es 0,172 contra 0,44 arrojado por el ARIMA. Pronosticando seis per&iacute;odos hacia adelante, la medida de la mejor red es 0,197 frente a 1,089 del ARIMA para una diferencia de 0,892. Similarmente sucede con el resto de medidas por horizonte. Tan s&oacute;lo en el último el error del ARIMA se encuentra 0,015 por debajo de la red.</p>    <h2 align=center>Conclusiones</h2>        <p>Las redes neuronales artificiales son modelos computacionales que tratan de replicar, de manera simplificada, el complejo funcionamiento del cerebro humano. De acuerdo con Tkacz y Hu (1999) pueden aproximar cualquier funci&oacute;n no lineal si son correctamente especificadas. Dado que en las series econ&oacute;micas es más probable que aparezcan relaciones no lineales que lineales (Granger, 1991), como las exigidas por los modelos econom&eacute;tricos tradicionales, las ANN han ganado una inmensa popularidad en este campo de estudio.</p>        ]]></body>
<body><![CDATA[<p>En t&eacute;rminos generales, una red neuronal se compone de nodos que actúan como inputs, outputs o procesadores intermedios. En la base de este modelo se encuentra la superficie de inputs que contiene a las variables explicativas en <i>x<sub>t</sub></i>. Ésta, a su vez, se conecta con el siguiente conjunto mediante una serie de trayectorias ponderadas o fuerzas conectoras <i>&#947;<sub>i,j</sub></i> (parecidas a las ponderaciones en un modelo de regresi&oacute;n). En la superficie oculta se forman las combinaciones lineales de <i>x<sub>t</sub> &#947;<sub>i,j</sub></i> y se transforman en un valor entre cero y uno por las funciones de activaci&oacute;n <i>G</i>(.). Finalmente, &eacute;stas son multiplicadas por pesos bðj para producir el output ty.</p>        <p>Las ponderaciones &#920; = {<i>&#947;<sub>ij</sub>,&#946;<sub>j</sub></i>,&#966;<sub><i>i</i></sub>} de la red presentada en este trabajo se obtuvieron minimizando la suma de las desviaciones al cuadrado entre el output y el pron&oacute;stico de dicha red, es decir, la suma de residuales al cuadrado. Precisamente, el aprendizaje de la red se encuentra en el proceso de entrenamiento durante el cual se estiman y ajustan sucesivamente estos parámetros con el fin de minimizar el error y obtener el modelo de red neuronal que mejor capture el comportamiento de la serie bajo estudio.</p>        <p>Particularmente, este trabajo explor&oacute; la relaci&oacute;n entre el dinero y la inflaci&oacute;n a trav&eacute;s de una red neuronal artificial. Intuitivamente, dicha relaci&oacute;n parece presentar comportamientos no lineales, que motivaron este ejercicio.</p>        <p>La evaluaci&oacute;n de las distintas arquitecturas posibles, que condujo a la elecci&oacute;n de las mejores redes neuronales, fue llevada a cabo tanto dentro de muestra como por fuera de ella. Pudo confirmarse que aquellas redes cuyo desempeño era el mejor dentro de muestra presentaban un número elevado de unidades escondidas y, en consecuencia, una gran flexibilidad que les permit&iacute;a capturar y memorizar perfectamente el comportamiento no lineal de la serie bajo estudio, pero les imped&iacute;a predecir su comportamiento futuro.</p>        <p>La evaluaci&oacute;n por fuera de muestra incorpor&oacute; una serie de innovaciones en el estudio que en Colombia se ha hecho sobre redes neuronales artificiales. Primero, se adopt&oacute; un esquema de rolling de pron&oacute;sticos que actualiza la estimaci&oacute;n de parámetros cada vez que un nuevo dato es incorporado en la base de datos. Segundo, además de las tradicionales medidas sim&eacute;tricas para evaluar el desempeño de pron&oacute;stico de un modelo, se minimiz&oacute; tambi&eacute;n una funci&oacute;n de costos asim&eacute;trica, puesto que para la autoridad monetaria resulta mucho más costoso en t&eacute;rminos de credibilidad cuando dentro de su esquema de inflaci&oacute;n objetivo anuncia una meta inferior a la que posteriormente se registra, que cuando lo contrario ocurre.</p>        <p>El desempeño de las mejores redes neuronales, de acuerdo con criterios tanto sim&eacute;tricos como asim&eacute;tricos, fue comparado contra el de un modelo ARIMA, mostrando resultados claramente superiores para el caso de las redes seleccionadas.</p>      <h2 align=center>Anexos</h2>        <p align=center>Anexo 1. <i>Resultados de la Estrategia Stepwise, Forward y Backward</i></p>      <p align=center><img src="/img/revistas/le/n65/n65a3a1.gif"></p>        <p align=center>Anexo 2. <i>Medidas de valuaci&oacute;n dentro de muestra</i></p>        <p>Criterio de Informaci&oacute;n de Akaike (Akaike Information Criterion) AIC</p>      ]]></body>
<body><![CDATA[<p> (<i>k</i>) = <i>n</i>ln(<img src="/img/revistas/le/n65/n65a3c6.gif" align=middle><sup>2</sup>) + 2<i>k</i></p>        <p>Criterio de Informaci&oacute;n Bayesiano (Bayesian Information Criterion)</p>      <p><i>BIC</i>(<i>k</i>) = <i>n</i>ln(<img src="/img/revistas/le/n65/n65a3c6.gif" align=middle><sup>2</sup>) + <i>k</i>ln(<i>n</i>)</p>        <p>Error Cuadrático Medio (Root Mean Squared Error)</p>        <p><i>RMSE</i> = <img src="/img/revistas/le/n65/n65a3f7.gif" align=middle></p>        <p>Error de Predicci&oacute;n Cuadrático Medio (Root Mean Squared Prediction Error)</p>        <p><i>RMSPE</i> = <img src="/img/revistas/le/n65/n65a3f8.gif" align=middle></p>        <p>Error Absoluto Medio (Mean Absolute Error)</p>        <p><i>MAE</i> = (1/<i>n</i>)<img src="/img/revistas/le/n65/n65a3c2.gif" align=middle> &#124; <i><img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub>t</sub> - y<sub>t</sub></i> &#124;</p>        <p>Error de Predicci&oacute;n Absoluto Medio (Mean Absolute Prediction Error)</p>        ]]></body>
<body><![CDATA[<p><i>MAPE</i> = (1/<i>n</i>) &#124; (<i><img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub>t</sub> - y<sub>t</sub></i>)<font size=+2>/</font><i>y<sub>t</sub></i> &#124; </p>        <p><i>SRP</i> = (1/<i>n</i>)<img src="/img/revistas/le/n65/n65a3c2.gif" align=middle><i>I<sub>t</sub></i>[{(<i>y<sub>t</sub> - y<sub>t-1</sub></i>) (<img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub><i>t</i></sub> - <img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub><i>t</i>-1</sub>)} > 0]</p>      <p><i>SRN</i> = (1/<i>n</i>)<img src="/img/revistas/le/n65/n65a3c2.gif" align=middle><i>I<sub>t</sub></i>[{(<i>y<sub>t</sub> - y<sub>t-1</sub></i>) (<img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub><i>t</i></sub> - <img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub><i>t</i>-1</sub>)} < 0]</p>      <p><i>SR = SRP + SRN</i></p>        <p>Donde: <i>n</i> es el número de observaciones, <i>&#949;<sub>t</sub></i> son los errores estimados, entendidos como la diferencia entre los datos observados y los valores estimados por la red neuronal.</p>      <p><img src="/img/revistas/le/n65/n65a3c6.gif" align=middle> = (<img src="/img/revistas/le/n65/n65a3c2.gif" align=middle><i>&#949;<sub>t</sub></i><sup>2</sup>)<font size=+2>/</font><i>n</i> es la varianza estimada, <i>k</i> es el número de parámetros de la red neuronal, <img src="/img/revistas/le/n65/n65a3c5.gif" align=middle><sub><i>t</i></sub> es el valor estimado por la red neuronal.</p>        <p align=center>Anexo 3. <i>Resultados de la evaluaci&oacute;n dentro de muestra</i></p>      <p align=center><img src="/img/revistas/le/n65/n65a3a3.gif"></p>        <p align=center>Anexo 4. <i>Resultados de la evaluaci&oacute;n sim&eacute;trica por fuera de muestra</i></p>      <p align=center><img src="/img/revistas/le/n65/n65a3a4.gif"></p>      ]]></body>
<body><![CDATA[<p align=center><img src="/img/revistas/le/n65/n65a3a41.gif"></p>        <p align=center><a name="a5">Anexo 5</a>. <i>Resultados de la evaluaci&oacute;n asim&eacute;trica por fuera de muestra</i></p>      <p align=center><img src="/img/revistas/le/n65/n65a3a5.gif"></p>      <p align=center><img src="/img/revistas/le/n65/n65a3a51.gif"></p>        <p align=center>Anexo 6. <i>C&oacute;digos en SAS</i></p>        <p>A continuaci&oacute;n se explica brevemente lo que hace cada uno de los cinco programas empleados para la aplicaci&oacute;n de redes neuronales artificiales al caso de la inflaci&oacute;n en Colombia.</p>        <p>El primero es un programa desarrollado por Martha Misas A. para la elecci&oacute;n del mejor conjunto de variables explicativas. Este programa hace uso de las observaciones del per&iacute;odo de entrenamiento de la variable bajo estudio y de aquellas variables que se cree, pueden explicar su comportamiento, en este caso la informaci&oacute;n mensual rezagada un año y medio de la normalizaci&oacute;n de la diferencia de logaritmos del IPC y de M3. Particularmente, la elecci&oacute;n del conjunto de inputs para esta red es el resultado de la intersecci&oacute;n de una serie de búsquedas que trae programadas SAS, como stepwise selection, forward entry o backward removal, explicados en la cuarta secci&oacute;n.</p>        <p>El programa de simulaci&oacute;n es uno de los más extensos y computacionalmente costosos. El input de este programa lo constituye la informaci&oacute;n por dentro de muestra del conjunto de variables seleccionado en la etapa anterior. Como su nombre lo indica, este programa simula cada una de las posibles combinaciones de variables en la parte no lineal y de unidades escondidas. El número de  variables en la parte lineal es siempre fijo y corresponde al número de variables explicativas encontradas en el anterior programa. Para la parte no lineal se prob&oacute; desde una variable hasta el total de variables explicativas, siete en este caso, a la vez que se probaba con una unidad escondida hasta cuatro, para un total de 28 arquitecturas distintas. El resultado es un vector de parámetros iniciales por cada una de las arquitecturas simuladas. En este caso se simularon 30 vectores por cada arquitectura con el fin de seleccionar aquellos 5 que al ser evaluados en la funci&oacute;n objetivo arrojaran los menores valores.</p>        <p>La evaluaci&oacute;n por dentro de muestra calcula para cada uno de estos 140 vectores de parámetros iniciales (cinco replicaciones por cada una de las 28 arquitecturas) una variedad de medidas, a partir de las cuales es posible seleccionar aquellos vectores cuyo ajuste es el mejor por dentro de muestra. N&oacute;tese que las observaciones son mensuales, mientras que para esta aplicaci&oacute;n interesan los pron&oacute;sticos anuales de la inflaci&oacute;n, luego las evaluaciones por dentro y fuera de muestra requieren una transformaci&oacute;n de los datos que es llevada a cabo al interior de los mismos programas.</p>        <p>El programa de rolling de pron&oacute;sticos es tal vez el más complejo y novedoso en la aplicaci&oacute;n de redes neuronales. Este requiere no s&oacute;lo las observaciones con las que la red fue entrenada, sino aquellas contra las que se pretende evaluar los pron&oacute;sticos por fuera de muestra y naturalmente el conjunto de parámetros simulados para cada arquitectura. Lo interesante de este programa es que aborda el tema de pron&oacute;sticos de una manera más dinámica.</p>        ]]></body>
<body><![CDATA[<p>Al concluir este proceso, para cada arquitectura considerada, se obtiene una matriz de 18 x 12, compuesta por dieciocho vectores, uno por cada conjunto de parámetros que se reestim&oacute; al incluir una observaci&oacute;n adicional de aquellas que se dejaron por fuera de muestra; del tamaño del horizonte de pron&oacute;stico, en este caso doce. Es decir que la primera columna contiene los pron&oacute;sticos, doce per&iacute;odos hacia adelante, realizados con los parámetros calculados a partir de la muestra de entrenamiento de la red. La última columna contiene los pron&oacute;sticos hechos a partir del vector de parámetros que se calcul&oacute; al incorporar los datos de las observaciones que se dejaron por fuera de muestra sin incluir el último.</p>        <p>Una vez se han obtenido los pron&oacute;sticos de cada una de las arquitecturas simuladas, debe construirse una medida del error de pron&oacute;stico de la red neuronal, para luego hallar cuál de ellas está arrojando los valores pronosticados más cercanos a los observados.</p>      <h2 align=center>Notas</h2>        <p>1. <i>Artificial Neural Networks.</i></p>      <p>2. Por sus siglas en ingles <i>Smooth Transition Autoregressive</i> (Autorregresivo de Transici&oacute;n Suave). Supone una transici&oacute;n gradual entre los distintos reg&iacute;menes o estados a trav&eacute;s de una funci&oacute;n de transici&oacute;n continua que cambia suavemente desde cero hasta uno.</p>      <p>3. Esta funci&oacute;n describe el efecto en el tiempo de un choque sobre una serie. Se calcula como la diferencia entre el valor esperado condicional de la serie con y sin choque.</p>      <p>4. No imponen alguna forma funcional sobre los datos.</p>      <p>5. Por sus siglas en ingl&eacute;s Threshold Autoregressive. Es un caso especial del modelo STAR que asume que el proceso s&oacute;lo puede encontrarse en alguno de los reg&iacute;menes extremos.</p>      <p>6. Por sus siglas en ingl&eacute;s <i>Generalized Autoregressive Condicional Heteroskedasticy</i> (Autorregresivo generalizado de heteroscedasticidad condicionada). Permite que la varianza condicional de una serie cambie con el tiempo.</p>      <p>7. Entrenamiento supervisado implica conocimiento sobre los valores efectivamente observados, contra los cuales es posible calcular una medida de error.</p>      <p>8. <i>Nonlinear Optimization by Quasi-Newton Method.</i></p>      ]]></body>
<body><![CDATA[<p>9. En este trabajo se siguen las recomendaciones de Franses y van Dijk (1999) y se establece <i>r<sub>&#934;</sub></i> = 0,01, <i>r<sub>&#946;</sub> = r<sub>&#947;</sub></i> = 0,0001.</p>      <p>10. Para esta aplicaci&oacute;n se emplearon cinco c&oacute;digos programados en SAS (ver anexo 6 para una explicaci&oacute;n detallada de cada uno de ellos). Los programas de stepwise, simulaci&oacute;n, evaluaci&oacute;n por dentro de muestra y rolling de pron&oacute;sticos fueron desarrollados por Martha Misas A. La evaluaci&oacute;n por fuera de muestra fue programada por Munir Jalil B. Todos los programas cuentan con pruebas de escritorio y documentaci&oacute;n desarrolladas por la autora.</p>      <p>11. En la adopci&oacute;n de esta estrategia se consideraron significancias al 5% como es tradicional.</p>      <p>12. El criterio de informaci&oacute;n de Mallow.</p>      <p>13. La decisi&oacute;n de generar 30 vectores de parámetros iniciales se debi&oacute; a que con este número de replicaciones generalmente se logran obtener al menos cinco vectores que satisfacen la condici&oacute;n de primer orden.</p>      <p>14. En este trabajo se exigi&oacute; que los elementos de los vectores gradientes evaluados en cada uno de los vectores de parámetros resultantes del proceso de optimizaci&oacute;n fueran menores o iguales a 0,04.</p>      <p>15. El horizonte de pron&oacute;stico utilizado en este trabajo fue de doce meses.</p>      <p>16. Análisis de Pron&oacute;stico con Funciones de P&eacute;rdida Asim&eacute;trica. Jalil (2005).</p>      <p>17. Por sus siglas en ingl&eacute;s, <i>Autoregressive Integrated Moving Average.</i></p>      <h2 align=center>Bibliograf&iacute;a</h2>        <!-- ref --><p>  1. Abrahart, R. J. y See, L. (1998). &quot;Neural Networks vs. ARMA Modelling: Constructing Benchmark Case Studies of rRver Flow Prediction&quot; .  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000242&pid=S0120-2596200600020000300001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  2. Arango, L. E. y González, A. (1999). &quot;Some Evidence of Smooth Transition Nonlinearity in Colombian Inflation&quot; , Borradores de Econom&iacute;a, No.105. Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000243&pid=S0120-2596200600020000300002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  3. Arango, L. E., A. y Posada, C. E. (2000). &quot;Returns and Interest Rate: A Nonlinear Relationship in the Bogot&aacute; Stock Market&quot;, Borradores de Econom&iacute;a, No.169, Banco de la Rep&uacute;blica.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000244&pid=S0120-2596200600020000300003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  4. Arango, L. E. y Melo, L. F. (2001). &quot;Expansions and Contractions in Brazil, Colombia and Mexico: A view through non linear models&quot; , Borradores de Econom&iacute;a, No.186, Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000245&pid=S0120-2596200600020000300004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  5. Atiya, A. F., El-Shoura, S.M., Shaheen, S. I. y Sherif, M. S. (1999). &quot;A Comparison between Neural Networks Forecasting Techniques. Case Study: River Flow Forecasting&quot; , IEEE, No.2, Vol. 10.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000246&pid=S0120-2596200600020000300005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  6. Cao, C. Q. y Tsay, R. S. (1992). &quot;Non linear Time Series Análisis of Stock Volatility&quot; . Journal of Applied Econometrics, Vol. 7.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000247&pid=S0120-2596200600020000300006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  7. Clements, M. P., Franses, P. H. y Swanson, N. R. (2004). &quot;Forecasting Economic and Financial Time Series with non linear Models&quot; , International Journal of Forecasting, No.20, pp.169 - 183.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000248&pid=S0120-2596200600020000300007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  8. Christoffersen, P.F. y Diebold, F.X. (1994). &quot;Optimal Prediction under Asymmetric Loss&quot; , National Bureau of Economic Research. Technical Working Paper, No.167.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000249&pid=S0120-2596200600020000300008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  9. Christoffersen, P.F. y F.X. (1996). &quot;Further Results on Forecasting and Model Selection under Asymmetric Loss&quot;, Journal Applied of Econometrics, Vol. 11, pp.561-572.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000250&pid=S0120-2596200600020000300009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  10. Crone, S. F. (2002). &quot;Trainning Artificial Neural Networks for Time Series Prediction using Asymmetric Cost Functions&quot; , Technical Working Paper IWI-0201, Institute of Business Information Systems, University of Hamburg.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000251&pid=S0120-2596200600020000300010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  11. ____________. (2002). &quot;Prediction of White Noise Time Series using Artificial Neural Networks and Asymmetric Cost Functions&quot; , Technical Working Paper IWI-0201, Institute of Business Information Systems, University of Hamburg.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000252&pid=S0120-2596200600020000300011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  12. Dabas, C. y Tohme, F. (2003). &quot;Non-Linearities in the Relation between Inflation and Money Suply in Argentina: A SOC Approach&quot; , Universidad Nacional del Sur, Argentina.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000253&pid=S0120-2596200600020000300012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  13. Davidon, W.C. (1959). &quot;Variable Metric Method for Minimization&quot; , Atomic Energy Commission Research and Development Report ANL-5990.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000254&pid=S0120-2596200600020000300013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  14. Fletcher, R. y M.J.D. Powell (1963). &quot;A Rapidly Convergent Descent Method for Minimisation&quot; , Computer Journal, 6, 163-168.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000255&pid=S0120-2596200600020000300014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  15. Franses, P.,H. y van Dijk, D. (2000). &quot;Non-linear Time Series Models in Empirical Finance&quot; , Cambridge University Press.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000256&pid=S0120-2596200600020000300015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  16. González, S. (2000). &quot;Neural Networks for Macroeconomic Forecasting: A complementary Approach to Linear Regression Models&quot; , Working Papers, 2000-07. Department of Finance Canada.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000257&pid=S0120-2596200600020000300016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  17. Granger, C. W. y Teräsvirta, T. (1993), &quot;Modelling Nonlinear Economic Relationships&quot; , Advanced Texts in Econmetrics, Oxford University Press.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000258&pid=S0120-2596200600020000300017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  18. Hernández, A. y J. Tolosa (2001). &quot;La Pol&iacute;tica Monetaria en Colombia en la Segunda Mitad de los Años Noventa&quot; , Working Paper 172, Banco de la República de Colombia.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000259&pid=S0120-2596200600020000300018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  19. Imbs, J., Mumtaz, H., Ravn, M. O. y Rey, H. (1996). &quot;Non linearities and Real Exchange Rate Dynamics&quot; , Princeton, CEPR y NBER.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000260&pid=S0120-2596200600020000300019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  20. Jalil, M. A. y Melo, L. F. (1999). &quot;Una relaci&oacute;n no lineal entre inflaci&oacute;n y los medios de pago&quot; . Borradores de Econom&iacute;a. No.145, Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000261&pid=S0120-2596200600020000300020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  21. Jalil, M. A. y Tob&oacute;n C. (1999). &quot;Incertidumbre inflacionaria en Colombia: una aproximaci&oacute;n a trav&eacute;s de Modelos GARCH&quot; . Borrador.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000262&pid=S0120-2596200600020000300021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  22. Jalil, M. A. y Misas, M. (2005). &quot;Evaluaci&oacute;n de pron&oacute;sticos del tipo de cambio utilizando redes neuronales y funciones de p&eacute;rdida asim&eacute;trica&quot; . Borradores de Econom&iacute;a. Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000263&pid=S0120-2596200600020000300022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  23. Kuan, C. M. y Liu, T. (1995). &quot;Forecasting Exchange Rates using Feedforward and Recurrent Neural Networks&quot; , Journal of Applied Econometrics, No.4, Vol. 10.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000264&pid=S0120-2596200600020000300023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  24. Le Cun, Y., Denker, J.S. y Solla, S.A. (1990). Optimal Brain Damage. En: D.S. Touretzky (ed), Advances in Neural Information Processing Systems 2 (pp.598-605), Los Altos, CA: Morgan Kaufmann.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000265&pid=S0120-2596200600020000300024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  25. Lee, T-W, H. White, y C. W. J. Granger (1993). &quot;Testing for Neglected Non-linearity in Time Series Models: A Comparison of Neural Network Methods and Alternative Tests,&quot;  Journal of Econometrics, 56, 264-290.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000266&pid=S0120-2596200600020000300025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  26. McMillan, D. G. (2003). &quot;Non-Linear Predictability of U.K Stock Market Return&quot; . Oxford Bulletin of Economics and Statistics. No.5, Vol. 65, pp.557-573.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000267&pid=S0120-2596200600020000300026&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  27. Melo, L. F. y Misas, M. A. (1997). &quot;Análisis del comportamiento de la inflaci&oacute;n trimestral en Colombia bajo cambios de r&eacute;gimen: una evidencia a trav&eacute;s del modelo switching de Hamilton&quot; . Borradores de Econom&iacute;a, No.86, Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000268&pid=S0120-2596200600020000300027&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  28. Misas, M. (2005). &quot;Evaluaci&oacute;n de pron&oacute;sticos del tipo de cambio utilizando redes neuronales y funciones de p&eacute;rdida asim&eacute;trica&quot; , Borradores de Econom&iacute;a, Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000269&pid=S0120-2596200600020000300028&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  29. Misas, M. A., L&oacute;pez, E. y Querub&iacute;n, P. (2002). &quot;La Inflaci&oacute;n en Colombia: una aproximaci&oacute;n desde las redes neuronales&quot; , Borradores de Econom&iacute;a, No.199, Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000270&pid=S0120-2596200600020000300029&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  30. Misas, M. A., E., Arango, C. A. y Hernández, N. (2003). &quot;La demanda de efectivo en Colombia: una caja negra a la luz de las redes neuronales&quot; , Borradores de Econom&iacute;a. No.268, Banco de la República.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000271&pid=S0120-2596200600020000300030&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  31. Moshiri, S. y Cameron, N. (1998). &quot;Neural Networks versus Econometric Models in Forecasting Inflation&quot; , University of Manitoba.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000272&pid=S0120-2596200600020000300031&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  32. Nakamura, E. (2004). &quot;Inflation Forecasting using a Neural Network&quot; , Havard University.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000273&pid=S0120-2596200600020000300032&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  33. Ohno-Machado, L., Walker, M. G. y Musen, M.A. (1994). &quot;Hierarchical Neural Networks for Survival Analysis&quot; , Section of Medical Informatics, Stanford University School of Medicine.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000274&pid=S0120-2596200600020000300033&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  34. Shachmurove, Y. (2000). &quot;Utilizing Artificial Neural Network Model to Predict Stock Markets&quot; , CARESS Working Paper 00-11.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000275&pid=S0120-2596200600020000300034&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  35. ____________. (2002). &quot;Applying Artificial Neural Networks to Business, Economics and Finance&quot; , University of Pennsylvania.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000276&pid=S0120-2596200600020000300035&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  36. Sejnowski, T. J. y Rosenberg, C. R. (1986). NETtalk: A parallel network that learns to read aloud. Johns Hopkins University EE & CS Technical Report (JHU/EECS-86/01).  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000277&pid=S0120-2596200600020000300036&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  37. Swanson, N. R. y White, H. (1995). &quot;A Model Selection Approach to Real Time Macroeconomic Forecasting using Linear Models and Artificial Neural Networks&quot; . The Review of Economics and Statistics, No.79.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000278&pid=S0120-2596200600020000300037&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  38. Teräsvirta, T. y Anderson, H. M. (1992). &quot;Characterizing Nonlinearities in Business Cycles using Smooth Transition Autoregressive Models&quot; , Journal of Applied Econometrics, Vol. 7. pp.119-136.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000279&pid=S0120-2596200600020000300038&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  39. Tkacz, G. y Hu, S. (1999). &quot;Forecasting GDP growth using Artificial Neural Networks&quot; , Working Paper 99-3, Bank of Canada.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000280&pid=S0120-2596200600020000300039&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  40. ____________(2000). &quot;Non-Parametric and Neural Network Models of Inflation Changes&quot; , Working Paper 00-7, Bank of Canada.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000281&pid=S0120-2596200600020000300040&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  41. Tob&oacute;n C. (1999). &quot;Incertidumbre inflacionaria en Colombia: una aproximaci&oacute;n a trav&eacute;s de Modelos GARCH&quot; , Borrador.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000282&pid=S0120-2596200600020000300041&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  42. Werbos, P.J. (1974). &quot;Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences&quot; . Doctoral Dissertation, Appl. Math., Harvard University, Mass.  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000283&pid=S0120-2596200600020000300042&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Abrahart]]></surname>
<given-names><![CDATA[R. J]]></given-names>
</name>
<name>
<surname><![CDATA[See]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<source><![CDATA[Neural Networks vs. ARMA Modelling: Constructing Benchmark Case Studies of rRver Flow Prediction]]></source>
<year>1998</year>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Arango]]></surname>
<given-names><![CDATA[L. E]]></given-names>
</name>
<name>
<surname><![CDATA[González]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Some Evidence of Smooth Transition Nonlinearity in Colombian Inflation]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>1999</year>
<numero>105</numero>
<issue>105</issue>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Arango]]></surname>
<given-names><![CDATA[L. E. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Posada]]></surname>
<given-names><![CDATA[C. E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Returns and Interest Rate: A Nonlinear Relationship in the Bogotá Stock Market]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>2000</year>
<volume>169</volume>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Arango]]></surname>
<given-names><![CDATA[L. E]]></given-names>
</name>
<name>
<surname><![CDATA[Melo]]></surname>
<given-names><![CDATA[L. F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Expansions and Contractions in Brazil, Colombia and Mexico: A view through non linear models]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>2001</year>
<numero>186</numero>
<issue>186</issue>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Atiya]]></surname>
<given-names><![CDATA[A. F]]></given-names>
</name>
<name>
<surname><![CDATA[El-Shoura]]></surname>
<given-names><![CDATA[S.M]]></given-names>
</name>
<name>
<surname><![CDATA[Shaheen]]></surname>
<given-names><![CDATA[S. I]]></given-names>
</name>
<name>
<surname><![CDATA[Sherif]]></surname>
<given-names><![CDATA[M. S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Comparison between Neural Networks Forecasting Techniques: Case Study: River Flow Forecasting]]></article-title>
<source><![CDATA[IEEE]]></source>
<year>1999</year>
<volume>10</volume>
<numero>2</numero>
<issue>2</issue>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cao]]></surname>
<given-names><![CDATA[C. Q]]></given-names>
</name>
<name>
<surname><![CDATA[Tsay]]></surname>
<given-names><![CDATA[R. S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Non linear Time Series Análisis of Stock Volatility]]></article-title>
<source><![CDATA[Journal of Applied Econometrics]]></source>
<year>1992</year>
<volume>7</volume>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Clements]]></surname>
<given-names><![CDATA[M. P]]></given-names>
</name>
<name>
<surname><![CDATA[Franses]]></surname>
<given-names><![CDATA[P. H]]></given-names>
</name>
<name>
<surname><![CDATA[Swanson]]></surname>
<given-names><![CDATA[N. R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Forecasting Economic and Financial Time Series with non linear Models]]></article-title>
<source><![CDATA[International Journal of Forecasting]]></source>
<year>2004</year>
<numero>20</numero>
<issue>20</issue>
<page-range>169 - 183</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Christoffersen]]></surname>
<given-names><![CDATA[P.F]]></given-names>
</name>
<name>
<surname><![CDATA[Diebold]]></surname>
<given-names><![CDATA[F.X]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Optimal Prediction under Asymmetric Loss]]></article-title>
<source><![CDATA[National Bureau of Economic Research. Technical Working Paper]]></source>
<year>1994</year>
<numero>167</numero>
<issue>167</issue>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Christoffersen]]></surname>
<given-names><![CDATA[P.F.]]></given-names>
</name>
<name>
<surname><![CDATA[F.X.]]></surname>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Further Results on Forecasting and Model Selection under Asymmetric Loss]]></article-title>
<source><![CDATA[Journal Applied of Econometrics]]></source>
<year>1996</year>
<volume>11</volume>
<page-range>561-572</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Crone]]></surname>
<given-names><![CDATA[S. F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Trainning Artificial Neural Networks for Time Series Prediction using Asymmetric Cost Functions]]></article-title>
<collab>Institute of Business Information Systems</collab>
<source><![CDATA[Technical Working Paper IWI-0201]]></source>
<year>2002</year>
<publisher-name><![CDATA[University of Hamburg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Crone]]></surname>
<given-names><![CDATA[S. F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Prediction of White Noise Time Series using Artificial Neural Networks and Asymmetric Cost Functions]]></article-title>
<collab>Institute of Business Information Systems</collab>
<source><![CDATA[Technical Working Paper IWI-0201]]></source>
<year>2002</year>
<publisher-name><![CDATA[University of Hamburg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dabas]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Tohme]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[Non-Linearities in the Relation between Inflation and Money Suply in Argentina: A SOC Approach]]></source>
<year>2003</year>
<publisher-name><![CDATA[Universidad Nacional del Sur]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Davidon]]></surname>
<given-names><![CDATA[W.C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Variable Metric Method for Minimization]]></article-title>
<source><![CDATA[Atomic Energy Commission Research and Development Report ANL-5990]]></source>
<year>1959</year>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fletcher]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Powell]]></surname>
<given-names><![CDATA[M.J.D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Rapidly Convergent Descent Method for Minimisation]]></article-title>
<source><![CDATA[Computer Journal]]></source>
<year>1963</year>
<volume>6</volume>
<page-range>163-168</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Franses]]></surname>
<given-names><![CDATA[P.,H]]></given-names>
</name>
<name>
<surname><![CDATA[van Dijk]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Non-linear Time Series Models in Empirical Finance]]></source>
<year>2000</year>
<publisher-name><![CDATA[Cambridge University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[González]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Neural Networks for Macroeconomic Forecasting: A complementary Approach to Linear Regression Models]]></article-title>
<source><![CDATA[Working Papers]]></source>
<year>2000</year>
<publisher-name><![CDATA[Department of Finance Canada]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Granger]]></surname>
<given-names><![CDATA[C. W]]></given-names>
</name>
<name>
<surname><![CDATA[Teräsvirta]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Modelling Nonlinear Economic Relationships]]></article-title>
<source><![CDATA[Advanced Texts in Econmetrics]]></source>
<year>1993</year>
<publisher-name><![CDATA[Oxford University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hernández]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Tolosa]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La Política Monetaria en Colombia en la Segunda Mitad de los Años Noventa]]></article-title>
<source><![CDATA[Working Paper]]></source>
<year>2001</year>
<numero>172</numero>
<issue>172</issue>
<publisher-name><![CDATA[Banco de la República de Colombia]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Imbs]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Mumtaz]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Ravn]]></surname>
<given-names><![CDATA[M. O]]></given-names>
</name>
<name>
<surname><![CDATA[Rey]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Non linearities and Real Exchange Rate Dynamics]]></source>
<year>1996</year>
<publisher-loc><![CDATA[Princeton ]]></publisher-loc>
<publisher-name><![CDATA[CEPR y NBER]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jalil]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[Melo]]></surname>
<given-names><![CDATA[L. F]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Una relación no lineal entre inflación y los medios de pago]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>1999</year>
<numero>145</numero>
<issue>145</issue>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jalil]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[Tobón]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Incertidumbre inflacionaria en Colombia: una aproximación a través de Modelos GARCH]]></source>
<year>1999</year>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jalil]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[Misas]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Evaluación de pronósticos del tipo de cambio utilizando redes neuronales y funciones de pérdida asimétrica]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>2005</year>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kuan]]></surname>
<given-names><![CDATA[C. M]]></given-names>
</name>
<name>
<surname><![CDATA[Liu]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Forecasting Exchange Rates using Feedforward and Recurrent Neural Networks]]></article-title>
<source><![CDATA[Journal of Applied Econometrics]]></source>
<year>1995</year>
<volume>10</volume>
<numero>4</numero>
<issue>4</issue>
</nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Le Cun]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Denker]]></surname>
<given-names><![CDATA[J.S]]></given-names>
</name>
<name>
<surname><![CDATA[Solla]]></surname>
<given-names><![CDATA[S.A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Optimal Brain Damage]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Touretzky]]></surname>
<given-names><![CDATA[D.S]]></given-names>
</name>
</person-group>
<source><![CDATA[Advances in Neural Information Processing Systems 2]]></source>
<year>1990</year>
<page-range>598-605</page-range><publisher-loc><![CDATA[Los Altos^eCA CA]]></publisher-loc>
<publisher-name><![CDATA[Morgan Kaufmann]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lee]]></surname>
<given-names><![CDATA[T-W]]></given-names>
</name>
<name>
<surname><![CDATA[White]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Granger]]></surname>
<given-names><![CDATA[C. W. J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Testing for Neglected Non-linearity in Time Series Models: A Comparison of Neural Network Methods and Alternative Tests]]></article-title>
<source><![CDATA[Journal of Econometrics]]></source>
<year>1993</year>
<volume>56</volume>
<page-range>264-290</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[McMillan]]></surname>
<given-names><![CDATA[D. G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Non-Linear Predictability of U.K Stock Market Return]]></article-title>
<source><![CDATA[Oxford Bulletin of Economics and Statistics]]></source>
<year>2003</year>
<volume>65</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>557-573</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Melo]]></surname>
<given-names><![CDATA[L. F]]></given-names>
</name>
<name>
<surname><![CDATA[Misas]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Análisis del comportamiento de la inflación trimestral en Colombia bajo cambios de régimen: una evidencia a través del modelo switching de Hamilton]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>1997</year>
<numero>86</numero>
<issue>86</issue>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Misas]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Evaluación de pronósticos del tipo de cambio utilizando redes neuronales y funciones de pérdida asimétrica]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>2005</year>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<label>29</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Misas]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[López]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Querubín]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La Inflación en Colombia: una aproximación desde las redes neuronales]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>2002</year>
<numero>199</numero>
<issue>199</issue>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B30">
<label>30</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Misas]]></surname>
<given-names><![CDATA[M. A]]></given-names>
</name>
<name>
<surname><![CDATA[E., Arango]]></surname>
<given-names><![CDATA[C. A]]></given-names>
</name>
<name>
<surname><![CDATA[Hernández]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La demanda de efectivo en Colombia: una caja negra a la luz de las redes neuronales]]></article-title>
<source><![CDATA[Borradores de Economía]]></source>
<year>2003</year>
<numero>268</numero>
<issue>268</issue>
<publisher-name><![CDATA[Banco de la República]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B31">
<label>31</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Moshiri]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Cameron]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<source><![CDATA[Neural Networks versus Econometric Models in Forecasting Inflation]]></source>
<year>1998</year>
<publisher-name><![CDATA[University of Manitoba]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B32">
<label>32</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nakamura]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<source><![CDATA[Inflation Forecasting using a Neural Network]]></source>
<year>2004</year>
<publisher-name><![CDATA[Havard University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B33">
<label>33</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ohno-Machado]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Walker]]></surname>
<given-names><![CDATA[M. G]]></given-names>
</name>
<name>
<surname><![CDATA[Musen]]></surname>
<given-names><![CDATA[M.A]]></given-names>
</name>
</person-group>
<source><![CDATA[Hierarchical Neural Networks for Survival Analysis]]></source>
<year>1994</year>
<publisher-name><![CDATA[Section of Medical Informatics, Stanford University School of Medicine]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B34">
<label>34</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shachmurove]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<source><![CDATA[Utilizing Artificial Neural Network Model to Predict Stock Markets]]></source>
<year>2000</year>
<publisher-name><![CDATA[CARESS]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B35">
<label>35</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shachmurove]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
</person-group>
<person-group person-group-type="editor">
<name>
</name>
</person-group>
<source><![CDATA[Applying Artificial Neural Networks to Business, Economics and Finance]]></source>
<year>2002</year>
<publisher-name><![CDATA[University of Pennsylvania]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B36">
<label>36</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sejnowski]]></surname>
<given-names><![CDATA[T. J]]></given-names>
</name>
<name>
<surname><![CDATA[Rosenberg]]></surname>
<given-names><![CDATA[C. R]]></given-names>
</name>
</person-group>
<source><![CDATA[NETtalk: A parallel network that learns to read aloud]]></source>
<year>1986</year>
<publisher-name><![CDATA[Johns Hopkins University EE & CS Technical Report]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B37">
<label>37</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Swanson]]></surname>
<given-names><![CDATA[N. R]]></given-names>
</name>
<name>
<surname><![CDATA[White]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Model Selection Approach to Real Time Macroeconomic Forecasting using Linear Models and Artificial Neural Networks]]></article-title>
<source><![CDATA[The Review of Economics and Statistics]]></source>
<year>1995</year>
<numero>79</numero>
<issue>79</issue>
</nlm-citation>
</ref>
<ref id="B38">
<label>38</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Teräsvirta]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Anderson]]></surname>
<given-names><![CDATA[H. M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Characterizing Nonlinearities in Business Cycles using Smooth Transition Autoregressive Models]]></article-title>
<source><![CDATA[Journal of Applied Econometrics]]></source>
<year>1992</year>
<volume>7</volume>
<page-range>119-136</page-range></nlm-citation>
</ref>
<ref id="B39">
<label>39</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tkacz]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Hu]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<source><![CDATA[Forecasting GDP growth using Artificial Neural Networks]]></source>
<year>1999</year>
<publisher-name><![CDATA[Bank of Canada]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B40">
<label>40</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tkacz]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<person-group person-group-type="editor">
<name>
</name>
</person-group>
<source><![CDATA[Non-Parametric and Neural Network Models of Inflation Changes]]></source>
<year>2000</year>
<publisher-name><![CDATA[Bank of Canada]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B41">
<label>41</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tobón]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Incertidumbre inflacionaria en Colombia: una aproximación a través de Modelos GARCH]]></source>
<year>1999</year>
</nlm-citation>
</ref>
<ref id="B42">
<label>42</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Werbos]]></surname>
<given-names><![CDATA[P.J]]></given-names>
</name>
</person-group>
<source><![CDATA[Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences]]></source>
<year>1974</year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
