<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0120-5609</journal-id>
<journal-title><![CDATA[Ingeniería e Investigación]]></journal-title>
<abbrev-journal-title><![CDATA[Ing. Investig.]]></abbrev-journal-title>
<issn>0120-5609</issn>
<publisher>
<publisher-name><![CDATA[Facultad de Ingeniería, Universidad Nacional de Colombia.]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0120-56092009000300009</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas]]></article-title>
<article-title xml:lang="en"><![CDATA[web text corpus extraction system for linguistic tasks]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Cadavid Rengifo]]></surname>
<given-names><![CDATA[Héctor Fabio]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Gómez Perdomo]]></surname>
<given-names><![CDATA[Jonatan]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Colombia  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional de Colombia  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>12</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>12</month>
<year>2009</year>
</pub-date>
<volume>29</volume>
<numero>3</numero>
<fpage>54</fpage>
<lpage>60</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0120-56092009000300009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0120-56092009000300009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0120-56092009000300009&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener muestras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Internet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge volume, being permanently uptodate with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programmingbased, hardwareuse optimisation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digital-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly extracted from Internet as morphological or syntactical learning input.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[corpus web]]></kwd>
<kwd lng="es"><![CDATA[crawler]]></kwd>
<kwd lng="es"><![CDATA[aprendizaje no supervisado de lenguajes]]></kwd>
<kwd lng="es"><![CDATA[programación concurrente]]></kwd>
<kwd lng="en"><![CDATA[web corpus]]></kwd>
<kwd lng="en"><![CDATA[crawler]]></kwd>
<kwd lng="en"><![CDATA[unsupervised language learning]]></kwd>
<kwd lng="en"><![CDATA[concurrent programming]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font size = "2" face = "verdana">      <p>    <center><font size = "4"><b>Sistema de extracci&oacute;n de cuerpos de texto de la <i>web</i> para tareas ling&uuml;&iacute;sticas</b></font></center></p>      <p>    <center><font size = "3"><b><i>web</i> text <i>corpus</i> extraction system for linguistic tasks</b></font></center></p>      <p><b>H&eacute;ctor Fabio Cadavid Rengifo<sup>1</sup> y Jonatan G&oacute;mez Perdomo<sup>2</sup></b></p>      <p>    <br><sup>1</sup>  Ingeniero de sistemas, Escuela Colombiana de Ingenier&iacute;a. M.Sc., en Ingenier&iacute;a de Sistemas, Universidad Nacional de Colombia. Profesor, Escuela Colombiana de Ingenier&iacute;a. <a href = "mailto:hfcadavidr@unal.edu.co"> hfcadavidr@unal.edu.co</a>    <br> <sup>2</sup>  Ingeniero de sistemas y M.Sc., en Matem&aacute;ticas, Universidad Nacional de Colombia. M&aacute;ster y Ph.D., of Sciences en Matem&aacute;ticas con concentraci&oacute;n en Computer Sciences, Universidad de Memphis, Estados Unidos. Profesor asociado, Universidad Nacional de Colombia. <a href = "mailto:jgomezpe@unal.edu.co"> jgomezpe@unal.edu.co</a></p>   <hr size = "1">      <p><b>RESUMEN</b></p>      ]]></body>
<body><![CDATA[<p>En este art&iacute;culo se describe un sistema desarrollado para la extracci&oacute;n de grandes cuerpos de texto de Internet, teniendo como motivaci&oacute;n el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por caracter&iacute;sticas como su enorme volumen, permanente actualizaci&oacute;n respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcci&oacute;n de <i>corpus</i> para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de<i> hardware </i>y as&iacute; reducir los tiempos de extracci&oacute;n, al igual que se presentan las caracter&iacute;sticas de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener muestras de lenguaje natural puras. Al final del art&iacute;culo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en espa&ntilde;ol m&aacute;s grande de Internet: <a href="es.wikipedia.org" target="_blank">es.wikipedia.org</a>, a trav&eacute;s de los cuales se concluye sobre la validez y aplicabilidad de un <i>corpus</i> extra&iacute;do directamente de la Internet para un eventual proceso de aprendizaje de morfolog&iacute;a o sintaxis.</p>      <p><b>Palabras clave:</b> <i><i>corpus</i> <i>web</i></i>, crawler, aprendizaje no supervisado de lenguajes, programaci&oacute;n concurrente.</p>  <hr size = "1">      <p><b>ABSTRACT</b></p>      <p>Internet content, used as text <i>corpus</i> for natural language learning, offers important characteristics for such task, like its huge volume, being permanently uptodate with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programmingbased, hardwareuse optimisation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digital-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. <a href="http://es.wikipedia.org" target="_blank">es.wikipedia.org</a>). Such results are used for presenting initial conclusions about the validity and applicability of <i>corpus</i> directly extracted from Internet as morphological or syntactical learning input.</p>      <p><b>Keywords:</b> <i>web</i> <i>corpus</i>, crawler, unsupervised language learning, concurrent programming.</p>  <hr size = "1">      <p>Recibido: octubre 30 de 2008     <br>Aceptado: octubre 23 de 2009</p>      <p><font size = "3"><b>Introducci&oacute;n</b></font></p>      <p>Las l&iacute;neas de investigaci&oacute;n relacionadas con el procesamiento de lenguaje natural, en particular aquellas que estudian los mecanismos para el aprendizaje no supervisado del lenguaje natural, han tomado una relevancia importante en los &uacute;ltimos a&ntilde;os por el inter&eacute;s que despierta tanto a nivel te&oacute;rico como de aplicaci&oacute;n. El principio de la pobreza del est&iacute;mulo, de Chomsky (1986), y su afirmaci&oacute;n de que te&oacute;ricamente un ni&ntilde;o no deber&iacute;a ser capaz de aprender la gram&aacute;tica de su lenguaje nativo dado lo limitado de los ejemplos que recibe de la misma –a menos que se cuente con una capacidad innata s&oacute;lo existente en los humanos–, postulado de la teor&iacute;a del nativismo, ha sido una motivaci&oacute;n desde el punto de vista te&oacute;rico de la psicolog&iacute;a y neuroling&uuml;&iacute;stica para proponer modelos de aprendizaje de lenguajes a realizar por una m&aacute;quina para, por un lado, poder demostrar la validez o invalidez del nativismo (Clark, 2002), y por otro, aproximarse a nuevas hip&oacute;tesis de c&oacute;mo se realiza el aprendizaje de los lenguajes (Parekh y Honavar, 2000). Por otra parte, a nivel de aplicaci&oacute;n, la problem&aacute;tica que plantea el volumen de informaci&oacute;n disponible actualmente en Internet, al ser cada vez m&aacute;s complejo encontrar informaci&oacute;n relevante m&aacute;s all&aacute; de la obtenida con la coincidencia exacta de palabras, ha motivado investigaciones como las de la construcci&oacute;n autom&aacute;tica de modelos de representaci&oacute;n de conocimiento –ontolog&iacute;as– de cuerpos de texto disponibles en la red (Buitelaar et al., 2005; Navigli et al., 2003; Zhou, 2007), como una base para la construcci&oacute;n de la llamada "<i><i>web</i></i> sem&aacute;ntica". Para las estrategias de aprendizaje no supervisado de lenguaje natural, un elemento fundamental es la muestra del lenguaje sobre la cual se van a generalizar, de forma aproximada, sus caracter&iacute;sticas (Church y Mercer, 1993). Se ha mostrado que la <i><i>web</i></i> es una fuente de datos para el an&aacute;lisis del lenguaje natural de una riqueza sin precedentes (Marianne Hundt y Biewer, 2007), y que algoritmos simples, basados en esta fuente de ejemplos de lenguaje, muchas veces superan el desempe&ntilde;o de aquellos m&aacute;s complejos basados en fuentes de datos m&aacute;s peque&ntilde;as –a pesar de que estas &uacute;ltimas son m&aacute;s depuradas– (Keller y Lapata, 2003). Otras motivaciones para el uso de la <i><i>web</i></i> a manera de <i><i>corpus</i></i> de texto, para tareas de aprendizaje de lenguajes, son:</p>      <p>Elementos como las innovaciones l&eacute;xicas, emergentes a trav&eacute;s del tiempo en las diferentes culturas, o las caracter&iacute;sticas de las variantes &quot;ex&oacute;ticas&quot; de los lenguajes (el ingl&eacute;s australiano, o el espa&ntilde;ol paname&ntilde;o, por dar alg&uacute;n ejemplo) no se hacen evidentes en las fuentes de ejemplos de lenguaje natural tradicionales (Kilgarriff y Grefenstette, 2003). En este sentido, las evidencias de comunicaci&oacute;n dejadas en recursos t&iacute;picos de Internet como los foros de discusi&oacute;n o los <i>blogs</i> representan un material sumamente valioso para la investigaci&oacute;n del uso contempor&aacute;neo del lenguaje.</p>      ]]></body>
<body><![CDATA[<p>El costo y tiempo que representan la construcci&oacute;n, de forma tradicional, de un <i>corpus</i> de texto suficientemente significativo de un lenguaje resulta sumamente alto (Marianne Hudt y Biewer, 2007), lo que por un lado restringe las posibilidades de experimentar con modelos de aprendizaje usando nuevos <i><i>corpus</i></i> en un tiempo razonable (por ejemplo, con nuevos lenguajes, variantes culturales o nuevos dominios tem&aacute;ticos), y por el otro da pie a la reutilizaci&oacute;n de <i><i>corpus</i></i> cada vez m&aacute;s antiguos.</p>      <p>-A pesar de que los contenidos de la <i><i>web</i></i> en su mayor&iacute;a no tienen control sobre su calidad en cuanto al correcto uso del lenguaje, y pueden contener toda una variedad de errores, su enorme volumen permitir&iacute;a detectarlos tomando una muestra suficientemente grande, y descartando aquellos elementos menos frecuentes. Adicionalmente, se cuenta con repositorios de contenidos digitales que en cierta medida s&iacute; garantizan un uso apropiado del lenguaje, a trav&eacute;s de la colaboraci&oacute;n masiva de sus mismos usuarios, de manera que dichos repositorios pueden considerarse como fuentes confiables de construcci&oacute;n r&aacute;pida de <i><i>corpus</i></i>.</p>      <p>Este art&iacute;culo presenta un sistema para la construcci&oacute;n autom&aacute;tica de <i><i>corpus</i> </i>de texto y el muestreo de palabras y frases a partir de contenidos de la <i><i>web</i></i>, para tareas de an&aacute;lisis o aprendizaje no supervisado de la morfolog&iacute;a y la sintaxis de lenguajes naturales. El sistema descrito, entre otras caracter&iacute;sticas, cuenta con:</p>      <p>-Un mecanismo gen&eacute;rico de paralelizaci&oacute;n y sincronizaci&oacute;n de tareas utilizado en diferentes puntos del sistema.</p>      <p>-Extracci&oacute;n recursiva de contenidos de un dominio. A partir de la URL de un dominio, el sistema identifica todos los recursos relacionados directa o indirectamente a trav&eacute;s de hiperv&iacute;nculos.</p>      <p>-Soporte extensible para m&uacute;ltiples formatos. Puede extraer muestras de lenguaje natural de contenidos disponibles en la red con formatos diferentes al tradicional HTML, y permite la inclusi&oacute;n transparente de nuevos extractores dentro del sistema.</p>      <p>-Manejo estad&iacute;stico de los elementos ling&uuml;&iacute;sticos encontrados, para tareas de detecci&oacute;n de ruido y tareas relacionadas.</p>      <p>Inicialmente se describe la soluci&oacute;n propuesta, la cual es especificada m&aacute;s en detalle en las secciones subsecuentes: estrategia general para la paralelizaci&oacute;n de tareas; extracci&oacute;n de URL del dominio y tipos de contenido; construcci&oacute;n de componentes expertos en extracci&oacute;n; extracci&oacute;n y persistencia de los cuerpos de texto. Finalmente, se muestran los experimentos y resultados obtenidos con dominios de acceso p&uacute;blico, y las variaciones en los resultados de acuerdo con los cambios en los par&aacute;metros del sistema.</p>      <p><font size = "3"><b>Descripci&oacute;n general del sistema</b></font></p>      <p>El sistema desarrollado tiene como prop&oacute;sito construir, en poco tiempo, grandes cuerpos de texto para realizar tareas de aprendizaje de lenguajes naturales. A diferencia de las herramientas presentadas en trabajos preliminares como el de Kehoe (2002) y Gelbukh y Sidorov (2006) donde a trav&eacute;s de buscadores<i> <i>web</i></i> y palabras claves se arman <i><i>corpus</i></i> de contextos o temas espec&iacute;ficos, la herramienta aqu&iacute; descrita se enfoca en la extracci&oacute;n de muestras de lenguaje de dominios <i><i>web</i></i> completos, ya que se busca obtener y analizar variantes regionales de un mismo lenguaje, independientemente del contexto o tem&aacute;tica. Sobre la premisa de que hoy en d&iacute;a es f&aacute;cil encontrar dominios <i><i>web</i></i> (portales, <i>wikis</i>, etc.) construidos por personas de una misma regi&oacute;n o cultura, los <i><i>corpus</i> </i>generados con este enfoque permitir&aacute;n el an&aacute;lisis de los elementos ling&uuml;&iacute;sticos como la morfolog&iacute;a y la sintaxis particulares de dichas regiones.</p>      ]]></body>
<body><![CDATA[<p>A nivel funcional, la herramienta propuesta cuenta con dos caracter&iacute;sticas fundamentales: desempe&ntilde;o y extensibilidad. En cuanto a desempe&ntilde;o, se busc&oacute; que el proceso de extracci&oacute;n pudiera aprovechar al m&aacute;ximo los recursos de ancho de banda disponibles y de esta manera reducir los tiempos de construcci&oacute;n del <i><i>corpus</i></i>. En cuanto a extensibilidad, se busc&oacute; que el sistema pudiera adaptarse para extraer muestras de lenguaje natural de nuevos tipos de formatos digitales, a trav&eacute;s de un esquema de componentes. En la <a href="#fig1">figura 1</a> se presenta el funcionamiento general del sistema. Se parte de la ra&iacute;z de un dominio para extraer, con un nivel de profundidad dado, los enlaces relacionados con dicho dominio (los contenidos de &eacute;ste deben ser uniformes en su lenguaje, si se quieren obtener buenos resultados en las tareas de aprendizaje no supervisado). Posteriormente, el sistema identifica los tipos de contenido de cada enlace encontrado y localiza al componente m&aacute;s adecuado para su manipulaci&oacute;n. Finalmente, y de forma concurrente, cada uno de estos componentes extrae, filtra y hace persistentes las muestras del lenguaje natural extra&iacute;das. Durante el proceso de persistencia se realizan c&aacute;lculos de frecuencias, con el fin de poder realizar labores posteriores de eliminaci&oacute;n de ruido.</p>      <p>    <center><a name="fig1"><img src="img/revistas/iei/v29n3/3a09f1.jpg"></a></center></p>      <p><font size = "3"><b>Patr&oacute;n de ejecuci&oacute;n concurrente de tareas independientes</b></font></p>      <p>Durante el dise&ntilde;o del proceso de extracci&oacute;n de muestras de lenguaje natural de un dominio, se identific&oacute; una problem&aacute;tica com&uacute;n para varias de las etapas de dicho proceso: las tareas de alta latencia, independientes entre s&iacute;, que requieren la sincronizaci&oacute;n de su terminaci&oacute;n para pasar a una siguiente etapa del proceso. Por ejemplo, la etapa de identificaci&oacute;n de tipo de contenido MIME<a href="#ref3b"><sup>3</sup></a><a name="ref3a"></a>  requiere, para cada URL a explorar, conectarse al respectivo servidor, efectuar una petici&oacute;n de encabezado, y procesar la respuesta para identificar dicho tipo. Como el tiempo de ejecuci&oacute;n de esta tarea depende del tiempo de respuesta de los servidores el cual en ocasiones puede ser relativamente alto, realizarla de forma secuencial desaprovechar&iacute;a las capacidades de c&oacute;mputo y de ancho de banda de la m&aacute;quina y de la red donde se corra ese proceso.</p>      <p>Otro ejemplo, es la tarea de extracci&oacute;n de muestras de lenguaje como tal. Esta tarea, dado que requiere extraer la totalidad de los contenidos de cada direcci&oacute;n, tiene una latencia a&uacute;n m&aacute;s alta, lo que crea un cuello de botella para las tareas de procesamiento intensivo que le siguen, donde se incluyen el procesamiento del contenido y la actualizaci&oacute;n de la informaci&oacute;n estad&iacute;stica del lenguaje. Para tener una soluci&oacute;n gen&eacute;rica de ejecuci&oacute;n concurrente y sincronizaci&oacute;n de los diferentes puntos funcionales que requieren la ejecuci&oacute;n de m&uacute;ltiples tareas de alta latencia, se defini&oacute; e implement&oacute; un patr&oacute;n de dise&ntilde;o para el modelo de ejecuci&oacute;n descrito en la <a href="#fig2">figura 2</a>, donde se ejecuta una tarea global compuesta por una serie de tareas independientes entre s&iacute; (es decir, donde la tarea global finaliza s&oacute;lo hasta que la &uacute;ltima tarea at&oacute;mica se ejecute), y donde el n&uacute;mero m&aacute;ximo de procesos a ejecutarse simult&aacute;neamente se puede ajustar, independientemente del n&uacute;mero de tareas a realizarse, y sin afectar el cumplimiento de la totalidad de dichas tareas. Este patr&oacute;n es un nuevo elemento para el conjunto de patrones de procesamiento en paralelo disponible en la literatura (Mattson et al., 2004), el cual tiene como principal beneficio permitir la creaci&oacute;n de esquemas de sincronizaci&oacute;n por barrera (Krishnamurthy y Yelick, 1995) de forma transparente para quien desarrolle algoritmos paralelos.</p>      <p>    <center><a name="fig2"><img src="img/revistas/iei/v29n3/3a09f2.jpg"></a></center></p>      <p>La idea general del patr&oacute;n se puede revisar en la <a href="#fig3">figura 3</a>: una vez se da el control al proceso global (proceso concurrente), se crea un conjunto de N hilos, los cuales toman, en la medida que se encuentren disponibles, cada una de las tareas a realizar. A continuaci&oacute;n, el proceso global entra en suspensi&oacute;n. Las tareas notifican cu&aacute;ndo han terminado su ejecuci&oacute;n al monitor de ejecuci&oacute;n, el cual a su vez lleva el control de cuantas tareas han sido culminadas. Finalmente, cuando el monitor identifica que la totalidad de tareas han sido finalizadas, notifica al proceso global para que se reanude y retorne el control de la ejecuci&oacute;n a quien lo invoc&oacute; (<a href="#fig4">Figura 4</a>).</p>      <p>    ]]></body>
<body><![CDATA[<center><a name="fig3"><img src="img/revistas/iei/v29n3/3a09f3.jpg"></a></center></p>      <p>    <center><a name="fig4"><img src="img/revistas/iei/v29n3/3a09f4.jpg"></a></center></p>      <p><font size = "3"><b>Extracci&oacute;n de enlaces hijo y de tipos de contenido</b></font></p>      <p>Para la extracci&oacute;n recursiva de los enlaces relacionados con una determinada URL ra&iacute;z, con una profundidad h dada (<a href="#fig5">Figura 5</a>), se hizo uso del n&uacute;cleo del<i> crawler </i>desarrollado en el proyecto Sphinxs (Miller y Bharat, 1998), el cual result&oacute; ser muy eficiente y robusto para dicha tarea. Cabe resaltar que, como herramienta tipo crawler, la &uacute;nica funcionalidad para la que se le pudo reutilizar fue la de extracci&oacute;n de URL, pues por lo dem&aacute;s esta herramienta est&aacute; enfocada, al igual que los crawlers tradicionales, en descargar localmente copias de los documentos disponibles en la red, y a lo sumo indexar a partir de las palabras claves definidas, exclusivamente para los documentos HTML. Una vez se construye la secuencia de objetos que representan todas las tareas de extracci&oacute;n, y siguiendo el mecanismo de ejecuci&oacute;n concurrente descrito, a cada uno de &eacute;stos se les delega la responsabilidad de identificar su tipo de contenido (usando la convenci&oacute;n MIME), para proveer la informaci&oacute;n necesaria que permita la construcci&oacute;n de un componente experto a qui&eacute;n delegarle la tarea de extracci&oacute;n y construcci&oacute;n de la muestra de lenguaje natural de dicha direcci&oacute;n.</p>      <p>    <center><a name="fig5"><img src="img/revistas/iei/v29n3/3a09f5.jpg"></a></center></p>      <p><font size = "3"><b>Construcci&oacute;n de componentes expertos en extracci&oacute;n</b></font></p>      <p>El patr&oacute;n planteado, tal como se ve en el diagrama de la <a href="#fig6">figura 6</a>, se defini&oacute; de tal manera que pueda aplicarse a cualquier tarea que se desee. En este caso, para habilitar las tareas de identificaci&oacute;n de tipos de contenido (MIME) y su extracci&oacute;n para ejecutarse en paralelo y sincronizar la terminaci&oacute;n de dichas tareas, bast&oacute; con definir la l&oacute;gica de dichas tareas a trav&eacute;s de la creaci&oacute;n de subclases de la clase Task (en el diagrama MIMETypeExtractionTask y ContentExtractionTask).</p>      <p>    ]]></body>
<body><![CDATA[<center><a name="fig6"><img src="img/revistas/iei/v29n3/3a09f6.jpg"></a></center></p>      <p>Una de las caracter&iacute;sticas del sistema descrito es la extensibilidad en cuanto a capacidad de manejo de tipos de contenido. Es decir, en el futuro, a medida que se identifiquen nuevos tipos de contenidos a los cuales se les pueda extraer muestras de lenguaje natural (por ejemplo, medios audiovisuales), basta con desarrollar un componente con los nuevos mecanismos de extracci&oacute;n para que el sistema lo integre de manera transparente. Para tal prop&oacute;sito, se construy&oacute; un modelo de componentes de extracci&oacute;n de contenidos de medios digitales extensible, a partir de una met&aacute;fora de f&aacute;brica de extractores (patr&oacute;n f&aacute;brica abstracta). Este modelo de f&aacute;brica al iniciarse realiza un proceso de introspecci&oacute;n sobre todo el conjunto de clases p&uacute;blicas en tiempo de ejecuci&oacute;n, identifica cu&aacute;les son capaces de manipular contenidos digitales (clases que cumplan con la interfaz DigitalMediaTextExtractor (<a href="#fig7">Figura 7</a>), y deja registrado dicho componente con el tipo de contenido que puede manejar, de manera que durante el proceso de extracci&oacute;n concurrente descrito, se tenga acceso inmediato a los componentes expertos en extracci&oacute;n, a medida que se identifiquen los tipos de contenido a extraer.</p>      <p>    <center><a name="fig7"><img src="img/revistas/iei/v29n3/3a09f7.jpg"></a></center></p>      <p><font size = "3"><b>Extracci&oacute;n y construcci&oacute;n concurrente / distribuida de <i>corpus</i> y persistencia</b></font></p>      <p>Como se ve en la <a href="#fig8">figura 8</a>, a partir del conjunto de objetos &quot;expertos&quot; en extracci&oacute;n, y el modelo de ejecuci&oacute;n concurrente descrito anteriormente, se inicia finalmente el proceso de extracci&oacute;n de muestras del lenguaje natural. El principal inconveniente en este proceso es que los medios digitales a los cuales se les extrae su contenido, tales como las p&aacute;ginas HTML o documentos de procesadores de texto en l&iacute;nea, llevan incrustados muchas veces una enorme cantidad de elementos adicionales al texto, como im&aacute;genes, hiperv&iacute;nculos o metadatos, lo cual genera una cantidad significativa de ruido para las muestras extra&iacute;das. Dado que el contar con ejemplos v&aacute;lidos de sentencias del lenguaje es fundamental para tareas tales como el an&aacute;lisis sint&aacute;ctico, se integr&oacute; al modelo un esquema de filtros encadenados, los cuales se encargan de depurar el cuerpo de texto hasta lograr que &eacute;ste se componga s&oacute;lo de sentencias y signos de puntuaci&oacute;n v&aacute;lidos. El modelo de componentes descrito es igualmente aplicado, de tal forma que la incorporaci&oacute;n de procesos de filtrado adicionales, y su encadenamiento, s&oacute;lo requiera la definici&oacute;n de la l&oacute;gica de filtrado (<a href="#fig9">Figura 9</a>). En esta etapa la herramienta incorpora un filtro de eliminaci&oacute;n de s&iacute;mbolos inv&aacute;lidos (en el contexto de las sentencias de lenguaje natural tradicionales), y otro de unificaci&oacute;n de signos de puntuaci&oacute;n contiguos.</p>      <p>    <center><a name="fig8"><img src="img/revistas/iei/v29n3/3a09f8.jpg"></a></center></p>      <p>    <center><a name="fig9"><img src="img/revistas/iei/v29n3/3a09f9.jpg"></a></center></p>      ]]></body>
<body><![CDATA[<p><font size = "3"><b>Resultados</b></font></p>      <p>Las herramientas propuestas en trabajos preliminares para el uso de la <i><i>web</i></i> como <i><i>corpus</i></i> (Kehoe, 2007; Gelbukh y  Sidorov, 2006) no muestran an&aacute;lisis de desempe&ntilde;o, que es uno de los &eacute;nfasis de esta propuesta, de manera que a los resultados aqu&iacute; presentados no se les puede hacer an&aacute;lisis comparativos. Para la pruebas se utiliz&oacute; un canal dedicado (sin m&aacute;s aplicaciones consumi&eacute;ndolo) de 600 Mbs, y un computador Intel Core 2 Duo de 2GHz con 2GB de memoria RAM, con 1GB dedicado al<i> heap </i>de la m&aacute;quina virtual de Java. Extracci&oacute;n de hiperv&iacute;nculos para el idioma espa&ntilde;ol. Como fuente de ejemplos del lenguaje espa&ntilde;ol se escogi&oacute; el dominio en espa&ntilde;ol de <i>Wikipedia</i> (http://es.Wikipedia.org), por su enorme volumen de datos dif&iacute;cil de encontrar para lenguajes diferentes al ingl&eacute;s, de cerca de 120.000 p&aacute;ginas. Partiendo de la direcci&oacute;n ra&iacute;z del portal en menci&oacute;n, se lograron extraer, a trav&eacute;s del seguimiento de hiperv&iacute;nculos (con una profundidad m&aacute;xima de 10), 76.000 enlaces. La totalidad de estos enlaces fueron procesados por una m&aacute;quina dedicada, en aproximadamente dos d&iacute;as, generando un <i><i>corpus</i></i> de 690 MB y 44,5 millones de palabras, correspondientes a un conjunto de 370.000 palabras.</p>      <p><b>Observaciones</b></p>      <p>Como un soporte adicional a las t&eacute;cnicas que utilicen los cuerpos de texto generados a trav&eacute;s de esta herramienta, la persistencia se realiza en un modelo relacional, haciendo persistente de forma independiente las palabras, las frases (identificadas a trav&eacute;s de los signos de puntuaci&oacute;n), y en un archivo de texto el<i> <i>corpus</i></i> consolidado. La persistencia de las palabras, apoyados en el motor de base de datos, garantiza la no duplicidad de los vocablos almacenados, y adicionalmente lleva un registro del n&uacute;mero de ocurrencias. Dado que el sistema no puede garantizar que no se incluyan palabras que no correspondan al lenguaje (sino por ejemplo a metadatos HTML o de otros tipos de contenido dejados accidentalmente como parte del cuerpo de texto), el control de dicha frecuencia podr&iacute;a servir para hacer un descarte de palabras (aquellas que tengan una frecuencia demasiado baja, en proporci&oacute;n al tama&ntilde;o del <i>corpus</i> de texto extra&iacute;do).</p>      <p>Se hizo la inspecci&oacute;n de las palabras y sus frecuencias del <i><i>corpus</i></i> extra&iacute;do cuando apenas se hab&iacute;an procesado 300 enlaces (un <i>corpus</i> de aproximadamente 2 Mb y 180.000 palabras), obteniendo como las m&aacute;s frecuentes las mostradas en el cuadro I. Como se observa, algunas preposiciones resultan predominantemente m&aacute;s frecuentes que el resto de vocablos, al igual que ciertas palabras recurrentes en <i>Wikipedia</i> (aunque vale resaltar que son v&aacute;lidas dentro del lenguaje). A pesar de los resultados anteriores, lo m&aacute;s importante es lo identificado en el cuadro II, donde se observa que palabras inv&aacute;lidas para el lenguaje espa&ntilde;ol como &quot;<i>ttulosi</i>&quot; o &quot;<i>internoregresa</i>&quot; tienen una mayor frecuencia que t&eacute;rminos v&aacute;lidos como &quot;gram&aacute;tica&quot; y &quot;almacenaje&quot;. Esto hace evidente la necesidad, en el caso particular de cuerpos de texto obtenidos de Internet, de manejar <i>corpus</i> de dimensiones muy altas, para lograr una tendencia donde el volumen de ejemplos correctos del lenguaje supere significativamente el ruido existente en los medios digitales y se pueda hacer una filtraci&oacute;n de palabras v&aacute;lidas dada su frecuencia (sin perder vocablos importantes que sean poco frecuentes).</p>      <p>En el cuadro III se muestran de nuevo las frecuencias de las palabras obtenidas, luego del procesamiento de 2.000 enlaces, y consultando espec&iacute;ficamente las relacionadas con &quot;gram&aacute;tica&quot;, la cual, en el experimento anterior, habr&iacute;a podido considerarse como ruido. En este punto se hace evidente que, entre mayor sea la muestra del <i><i>corpus</i></i> extra&iacute;do, mayor ser&aacute; la proporci&oacute;n entre la frecuencia de las palabras correctas y las incorrectas del lenguaje.</p>      <p>    <center><a name="cuad1"><img src="img/revistas/iei/v29n3/3a09c1.jpg"></a></center></p>      <p>    <center><a name="cuad2"><img src="img/revistas/iei/v29n3/3a09c2.jpg"></a></center></p>      ]]></body>
<body><![CDATA[<p>    <center><a name="cuad3"><img src="img/revistas/iei/v29n3/3a09c3.jpg"></a></center></p>      <p><b>Desempe&ntilde;o </b></p>      <p>La tasa promedio de extracci&oacute;n, con las caracter&iacute;sticas de infraestructura descritas, 200 procesos concurrentes, y los tiempos de respuesta propios del dominio es<i>.Wikipedia</i>.org, es de 12 Mb por hora, pero para hacer m&aacute;s evidentes las mejoras de desempe&ntilde;o de las estrategias de extracci&oacute;n concurrentes aplicadas se monitore&oacute; el tr&aacute;fico de la red mientras se realizaba el proceso de extracci&oacute;n (<a href="#fig10">Figura 10</a>). En el monitoreo 1 hay un l&iacute;mite de 10 procesos de extracci&oacute;n concurrente, mientras que en el 2 hay 200. Como se puede ver en la imagen, la tasa promedio de ancho de banda consumido para tareas de extracci&oacute;n aumenta en m&aacute;s de 13 veces.</p>      <p>    <center><a name="fig10"><img src="img/revistas/iei/v29n3/3a09f10.jpg"></a></center></p>      <p><a href="#fig10">Figura 10</a>. Diferencias de desempe&ntilde;o alternando entre 10 y 200 como n&uacute;mero m&aacute;ximo de procesos de extracci&oacute;n concurrente.</p>      <p><font size = "3"><b>Trabajo futuro</b></font></p>      <p>A partir de los resultados obtenidos, en el futuro este trabajo se aplicar&aacute; y extender&aacute; en los siguientes aspectos:</p>      <p>El<i> <i>corpus</i></i> obtenido con<i> Wikipedia </i>en espa&ntilde;ol ser&aacute; utilizado con una t&eacute;cnica de aprendizaje no supervisado de lenguajes naturales, que permita identificar elementos de la morfolog&iacute;a y de la sintaxis del espa&ntilde;ol. Una vez se mida el desempe&ntilde;o de esta t&eacute;cnica con el <i><i>corpus</i></i> obtenido, se podr&aacute;n hacer nuevos experimentos con<i> <i>corpus</i></i> de diferentes tama&ntilde;os (generados con esta herramienta), de manera que sea posible determinar una funci&oacute;n aproximada de desempe&ntilde;o de aprendizaje respecto del tama&ntilde;o del<i> <i>corpus</i></i>.</p>      ]]></body>
<body><![CDATA[<p>En cuanto a la herramienta como tal, en un futuro se incorporar&aacute; una arquitectura distribuida para la extracci&oacute;n. De esta manera, la herramienta podr&aacute; hacer uso de varias m&aacute;quinas, cada una con su ancho de banda, para la construcci&oacute;n, a&uacute;n m&aacute;s eficiente, de<i> <i>corpus</i></i> de texto.</p>      <p><font size = "3"><b>Conclusiones</b></font></p>      <p>Desde hace tiempo se han documentado las posibilidades y ventajas que tendr&iacute;a la <i><i>web</i></i> vista como un repositorio enorme de cuerpos de texto. Una herramienta como la presentada permitir&aacute;, a quienes trabajen en el &aacute;rea de procesamiento de lenguajes naturales, obtener de forma &aacute;gil <i><i>corpus</i></i> de diferentes variantes de un mismo idioma, con tan s&oacute;lo identificar dominios<i> <i>web</i></i> construidos por personas pertenecientes a una determinada regi&oacute;n o cultura.</p>	      <p>Los esfuerzos dentro del &aacute;rea de procesamiento de lenguaje natural enfocados a la construcci&oacute;n de soluciones eficientes para la extracci&oacute;n de muestras del lenguaje, tal como se plantea en este trabajo, a largo plazo tendr&iacute;an una aplicaci&oacute;n dentro de los modelos de <i><i>web</i> </i>sem&aacute;ntica que a futuro se planteen, pues el mecanismo tradicional de los <i>crawlers</i>, donde simplemente se indexan y (en algunos casos) se replican documentos en l&iacute;nea, no ser&iacute;a suficiente para alimentar a los m&eacute;todos de construcci&oacute;n autom&aacute;tica de representaciones de conocimiento de los contenidos disponibles en l&iacute;nea.</p>      <p>A pesar de la enorme cantidad de ruido y errores existentes en los contenidos textuales de Internet, se pudo comprobar que cuanto mayor es el volumen del<i> <i>corpus</i> </i>construido m&aacute;s f&aacute;cil ser&aacute; identificar los elementos v&aacute;lidos del lenguaje, usando como criterio diferenciador la frecuencia de las palabras. Es decir, con una herramienta como la aqu&iacute; presentada ser&aacute; posible, sin intervenci&oacute;n humana, construir los lexic&oacute;n de las diversas variantes de un idioma, tarea que antes resultaba impensable.</p>      <p>El sistema presentado es s&oacute;lo un ejemplo de lo que se puede hacer con el enorme volumen de informaci&oacute;n textual que est&aacute; acumul&aacute;ndose en Internet. A partir de esta informaci&oacute;n puede que se logren identificar, para cada idioma, m&aacute;s elementos y paradigmas ling&uuml;&iacute;sticos que aquellos disponibles en la literatura. Esto ser&aacute; sumamente valioso para los ling&uuml;istas y para quienes trabajen en procesamiento de lenguajes naturales.</p>  <hr size = "1">      <p><a name="ref3b"></a><a href="#ref3a">3</a> Multipurpose Internet Mail Extensions.</p>   <hr size = "1">      <p><font size = "3"><b>Bibliograf&iacute;a</b></font></p>      <!-- ref --><p>Chomsky, N., Knowledge of Language: Its Nature, Origin, and Use., Praeger, 1986.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000091&pid=S0120-5609200900030000900001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Clark, A., Unsupervised Language Acquisition: Theory and Practice., Tesis presentada a la Universidad G&eacute;nova, para  optar al grado de Doctor of Philosophy, Dicembre, 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000092&pid=S0120-5609200900030000900002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Parekh, R., Honavar, V., Grammar inference, automata induction, and language acquisition., 2000.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000093&pid=S0120-5609200900030000900003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Buitelaar, P., Cimiano, P., Magnini, B., Ontology Learning from Text: Methods., Evaluation and Applications, Vol. 123 of Frontiers in Artificial Intelligence, IOS Press, 2005.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000094&pid=S0120-5609200900030000900004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Navigli, R., Velardi, P., Gangemi, A., Ontology learning and its application to automated terminology translation., IEEE Intelligent Systems, Vol. 18, No. 1, 2003, pp. 22­31.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000095&pid=S0120-5609200900030000900005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Zhou, L., Ontology learning: state of the art and open issues., Information Technology and Management archive, Vol. 8 , No.  3, September, 2007, pp. 241­252.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000096&pid=S0120-5609200900030000900006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Church, K. W., Mercer, R. L., Introduction to the special issue on computational linguistics using large corpora., Comput. Linguist., Vol. 19, No. 1, 1993, pp. 1­24.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000097&pid=S0120-5609200900030000900007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Marianne Hundt, N. N., Biewer, C., <i>corpus</i> Linguistics and the <i>web</i>., Language and Computers 59, Kenilworth: Rodopi, 2007.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000098&pid=S0120-5609200900030000900008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Keller, F., Lapata, M., Using the <i>web</i> to obtain frequencies for unseen bigrams., Comput. Linguist., Vol. 29, No. 3, 2003, pp. 459­484.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000099&pid=S0120-5609200900030000900009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Kilgarriff, A., Grefenstette, G.,  Introduction to the special issue on the <i>web</i> as <i>corpus</i>., Computational Linguistics, Vol. 29, 2003, pp. 333­347.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000100&pid=S0120-5609200900030000900010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Miller, R. C., Bharat, K., Sphinx: a framework for creating personal, sitespecific <i>web</i> crawlers., in WWW7: Proceedings of the seventh international conference on World Wide <i>web</i> 7, (Amsterdam, The Netherlands, The Netherlands), Elsevier Science Publishers B. V., 1998., pp. 119­130.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000101&pid=S0120-5609200900030000900011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Kehoe, A. R., <i>web</i>corp: Applying the <i>web</i> to linguistics and linguistics to the <i>web</i>., in WWW2002 Conference, Honolulu, Hawaii, 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000102&pid=S0120-5609200900030000900012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Kehoe, A. M. G., New corpora from the <i>web</i>: making <i>web</i> text more 'text-like'., in Towards Multimedia in <i>corpus</i> Studies, electronic publication, University of Helsinki, 2007.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000103&pid=S0120-5609200900030000900013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Mattson, G., Sanders, B. A., Massingill. B. L., Patterns for Parallel Programming., Addison-Wesley Professional, 2004.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000104&pid=S0120-5609200900030000900014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Krishnamurthy, A., Yelick, K., Optimizing parallel programs with explicit synchronization., SIGPLAN Not. 30, 1995, pp. 96-204.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000105&pid=S0120-5609200900030000900015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Gelbukh, A., Sidorov, G., Procesamiento autom&aacute;tico del espa&ntilde;ol con enfoque en recursos l&eacute;xicos grandes., IPN, Mexico, 2006.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000106&pid=S0120-5609200900030000900016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chomsky]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<source><![CDATA[Knowledge of Language: Nature, Origin, and Use]]></source>
<year>1986</year>
<publisher-loc><![CDATA[Praeger ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Clark]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Unsupervised Language Acquisition: Theory and Practice]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Parekh]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Honavar]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
</person-group>
<source><![CDATA[Grammar inference, automata induction, and language acquisition]]></source>
<year>2000</year>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Buitelaar]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Cimiano]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Magnini]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Ontology Learning from Text: Methods., Evaluation and Applications]]></source>
<year>2005</year>
<volume>123</volume>
<publisher-name><![CDATA[Frontiers in Artificial Intelligence, IOS Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Navigli]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Velardi]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Gangemi]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Ontology learning and its application to automated terminology translation]]></article-title>
<source><![CDATA[IEEE Intelligent Systems]]></source>
<year>2003</year>
<volume>18</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>22­31</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zhou]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Ontology learning: state of the art and open issues]]></article-title>
<source><![CDATA[Information Technology and Management archive]]></source>
<year>Sept</year>
<month>em</month>
<day>be</day>
<volume>8</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>241­252</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Church]]></surname>
<given-names><![CDATA[K. W.]]></given-names>
</name>
<name>
<surname><![CDATA[Mercer]]></surname>
<given-names><![CDATA[R. L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Introduction to the special issue on computational linguistics using large corpora]]></article-title>
<source><![CDATA[Comput. Linguist.]]></source>
<year>1993</year>
<volume>19</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1­24</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Marianne Hundt]]></surname>
<given-names><![CDATA[N. N.]]></given-names>
</name>
<name>
<surname><![CDATA[Biewer]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[corpus Linguistics and the web]]></article-title>
<source><![CDATA[Language and Computers]]></source>
<year>2007</year>
<volume>59</volume>
<publisher-loc><![CDATA[Kenilworth ]]></publisher-loc>
<publisher-name><![CDATA[Rodopi]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Keller]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Lapata]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Using the web to obtain frequencies for unseen bigrams]]></article-title>
<source><![CDATA[Comput. Linguist.]]></source>
<year>2003</year>
<volume>29</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>459­484</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kilgarriff]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Grefenstette]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Introduction to the special issue on the web as corpus]]></article-title>
<source><![CDATA[Computational Linguistics]]></source>
<year>2003</year>
<volume>29</volume>
<page-range>333­347</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Miller]]></surname>
<given-names><![CDATA[R. C.]]></given-names>
</name>
<name>
<surname><![CDATA[Bharat]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<source><![CDATA[Sphinx: a framework for creating personal, sitespecific web crawlers]]></source>
<year></year>
<conf-name><![CDATA[ WWW7: Proceedings of the seventh international conference on World Wide web 7]]></conf-name>
<conf-date>1998</conf-date>
<conf-loc>Amsterdam </conf-loc>
<page-range>119­130</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kehoe]]></surname>
<given-names><![CDATA[A. R.]]></given-names>
</name>
</person-group>
<source><![CDATA[webcorp: Applying the web to linguistics and linguistics to the web]]></source>
<year></year>
<conf-name><![CDATA[ WWW2002 Conference]]></conf-name>
<conf-date>2002</conf-date>
<conf-loc>Honolulu Hawaii</conf-loc>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kehoe]]></surname>
<given-names><![CDATA[A. M. G.]]></given-names>
</name>
</person-group>
<source><![CDATA[New corpora from the web: making web text more 'text-like']]></source>
<year>2007</year>
<publisher-name><![CDATA[University of Helsinki]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mattson]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Sanders]]></surname>
<given-names><![CDATA[B. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Massingill]]></surname>
<given-names><![CDATA[B. L.]]></given-names>
</name>
</person-group>
<source><![CDATA[Patterns for Parallel Programming]]></source>
<year>2004</year>
<publisher-name><![CDATA[Addison-Wesley Professional]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Krishnamurthy]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Yelick]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Optimizing parallel programs with explicit synchronization]]></article-title>
<source><![CDATA[SIGPLAN]]></source>
<year>1995</year>
<numero>30</numero>
<issue>30</issue>
<page-range>96-204</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gelbukh]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Sidorov]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[Procesamiento automático del español con enfoque en recursos léxicos grandes]]></source>
<year>2006</year>
<publisher-name><![CDATA[IPN]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
