<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0120-0976</journal-id>
<journal-title><![CDATA[Revista Interamericana de Bibliotecología]]></journal-title>
<abbrev-journal-title><![CDATA[Rev. Interam. Bibliot]]></abbrev-journal-title>
<issn>0120-0976</issn>
<publisher>
<publisher-name><![CDATA[Escuela Interamericana de Bibliotecología]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0120-09762008000100003</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Aplicación de dos nuevos algoritmos para agrupar resultados de búsquedas en sistemas de catálogos públicos en línea (OPAC)]]></article-title>
<article-title xml:lang="en"><![CDATA[Application of two new algorithms to group search results in on line public access catalogs (OPAC)]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Marín]]></surname>
<given-names><![CDATA[Andrés]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Branch B]]></surname>
<given-names><![CDATA[John W]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Antioquia Facultad de Ingeniería ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional de Colombia Facultad de Minas ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>06</month>
<year>2008</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>06</month>
<year>2008</year>
</pub-date>
<volume>31</volume>
<numero>1</numero>
<fpage>47</fpage>
<lpage>65</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0120-09762008000100003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0120-09762008000100003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0120-09762008000100003&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Con la facilidad que da la Internet y, en particular la Web, cada día es más fácil acceder a nuevas fuentes de información puestas a disposición en cualquier lugar del mundo. Los usuarios buscan información específica de acuerdo a sus necesidades particulares, a través de la Web. Ellos pueden hacer búsquedas ya sea mediante motores de búsqueda tales como Google o Yahoo!, o también mediante bases de datos particulares de bibliotecas o sistemas de información. Sin embargo, los resultados de consultas en motores de búsqueda, sistemas de catálogos de acceso público en línea, y en general sistemas de consulta en la Web, pueden saturar a un usuario por la abundancia de resultados, causando pérdida de efectividad del sistema de búsqueda. Para resolver este problema, la investigación "Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de catálogos públicos en línea (OPAC)", de la que se deriva este artículo, propone dos algoritmos de agrupamiento de resultados orientados a sistemas en línea concurrentes, con características de bajo consumo de ciclos de procesador y memoria, los cuales se usan en un prototipo de software.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[With the ease of Internet use, and particularly the Web, today it is easier to gain access to new information sources available in anywhere in the world. Through the web, users search for specific information according to their own necessities. They may search either by means of search machines, such as Google and Yahoo, or specific library data bases or information systems. However, information seeking results on searching machines, online public access catalog systems, and in general, on the web search system can saturate a user because of the abundance of results, which leads to a loss of effectiveness. To solve this problem, the research "Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de catálogos públicos en línea (OPAC)", from which this paper derives, proposes two results clustering algorithms focused on concurrent online systems characterized by low consume of processor and memory cycles, which are used in a prototype of software.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[k-means]]></kwd>
<kwd lng="es"><![CDATA[clustering]]></kwd>
<kwd lng="es"><![CDATA[OPACS]]></kwd>
<kwd lng="es"><![CDATA[data mining]]></kwd>
<kwd lng="es"><![CDATA[information retrieval]]></kwd>
<kwd lng="en"><![CDATA[k-means]]></kwd>
<kwd lng="en"><![CDATA[clustering algorithm]]></kwd>
<kwd lng="en"><![CDATA[OPACS]]></kwd>
<kwd lng="en"><![CDATA[data mining]]></kwd>
<kwd lng="en"><![CDATA[information retrieval]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p><b><font size="4" face="Verdana">Aplicaci&oacute;n de dos nuevos algoritmos para agrupar    resultados de b&uacute;squedas en sistemas    de cat&aacute;logos p&uacute;blicos en l&iacute;nea (OPAC)*</font></b></p>     <p><b><font size="3" face="Verdana">Application of two new algorithms to group search results in on line public access catalogs (OPAC)</font></b></p>     <p><b><font size="2" face="Verdana">Andr&eacute;s Mar&iacute;n** ; John W. Branch B.***</font></b></p> <font size="2" face="Verdana">    <p> ** 	M&aacute;gister en Ingenier&iacute;a de Sistemas. Docente Facultad de Ingenier&iacute;a,  Universidad de Antioquia, Medell&iacute;n, Colombia. <a href="mailto:amarin@udea.edu.co">amarin@udea.edu.co</a></p>     <p>    *** 	Doctor en Ingenier&iacute;a de Sistemas. Director de &aacute;reas de programas curriculares de la Facultad de Minas, Universidad Nacional de Colombia, Medell&iacute;n, Colombia.. <a href="mailto:jwbranch@unalmed.edu.co">jwbranch@unalmed.edu.co</a></p>     <p>&nbsp;</p> <hr size="1" noshade> <b>Resumen</b></strong>     <p> Con la facilidad que da la Internet y, en particular la Web, cada d&iacute;a es m&aacute;s f&aacute;cil acceder a nuevas fuentes de informaci&oacute;n puestas a disposici&oacute;n en cualquier lugar del mundo. Los usuarios buscan informaci&oacute;n espec&iacute;fica de acuerdo a sus necesidades particulares, a trav&eacute;s de la Web. Ellos pueden hacer b&uacute;squedas ya sea mediante motores de b&uacute;squeda tales como Google o Yahoo!, o tambi&eacute;n mediante bases de datos particulares de bibliotecas o sistemas de informaci&oacute;n. Sin embargo, los resultados de consultas en motores de b&uacute;squeda, sistemas de cat&aacute;logos de acceso p&uacute;blico en l&iacute;nea, y en general sistemas de consulta en la Web, pueden saturar a un usuario por la abundancia de resultados, causando p&eacute;rdida de efectividad del sistema de b&uacute;squeda. Para resolver este problema, la investigaci&oacute;n &quot;Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de cat&aacute;logos p&uacute;blicos en l&iacute;nea (OPAC)&quot;, de la que se deriva este art&iacute;culo, propone dos algoritmos de agrupamiento de resultados orientados a sistemas en l&iacute;nea concurrentes, con caracter&iacute;sticas de bajo consumo de ciclos de procesador y memoria, los cuales se usan en un prototipo de software.</p>     <p> <b>Palabras clave:</b> k-means, clustering, OPACS, data mining, information retrieval.</p>     <p> <b>C&oacute;mo citar este art&iacute;culo:</b> MAR&iacute;N, Andr&eacute;s y BRANCH B, John W.  Aplicaci&oacute;n de dos nuevos algoritmos para  agrupar resultados de b&uacute;squedas en sistemas de cat&aacute;logos p&uacute;blicos en l&iacute;nea (OPAC). Revista Interamericana de Bibliotecolog&iacute;a. Ene.-Jun. 2008, vol. 31, no. 1, p. 47-65.</p>     <p>&nbsp;</p>  <hr size="1" noshade>     ]]></body>
<body><![CDATA[<p>&nbsp;</p>     <p><b>Abstract</b></p>     <p> With the ease of Internet use, and particularly the Web, today it is easier to gain access to new information sources available in anywhere in the world. Through the web, users search for specific information according to their own necessities. They may search either by means of search machines, such as Google and Yahoo, or specific library data bases or information systems. However, information seeking results on searching machines, online public access catalog systems, and in general, on the web search system can saturate a user because of the abundance of results, which leads to a loss of effectiveness. To solve this problem, the research &quot;Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de cat&aacute;logos p&uacute;blicos en l&iacute;nea (OPAC)&quot;, from which this paper derives, proposes two results clustering algorithms focused on concurrent online systems characterized by low consume of processor and memory cycles, which are used in a prototype of software.</p>     <p> <b>Key words: </b>k-means, clustering algorithm, OPACS, data mining, information retrieval</p>     <p> <b>How to cite this article: </b>MAR&iacute;N, Andr&eacute;s y BRANCH B, John W Application of two new algorithms to group search results in on line public access catalogs (OPAC). Revista Interamericana de Bibliotecolog&iacute;a. Ene.-Jun. 2008, vol. 31, no. 1, p. 47-65.</p></font>     <p>&nbsp;</p><hr size="1" noshade>     <p><b><font size="3" face="Verdana">1.	Introducci&oacute;n</font></b></p> <font size="2" face="Verdana">     <p> El acceso p&uacute;blico a los cat&aacute;logos de las bibliotecas ha venido cambiando el perfil de los usuarios de dichos cat&aacute;logos. Mientras que antes eran m&aacute;s frecuentados por personal capacitado en bibliotecolog&iacute;a, ahora los mismos cat&aacute;logos son mas frecuentados por los usuarios directos de la informaci&oacute;n buscada. Los usuarios con el nuevo perfil no tienen un conocimiento de los modelos de interfaz, de almacenamiento y de codificaci&oacute;n empleados en los cat&aacute;logos en l&iacute;nea; ellos s&oacute;lo cuentan, en ciertos casos, con una idea vaga del material documental que requieren. Estos usuarios, al emplear los cat&aacute;logos bibliotecarios en l&iacute;nea, encuentran as&iacute; una serie de dificultades que les impiden encontrar documentos relevantes para sus intenciones de b&uacute;squeda.</p>     <p> El agrupamiento de datos ha sido investigado en varias &aacute;reas del conocimiento, particularmente en miner&iacute;a de textos y recuperaci&oacute;n de informaci&oacute;n &#91;13&#93;. El agrupamiento no supervisado ha sido propuesto para examinar una colecci&oacute;n de documentos o para organizar resultados retornados por un motor de b&uacute;squeda ante una consulta de un usuario &#91;2&#93;&#91;5&#93;&#91;22&#93;. Recientemente se habla de documentos de naturaleza ef&iacute;mera, que son aquellos obtenidos din&aacute;micamente como resultados de b&uacute;squedas ante consultas de usuarios sobre la Web o sistemas de cat&aacute;logos de acceso p&uacute;blico en l&iacute;nea &#91;8&#93;. El agrupamiento de este tipo de documentos introduce nuevos requerimientos; espec&iacute;ficamente se requieren algoritmos muy r&aacute;pidos, dado que en sistemas en l&iacute;nea no se debe obligar al usuario a esperar demasiado tiempo. Nosotros proponemos dos nuevas variantes del algoritmo K-means &#91;3&#93; que toman ventaja de una representaci&oacute;n binaria de datos para obtener grupos en un tiempo lineal pero con menos requerimientos de memoria que el algoritmo bisecting-K-means &#91;17&#93;.</p>     <p> Este art&iacute;culo se organiza como sigue: en la secci&oacute;n 2 se plantea la situaci&oacute;n problem&aacute;tica, en la secci&oacute;n 3 se presenta el marco te&oacute;rico, en la secci&oacute;n 4 se dan detalles de los algoritmos propuestos, en la secci&oacute;n 5 se muestra un ejemplo de resultados con el prototipo desarrollado, en la secci&oacute;n 6 se presentan los experimentos y los resultados obtenidos y en la secci&oacute;n 7, las conclusiones y trabajos futuros.</p></font>     ]]></body>
<body><![CDATA[<p><b><font size="3" face="Verdana">2.	Problema</font></b></p> <font size="2" face="Verdana">     <p> Con las facilidades que da la red Internet, y en particular la Web, cada d&iacute;a es m&aacute;s f&aacute;cil acceder a nuevas fuentes de informaci&oacute;n puestas a disposici&oacute;n en cualquier lugar del mundo. Los usuarios requieren buscar informaci&oacute;n espec&iacute;fica de acuerdo a sus necesidades particulares, a trav&eacute;s de la Web. Ellos pueden hacer b&uacute;squedas, ya sea mediante motores de b&uacute;squeda tales como google o yahoo! entre otros, o tambi&eacute;n mediante bases de datos particulares de bibliotecas o sistemas de informaci&oacute;n. Esta facilidad de acceso a distintas fuentes de informaci&oacute;n, trae consigo la dificultad de causar una sobresaturaci&oacute;n de informaci&oacute;n al usuario, debido a la abundancia de resultados que se puede obtener al efectuar una consulta determinada.</p>     <p> En estudios sobre sistemas de cat&aacute;logos de acceso p&uacute;blico en l&iacute;nea Opac se han detectado dificultades que se pueden mirar desde dos puntos de vista; primero desde la interfaz de sistema Opac e interacci&oacute;n hombre m&aacute;quina; y segundo, desde el m&eacute;todo interno de b&uacute;squeda y recuperaci&oacute;n de informaci&oacute;n. Con respecto al primer punto de vista se han encontrado problemas con el uso de los operadores de tipo l&oacute;gico o booleano, los cuales, a pesar de ser usados corrientemente en nuestro vocabulario, no son bien utilizados por los usuarios en los sistemas Opac, lo cual puede causar que el sistema retorne muchos resultados, muchos de ellos no relevantes o que el sistema retorne cero o pocos resultados quedando por fuera otros posibles resultados relevantes. Otros problemas ocurren cuando la b&uacute;squeda produce demasiados resultados, con lo que, aparte de consumir mucho tiempo de c&oacute;mputo, el usuario se puede saturar ante una vasta cantidad de resultados, adem&aacute;s que poco se usan las opciones avanzadas de b&uacute;squeda que permiten filtrar los resultados.</p>     <p> Estas dificultades aun persisten cuando los usuarios efect&uacute;an consultas &#91;1&#93;&#91;11&#93;&#91;10&#93;&#91;20&#93;, especialmente porque las bibliotecas usan vocabularios controlados y normalizados al incluir nuevos materiales a sus sistemas de informaci&oacute;n, y estos vocabularios no necesariamente son conocidos por usuarios finales. El usuario, al intentar obtener resultados no nulos, usualmente adopta una estrategia de b&uacute;squeda general, pero esto implica que muchos de los resultados de su b&uacute;squeda no ser&aacute;n relevantes y el orden en que estos resultados le son entregados no necesariamente ser&aacute; el m&aacute;s adecuado para &eacute;l. La idea de usar t&eacute;cnicas de agrupamiento de resultados para mejorar los niveles de relevancia ya ha sido solicitada por especialistas en bibliotecas, como caracter&iacute;stica que debe ser tenida en cuenta para las interfaces de usuario sobre sistemas de consulta &#91;9&#93;. Por otra parte, en consultas hechas sobre motores de b&uacute;squeda en la Web, si los t&eacute;rminos de b&uacute;squeda son muy generales, los resultados igualmente pueden ser muy generales y numerosos. El agrupamiento de estos resultados obtenidos de b&uacute;squedas sobre la Web ha sido propuesto en varios estudios &#91;22&#93;&#91;8&#93;&#91;21&#93;.</p>     <p> Se quiere plantear un m&eacute;todo de agrupamiento no supervisado, orientado hacia sistemas en l&iacute;nea con documentos ef&iacute;meros que, por una parte sea veloz, y por otra que consuma pocos recursos de memoria con el fin de poder atender a m&uacute;ltiples usuarios concurrentes en un mismo sistema.</p> </font>  <font size="3" face="Verdana">    <p><b>3. Marco te&oacute;rico</b></p></font> <font size="2" face="Verdana">    <p><b> 3.1. Modelo de espacio vectorial</b></p>      <p> El modelo de espacio vectorial &oacute; vector space model (VSM) en Ingl&eacute;s, se basa en el &aacute;lgebra lineal y trata los documentos y las consultas de usuario como vectores de n&uacute;meros, los cuales contienen los valores correspondientes a la ocurrencia de palabras o t&eacute;rminos en sus documentos respectivos &#91;14&#93;. Sea t el n&uacute;mero de t&eacute;rminos y n el n&uacute;mero de documentos. Entonces, tanto una consulta Q as&iacute; como todos los documentos D<sub>i</sub> , i = 1 . . . n, se pueden representar como vectores t-dimensionales as&iacute;: D<sub>i</sub>= &#91;a<sub>i1</sub>, a<sub>i2</sub>, . . . , a<sub>it</sub>&#93; y Q = &#91;a<sub>q1</sub>, a<sub>q2</sub>, . . . , a<sub>qt</sub>&#93; en donde los coeficientes aik y aqk representan los valores asociados del t&eacute;rmino k en el documento Di o consulta Q, respectivamente &#91;15&#93;. </p>     <p> Los valores en las posiciones individuales de los vectores de documentos corresponden a la ocurrencia de t&eacute;rminos en estos documentos. Estos valores llamados pesos, describen la importancia del t&eacute;rmino en el contexto global del documento. El mismo t&eacute;rmino puede tener diferentes pesos en diferentes documentos. El m&eacute;todo m&aacute;s simple para asignar pesos es el binario, esto es, si el t&eacute;rmino aparece en el documento ir&aacute; un 1, de lo contrario ir&iacute;a un 0. Este m&eacute;todo puede causar que se pierda informaci&oacute;n valiosa en grandes colecciones de documentos porque s&oacute;lo se sabe que el t&eacute;rmino est&aacute; o no est&aacute;, pero se desconoce si se utiliza muchas o pocas veces, es decir, no se sabe qu&eacute; tan importante es pero requiere m&iacute;nimos recursos de almacenamiento computacional. Otro m&eacute;todo es el de frecuencia de t&eacute;rminos o tf, que asigna a cada posici&oacute;n del vector, un valor igual al n&uacute;mero de ocurrencias del t&eacute;rmino dentro del documento correspondiente. Para minimizar el crecimiento lineal en el valor del t&eacute;rmino, se pueden usar ra&iacute;ces cuadradas o normalizaciones. Este m&eacute;todo puede mostrar c&oacute;mo es la frecuencia de un t&eacute;rmino con respecto a la colecci&oacute;n completa de documentos. </p>     <p> Mediante la representaci&oacute;n vectorial, el encontrar documentos relevantes a una consulta o saber qu&eacute; tan similar es un documento con respecto a otro, se traducen en el c&aacute;lculo de un valor de similaridad o distancia. La medida de similaridad m&aacute;s usada es el coeficiente coseno, el cual es igual al coseno del &aacute;ngulo de los dos vectores t-dimensionales que se comparan &#91;15&#93; (<a href="#t1">Ver Tabla 1</a>).</p>     ]]></body>
<body><![CDATA[<center>    <p><a name="t1" id="t1"></a><img src="/img/revistas/rib/v31n1/1a03t01.png"></p></center>     <p>El uso de esta representaci&oacute;n matricial es ventajoso debido a que el soporte del &aacute;lgebra lineal permite f&aacute;cilmente ejecutar operaciones matem&aacute;ticas. Adem&aacute;s, se pueden usar estructuras de datos simples y eficientes, se pueden usar arreglos y matrices dispersas.</p>     <p> Una desventaja de este modelo es que se pierde la estructura original de los documentos, porque el modelo espacio vectorial solamente guarda la ocurrencia de palabras en documentos y no considera el orden de los t&eacute;rminos, tampoco maneja informaci&oacute;n sobre la proximidad entre palabras, esto es, no utiliza el contexto de los t&eacute;rminos para mejorar las consultas.</p>     <p><b>3.2. Agrupamiento no supervisado</b></p>     <p> Un proceso de agrupamiento consiste en el particionamiento de datos en diferentes grupos o clusters de instancias de datos, de tal forma que primero, cada grupo contenga instancias que sean muy similares o cercanas entre s&iacute;, y segundo, las instancias en cada grupo sean muy diferentes o lejanas de las instancias en el resto de los grupos. Un algoritmo de agrupamiento debe maximizar la similaridad dentro del grupo y minimizarla entre diferentes grupos. Adem&aacute;s, es importante lograr obtener un peque&Ntilde;o n&uacute;mero de grupos, incrementando el n&uacute;mero de instancias de datos asignado a un grupo. Se busca lograr un buen equilibrio entre la similaridad alta al interior de los grupos, similaridad baja entre los grupos y un n&uacute;mero peque&Ntilde;o de grupos.</p>     <p> Dos de los tipos m&aacute;s populares de algoritmos de agrupamiento son: particionamiento iterativo y agrupamiento jer&aacute;rquico (<a href="#f1">Ver Figura 1</a>). Los algoritmos de tipo particionamiento iterativo, a su vez, se pueden subdividir en agrupamientos sin traslapo y con traslapo, mientras que los de tipo jer&aacute;rquico se pueden subdividir en m&eacute;todos aglomerativos y m&eacute;todos divisivos. &#91;3&#93;</p>     <center>    <p><a name="f1" id="f1"></a><img src="/img/revistas/rib/v31n1/1a03f01.png"></p></center>     <p>El algoritmo k-means es la t&eacute;cnica m&aacute;s empleada de particionamiento iterativo. El k-means particiona los datos dentro de K grupos, donde K es un par&aacute;metro que espec&iacute;fica el usuario. Cada grupo se caracteriza por su centroide o centro que representa una media entre los elementos del grupo. El algoritmo comienza con K centroides, escogidos arbitrariamente, e iterativamente ejecuta los siguientes dos pasos: primero, asignar cada dato al grupo cuyo centroide sea m&aacute;s cercano al dato, y segundo, calcular los nuevos centroides de cada grupo. Los dos anteriores pasos se ejecutan hasta que ning&uacute;n dato se mueva de un grupo a otro.</p>     ]]></body>
<body><![CDATA[<p> Dentro de las t&eacute;cnicas de agrupamiento de tipo jer&aacute;rquico, las aglomerativas comienzan  asignando cada instancia de datos a un grupo y entonces, iterativamente, mezclan los dos grupos m&aacute;s similares o cercanos entre s&iacute;, hasta que quede un solo grupo conteniendo todas las instancias de los datos que est&aacute;n siendo procesados. Este proceso se ejecuta iterativamente hasta que se obtiene un solo grupo que contiene todos los datos de partida. Este resultado se expresa en forma de un dendograma con su ra&iacute;z en el tope, en otras palabras, una jerarqu&iacute;a. La &uacute;nica diferencia real entre los diferentes esquemas jer&aacute;rquicos est&aacute; en la forma c&oacute;mo ellos escogen cu&aacute;l de los grupos van a combinar, y esto depende de c&oacute;mo se calcula la similaridad de los grupos. Por otra parte, las t&eacute;cnicas divisivas hacen el trabajo en forma inversa, es decir, comienzan asignando todos los datos a un grupo, entonces este grupo es subdividido iterativamente en grupos cada vez m&aacute;s peque&Ntilde;os, y a cada nuevo grupo se le hace nuevamente el proceso hasta que queden grupos de un solo elemento.</p>     <p> La efectividad de un algoritmo de agrupamiento depende de la forma y tama&Ntilde;o de los grupos naturales que est&aacute;n contenidos en los datos procesados. La mayor&iacute;a de los m&eacute;todos presupone alguna estructura de datos y no tratan de inferir la estructura de los datos. Por lo anterior, no se puede afirmar que un m&eacute;todo es mejor que otro, o que un mismo m&eacute;todo funcionar&aacute; siempre bien, porque la calidad de los resultados que se obtengan depender&aacute; tanto de las presunciones del m&eacute;todo mismo como de los datos.</p>     <p> Para mirar la bondad de un agrupamiento se usan dos tipos de medidas. El primer tipo de medida permite comparar diferentes conjuntos de grupos sin referencia a un conocimiento externo, el cual se denomina medida de calidad interna del agrupamiento. El segundo tipo de medidas, las de calidad externa, permite evaluar qu&eacute; tan buenos son los resultados de un algoritmo de agrupamiento con respecto a clases ya conocidas. Una medida de calidad externa es la entrop&iacute;a propuesta por Shannon en los inicios de la computaci&oacute;n &#91;16&#93;, la cual da una medida de la bondad de grupos no solapados. Sea C una soluci&oacute;n de agrupamiento, para el grupo j la entrop&iacute;a se obtiene seg&uacute;n la f&oacute;rmula <img src="/img/revistas/rib/v31n1/1a03v03.png">      , donde p      <sub>ij </sub>es la probabilidad de que un miembro del grupo j pertenezca a la clase i, i representa a cada una de las clases,      n      <sub>ij</sub> es el n&uacute;mero de miembros de la clase i en el grupo j y n<sub>j</sub> y       es el n&uacute;mero de miembros del grupo j. La entrop&iacute;a total para un conjunto de grupos se calcula como la suma de las entrop&iacute;as de cada grupo, ponderada por el tama&Ntilde;o de cada grupo, seg&uacute;n la f&oacute;rmula                         <img src="/img/revistas/rib/v31n1/1a03v04.png">, donde n<sub>j</sub> es el tama&Ntilde;o del grupo j, m es el n&uacute;mero de grupos y n el n&uacute;mero total de puntos totales.</p> </font>       <p><b><font size="3" face="Verdana">4. Variantes del algoritmo K-means propuestas</font></b></p>     <p><b> <font size="2" face="Verdana">4.1. Algoritmo Binary-K-means</font></b></p> <font size="2" face="Verdana">     <p> En el presente trabajo se establece que la representaci&oacute;n de la frecuencia de t&eacute;rminos en el modelo del vector espacial usar&aacute; valores binarios con el fin de ahorrar almacenamiento y disminuir tiempo de c&oacute;mputo. Se trata de considerar un m&eacute;todo de agrupamiento que sea r&aacute;pido y d&eacute; grupos de calidad aceptable. Inicialmente se propone el algoritmo binary-K-means, el cual es una variante del algoritmo k-means &#91;3&#93;. Nuestra propuesta es diferente a la de Neschen &#91;12&#93; porque permite definir como par&aacute;metro el grado de aceptaci&oacute;n de t&eacute;rminos en el centroide. Sea N el n&uacute;mero de documentos, T el n&uacute;mero total de t&eacute;rminos o palabras de la colecci&oacute;n, G el n&uacute;mero de grupos deseados, P es el porcentaje de aceptaci&oacute;n que permite decidir si un t&eacute;rmino ser&aacute; o no considerado en el centroide dependiendo de la relaci&oacute;n entre el n&uacute;mero de ocurrencias del t&eacute;rmino en los documentos del grupo y el n&uacute;mero de documentos del grupo, M<sub>KxN</sub> es la matriz binaria que contiene las instancias de datos que van a ser agrupadas, cada columna en M representa un documento particular y existir&aacute; una fila que corresponde a cada palabra de la colecci&oacute;n total. Los pasos del algoritmo son: </p>     <p>1. Escoger los centroides iniciales. Sea <img src="/img/revistas/rib/v31n1/1a03v05.png">, los vectores centroides, uno para cada grupo, inicialmente ellos se seleccionan al azar dentro de los documentos representados en M, esto es C<sub>K</sub>=m<sub>j</sub>, donde m<sub>j</sub> es una columna de M escogida al azar, tal que m<sub>j</sub> no haya sido generada como centroide inicial de otro grupo <img src="/img/revistas/rib/v31n1/1a03v06.png"></p>     <p> 2.	Buscar el centroide m&aacute;s cercano a cada documento. Esto es, para todo m<sub>j</sub> de M, asignar m<sub>i</sub> al grupo m&aacute;s cercano, dado por m&aacute;xima(similaridad <img src="/img/revistas/rib/v31n1/1a03v07.png">. La similaridad se calcula con la f&oacute;rmula 1.<br /> </p>     <center><img src="/img/revistas/rib/v31n1/1a03v08.png"></center>     <p>&nbsp;</p>     ]]></body>
<body><![CDATA[<p>La similaridad es un valor entre 0 y 1; 0 indica que no hay similaridad y 1 indica que hay similaridad total entre los documentos comparados.</p>     <p> 3.	Obtener los nuevos centroides de cada grupo. Para todos los grupos, recalcular C<sub>k</sub> de esta forma: sea <img src="/img/revistas/rib/v31n1/1a03v09.png"> el n&uacute;mero de documentos en cada grupo.</p>     <p>Sea <img src="/img/revistas/rib/v31n1/1a03v10.png"> el bit correspondiente en C<sub>k</sub> para cada t&eacute;rmino i en el documento. Sea <img src="/img/revistas/rib/v31n1/1a03v11.png"> ser&aacute; 1 si se cumple que <img src="/img/revistas/rib/v31n1/1a03v12.png">, es decir, la relaci&oacute;n entre n&uacute;mero de t&eacute;rminos con el mismo bit en 1 del grupo es mayor o igual que el porcentaje de aceptaci&oacute;n, de lo contrario C<sub>ik</sub>, ser&aacute; 0. Si alg&uacute;n <img src="/img/revistas/rib/v31n1/1a03v13.png"> es 0, seleccionar un nuevo centroide, tal como se hace en el paso 1.<br /> </p>     <p> Repetir los pasos 2 y 3, hasta que los centroides no cambien.</p>     <p> La principal ventaja del algoritmo de agrupamiento binary-K-means es que su complejidad computacional es lineal <img src="/img/revistas/rib/v31n1/1a03v14.png"> donde n es el n&uacute;mero de documentos, k es el n&uacute;mero de grupos y i es el n&uacute;mero de iteraciones. Los requerimientos de almacenamiento en memoria son muy bajos, s&oacute;lo t<sub>x</sub>n bits para la matriz M y  t<sub>x</sub>n bits para los centroides de los grupos. La principal desventaja del algoritmo binary-K-means es que, en algunos casos, el algoritmo puede no converger, esto es, permanece en una oscilaci&oacute;n c&iacute;clica de tal forma que los centroides siempre cambian y nunca se llega a satisfacer la condici&oacute;n de terminaci&oacute;n. Por otro lado, la selecci&oacute;n de los centroides iniciales afecta la calidad del resultado de los agrupamientos. Tambi&eacute;n se puede tender a que haya grupos con muchos documentos y a la vez que existan otros grupos de muy pocos documentos. Esto &uacute;ltimo es una caracter&iacute;stica poco deseable para un usuario final en un sistema de navegaci&oacute;n de resultados obtenidos ante una consulta.</p>     <p><b>4.2	Algoritmo Divisive-Binary-K-means</b></p>     <p> Steinbach, en un estudio reciente &#91;17&#93;, compara experimentalmente varias t&eacute;cnicas de agrupamiento y propone la variante Bisecting-k-means del algoritmo k-means, que consiste en partir en dos grupos un conjunto de documentos usando el algoritmo k-means; luego, con alg&uacute;n criterio, seleccionar uno de los grupos y partirlo igualmente, repitiendo estos pasos hasta alcanzar el n&uacute;mero de grupos deseado. El algoritmo Bisecting-k-means es superior al algoritmo k-means debido a que obtiene unos grupos de tama&Ntilde;os m&aacute;s homog&eacute;neos y de mejor calidad respecto a la entrop&iacute;a; sus autores afirman tambi&eacute;n, que producen jerarqu&iacute;as de documentos ligeramente mejores que las obtenidas por t&eacute;cnicas tradicionalmente consideradas superiores, como el algoritmo UPGMA jer&aacute;rquico. Por otra parte, la complejidad computacional del algoritmo Bisecting-K-means es O(n) comparada contra O(n2) de una t&eacute;cnica aglomerativa jerarquizada UPGMA seg&uacute;n lo afirma Steinbach.</p>     <p> Se propone la variante Divisive-Binary-K-means, la cual aprovecha las ventajas del algoritmo Binary-K-means, junto con las ventajas del algoritmo Bisecting-K-means &#91;17&#93;, es decir rapidez, dada la complejidad computacional del Bisecting-K-means y disminuci&oacute;n significativa de los requerimientos de almacenamiento, pues en vez de requerirse el uso de variables float de, por ejemplo, 2 bytes, s&oacute;lo se requieren variables binarias.</p>     <p> Sea N el n&uacute;mero de documentos, T el n&uacute;mero total de t&eacute;rminos o palabras de la colecci&oacute;n, G el n&uacute;mero de grupos deseados, P es el porcentaje de aceptaci&oacute;n que permite decidir si un t&eacute;rmino ser&aacute; o no considerado en el centroide dependiendo de la relaci&oacute;n entre el n&uacute;mero de ocurrencias del t&eacute;rmino en los documentos del grupo y el n&uacute;mero de documentos del grupo, MTxN es la matriz binaria que contiene las instancias de datos que van a ser agrupadas, cada columna en M representa un documento particular y existir&aacute; una fila que corresponde a cada palabra de la colecci&oacute;n total. Los pasos del algoritmo son:</p>     <p> 1.	Se parte de un &uacute;nico grupo en el cual se encuentran todos los documentos, se ejecuta el algoritmo binary-K-means para obtener dos grupos M<sub>1</sub> y M<sub>2</sub> es decir ,<img src="/img/revistas/rib/v31n1/1a03v15.png"> . Sea NGO = 2 una variable que representa el n&uacute;mero de grupos obtenidos.</p>     ]]></body>
<body><![CDATA[<p> 2.	Repetir mientras NGO &lt; G : seleccionar un grupo a dividir Mj y aplicarle <img src="/img/revistas/rib/v31n1/1a03v16.png"> donde Mj representa los documentos del grupo seleccionado, Nj es el n&uacute;mero de documentos de dicho grupo, tal que, <img src="/img/revistas/rib/v31n1/1a03v17.png"></p>     <p> El criterio para seleccionar qu&eacute; grupo dividir viene dado por la f&oacute;rmula <img src="/img/revistas/rib/v31n1/1a03v18.png">, donde Nj es el n&uacute;mero de documentos del grupo j, |Cj | es la magnitud del centroide del grupo j, q es un valor aleatorio real entre 0 y 1 obtenido para la iteraci&oacute;n actual que evita que el algoritmo se quede iterando c&iacute;clicamente y no converja pues el algoritmo Binary - K - means puede generar uno de los grupos vac&iacute;os.</p> </font>     <p><b><font size="3" face="Verdana">5.	Prototipo de software</font></b></p> <font size="2" face="Verdana">     <p> Con el fin de probar la aplicabilidad de los algoritmos presentados anteriormente sobre sistemas Opac, se desarroll&oacute; un prototipo de software. El software permite a un usuario final plantear una consulta general y obtener los resultados de su consulta en forma agrupada. El usuario define como par&aacute;metro de entrada adicional, el n&uacute;mero de grupos que desea obtener. Cada grupo resultante consta de una identificaci&oacute;n del grupo, una relaci&oacute;n con los t&iacute;tulos pertenecientes al grupo y los t&eacute;rminos principales que caracterizan al grupo. Cada t&iacute;tulo, a su vez, es un enlace al registro completo del t&iacute;tulo dentro de la colecci&oacute;n o ficha bibliogr&aacute;fica. </p>     <p> Para el desarrollo del prototipo se utiliz&oacute; la colecci&oacute;n de datos del sistema de bibliotecas de la Universidad de Antioquia (http://biblioteca.udea.edu.co), el cual consta aproximadamente de un mill&oacute;n de t&iacute;tulos que incluyen libros, material audiovisual, revistas, entre otros.</p>     <p> Con el fin de tener la representaci&oacute;n del modelo de espacio vectorial, cada t&iacute;tulo de la colecci&oacute;n del sistema de bibliotecas se considera como un conjunto de t&eacute;rminos que lo caracterizan. Dichos t&eacute;rminos corresponden a las palabras encontradas en el t&iacute;tulo, los autores, los descriptores y, adem&aacute;s, la descripci&oacute;n asociada a la codificaci&oacute;n decimal o Dewey del t&iacute;tulo. Para reducir la cantidad de informaci&oacute;n generada, se eliminan los t&eacute;rminos irrelevantes, conocidos tambi&eacute;n como stop-words, tales como los art&iacute;culos y preposiciones, adem&aacute;s, los t&eacute;rminos se trabajan como ra&iacute;ces o prefijos, de tal forma que los singulares y los plurales se manejan como la misma palabra.</p>     <p> Cuando el usuario hace la consulta, entra los t&eacute;rminos de b&uacute;squeda y el n&uacute;mero de grupos que desea generar. El sistema extrae las ra&iacute;ces de los t&eacute;rminos de b&uacute;squeda y elimina los t&eacute;rminos irrelevantes, encuentra los t&iacute;tulos de la colecci&oacute;n que contienen dichos t&eacute;rminos de b&uacute;squeda y genera una matriz que representa el modelo de espacio vectorial en el cual las filas contendr&aacute;n todos los t&eacute;rminos asociados a los resultados obtenidos y en las columnas los t&iacute;tulos encontrados; en cada casilla habr&aacute; un 1 si el t&eacute;rmino pertenece a ese t&iacute;tulo o un 0 en caso contrario. Con dicha matriz y el n&uacute;mero de grupos dado por el usuario, el sistema invoca el algoritmo Divisive-Binary-K-means, posteriormente, al usuario le son presentados los resultados en forma de grupos; para cada uno se presenta una identificaci&oacute;n del grupo, los t&iacute;tulos que pertenecen al grupo y los t&eacute;rminos que caracterizan al grupo; es decir, aquellos que pertenecen al centroide.</p>     <p> Consideramos que lo m&aacute;s &uacute;til para un usuario que plantea b&uacute;squedas muy generales, es que los t&eacute;rminos que caracterizan a cada grupo puedan acercarlo a precisar lo que realmente busca y con estos nuevos t&eacute;rminos el usuario los pueda utilizar en subsiguientes b&uacute;squedas y de esta manera pueda cambiar de su estrategia de b&uacute;squeda muy general a una estrategia de b&uacute;squeda m&aacute;s espec&iacute;fica que evite el problema de la sobresaturaci&oacute;n de resultados.</p>     <p> En la <a href="#f2">Figura 2</a> se muestran los resultados obtenidos ante la consulta televisi&oacute;n efectuada sobre el prototipo. El prototipo muestra la consulta efectuada, y una tabla con los resultados. En la primera columna, el n&uacute;mero del grupo, en la segunda, los t&iacute;tulos de los registros que pertenecen al grupo, y en la tercera columna, las palabras que est&aacute;n presentes en el centroide que identifica al grupo. El usuario puede reformular su consulta incluyendo los t&eacute;rminos presentes en el centroide que tal vez &eacute;l no conoc&iacute;a, o puede seleccionar uno de los t&iacute;tulos de los registros encontrados y consultar la informaci&oacute;n.</p>     <p> B&aacute;sicamente, el prototipo es una implementaci&oacute;n del m&eacute;todo que se propone usando como algoritmo de agrupamiento el Divisive-Binary-K-Means. El                     prototipo se desarroll&oacute; en el lenguaje de programaci&oacute;n Java como un servlet, es decir, como una aplicaci&oacute;n para la Web.</p></font>     ]]></body>
<body><![CDATA[<center>    <p><a name="f2"></a><img src="/img/revistas/rib/v31n1/1a03f02.png"></p></center>     <p><b><font size="3" face="Verdana">6. 	Conclusiones y trabajo futuro</font></b></p> <font size="2" face="Verdana">     <p>Hemos presentado un par de variantes nuevas de K-means para efectuar agrupamientos no supervisados, que permiten obtener grupos r&aacute;pidamente con m&iacute;nimos requerimientos de memoria, aplicables a casos de agrupamiento de resultados ante consultas de usuario en sistemas en l&iacute;nea o para agrupar s&iacute;ntesis breves de resultados de consultas en motores de b&uacute;squeda. Los m&eacute;todos planteados disminuyen dram&aacute;ticamente los requerimientos de memoria, y especialmente el algoritmo divisive-K-means ofrece grupos de tama&Ntilde;os relativamente homog&eacute;neos, dependiendo, por supuesto, de la naturaleza de los datos, lo cual resuelve algunos de los problemas presentes con el binary-K-means. Se requiere comparar estos resultados con otras t&eacute;cnicas orientadas a datos binarios, con el fin de obtener una evaluaci&oacute;n de calidad de agrupamientos m&aacute;s justa que la hecha actualmente con t&eacute;cnicas convencionales.</p>     <p> El prototipo de software muestra la viabilidad de la incorporaci&oacute;n de los agrupamientos a sistemas Opac's. Se plantea en el futuro incorporar un m&oacute;dulo de agrupamiento al sistema OpacUdea (<a href="http://OpacUdea.udea.edu.co" target="_blank">http://OpacUdea.udea.edu.co</a>), usado como cat&aacute;logo de contingencia en el sistema de bibliotecas de la Universidad de Antioquia para luego tratar de medir el impacto del m&oacute;dulo.</p>     <p></p>     <p><b>Anexo A</b></p>     <p><b> Experimentos con los algoritmos de agrupamiento</b></p>     <p><b> A.1. Planteamiento del dise&Ntilde;o experimental</b></p>     <p> Para evaluar el algoritmo propuesto, Divisive-Binary-K-means, se debe tener en cuenta que este algoritmo fue pensado para el caso de documentos con una representaci&oacute;n binaria de t&eacute;rminos; sin embargo, no existen algoritmos ya evaluados ni conjuntos de datos que se puedan usar para hacer una evaluaci&oacute;n cuyos resultados sean completamente comparativos. Por esta raz&oacute;n se opta, de una parte, por hacer la comparaci&oacute;n con t&eacute;cnicas de agrupamiento ya conocidas como el Bisecting-K-means y el algoritmo jer&aacute;rquico UPGMA (Ver secci&oacute;n 4.2); y por otra parte, trabajar con los mismos conjuntos de datos usados en el estudio de Steinbach &#91;17&#93;, disponibles a trav&eacute;s de la documentaci&oacute;n puesta en Internet del proyecto Cluto de la Universidad de Minnesota &#91;6&#93;.</p>     ]]></body>
<body><![CDATA[<p> En la <a href="#t2">Tabla 2</a> se presenta un resumen de los documentos usados en la evaluaci&oacute;n del m&eacute;todo propuesto. Los conjuntos de datos tr31 y tr45 provienen de TREC-5, TREC-6 y TREC-7 &#91;19&#93;. Los conjuntos de datos fbis son datos del Foreign Broadcast Information Service del TREC-5 &#91;19&#93;. Los r&oacute;tulos de clasificaci&oacute;n de los documentos manualmente clasificados en los conjuntos de datos tr31 y tr45 se obtienen de los juicios de relevancia dados por 'qrels.1-243.part1', 'qrels.1-243.part2', 'qrels.251-300.part1', 'qrels.trec6.adhoc.part1', 'qrels.trec7.adhoc.part1', 'qrels.251-300.part3' y 'qrels.trec7.adhoc.part5' &#91;18&#93;. Los conjuntos de datos re0 y re1 provienen de la colecci&oacute;n de textos Reuters- 21578 distribuci&oacute;n 1.0 &#91;7&#93;. El conjunto de datos wap proviene del proyecto WebAce &#91;4&#93;, cada documento corresponde a una p&aacute;gina listada en la jerarqu&iacute;a de materias de Yahoo!. Los documentos seleccionados tienen un &uacute;nico juicio de relevancia.</p>     <center>    <p><a name="t2"></a><img src="/img/revistas/rib/v31n1/1a03t02.png"> </p></center>     <p><b>A.2. Resultados</b></p>     <p> Para la determinaci&oacute;n del consumo de memoria de los m&eacute;todos de agrupamiento evaluados, se usaron estas f&oacute;rmulas: para bisecting-K-means  bits, para divisive-K-means bits y Jer&aacute;rquico UPGMA , donde t es el n&uacute;mero de t&eacute;rminos, n es n&uacute;mero de documentos, k es el n&uacute;mero de grupos y B es el n&uacute;mero de bits requeridos para almacenar cada elemento de la matriz de t&eacute;rminos, matriz de similaridad y matriz de centroides donde aplique. Asumiendo para B un valor de 16 pensando en una variable tipo float, en la<a href="#f3"> Figura 3</a> se presenta una comparaci&oacute;n del consumo de memoria para cada m&eacute;todo de agrupamiento y cada conjunto de datos para obtener 16 grupos.</p>     <p> Con respecto a la evaluaci&oacute;n del m&eacute;todo de agrupamiento Divisive-Binary-K-means, en la<a href="#t3"> Tabla 3</a> se presentan los resultados obtenidos de entrop&iacute;a, al efectuar corridas de los diferentes m&eacute;todos de agrupamiento, generando grupos de 16, 32 y 64 documentos respectivamente; se compara con respecto a los m&eacute;todos de agrupamiento Bisecting-k-means y Jer&aacute;rquico UPGMA sobre los conjuntos de datos re0, re1, wap, fbis, tr31 y tr45.</p>     <center>    <p><a name="f3"></a><img src="/img/revistas/rib/v31n1/1a03f03.png"> </p>     <p><a name="t3"></a><img src="/img/revistas/rib/v31n1/1a03t03.png"></p>     <p><img src="/img/revistas/rib/v31n1/1a03t04.png"></p></center>     ]]></body>
<body><![CDATA[<p><b>A.3. An&aacute;lisis de resultados</b></p>     <p> De la <a href="#f3">Figura 3</a> se puede apreciar claramente que el algoritmo divisive-K-means reduce dram&aacute;ticamente los requerimientos de memoria en todas las corridas, lo cual lo hace muy superior con respecto a los otros algoritmos comparados. Considerando que se requiere mover muchos menos datos, este algoritmo tambi&eacute;n mejora la velocidad en la obtenci&oacute;n de grupos.</p>     <p> El Divisive-Binary-K-means es m&aacute;s r&aacute;pido que Bisecting-K-means y Jer&aacute;rquico UPGMA. Tanto Divisive-Binary-K-means como Bisecting-K-means tienen una complejidad computacional lineal  donde n es el n&uacute;mero de documentos, k es el n&uacute;mero de grupos y i es el n&uacute;mero de iteraciones, la cual es inferior a la complejidad computacional de m&eacute;todo de agrupamiento Jer&aacute;rquico UPGMA que es . El Divisive-Binary-K-means, debido a que hace operaciones a nivel de bits, es decir, usando operadores binarios, aprovecha las instrucciones de m&aacute;quina b&aacute;sicas lo cual lo hace mas veloz que el Bisecting-K-means, el cual debe efectuar operaciones mas costosas de punto flotante, especialmente en los c&aacute;lculos de similaridad entre documentos. Adem&aacute;s, el Divisive-Binary-K-means requiere menos recursos para almacenamiento, dado que representa a los documentos en matrices binarias, las cuales se pueden implementar usando facilidades de clases de java o cualquier lenguaje que las permita implementar a nivel de bits. En este trabajo la implementaci&oacute;n se hizo con arreglos de variables de 64 bits tipo long de java.</p>     <p> De acuerdo con los resultados presentados en la sesi&oacute;n anterior, obtenidos sobre conjuntos est&aacute;ndar de pruebas de categor&iacute;as en investigaciones de recuperaci&oacute;n de informaci&oacute;n como las colecciones TREC o Reuters, era de esperar que el desempe&Ntilde;o en cuanto a calidad de los grupos con el algoritmo Divisive-Binary-K-means, ser&iacute;a inferior a los algoritmos Bisecting-K-means y Jer&aacute;rquico UPGMA, debido precisamente a que la frecuencia de t&eacute;rminos en el Divisive-Binary-K-means es binaria y no interesa si una palabra en particular es m&aacute;s importante que otras dentro de un documento o en la colecci&oacute;n de documentos, dado que lo &uacute;nico que se almacena es si un t&eacute;rmino est&aacute; o no est&aacute; en un documento dado. Pero al mirar que precisamente este algoritmo se ha dise&Ntilde;ado para el caso de fichas bibliogr&aacute;ficas o documentos ef&iacute;meros, en donde no se est&aacute; trabajando con documentos de texto completo sino con unos pocos atributos que describen un material bibliogr&aacute;fico, o p&aacute;rrafos que muestran el contexto donde se hall&oacute; lo buscado, el asumir que todos los t&eacute;rminos tienen igual importancia no es cr&iacute;tico, teniendo en cuenta que t&eacute;rminos de alta frecuencia que no aportan (o stop words) como art&iacute;culos, preposiciones, pronombres entre otras pueden ser filtrados en una etapa previa. Para mirar la calidad de los agrupamientos se us&oacute; la entrop&iacute;a porque los documentos de prueba cuentan con unas clasificaciones previamente efectuadas y la entrop&iacute;a permite medir la calidad externa de los agrupamientos; en tanto mas alta sea la entrop&iacute;a, la pureza del grupo es inferior y viceversa, es decir, un valor bajo de entrop&iacute;a indica alta pureza del grupo. El Divisive-Binary-K-means dio mejor resultados con el conjunto de datos re0; en el resto de los casos fue superior el Bisecting-K-means.</p></font>     <p>&nbsp;</p>     <p><b><font size="3" face="Verdana">Pie de paginas</font></b></p> <font size="2" face="Verdana">     <p>* 	Art&iacute;culo derivado de la tesis de maestr&iacute;a Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de cat&aacute;logos p&uacute;blicos en l&iacute;nea (OPAC).  Programa de Maestr&iacute;a en Ingenier&iacute;a de Sistemas, Universidad Nacional de Colombia sede Medell&iacute;n, Colombia, 2005.</p></font> <font size="3" face="Verdana">     <p><b>Referencias bibliogr&aacute;ficas</b></p></font> <font size="2" face="Verdana">     <!-- ref --><p> 1.	BORGMAN, C. L. Why are online catalogs still hard to use?. Journal of the American Society for Information Sciences. 1996, no. 47, p. 493&#8211;503.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000101&pid=S0120-0976200800010000300001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 2.	CUTTING, Douglass R.; PEDERSEN, Jan O.; KARGER, David and TUKEY, John W. Scatter/ gather: A cluster-based approach to browsing large document collections. En: Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, p. 318&#8211;329.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000102&pid=S0120-0976200800010000300002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 3.	FREITAS,Alex A. Data Mining and Knowledge Discovery with Evolutionary Algorithms. Estados Unidos: Springer Verlag , 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000103&pid=S0120-0976200800010000300003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 4.	HAN, Eui-Hong; BOLEY, Daniel; GINI, Maria; GROSS, Robert; HASHING, Kyle; KARYPIS, George; KUMAR, vipin; MOBASHER, B. and MOORE, Jerry. Webace: A web agent for document categorization and exploration. En: Proceedings of the 2nd Internationl conference on Autonomous Agents, 1998.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000104&pid=S0120-0976200800010000300004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 5.	HEARST, Marti A. y PEDERSEN, Jan O. Reexamining the cluster hypothesis: Scatter/gather on retrieval results. En:Proceedings of SIGIR-96, 19th ACM Internacional Conference on Research and Development in Information Retrieval, pages (76&#8211;84, Zurich, CH, 1996)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000105&pid=S0120-0976200800010000300005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 6.	KARYPIS, George. Cluto a clustering toolkit. &#91;En l&iacute;nea&#93;. 2003. Disponible en:<a href="http://www.cs.umn.edu/~karypis" target="_blank"> http://www.cs.umn.edu/~karypis</a>.&#91;Consulta: enero 12 de  2005&#93;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000106&pid=S0120-0976200800010000300006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 7.	LEWIS, D. Reuters-21578 text categorization text collection 1.0. &#91;En l&iacute;nea&#93;  Disponible en: <a href="http://www.research.att.com/~lewis" target="_blank">http://www.research.att.com/~lewis</a>  &#91;Consulta: enero 12 de  2005&#93;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000107&pid=S0120-0976200800010000300007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 8.	MAAREK, Yoelle S.; FAGIN, Ronald; BEN-SHAUL, Israel Z. and PELLEG, Dan. Ephemeral document clustering for web applications. Technical Report RJ 10186, IBM Research, 2000.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000108&pid=S0120-0976200800010000300008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 9.	MARCOS, Mari Carmen. Mejoras en la consulta y presentaci&oacute;n de los resultados en cat&aacute;logos de bibliotecas. En: IV Congreso de Interacci&oacute;n Persona-Ordenador IPO '03 (Vigo), (Junio 2003)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000109&pid=S0120-0976200800010000300009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 10.	MATTHEWS, Joseph R. Time for new opac initiatives: An overview of landmarks in the literature and introduction to wordfocus. Library Hi Tech. 1997, vol. 57-58, no. 5, p 111&#8211; 122.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000110&pid=S0120-0976200800010000300010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 11.	MURAMATSU, J. y PRATT, W. Transparent queries: Investigating user's mental models of search engines. In SIGIR-01. Proc of the Twenty fourth Internacional ACM Conference on Research and Depelopment in Information Retrieval. September 2001. New Orleans, LA. ACM.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000111&pid=S0120-0976200800010000300011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 12.	NESCHEN, Martin. Hierarchical binary vector quantisation classifiers for handwritten character recognition. In Sagerer, Gerhard; Posch, Stefan and Kummert, Franz, editors, DAGM-Symposium. Estados unidos: Springer,1995. p. 419&#8211;427. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000112&pid=S0120-0976200800010000300012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 13.	RIEKERT, Wolf-Fritz. The design of a multicatalog system for a public environmental information network. Technical report, GEIN: German Environmental Information Network, 1999.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000113&pid=S0120-0976200800010000300013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>  14.	SALTON, G.; YANG, C. S.; and YU, C. T. A theory of term importance in automatic text analysis. Journal of the American Society for Information Science, 1975, vol. 26, no.1, p.33&#8211;44.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000114&pid=S0120-0976200800010000300014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 15.	SALTON, Gerald. Automatic Text Processing. New York: Addison-Wesley, 1989.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000115&pid=S0120-0976200800010000300015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 16.	SHANNON, C.E. A mathematical theory of communication. The Bell System Technical Journal, 1948, vol 27, pp 379&#8211;423,623&#8211;656.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000116&pid=S0120-0976200800010000300016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 17.	STEINBACH, Michael; KARYPIS, George and KUMAR, Vipin. A comparison od document clusterind techniques. Technical Report 00-034, Department of Computer Science and Engineering. University of Minesota, 2000.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000117&pid=S0120-0976200800010000300017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 18.	Trec. Text retrieva conference relevance judgments. &#91;En l&iacute;nea&#93;. Disponible en: <a href="http://trec.nist.gov/data/qrels-eng/index.html" target="_blank">http://trec.nist.gov/data/qrels-eng/index.html</a> .&#91;Consulta: enero 12 de  2005&#93;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000118&pid=S0120-0976200800010000300018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 19.	Trec. Text retrieval conference. &#91;En l&iacute;nea&#93;. Disponible en: <a href="http://trec.nist.gov/" target="_blank">http://trec.nist.gov</a> &#91;Consulta: enero 12 de  2005&#93;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000119&pid=S0120-0976200800010000300019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 20.	WARREN, P. Why thy still cannot use their library catalogues? In Conference on Information Technology in Tertiary Education.  June 2000. CITTE 2000 Conference, Organising Committee,Attention: CJ Nel,IT Services,University of Port Elizabeth, PO Box 1600,Port Elizabeth, 6000. University of Port Elizabeth. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000120&pid=S0120-0976200800010000300020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 21.	WEISS, Dawid. Introduction to search results clustering. In Proceedings of the 6th International Conference on Soft Computing and Distributed Processing, Rzesz&oacute;w. 2002. Poland. &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000121&pid=S0120-0976200800010000300021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p> 22.	Zamir. ClusteringWeb Documents: A Phrase-Based Method for Grouping Search Engine Results. 1999. (PhD thesis, University of Washington).&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000122&pid=S0120-0976200800010000300022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><p></p>     <p>Art&iacute;culo recibido: 11 de febrero de 2008. Aprobado: 3 de junio de 2008. </p>     <p>&nbsp;</p></font>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[BORGMAN]]></surname>
<given-names><![CDATA[C. L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Why are online catalogs still hard to use?]]></article-title>
<source><![CDATA[Journal of the American Society for Information Sciences]]></source>
<year>1996</year>
<volume>47</volume>
<page-range>493-503</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[CUTTING]]></surname>
<given-names><![CDATA[Douglass R]]></given-names>
</name>
<name>
<surname><![CDATA[PEDERSEN]]></surname>
<given-names><![CDATA[Jan O]]></given-names>
</name>
<name>
<surname><![CDATA[KARGER]]></surname>
<given-names><![CDATA[David]]></given-names>
</name>
<name>
<surname><![CDATA[TUKEY]]></surname>
<given-names><![CDATA[John W]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Scatter/ gather: A cluster-based approach to browsing large document collections]]></article-title>
<source><![CDATA[Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval]]></source>
<year>1992</year>
<page-range>318-329</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[FREITAS]]></surname>
<given-names><![CDATA[Alex A]]></given-names>
</name>
</person-group>
<source><![CDATA[Data Mining and Knowledge Discovery with Evolutionary Algorithms]]></source>
<year>2002</year>
<publisher-loc><![CDATA[Estados Unidos ]]></publisher-loc>
<publisher-name><![CDATA[Springer Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HAN]]></surname>
<given-names><![CDATA[Eui-Hong]]></given-names>
</name>
<name>
<surname><![CDATA[BOLEY]]></surname>
<given-names><![CDATA[Daniel]]></given-names>
</name>
<name>
<surname><![CDATA[GINI]]></surname>
<given-names><![CDATA[Maria]]></given-names>
</name>
<name>
<surname><![CDATA[GROSS]]></surname>
<given-names><![CDATA[Robert]]></given-names>
</name>
<name>
<surname><![CDATA[HASHING]]></surname>
<given-names><![CDATA[Kyle]]></given-names>
</name>
<name>
<surname><![CDATA[KARYPIS]]></surname>
<given-names><![CDATA[George]]></given-names>
</name>
<name>
<surname><![CDATA[KUMAR]]></surname>
<given-names><![CDATA[vipin]]></given-names>
</name>
<name>
<surname><![CDATA[MOBASHER]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[MOORE]]></surname>
<given-names><![CDATA[Jerry]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Webace: A web agent for document categorization and exploration]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[2 Internationl conference on Autonomous Agents]]></conf-name>
<conf-date>1998</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[HEARST]]></surname>
<given-names><![CDATA[Marti A]]></given-names>
</name>
<name>
<surname><![CDATA[PEDERSEN]]></surname>
<given-names><![CDATA[Jan O]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reexamining the cluster hypothesis: Scatter/gather on retrieval results]]></article-title>
<source><![CDATA[]]></source>
<year>1996</year>
<conf-name><![CDATA[19 ACM Internacional Conference on Research and Development in Information Retrieval]]></conf-name>
<conf-loc> </conf-loc>
<page-range>76-84</page-range><publisher-loc><![CDATA[Zurich ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[KARYPIS]]></surname>
<given-names><![CDATA[George]]></given-names>
</name>
</person-group>
<source><![CDATA[Cluto a clustering toolkit]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[LEWIS]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Reuters-21578 text categorization text collection 1.0]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MAAREK]]></surname>
<given-names><![CDATA[Yoelle S.]]></given-names>
</name>
<name>
<surname><![CDATA[FAGIN]]></surname>
<given-names><![CDATA[Ronald]]></given-names>
</name>
<name>
<surname><![CDATA[BEN-SHAUL]]></surname>
<given-names><![CDATA[Israel Z]]></given-names>
</name>
<name>
<surname><![CDATA[PELLEG]]></surname>
<given-names><![CDATA[Dan]]></given-names>
</name>
</person-group>
<source><![CDATA[Ephemeral document clustering for web applications: Technical Report RJ 10186]]></source>
<year>2000</year>
<publisher-name><![CDATA[IBM Research]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MARCOS]]></surname>
<given-names><![CDATA[Mari Carmen]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Mejoras en la consulta y presentación de los resultados en catálogos de bibliotecas]]></article-title>
<source><![CDATA[]]></source>
<year></year>
<conf-name><![CDATA[IV Congreso de Interacción Persona-Ordenador IPO '03]]></conf-name>
<conf-date>Junio 2003</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MATTHEWS]]></surname>
<given-names><![CDATA[Joseph R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Time for new opac initiatives: An overview of landmarks in the literature and introduction to wordfocus]]></article-title>
<source><![CDATA[Library Hi Tech]]></source>
<year>1997</year>
<volume>57-58</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>111- 122</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[MURAMATSU]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[PRATT]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
</person-group>
<source><![CDATA[Transparent queries: Investigating user's mental models of search engines]]></source>
<year>Sept</year>
<month>em</month>
<day>be</day>
<publisher-loc><![CDATA[New Orleans^eLA LA]]></publisher-loc>
<publisher-name><![CDATA[ACM]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[NESCHEN]]></surname>
<given-names><![CDATA[Martin]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Hierarchical binary vector quantisation classifiers for handwritten character recognition]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Sagerer]]></surname>
<given-names><![CDATA[Gerhard]]></given-names>
</name>
<name>
<surname><![CDATA[Posch]]></surname>
<given-names><![CDATA[Stefan]]></given-names>
</name>
<name>
<surname><![CDATA[Kummert]]></surname>
<given-names><![CDATA[Franz]]></given-names>
</name>
</person-group>
<source><![CDATA[DAGM-Symposium]]></source>
<year>1995</year>
<page-range>419-427</page-range><publisher-loc><![CDATA[Estados unidos ]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[RIEKERT]]></surname>
<given-names><![CDATA[Wolf-Fritz]]></given-names>
</name>
</person-group>
<source><![CDATA[The design of a multicatalog system for a public environmental information network: Technical report]]></source>
<year>1999</year>
<publisher-name><![CDATA[GEIN]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALTON]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[YANG]]></surname>
<given-names><![CDATA[C. S.]]></given-names>
</name>
<name>
<surname><![CDATA[YU]]></surname>
<given-names><![CDATA[C. T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A theory of term importance in automatic text analysis]]></article-title>
<source><![CDATA[Journal of the American Society for Information Science]]></source>
<year>1975</year>
<volume>26</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>33-44</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SALTON]]></surname>
<given-names><![CDATA[Gerald]]></given-names>
</name>
</person-group>
<source><![CDATA[Automatic Text Processing]]></source>
<year>1989</year>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Addison-Wesley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[SHANNON]]></surname>
<given-names><![CDATA[C.E]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A mathematical theory of communication]]></article-title>
<source><![CDATA[The Bell System Technical Journal]]></source>
<year>1948</year>
<volume>27</volume>
<page-range>379-423,623-656</page-range></nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[STEINBACH]]></surname>
<given-names><![CDATA[Michael]]></given-names>
</name>
<name>
<surname><![CDATA[KARYPIS]]></surname>
<given-names><![CDATA[George]]></given-names>
</name>
<name>
<surname><![CDATA[KUMAR]]></surname>
<given-names><![CDATA[Vipin]]></given-names>
</name>
</person-group>
<source><![CDATA[A comparison od document clusterind techniques: Technical Report 00-034, Department of Computer Science and Engineering]]></source>
<year>2000</year>
<publisher-name><![CDATA[University of Minesota]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="">
<source><![CDATA[Text retrieva conference relevance judgments]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Trec]]></surname>
</name>
</person-group>
<source><![CDATA[Text retrieval conference]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WARREN]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Why thy still cannot use their library catalogues?]]></article-title>
<source><![CDATA[Conference on Information Technology in Tertiary Education]]></source>
<year>June</year>
<month> 2</month>
<day>00</day>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[WEISS]]></surname>
<given-names><![CDATA[Dawid]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Introduction to search results clustering]]></article-title>
<source><![CDATA[Proceedings of the 6th International Conference on Soft Computing and Distributed Processing]]></source>
<year>2002</year>
<publisher-loc><![CDATA[Rzeszów ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zamir]]></surname>
</name>
</person-group>
<source><![CDATA[ClusteringWeb Documents: A Phrase-Based Method for Grouping Search Engine Results]]></source>
<year>1999</year>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
