<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0120-5609</journal-id>
<journal-title><![CDATA[Ingeniería e Investigación]]></journal-title>
<abbrev-journal-title><![CDATA[Ing. Investig.]]></abbrev-journal-title>
<issn>0120-5609</issn>
<publisher>
<publisher-name><![CDATA[Facultad de Ingeniería, Universidad Nacional de Colombia.]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0120-56092009000100008</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Herramienta software para el análisis de canasta de mercado sin selección de candidatos]]></article-title>
<article-title xml:lang="en"><![CDATA[Software tool for analysing the family shopping basket without candidate generation]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Naranjo Cuervo]]></surname>
<given-names><![CDATA[Roberto Carlos]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sierra Martínez]]></surname>
<given-names><![CDATA[Luz Marina]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad del Cauca  ]]></institution>
<addr-line><![CDATA[ Cauca]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad del Cauca  ]]></institution>
<addr-line><![CDATA[ Cauca]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>04</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>04</month>
<year>2009</year>
</pub-date>
<volume>29</volume>
<numero>1</numero>
<fpage>60</fpage>
<lpage>68</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0120-56092009000100008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0120-56092009000100008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0120-56092009000100008&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Actualmente en el entorno del comercio electrónico es necesario contar con herramientas que permitan obtener conocimiento útil que brinde soporte a la toma de decisiones de marketing; para ello se necesita de un proceso que utiliza una serie de técnicas para el procesamiento de los datos, entre ellas se encuentra la minería de datos, que permite llevar a cabo un proceso de descubrimiento de información automático. Este trabajo tiene como objetivo presentar la técnica de reglas de asociación como la adecuada para descubrir cómo compran los clientes en una empresa que ofrece un servicio de comercio electrónico tipo B2C, con el fin de apoyar la toma de decisiones para desarrollar ofertas hacia sus clientes o cautivar nuevos. Para la implementación de las reglas de asociación existe una variedad de algoritmos como: A priori, DHP, Partition, FP-Growth y Eclat y para seleccionar el más adecuado se define una serie de criterios (Danger y Berlanga, 2001), entre los que se encuentran: inserciones a la base de datos, costo computacional, tiempo de ejecución y rendimiento, los cuales se analizaron en cada algoritmo para realizar la selección. Además, se presenta el desarrollo de una herramienta software que contempla la metodología CRISP-DM constituida por cuatro submódulos, así: Preprocesamiento de datos, Minería de datos, Análisis de resultados y Aplicación de resultados. El diseño de la aplicación utiliza una arquitectura de tres capas: Lógica de presentación, Lógica del Negocio y Lógica de servicios; dentro del proceso de construcción de la herramienta se incluye el diseño de la bodega de datos y el diseño de algoritmo como parte de la herramienta de minería de datos. Las pruebas hechas a la herramienta de minería de datos desarrollada se realizaron con una base de datos de la compañía FoodMart3. Estas pruebas fueron de: rendimiento, funcionalidad y confiabilidad en resultados, las cuales permiten encontrar reglas de asociación igualmente. Los resultados obtenidos facilitaron concluir, entre otros aspectos, que las reglas de asociación como técnica de minería de datos permiten analizar volúmenes de datos para servicios de comercio electrónico tipo B2C, lo cual es una ventaja competitiva para las empresas.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Tools leading to useful knowledge being obtained for supporting marketing decisions being taken are currently needed in the ecommerce environment. A process is needed for this which uses a series of techniques for data-processing; data-mining is one such technique enabling automatic information discovery. This work presents the association rules as a suitable technique for discovering how customers buy from a company offering business to consumer (B2C) e-business, aimed at supporting decision-making in supplying its customers or capturing new ones. Many algorithms such as A priori, DHP, Partition, FP-Growth and Eclat are available for implementing association rules; the following criteria were defined for selecting the appropriate algorithm: database insert, computational cost, performance and execution time. The development of a software tool is also presented which involved the CRISP-DM approach; this software tool was formed by the following four sub-modules: data pre-processing, data-mining, results analysis and results application. The application design used three-layer architecture: presentation logic, business logic and service logic. Data warehouse design and algorithm design were included in developing this data-mining software tool. It was tested by using a FoodMart company database; the tests included performance, functionality and results’ validity, thereby allowing association rules to be found. The results led to concluding that using association rules as a data mining technique facilitates analysing volumes of information for B2C e-business services which represents a competitive advantage for those companies using Internet as their sales’ media.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[minería de datos]]></kwd>
<kwd lng="es"><![CDATA[comercio electrónico B2C]]></kwd>
<kwd lng="es"><![CDATA[análisis de la canasta de mercado]]></kwd>
<kwd lng="en"><![CDATA[data-mining]]></kwd>
<kwd lng="en"><![CDATA[B2C e-business]]></kwd>
<kwd lng="en"><![CDATA[family shopping basket analysis]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  <font size = "2" face = "verdana">     <p>    <center><font size = "4"><b> Herramienta <i>software</i> para el an&aacute;lisis de canasta de mercado sin selecci&oacute;n de candidatos </b></font> </center></p>     <p>    <center><font size = "3"><b> Software tool for analysing the family shopping basket without candidate generation </b></font></center></p>     <p><b> Roberto Carlos Naranjo Cuervo<sup>1</sup> y Luz Marina Sierra Mart&iacute;nez<sup>2</sup> </b></p>     <p>    <br><sup>1</sup> Ingeniero de Sistemas, Universidad Industrial de Santander, Colombia. Docente en Planta Tiempo completo categor&iacute;a Asociado, Universidad del Cauca, Colombia. <a href = "mailto:rnaranjo@unicauca.edu.co">rnaranjo@unicauca.edu.co</a>     <br><sup>2</sup> Ingeniera de Sistemas, Universidad Industrial de Santander  UIS, Colombia. Especializaci&oacute;n en Gerencia de Proyectos, Universidad del Cauca, Colombia. Docente en Planta Tiempo completo categor&iacute;a Asociado. Universidad del Cauca. <a href = "mailto:lsierra@unicauca.edu.co">lsierra@unicauca.edu.co</a> </p> <hr size = "1">     <p><b> RESUMEN  </b></p>     ]]></body>
<body><![CDATA[<p>Actualmente en el entorno del comercio electr&oacute;nico es necesario contar con herramientas que permitan obtener conocimiento &uacute;til que brinde soporte a la toma de decisiones de marketing; para ello se necesita de un proceso que utiliza una serie de t&eacute;cnicas para el procesamiento de los datos, entre ellas se encuentra la miner&iacute;a de datos, que permite llevar a cabo un proceso de descubrimiento de informaci&oacute;n autom&aacute;tico. Este trabajo tiene como objetivo presentar la t&eacute;cnica de reglas de asociaci&oacute;n como la adecuada para descubrir c&oacute;mo compran los clientes en una empresa que ofrece un servicio de comercio electr&oacute;nico tipo B2C, con el fin de apoyar la toma de decisiones para desarrollar ofertas hacia sus clientes o cautivar nuevos. Para la implementaci&oacute;n de las reglas de asociaci&oacute;n existe una variedad de algoritmos como: A priori, DHP, Partition, FP-Growth y Eclat y para seleccionar el m&aacute;s adecuado se define una serie de criterios (Danger y Berlanga, 2001), entre los que se encuentran: inserciones a la base de datos, costo computacional, tiempo de ejecuci&oacute;n y rendimiento, los cuales se analizaron en cada algoritmo para realizar la selecci&oacute;n. Adem&aacute;s, se presenta el desarrollo de una herramienta software que contempla la metodolog&iacute;a CRISP-DM constituida por cuatro subm&oacute;dulos, as&iacute;: Preprocesamiento de datos, Miner&iacute;a de datos, An&aacute;lisis de resultados y Aplicaci&oacute;n de resultados. El dise&ntilde;o de la aplicaci&oacute;n utiliza una arquitectura de tres capas: L&oacute;gica de presentaci&oacute;n, L&oacute;gica del Negocio y L&oacute;gica de servicios; dentro del proceso de construcci&oacute;n de la herramienta se incluye el dise&ntilde;o de la bodega de datos y el dise&ntilde;o de algoritmo como parte de la herramienta de miner&iacute;a de datos. Las pruebas hechas a la herramienta de miner&iacute;a de datos desarrollada se realizaron con una base de datos de la compa&ntilde;&iacute;a FoodMart<sup><a name="ref3a"></a><a href="#ref3b">3</a></sup>. Estas pruebas fueron de: rendimiento, funcionalidad y confiabilidad en resultados, las cuales permiten encontrar reglas de asociaci&oacute;n igualmente. Los resultados obtenidos facilitaron concluir, entre otros aspectos, que las reglas de asociaci&oacute;n como t&eacute;cnica de miner&iacute;a de datos permiten analizar vol&uacute;menes de datos para servicios de comercio electr&oacute;nico tipo B2C, lo cual es una ventaja competitiva para las empresas.</p>     <p><b>Palabras clave:</b> miner&iacute;a de datos, comercio electr&oacute;nico B2C, an&aacute;lisis de la canasta de mercado.</p> <hr size = "1">     <p><b> ABSTRACT </b></p>     <p>Tools leading to useful knowledge being obtained for supporting marketing decisions being taken are currently needed in the ecommerce environment. A process is needed for this which uses a series of techniques for data-processing; data-mining is one such technique enabling automatic information discovery. This work presents the association rules as a suitable technique for discovering how customers buy from a company offering business to consumer (B2C) e-business, aimed at supporting decision-making in supplying its customers or capturing new ones. Many algorithms such as A priori, DHP, Partition, FP-Growth and Eclat are available for implementing association rules; the following criteria were defined for selecting the appropriate algorithm: database insert, computational cost, performance and execution time. The development of a software tool is also presented which involved the CRISP-DM approach; this software tool was formed by the following four sub-modules: data pre-processing, data-mining, results analysis and results application. The application design used three-layer architecture: presentation logic, business logic and service logic. Data warehouse design and algorithm design were included in developing this data-mining software tool. It was tested by using a FoodMart company database; the tests included performance, functionality and results’ validity, thereby allowing association rules to be found. The results led to concluding that using association rules as a data mining technique facilitates analysing volumes of information for B2C e-business services which represents a competitive advantage for those companies using Internet as their sales’ media.</p>     <p><b>Keywords:</b> data-mining, B2C e-business, family shopping basket analysis.</p> <hr size = "1">     <p>Recibido: abril 18 de 2008     <br>Aceptado: marzo 2 de 2009</p>     <p><font size = "3"><b> Introducci&oacute;n </b></font></p>     <p>Hoy en d&iacute;a para las empresas se ha convertido en una necesidad y oportunidad el conocer la informaci&oacute;n y analizarla en pro de tomar decisiones que en el momento apropiado apoyen su gesti&oacute;n y supervivencia en la actual y competitiva econom&iacute;a (Tapscott, Lowy y Ticoll, 2000). De ah&iacute; surge la necesidad de incorporar en su din&aacute;mica herramientas inform&aacute;ticas que permitan procesar y obtener de los vol&uacute;menes de informaci&oacute;n almacenados los elementos suficientes para tomar decisiones.</p>     <p>Es necesario tener clara y precisa comprensi&oacute;n de que para una empresa tomar una decisi&oacute;n sin el conocimiento profundo de la informaci&oacute;n implica la posibilidad de errar en la toma de decisiones, dado que conlleva el costo requerido para poner en marcha un plan que busque la fidelidad de los clientes o capturar nuevos, o cautivar a un nuevo nicho de mercado. Seg&uacute;n sea el fin que se pretende alcanzar con la toma de la decisi&oacute;n, si este no se logra se habr&aacute; perdido el esfuerzo de dicha estrategia.</p>     ]]></body>
<body><![CDATA[<p>Adicionalmente, y teniendo en cuenta que la forma de hacer negocios en las empresas ha migrado a ambientes web, como es el caso del comercio electr&oacute;nico, donde ellas pueden desde publicitar sus productos y comercializarlos hasta hacer sus propias compras v&iacute;a Internet, es all&iacute; donde encuentran un punto vital y estrat&eacute;gico, y por lo tanto, no pueden conformarse s&oacute;lo con establecer una infraestructura tecnol&oacute;gica para ofrecer productos y servicios a trav&eacute;s de un sitio de comercio electr&oacute;nico (Casta&ntilde;eda y Rodr&iacute;guez, 2005), sino que deben contar con herramientas que permitan aprovechar y potencializar las ventajas ofrecidas por la Internet, como es el caso de mejorar la efectividad en las ventas de productos online, al analizar los datos para apoyar sus decisiones de marketing, dado que ese an&aacute;lisis deber&aacute; proveer respuestas a preguntas como: ¿qu&eacute; se debe hacer para entender c&oacute;mo compran los clientes? Para responder esta pregunta, es necesario partir del an&aacute;lisis de canasta de mercado, ya que una canasta de mercado tipica contiene los datos de la compra de productos de un cliente, en qu&eacute; cantidad cada uno, y en qu&eacute; &eacute;poca lo hace. Por lo tanto, es necesario descubrir patrones interesantes ocultos, no triviales, y de inter&eacute;s para las empresas alrededor de los mismos, lo cual es el objetivo principal de la miner&iacute;a de datos (CRISP-DM Consortium, 2000).</p>     <p>Las herramientas de miner&iacute;a de datos predicen futuras tendencias y comportamientos, permitiendo tomar decisiones conducidas por un conocimiento acabado de la informaci&oacute;n; para conseguirlo, hace uso de diferentes tecnolog&iacute;as que resuelven problemas t&iacute;picos de agrupamiento autom&aacute;tico, clasificaci&oacute;n, asociaci&oacute;n de atributos y detecci&oacute;n de patrones secuenciales (Kimbal y Ross, 2002).</p>     <p>Este trabajo presenta un aporte al proponer el desarrollo de un prototipo software, accesible a peque&ntilde;as y medianas empresas, que permita apoyar el proceso de selecci&oacute;n de estrategias publicitarias y comerciales para venta de productos o servicios a trav&eacute;s de la web utilizando una t&eacute;cnica de miner&iacute;a de datos que mejor se ajuste a esta necesidad y cumpla requerimientos computacionales tales como eficiencia y eficacia, su implementaci&oacute;n sea viable y los resultados arrojados sean iguales o mejores que otras herramientas hechas para el mismo fin.</p>     <p>Existen otros proyectos, tales como el “Plan para enfocar campa&ntilde;as bancarias utilizando Dataminig” (DeLuca, 2006), y el trabajo “Mining interesting knowledge from weblogs: a survey. Data and knowledge” (Facca y Lanzi, 2004). El primero presenta un plan para enfocar la estrategia comercial basado en los datos transaccionales de los bancos y la metodolog&iacute;a CRISP-DM, utilizando la herramienta Clementine, de SPSS (Clementine-SPSS, 2008), y el segundo exhibe un survey donde despliega la importancia de realizar an&aacute;lisis de los datos presentes en los logs de los servidores web hoy en d&iacute;a. Ambos trabajos muestran la importancia de efectuar an&aacute;lisis de datos mediante un proceso de miner&iacute;a de datos, pero adicionalmente este trabajo plantea el an&aacute;lisis de la canasta de mercado de una empresa que ofrece venta de productos mediante la selecci&oacute;n de la t&eacute;cnica de reglas de asociaci&oacute;n como la mejor alternativa para realizar dichos an&aacute;lisis (Naranjo, Montenegro, 2007), teniendo en cuenta adem&aacute;s, para encontrar el mejor algoritmo que la implemente, criterios tales como inserciones a la base de datos, costo computacional, tiempo de ejecuci&oacute;n, rendimiento, y que resuelva el problema de selecci&oacute;n de candidatos. Al final del art&iacute;culo se plantea la construcci&oacute;n de una herramienta software que soporte la t&eacute;cnica de an&aacute;lisis, permitiendo facilitar la toma de decisiones.</p>     <p>Para este &uacute;ltimo proyecto se sigui&oacute; la metodolog&iacute;a CRIPS-DM (CRISP-DM Consortium, 2000), por ser ampliamente utilizada en proyectos de miner&iacute;a de datos (DeLuca, 2006). Siguiendo tal metodolog&iacute;a, en la primera fase se hizo una comprensi&oacute;n del negocio, donde se estableci&oacute; como objetivo conocer cu&aacute;l era el comportamiento de los clientes que compran en una empresa dedicada al comercio electr&oacute;nico B2C; en la segunda fase se exploraron los datos disponibles; para este caso, se estudiaron los datos de la compa&ntilde;&iacute;a foodMart, que contaba con cerca de 250.000 registros de ventas; en la tercera fase se dise&ntilde;&oacute; una bodega de datos, ya que se contaba con una base de datos transaccional, que se cargaron a la bodega de datos; en la cuarta fase nos centramos en la selecci&oacute;n del algoritmo de reglas de asociaci&oacute;n que mas se adecuara de acuerdo a los criterios definidos; el dise&ntilde;o y desarrollo de la herramienta software fue en la quinta fase, y se evalu&oacute; el resultado del an&aacute;lisis arrojado por la herramienta construida. Para corroborar sus resultados se hizo el contraste con otras herramientas que llevaban a cabo an&aacute;lisis similar (Cabena y Stadler, 1998).</p>     <p>En este art&iacute;culo se encuentran los conceptos sobre las reglas de asociaci&oacute;n requeridos para el trabajo que se trata en el presente documento; seguidamente se describe c&oacute;mo se hizo la selecci&oacute;n del algoritmo para implementar las reglas de asociaci&oacute;n, luego se presenta la herramienta software de miner&iacute;a de datos desarrollada, su arquitectura, el dise&ntilde;o de la bodega de datos y la implementaci&oacute;n del algoritmo en la aplicaci&oacute;n; posteriormente, se presentan las pruebas a las que fue sometida la herramienta de miner&iacute;a desarrollada. Finalmente, se dan las conclusiones asociadas al trabajo aqu&iacute; presentado.</p>     <p><font size = "3"><b> Reglas de asociaci&oacute;n en la transacci&oacute;n de negocios </b></font></p>     <p><b> Conceptos </b></p>     <p>Actualmente, con la masiva cantidad de datos que las organizaciones recolectan en sus procesos de negocio el descubrimiento de asociaciones interesantes en los registros de transacciones puede ayudar para la toma de decisiones en los procesos de marketing (Han y Kamber, 2002). En el ejemplo t&iacute;pico para reglas de asociaci&oacute;n, “el an&aacute;lisis de canasta de mercado”, sup&oacute;ngase que un granjero local ha puesto un stand de verduras y est&aacute; ofreciendo los siguientes art&iacute;culos: {esp&aacute;rragos, fr&iacute;joles, br&oacute;coli, ma&iacute;z, pimientas verdes, calabazas, tomates}, a este conjunto de art&iacute;culos lo denotaremos I, y en la <a href="#tab1">Tabla 1</a> se mostrar&aacute;n los art&iacute;culos comprados.</p>      <p>    ]]></body>
<body><![CDATA[<center><a name="tab1"><img src="img/revistas/iei/v29n1/1a08t1.jpg"></a></center></p>      <p>En el conjunto D de transacciones representadas en la <a href="#tab1">Tabla 1</a>, cada transacci&oacute;n (T) en D representa un conjunto de art&iacute;culos contenidos en I. Suponga que se tiene un conjunto particular de art&iacute;culos A (e. g., fr&iacute;joles y calabazas), y otro conjunto de art&iacute;culos B (e.g., esp&aacute;rragos). Luego una regla de asociaci&oacute;n toma la forma de (A =>B), donde el antecedente A y el consecuente B son subconjuntos propios de I, y A y B son mutuamente exclusivos.</p>     <p>Existen dos medidas asociadas a una regla de asociaci&oacute;n: soporte y confianza, que le dan validez a la misma. El soporte para una regla de asociaci&oacute;n particular A=>B es la proporci&oacute;n de transacciones en D que contienen A y B (Larose, 2004).</p>      <p>    <center><img src="img/revistas/iei/v29n1/1a08e1.jpg"></center></p>      <p>La confianza c de la regla de asociaci&oacute;n A=>B es una medida de exactitud de la regla, determinada por el porcentaje de transacciones en D que contienen A y B (Larose, 2004).</p>      <p>    <center><img src="img/revistas/iei/v29n1/1a08e2.jpg"></center></p>      <p>El analista puede preferir reglas que tengan alto soporte o alta confianza, o usualmente ambas. Las reglas fuertes son las que re&uacute;nen o superan ciertos soportes m&iacute;nimos y criterios de confianza. Por ejemplo, un analista interesado en encontrar qu&eacute; art&iacute;culos del supermercado se compran juntos, puede establecer un nivel de soporte m&iacute;nimo de 20% y un nivel de confianza m&iacute;nimo del 70%. Por otro lado, en detecci&oacute;n de fraude o de terrorismo, se necesita-r&iacute;a reducir el nivel de soporte m&iacute;nimo a 1% o menos, ya que comparativamente pocas transacciones son fraudulentas o relacionadas con terrorismo.</p>     <p>Un itemset es un conjunto de art&iacute;culos contenidos en I, y un k-itemset es un itemset que contiene k art&iacute;culos; por ejemplo, {fr&iacute;joles, calabazas} es un 2-itemset, y {br&oacute;coli, pimienta verde, ma&iacute;z} es un 3-itemset, cada uno de los estantes de vegetales puestos en I. La frecuencia &Phi; del conjunto de art&iacute;culos (itemset) es simplemente el n&uacute;mero de transacciones que contienen el conjunto de art&iacute;culos particular. Un conjunto de art&iacute;culos frecuente es aquel que ocurre al menos un cierto m&iacute;nimo n&uacute;mero de veces, teniendo una frecuencia de conjunto de art&iacute;culos, por ejemplo: suponiendo que &Phi; = 4, los conjuntos de art&iacute;culos que ocurren m&aacute;s de cuatro veces se dice que son frecuentes; denotamos el conjunto de k-itemsets como Fk.</p>     ]]></body>
<body><![CDATA[<p>Las reglas de asociaci&oacute;n para miner&iacute;a de grandes bases de datos son procesos de dos pasos: </p>     <p>1. Encontrar todos los conjuntos de art&iacute;culos frecuentes, es decir, aquellos con frecuencia &ge; &Phi;.</p>     <p>2. Del conjunto de art&iacute;culos frecuentes, generar reglas de asociaci&oacute;n que satisfagan condiciones m&iacute;nimas de soporte y confianza.</p>     <p>Se observa que la t&eacute;cnica de reglas de asociaci&oacute;n es la que m&aacute;s se adec&uacute;a al problema que queremos resolver, ya que se quiere descubrir el comportamiento de compra de los clientes con respecto a los productos ofrecidos (Han y Kamber, 2002). Adem&aacute;s esta t&eacute;cnica sugiere una b&uacute;squeda por toda la base de datos, realizando una clasificaci&oacute;n en cada barrido, por lo tanto no hay l&iacute;mite establecido para la cantidad de datos que puede manejar, busca las caracter&iacute;sticas presentes en las transacciones realizadas, las cuales pueden tener atributos de diferentes tipos, por lo tanto no es necesario hacer una conversi&oacute;n a un tipo de datos espec&iacute;fico. La capacidad predictiva de la t&eacute;cnica depende de las medidas establecidas de confianza y soporte, ya que esta t&eacute;cnica se basa en el conteo de ocurrencias posibles entre las combinaciones de &iacute;tems en la tabla de transacciones, y posee gran escalabilidad ya que realiza un barrido por la base de datos, por lo que puede operar sin mayores problemas con un n&uacute;mero grande de datos (Naranjo y Montenegro, 2007).</p>     <p><b> B&uacute;squeda de &iacute;temsets frecuentes </b></p>     <p>La identificaci&oacute;n de itemsets frecuentes es computacionalmente costosa ya que requiere considerar todas las combinaciones de los distintos &iacute;tems, resultando en una b&uacute;squeda exponencial. La <a href="#fig1">Figura 1</a>, muestra el lattice de espacio de b&uacute;squeda resultante de E= {a, b, c, d} (Ceglar y Roddick, 2006). Para la b&uacute;squeda de los &iacute;temsets frecuentes se emplean dos formas comunes de b&uacute;squeda en &aacute;rbol: primero, a lo ancho (<a href="#fig2">Figura 2</a>) (BFS, por sus siglas en ingl&eacute;s), y segundo, en profundidad (DFS, por sus siglas en ingl&eacute;s), sobre &aacute;rboles similares (<a href="#fig3">Figura 3</a>). Estos algoritmos trabajan por lo general de la siguiente manera: buscan un conjunto Ck de k-itemsets con alta probabilidad de ser frecuentes, llam&eacute;mosles en lo sucesivo k-itemsets candidatos, comenzando por k=1. Se comprueba cu&aacute;les son frecuentes y a partir de estos se genera nuevamente un conjunto de candidatos de tama&ntilde;o k+1, Ck+1. Este proceso se re-pite hasta que no se pueda generar un nuevo conjunto candidato. Tal estrategia garantiza que sean visitados todos los itemsets frecuentes, al mismo tiempo que se reduce el n&uacute;mero de itemsets infrecuentes visitados (Danger y Berlanga, 2001).</p>      <p>    <center><a name="fig1"><img src="img/revistas/iei/v29n1/1a08f1.jpg"></a></center></p>       <p>    <center><a name="fig2"><img src="img/revistas/iei/v29n1/1a08f2.jpg"></a></center></p>       ]]></body>
<body><![CDATA[<p>    <center><a name="fig3"><img src="img/revistas/iei/v29n1/1a08f3.jpg"></a></center></p>      <p>Con la estrategia BFS el valor del soporte de los (k-1) itemsets son determinados antes de contar el soporte de todos los k-itemsets, ello le permite utilizar la propiedad arriba enunciada. Con la estrategia DFS no son conocidos todos los (k-1) itemsets, pero s&iacute; los necesarios (k-1) itemsets cuando se generan cada uno de los k-itemsets, pues trabaja recursivamente descendiendo por el &aacute;rbol y siguiendo la estructura del segundo (<a href="#fig3">Figura 3</a>) (Danger y Berlanga, 2001).</p>     <p>Para contar el soporte de todos los conjuntos de &iacute;tems tambi&eacute;n se emplean por lo general dos mecanismos:</p>     <p>1. Determinar el valor del soporte contando directamente sus ocurrencias en la base de datos.</p>     <p>2. Determinar el soporte empleando la intersecci&oacute;n entre conjuntos. Un tid es un identificador &uacute;nico de una transacci&oacute;n.</p>     <p>Para cada &iacute;tem se genera un tidlist, el conjunto de identificadores que se corresponden con las transacciones que contienen a este &iacute;tem. Existe tambi&eacute;n para cada conjunto de &iacute;tems X un tidlist denotado como X.tidlist. El tidlist de un candidato C = X  U Y es obtenido por la intersecci&oacute;n de los tidlist de los conjuntos de &iacute;tems de X e Y, o sea, C.tidlist <img src="img/revistas/iei/v29n1/1a08e2a.jpg"> X.tidlist  Y.tidlist. Los algoritmos m&aacute;s comunes para el c&aacute;lculo de los &iacute;temsets frecuentes se muestran en la <a href="#fig4">Figura 4</a>.</p>      <p>    <center><a name="fig4"><img src="img/revistas/iei/v29n1/1a08f4.jpg"></a></center></p>      <p><font size = "3"><b> Selecci&oacute;n del algoritmo </b></font></p>     ]]></body>
<body><![CDATA[<p>Para la t&eacute;cnica de reglas de asociaci&oacute;n existen una serie de algoritmos tales como: A priori, DHP, Partition, FP-Growth y Eclat, de los cuales se seleccion&oacute; el m&aacute;s adecuado teniendo en cuenta los siguientes criterios (Danger y Berlanga, 2001):</p>     <p><i>Inserciones a la base de datos:</i> es importante que los algoritmos minimicen el recorrido por la base o bodega de datos, pues el n&uacute;mero de reglas crece exponencialmente con el de &iacute;tems considerados, lo cual afecta el rendimiento del algoritmo cuando se accede constantemente a la base o bodega de datos.</p>     <p><i>Costo computacional:</i> es importante que el algoritmo no realice un gran n&uacute;mero de  operaciones.</p>     <p><i>Tiempo de ejecuci&oacute;n:</i> se desea que el tiempo utilizado para la generaci&oacute;n de reglas sea razonable.</p>     <p><i>Rendimiento:</i> es importante que el algoritmo realice las operaciones y procesos de forma eficiente.</p>     <p>Se revis&oacute; cada uno de los algoritmos mencionados con los criterios definidos:</p>     <p><b> A priori </b></p>     <p>Este algoritmo busca primero todos los conjuntos frecuentes unitarios (contando sus ocurrencias directamente en la base de datos), se mezclan estos para formar los conjuntos de &iacute;tems candidatos de dos elementos y seleccionan entre ellos los frecuentes. Considerando la propiedad de los conjuntos de &iacute;tems frecuentes, se vuelve a mezclar estos &uacute;ltimos y se seleccionan los frecuentes (hasta el momento ya han sido generados todos los conjuntos de &iacute;tems frecuentes de tres o menos elementos). As&iacute; sucesivamente se repite el proceso hasta que en una iteraci&oacute;n no se obtengan conjuntos frecuentes (Agrawal y Srikant, 1994).</p>     <p><i>Inserciones en la base de datos:</i> este algoritmo busca todos los conjuntos frecuentes unitarios contando sus ocurrencias directamente en la base de datos, por lo tanto se realizan varias pasadas en dicha base.</p>     <p><i>Costo computacional:</i> el conteo de soporte de los candidatos es costoso debido a que el n&uacute;mero de subconjuntos frecuentes en cada candidato es cada vez mayor y el de niveles en el &aacute;rbol hash de candidatos se incrementa.</p>     ]]></body>
<body><![CDATA[<p><i>Tiempo de ejecuci&oacute;n:</i> hay que hacer tantos recorridos  como sea necesario para encontrar todos los  &iacute;tems frecuentes, por lo que no solo es costosa la soluci&oacute;n en memoria, sino adem&aacute;s en tiempo.</p>     <p><i>Rendimiento:</i> este algoritmo tiene algunas mejoras para el rendimiento, entre ellas est&aacute; la de reducir el n&uacute;mero de &iacute;tems que contienen subconjuntos infrecuentes, aunque posteriormente al mezclar pares de conjuntos frecuentes con k-2 elementos iguales hay que verificar si todos los subconjuntos de k-1 elementos pertenecen al conjunto de itemsets frecuentes, con lo cual mejora el rendimiento (Danger y Berlanga, 2001).</p>     <p><b> DHP (Poda y hashing directa) </b></p>     <p>Este algoritmo emplea una t&eacute;cnica de hash para eliminar los conjuntos de &iacute;tems innecesarios para la generaci&oacute;n del pr&oacute;ximo conjunto de &iacute;tems candidatos (Park, Chen y Yu, 1997). Cada (k+1)- itemset es a&ntilde;adido a una tabla hash en un valor hash dependiente de las ocurrencias en la base de datos de los conjuntos candidatos de k elementos que lo formaron, o sea, dependiente del soporte de los conjuntos candidatos de k elementos. Estas ocurrencias son contadas explorando en las transacciones de la base de datos. Si el soporte asociado a un valor hash es menor que el soporte m&iacute;nimo entonces todos los conjuntos de &iacute;tems de k+1 elementos con este valor hash no ser&aacute;n incluidos entre los candidatos de k+1 elementos en la pr&oacute;xima pasada.</p>     <p><i>Inserciones en la base de datos:</i> este algoritmo emplea una tabla hash con un valor hash dependiente de las ocurrencias en la base de datos de los conjuntos candidatos, por lo cual se requiere hacer varias inserciones en la base de datos.</p>     <p><i>Costo computacional:</i> se emplea una tabla hash para reducir el n&uacute;mero de candidatos; el espacio de memoria empleado por la tabla compite con el necesitado por al &aacute;rbol hash, de ah&iacute; que, con tablas hash muy grandes (para reducir la cantidad de falsos positivos) la memoria se vuelve insuficiente.</p>     <p><i>Tiempo de ejecuci&oacute;n:</i> este algoritmo requiere de varias pasadas a la base de datos para su funcionamiento, en cada pasada cuenta el soporte de cada &iacute;tem y coloca en la tabla hash los conjuntos de K - &iacute;tems de acuerdo al valor del soporte de cada uno de dichos conjuntos, lo que representa un costo en tiempo.</p>     <p><i>Rendimiento:</i> en este algoritmo el n&uacute;mero de candidatos que tienen igual valor hash est&aacute; directamente relacionado con el tama&ntilde;o de la tabla, por tanto el espacio de memoria empleado por la tabla compite con el necesitado por al &aacute;rbol hash y la memoria se vuelve insuficiente, afectando el rendimiento del algoritmo (Danger y Berlanga, 2001).</p>     <p><b> Partition </b></p>     <p>Este algoritmo propone fraccionar la base de datos en tantas partes como fueren necesarias para que todas las transacciones en cada partici&oacute;n est&eacute;n en la memoria (Savesere, Omiecinski, y Navatie, 1995). En contraste con los vistos hasta el momento, este algoritmo recorre la base de datos s&oacute;lo dos veces. En la primera, cada partici&oacute;n es minada independientemente para encontrar los conjuntos de &iacute;tems frecuentes en la partici&oacute;n y luego se mezclan estos para generar el total de los conjuntos de &iacute;tems candidatos. Muchos de estos pueden ser falsos positivos, pero ninguno falso negativo (notemos que si existen m particiones, para que un itemset tenga soporte s debe poseer un soporte no menor que s/m al menos en una de las m particiones, los conjuntos candidatos ser&aacute;n por tanto los que cumplan esta condici&oacute;n). En la segunda pasada se cuenta la ocurrencia de cada candidato, aquellos cuyo soporte es mayor que el m&iacute;nimo soporte especificado se retienen como conjuntos frecuentes. Este algoritmo emplea el mecanismo de intersecci&oacute;n entre conjuntos para determinar su soporte, en este caso cada &iacute;tem en una partici&oacute;n mantiene la lista de los identificadores de las transacciones que contienen a dicho &iacute;tem.</p>     ]]></body>
<body><![CDATA[<p><i>Inserciones en la base de datos:</i> s&oacute;lo  requiere dos pasadas a trav&eacute;s de la base de datos, para el c&aacute;lculo de los &iacute;tems frecuentes.</p>     <p><i>Costo computacional:</i> es relativamente m&aacute;s eficiente que el A priori pero tiene dos problemas: el costo en memoria es mayor, pues requiere almacenar para cada &iacute;tem el conjunto de transacciones que lo contiene; y adem&aacute;s el c&aacute;lculo del soporte de un candidato obtenido por la uni&oacute;n de dos conjuntos frecuentes obliga a intersectar los dos conjuntos.</p>     <p><i>Tiempo de ejecuci&oacute;n:</i> este algoritmo mantiene la base de datos en memoria y evita las operaciones de E/S en disco, divide la base de datos en tantas partes como sean necesarias para que todas las transacciones queden en la memoria, al reducir las operaciones de entrada/salida disminuye el tiempo de ejecuci&oacute;n.</p>     <p><i>Rendimiento:</i> este algoritmo, al igual que el A priori, mejora el rendimiento al reducir el n&uacute;mero de &iacute;tems que contienen subconjuntos infrecuentes, aunque posteriormente al mezclar pares de conjuntos frecuentes con k-2 elementos iguales hay que verificar si todos los subconjuntos de k-1 elementos pertenecen al conjunto de itemsets frecuentes (Danger y Berlanga, 2001).</p>     <p><b> Eclat </b></p>     <p>Los algoritmos del tipo Eclat, fueron introducidos en (Zari, Parthasabathy, Oghiara y Li, 1998), al igual que el Partition, reducen la cantidad de operaciones de E/S, aunque esta vez atravesando la base de datos s&oacute;lo una vez. Se basan en realizar un agrupamiento (<i>clustering</i>) entre los &iacute;tems para aproximarse al conjunto de &iacute;tems frecuentes maximales y luego emplean algoritmos eficientes para generar los &iacute;tems frecuentes contenidos en cada grupo. Para el agrupamiento proponen dos m&eacute;todos que son empleados despu&eacute;s de descubrir los conjuntos frecuentes de dos elementos: el primero, por clases de equivalencia: esta t&eacute;cnica agrupa los itemsets que tienen el primer &iacute;tem igual. El segundo, por la b&uacute;squeda de cliques maximales: se genera un grafo de equivalencia cuyos nodos son los &iacute;tems, y los arcos conectan los &iacute;tems de los 2-itemsets frecuentes, se agrupan los &iacute;tems por aquellos que forman cliques maximales.</p>     <p><i>Inserciones en la base de datos:</i> este algoritmo reduce la cantidad de operaciones de entrada/salida atravesando la base de datos s&oacute;lo una vez.</p>     <p><i>Costo computacional:</i> es m&aacute;s eficiente que el A priori, sin embargo presenta el mismo problema que el Partition: el costo en memoria es mayor, pues requiere almacenar para cada &iacute;tem el conjunto de transacciones que lo contiene; y adem&aacute;s el c&aacute;lculo del soporte de un candidato obtenido por la uni&oacute;n de dos conjuntos frecuentes obliga a intersectar los dos conjuntos.</p>     <p><i>Tiempo de ejecuci&oacute;n:</i> este algoritmo se basa en realizar un agrupamiento (<i>clustering</i>) entre los &iacute;tems, lo que infiere en el tiempo de ejecuci&oacute;n.</p>     <p><i>Rendimiento:</i> el realizar tareas de agrupamiento requiere de pasos adicionales en su funcionamiento, sin embargo computacionalmente es m&aacute;s eficiente que el A priori (Danger y Berlanga, 2001).</p>     ]]></body>
<body><![CDATA[<p>Los algoritmos mencionados se basan en la estrategia del algoritmo A priori, por lo tanto todos ellos presentan generaci&oacute;n de candidatos para seleccionar las reglas de asociaci&oacute;n. En el A priori, cuando la base de datos presenta gran cantidad de &iacute;tems frecuentes, grandes patrones, o m&iacute;nimas medidas de soporte, el algoritmo presenta los siguientes problemas (Han, Pei, Yin, 2000):</p>     <p>Es costoso manejar una gran cantidad de conjuntos candidatos. Por ejemplo, para describir patrones de 100 &iacute;tems tal como {a<sub>1</sub>, a<sub>2</sub>, …a<sub>100</sub>}, es necesario crear cerca de 1030 candidatos, que representa un alto costo computacional sin importar la t&eacute;cnica aplicada.</p>     <p>Es tedioso repetir este proceso para comparar los candidatos en b&uacute;squeda de concordancia en la base de datos, especialmente aquellos patrones considerados como largos.</p>     <p>Es por esto que para solucionar el problema de generaci&oacute;n de candidatos se plantea un algoritmo que no requiere generaci&oacute;n de candidatos y mejora el rendimiento de esta t&eacute;cnica, llamado FP-Growth.</p>     <p><b> FP-Growth </b></p>     <p>Este algoritmo est&aacute; basado en una representaci&oacute;n de &aacute;rbol de prefijos de una base de datos de transacciones llamada Frequente Pattern Tree (Borgelt, 2005) ( Han, Pei, Yin, 2000). La idea b&aacute;sica del algoritmo FP-Growth puede ser descrita como un esquema de eliminaci&oacute;n recursiva: en un primer paso de preprocesamiento se borran  todos los &iacute;tems de las transacciones que no son frecuentes individualmente o no aparecen en el m&iacute;nimo soporte de transacciones, luego se seleccionan todas las transacciones que contienen al menos un &iacute;tem frecuente, se realiza esto de manera recursiva hasta obtener una base de datos reducida. Al retorno, se remueven los &iacute;tems procesados de la base datos de transacciones en la memoria y se empieza otra vez, y as&iacute; con el siguiente &iacute;tem frecuente. Los &iacute;tems en cada transacci&oacute;n son almacenados y luego se ordena descendentemente su frecuencia en la base de datos.</p>     <p>Despu&eacute;s de que se han borrado todos los &iacute;tems infrecuentes de la base de datos de transacciones, se pasa al &aacute;rbol FP. Un &aacute;rbol FP es b&aacute;sicamente de prefijos para las transacciones, esto es: cada camino representa el grupo de transacciones que comparten el mismo prefijo, cada nodo corresponde a un &iacute;tem. Todos los nodos que referencian al mismo &iacute;tem son referenciados juntos en una lista, de modo que todas las transacciones que contienen un &iacute;tem espec&iacute;fico pueden encontrarse f&aacute;cilmente y contarse al atravesar la lista.  Esta lista puede ser accesada a trav&eacute;s de la cabeza, lo cual tambi&eacute;n expone el n&uacute;mero total de ocurrencias del  &iacute;tem en la base de datos.</p>     <p><i>Inserciones en la base de datos:</i> este algoritmo no requiere de la generaci&oacute;n de candidatos, por lo tanto, precisa de pocos accesos a la base de datos (Borgelt, 2005).</p>     <p><i>Costo computacional:</i> el algoritmo est&aacute; basado en una representaci&oacute;n de &aacute;rbol de prefijos de una base de datos de transacciones, por lo tanto no necesita de la creaci&oacute;n de un &aacute;rbol de prefijos; sin embargo, la creaci&oacute;n de dicho &aacute;rbol no requiere de un costo computacional elevado (Han y Kamber, 2002).</p>     <p><i>Tiempo de ejecuci&oacute;n:</i> este algoritmo busca patrones frecuentes con una corta b&uacute;squeda recursiva de prefijos, lo que en tiempo de ejecuci&oacute;n es muy superior al del A priori, ya que no requiere de constantes accesos a la base de datos (Borgelt, 2005).</p>     ]]></body>
<body><![CDATA[<p><i>Rendimiento:</i> puede generar un &aacute;rbol FP-Tree de una base de datos proyectada si el &aacute;rbol inicial no se puede alojar completamente en la memoria principal, lo que le permite adecuarse a los recursos disponibles (Han y Kamber, 2002).</p>     <p>De acuerdo a lo anterior, se decide implementar el algoritmo FP-Growth ya que tiene ventajas operacionales sobre los otros al no necesitar de la generaci&oacute;n de &iacute;tems candidatos y ser computacionalmente m&aacute;s r&aacute;pido.</p>     <p>Entre las razones por la que se seleccion&oacute; este algoritmo tenemos que requiere de pocos accesos a la base o bodega de datos. Este algoritmo est&aacute; basado en una representaci&oacute;n de &aacute;rbol de prefijos de una base de datos de transacciones; sin embargo, la creaci&oacute;n de dicho &aacute;rbol no requiere de un costo computacional elevado. El algoritmo busca patrones frecuentes con una corta b&uacute;squeda recursiva de prefijos, lo que en tiempo de ejecuci&oacute;n es muy superior al A priori, ya que no requiere constantes accesos a la base o bodega de datos (Han y Kamber, 2002).</p>     <p><font size = "3"><b> Herramienta software </b></font></p>     <p>El problema a resolver es que el an&aacute;lisis de informaci&oacute;n basado en la canasta de mercado sea generado autom&aacute;ticamente por una herramienta que busque informaci&oacute;n relevante sobre el repositorio de datos de compras de los clientes  (Kimbal y Ross, 2002) y que a partir de esas transacciones se pueda determinar la probabilidad de que un producto pueda ser comprado, a partir de otros productos relacionados.</p>     <p>Esta aplicaci&oacute;n est&aacute; principalmente constituida por: <i>Subm&oacute;dulo de preprocesamiento de datos</i>, en el que se hace la conversi&oacute;n de los datos a un modelo anal&iacute;tico para su posterior uso en el algoritmo de miner&iacute;a de datos; un <i>Subm&oacute;dulo de miner&iacute;a de datos</i>, el cual implementa el algoritmo de miner&iacute;a de datos seleccionado; un <i>Subm&oacute;dulo de an&aacute;lisis de resultados</i> encargado de la interpretaci&oacute;n de los resultados obtenidos por el algoritmo y la visualizaci&oacute;n de dichos resultados; y un Subm&oacute;dulo de aplicaci&oacute;n de resultados, que se encarga de aplicar las sugerencias escogidas en la base de datos de estrategias de publicidad.</p>     <p><b> Dise&ntilde;o de la aplicaci&oacute;n </b></p>     <p>La aplicaci&oacute;n se desarroll&oacute; utilizando la tecnolog&iacute;a Microsoft .NET (Microsoft, 2003). La arquitectura planteada se basa en aplicaciones por capas. De las capas presentadas se han definido esencialmente tres: l&oacute;gica de presentaci&oacute;n, l&oacute;gica del negocio y l&oacute;gica de servicios (<a href="#fig5">Figura 5</a>).</p>      <p>    <center><a name="fig5"><img src="img/revistas/iei/v29n1/1a08f5.jpg"></a></center></p>      ]]></body>
<body><![CDATA[<p><b><i>Capa de l&oacute;gica de presentaci&oacute;n</i></b></p>     <p>Esta capa contiene los elementos de interfaz, que permite al usuario de la aplicaci&oacute;n interactuar con la capa de l&oacute;gica del negocio. Entre los componentes de la capa l&oacute;gica de presentaci&oacute;n est&aacute;n las interfaces para la administraci&oacute;n b&aacute;sica de la bodega a trav&eacute;s de la aplicaci&oacute;n; las interfaces para el an&aacute;lisis de informaci&oacute;n, en las cuales  se configuran las medidas y par&aacute;metros para el algoritmo de miner&iacute;a de datos; las interfaces de an&aacute;lisis de resultados, en las cuales se despliegan los resultados obtenidos, y las interfaces de sesi&oacute;n para la aplicaci&oacute;n.</p>     <p><b><i>Capa de l&oacute;gica del negocio</i></b></p>     <p>Esta capa se encarga de manejar los detalles l&oacute;gicos de cada uno de los servicios, dependiendo de las acciones del  usuario sobre la aplicaci&oacute;n. B&aacute;sicamente, los componentes de la l&oacute;gica de negocio de la aplicaci&oacute;n son: Administraci&oacute;n DW, encargada de la carga de las dimisiones y la tabla de hechos en el momento en que el administrador estime conveniente; el componente de an&aacute;lisis de informaci&oacute;n contiene las clases y m&eacute;todos necesarios para el proceso de miner&iacute;a de datos y los m&eacute;todos necesarios para la configuraci&oacute;n de las medidas y los rangos de fechas a analizar por parte de la aplicaci&oacute;n; el componente de an&aacute;lisis de resultados contiene los m&eacute;todos de visualizaci&oacute;n y aplicaci&oacute;n de resultados producto del proceso de miner&iacute;a de datos; y finalmente, el componente de sesi&oacute;n contiene la l&oacute;gica referente a la autenticaci&oacute;n del administrador para el uso de las funcionalidades de la aplicaci&oacute;n desarrollada.</p>     <p><b><i>Capa de l&oacute;gica de servicios</i></b> </p>     <p>En esta capa encontramos los elementos que permiten interactuar con el servidor de base o bodega de datos, esta capa contiene los m&eacute;todos necesarios para el acceso a datos y el preprocesamiento de los mismos. Sus componentes son: el de acceso a datos, el cual contiene los m&eacute;todos y clases necesarios para el acceso al motor de base de datos; el de acceso a DW contiene los m&eacute;todos necesarios para el acceso a la bodega de datos, y el de preprocesamiento contiene los m&eacute;todos  de preprocesamiento de los datos para su posterior uso en el algoritmo.</p>     <p><b> Dise&ntilde;o de la bodega de datos </b></p>     <p>Para este caso se asumi&oacute; un modelo multidimensional, donde los datos se organizan en torno a  hechos que tienen unos atributos o medidas que pueden verse seg&uacute;n ciertas dimensiones (Hern&aacute;ndez,  Ram&iacute;rez y Ferri, 2004). Cada dimensi&oacute;n debe tener una tabla asociada, llamada tabla dimensi&oacute;n; un modelo de datos multidimensional est&aacute; organizado alrededor de un tema central, como ventas, por ejemplo.</p>     <p>En la <a href="#fig6">Figura 6</a> se observa el modelo estrella realizado para la bodega de datos, el cual almacena la informaci&oacute;n correspondiente al registro de compras realizado, en ella se observa la tabla de hechos, en la cual se registran los pedidos de compra; adem&aacute;s se observan las tablas dimensiones, en las cuales se almacenan los datos correspondientes a la fecha de compra e informaci&oacute;n del cliente, de los productos y las empresas.</p>      <p>    ]]></body>
<body><![CDATA[<center><a name="fig6"><img src="img/revistas/iei/v29n1/1a08f6.jpg"></a></center></p>      <p><b> Dise&ntilde;o del algoritmo en la aplicaci&oacute;n </b></p>     <p>En la <a href="#fig7">Figura 7</a> se visualiza el diagrama de clases (Rumbaugh, Jacobson y Booch, 1999) que nos muestra su relaci&oacute;n para una consulta general. La aplicaci&oacute;n funciona de la siguiente forma: se empieza con la clase <b>PreProcess</b>, que hace uso del m&eacute;todo <i>RetornarFechas</i>, el cual retorna la fecha inicial del rango de fechas necesario para la consulta, luego contin&uacute;a con el m&eacute;todo <i>RetornarFechas2</i> que como par&aacute;metro de entrada la fecha inicial de la consulta y retorna un valor de fecha mayor a la de inicio; dichos valores son desplegados en los componentes de la l&oacute;gica de presentaci&oacute;n correspondientes.</p>      <p>    <center><a name="fig7"><img src="img/revistas/iei/v29n1/1a08f7.jpg"></a></center></p>      <p>Posteriormete se establecen los valores de confianza y soporte para la consulta; una vez que se ha realizado esto se invoca al m&eacute;todo <i>SeleccionRangoFechas</i> de la clase <b>Preprocess</b>, encargado del preprocesamiento, luego se acude al m&eacute;todo <i>ordenarDatosEntrada</i> de la misma clase, el cual se encarga de ordenar los datos de una forma espec&iacute;fica para el proceso de miner&iacute;a de datos respectivo.</p>     <p>Enseguida se procede al ingreso de los datos preprocesados para el proceso de miner&iacute;a de datos, invocando al m&eacute;todo de la clase <b>FPgrowth</b> llamado <i>InitFPgrowth</i>, y luego el de la clase <b>FPtree</b> <i>SetConfianza</i> para la confianza respectiva; acto seguido, a un m&eacute;todo llamado <i>SetSoporte</i>, para el soporte respectivo, Entrada <i>DataSet</i> para la carga de los datos, <i>EntradaDatosOrden</i> para el proceso de miner&iacute;a de datos; <i>EntradaDatosYSoporte</i> de la clase <b>ReglaMining</b> para seleccionar los &iacute;tems que cumplen con el soporte m&iacute;nimo; <i>NumeroItemSets</i> de la clase <b>ReglaMining</b>, el cual llena una estructura de b&uacute;squeda de reglas del proceso de miner&iacute;a de datos y establece sus dimensiones; <i>CrearFPtree</i> de la clase <b>FPtree</b> encargado de la creaci&oacute;n de la estructura de &aacute;rbol correspondiente; <i>startMining</i>, de la clase <b>FPtree</b>, dentro del que se despliegua el m&eacute;todo <i>generarRAs</i> de la clase <b>FPtree</b>, encargado de la generaci&oacute;n de las reglas de asociaci&oacute;n para el proceso de miner&iacute;a de datos; y el m&eacute;todo <i>SalidaRAs</i> de la clase ReglaMining, encargado de almacenar las reglas generadas en una estructura de tipo vector.</p>     <p><font size = "3"><b> Ejecuci&oacute;n de pruebas </b></font></p>     <p>Para el desarrollo de las pruebas se opt&oacute; por la escogencia de una base de datos de prueba que conten&iacute;a cerca de 250.000 registros de compra de los clientes en los a&ntilde;os 1997 y 1998 de la compa&ntilde;&iacute;a FoodMart. Con esta base de datos se realizaron pruebas de rendimiento, funcionalidad y confiabilidad con los registros de compras que conten&iacute;a. Los registros estaban de la forma n&uacute;mero de factura, fecha de compra, c&oacute;digo de los art&iacute;culos, nombre de los art&iacute;culos, cantidad y precio.</p>     <p><b> Pruebas de funcionalidad </b></p>     ]]></body>
<body><![CDATA[<p>Se corrigieron los errores presentes en las clases, realizando una prueba de funcionalidad en la aplicaci&oacute;n (Pressman, 2005). Luego se efectu&oacute; una prueba general tomando la base de datos de prueba, con una confianza del 20% y un soporte del 1%, generando 120 reglas de asociaci&oacute;n (ejemplo: si salsa de tomate Plato, entonces, queso bajo en grasa Booker). Los resultados los podemos apreciar en la <a href="#fig8">Figura 8</a>.</p>      <p>    <center><a name="fig8"><img src="img/revistas/iei/v29n1/1a08f8.jpg"></a></center></p>      <p><b> Pruebas de rendimiento </b></p>     <p>Se hizo un contraste con el algoritmo A priori que se encuentra implementado en la herramienta Weka (Waikato, 2007), para observar el rendimiento que ten&iacute;an ambos algoritmos frente a los mismos datos. El punto central de esta prueba era el de confrontar los tiempos de ejecuci&oacute;n de un algoritmo que genera candidatos frente a otro que no lo hace. Se observ&oacute; que FP-Growth demostr&oacute; ser m&aacute;s r&aacute;pido que el algoritmo A priori (<a href="#fig9">Figura 9</a>). El eje de las X muestra el n&uacute;mero de registros de la base de datos que se procesa, y en el eje de las Y, el tiempo gastado en la ejecuci&oacute;n por las dos herramientas.</p>      <p>    <center><a name="fig9"><img src="img/revistas/iei/v29n1/1a08f9.jpg"></a></center></p>      <p><b> Prueba de confiabilidad </b></p>     <p>Posteriormente se llev&oacute; una prueba de confiabilidad de los resultados con Weka y TariyKDD (BerliOS Developer, 2007) que permite encontrar reglas de asociaci&oacute;n. Esta prueba se hace con el objetivo de determinar el grado de confiabilidad de las reglas generadas que tiene la herramienta desarrollada, frente a otras herramientas que hacen lo mismo. Para determinar el grado de efectividad de la herramienta desarrollada se hizo uso de la siguiente f&oacute;rmula:</p>     <p><b>CDOHP</b> =  Cantidad de datos obtenidos de la herramienta de prueba.</p>     ]]></body>
<body><![CDATA[<p><b>CDOHD</b> =  Cantidad de datos obtenidos por la herramienta desarrollada que son similares a las dem&aacute;s.</p>     <p><b>Efectividad</b> = (CDOHD/ CDOHP)*100</p>     <p>La prueba fue practicada con la base de datos de prueba, con un soporte del 20% y una confianza del 40%, donde se obtuvieron los siguientes resultados: con la herramienta desarrollada se obtuvieron 62 reglas; con la herramienta TariyKDD, 64; y con Weka, 64 reglas.</p>     <p>Las pruebas reflejaron que con TariyKDD se halla un mayor grado de similaridad de reglas encontradas que con la herramienta Weka (<a href="#tab2">Tabla 2</a>).</p>      <p>    <center><a name="tab2"><img src="img/revistas/iei/v29n1/1a08t2.jpg"></a></center></p>      <p><font size = "3"><b> Conclusiones </b></font></p>     <p>Las reglas de asociaci&oacute;n como t&eacute;cnica de miner&iacute;a de datos ofrecen muy buena alternativa para el an&aacute;lisis de canasta de mercado, permitiendo encontrar patrones de conducta para apoyar la toma de decisiones en marketing.</p>     <p>Obtener un modelo soportado en las tecnolog&iacute;as de la informaci&oacute;n y las comunicaciones que simule o permita predecir el comportamiento de los clientes al hacer sus compras, propone una clara ventaja competitiva para las empresas.</p>     <p>La sistematizaci&oacute;n de t&eacute;cnicas de miner&iacute;a de datos como las reglas de asociaci&oacute;n permite abordar problemas generales a entornos particulares.</p>     ]]></body>
<body><![CDATA[<p>El uso del algoritmo FP-Growth, uno de los m&aacute;s r&aacute;pidos y eficientes para establecer reglas de asociaci&oacute;n, facilita la realizaci&oacute;n del proceso de selecci&oacute;n de dichas reglas en forma r&aacute;pida, ya que permite encontrarlas sin selecci&oacute;n de candidatos.</p>     <p>El desarrollo r&aacute;pido de tecnolog&iacute;as como .NET provee muchas ventajas en desarrollo de aplicaciones web.</p>     <p>El desarrollo de herramientas software para entornos locales nos van a permitir abrir camino para que m&aacute;s empresas con pocos recursos utilicen estas tecnolog&iacute;as, convirti&eacute;ndose en una ventaja competitiva para las mismas.</p>     <p>Como trabajo futuro se plantea realizar un an&aacute;lisis de sensibilidad de las reglas encontradas, para verificar que ciertos elementos suyos no sean de gran aporte para el soporte y la confianza de las mismas y por tanto se puedan descartar, con el fin de facilitar su an&aacute;lisis. Por otro lado, se podr&iacute;a tomar en cuenta el estudio de t&eacute;cnicas h&iacute;bridas para determinar si las reglas generadas son mejores.</p>     <p></p> <hr size = "1">     <p> <a name="ref3b"></a><a href="#ref3a">3</a> FoodMart: es una gran cadena de tiendas de ultramarinos dispersas por EE.UU., M&eacute;xico y Canad&aacute; </p> <hr size = "1">     <p><font size = "3"><b> Bibliograf&iacute;a </b></font></p>     <!-- ref --><p>Agrawal, R., Srikant, R., Fast Algorithms for Mining Association Rules,Proc. 20th Int. Conf. Very Large Data Bases, VLDB,1994.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000160&pid=S0120-5609200900010000800001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>BerliOS Developer.,  Plataforma para soportar el proceso de Descubrimiento de Conocimiento en Bases de Datos-TariyKDD., febrero, 2007, <a href="http://developer.berlios.de/projects/tariykdd/" target="_blank">https://developer.berlios.de/projects/tariykdd/</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000161&pid=S0120-5609200900010000800002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Borgelt, C., Frequent Pattern Mining., Department of Knowledge Processing and Language Engineering -School of Computer Science, OttovonGuericke - University of Magdeburg, 2005.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000162&pid=S0120-5609200900010000800003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Casta&ntilde;eda G, J. A., Rodr&iacute;guez M, M. A., La Miner&iacute;a de Datos como herramienta de Marketing: Delimitaci&oacute;n y Evaluaci&oacute;n del resultado., Facultad de CC. EE., Departamento de Comercializaci&oacute;n e Investigaci&oacute;n  de mercados, Universidad de Granada, Espa&ntilde;a, 2005.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000163&pid=S0120-5609200900010000800004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Cabena, H., Stadler, V. Z., Discovering Data mining From Concept To Implementation., Prentice Hall PTR (ed), Upper Saddle River, 1998.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000164&pid=S0120-5609200900010000800005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Ceglar, A., Roddick, J., Association Mining., Flinders University of South Australia,  ACM Computing Survey, Vol. 38, No. 2,  Julio, 2006.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000165&pid=S0120-5609200900010000800006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Clementine-SPSS., Descubra soluciones con Clementine que de otra manera no podr&iacute;a., 2008. <a href="http://www.spss.com/la/productos/clementine/clementine.htm" target="_blank">http://www.spss.com/la/productos/clementine/clementine.htm</a>.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000166&pid=S0120-5609200900010000800007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Danger M., R., Berlanga Ll, R., Informe t&eacute;cnico: B&uacute;squeda de Reglas de Asociaci&oacute;n en bases de datos y colecciones de textos.,  Departamento de Computaci&oacute;n, Universidad de Oriente, Santiago de Cuba, 2001.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000167&pid=S0120-5609200900010000800008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>DeLuca, M. P., Plan para enfocar las campa&ntilde;as Bancarias utilizando Datamining., tesis presentada a la Universidad de Chile, Santiago de Chile, para optar al grado de Mag&iacute;ster en Gesti&oacute;n y Direcci&oacute;n de Empresas., 2006.  <a href="http://www.cybertesis.cl/tesis/uchile/2006/deluca_m/html/index-frames.html" target="_blank">http://www.cybertesis.cl/tesis/uchile/2006/deluca_m/html/index-frames.html</a>.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000168&pid=S0120-5609200900010000800009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Facca F.M., Lanzi P. L., Mining interesting knowledge from weblogs: a survey., Data and knowledge Engineering, 2004, <a href="http://www.elsevier.com/locate/datak" target="_blank">www.elsevier.com/locate/datak</a>.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000169&pid=S0120-5609200900010000800010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Han, J., Pei, J., Yin, Y., Mining Frequent Patterns without Candidate Generation.,  ACM SIGMOD Record,   Vol.  29, No. 2, 2000.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000170&pid=S0120-5609200900010000800011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Han J., Kamber M., Data Mining: Concepts and Techniques.,  Simon Fraser University – Morgan Kaufmann Publishers (ed), 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000171&pid=S0120-5609200900010000800012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Hernandez, J., Ramirez M. J., Ferri, C., Introducci&oacute;n a la Miner&iacute;a de Datos., Pearson Prentice Hall, (ed),  ISBN: 84 205 4091 9, 2004.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000172&pid=S0120-5609200900010000800013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Larose, D. T., Discovering Knowledge in Data: An Introduction to Data Mining., John Wiley & Sons(ed), 2004.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000173&pid=S0120-5609200900010000800014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Kimball, R., Ross, M., The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling., Second Edition, McGraw  Hill (ed.), 2002.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000174&pid=S0120-5609200900010000800015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Microsoft., Introducci&oacute;n a la Tecnolog&iacute;a .NET., 2003. <a href="http://www.microsoft.com/latam/windowsserver2003/evaluation/overview/dotnet/default.mspx" target="_blank">http://www.microsoft.com/latam/windowsserver2003/evaluation/overview/dotnet/default.mspx</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000175&pid=S0120-5609200900010000800016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Naranjo, R., Montenegro, R., Selecci&oacute;n de una T&eacute;cnica de Miner&iacute;a de Datos para la correlaci&oacute;n de productos en el Comercio Electr&oacute;nico tipo B2C., Revista Gerencia Tecnol&oacute;gica Inform&aacute;tica, Vol. 6, No. 13, 2007.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000176&pid=S0120-5609200900010000800017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Park, J. S., Chen, M. S., Yu, P. S., Using a Hash-Based Method with Transaction Trimming for Mining Association Rules., IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 5, Sept./Oct, 1997.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000177&pid=S0120-5609200900010000800018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Pressman, R., Ingenier&iacute;a del Software, un enfoque pr&aacute;ctico., McGraw Hill (ed), ISBN: 970-10-5473-3, 2005.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000178&pid=S0120-5609200900010000800019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Rumbaugh, J., Jacobson, I., Booch, G., El Lenguaje Unificado de Modelado, Manual de Referencia, Addison Wesley (ed), ISBN. 0-201-30998-X, 1999.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000179&pid=S0120-5609200900010000800020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Savesere, A., Omiecinski, E., Navatie, S., An efficient algorithm for mining association rules in large databases., In Proceedings of the 21st International Conference On Very Large Data Bases, 1995.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000180&pid=S0120-5609200900010000800021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Tapscott, D., Lowy, A., Ticoll, D., La Era de los Negocios Electr&oacute;nicos., McGraw Hill (ed), ISBN: 958-600-975-0, 2000.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000181&pid=S0120-5609200900010000800022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>The CRISP-DM Consortium., CRISP-DM Step by step data mining guide., 2000 -. Documento. <a href="http://www.crisp-dm.org/CRISPWP-0800.pdf" target="_blank">http://www.crisp-dm.org/CRISPWP-0800.pdf</a>, 2007.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000182&pid=S0120-5609200900010000800023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Waikato ML Group., The waikato environment for knowledge analysis., The University of Waikato, <a href="http://www.cs.waikato.ac.nz/ml/weka" target="_blank">http://www.cs.waikato.ac.nz/ml/weka</a>, 2007.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000183&pid=S0120-5609200900010000800024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>Zari, M. J., Parthasabathy, S., Oghiara, M., Li, W.,  New Algorithms for fast discovery of association rules., In 3rd International Conference on Knowledgement Discovery and Data Mining, 1998.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000184&pid=S0120-5609200900010000800025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Agrawal]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Srikant]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Fast Algorithms for Mining Association Rules]]></source>
<year></year>
<conf-name><![CDATA[ 20th Int. Conf. Very Large Data Bases]]></conf-name>
<conf-date>1994</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="">
<collab>BerliOS Developer</collab>
<source><![CDATA[Plataforma para soportar el proceso de Descubrimiento de Conocimiento en Bases de Datos-TariyKDD]]></source>
<year>febr</year>
<month>er</month>
<day>o,</day>
</nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Borgelt]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<collab>School of Computer Science^dof Knowledge Processing and Language Engineering</collab>
<source><![CDATA[Frequent Pattern Mining]]></source>
<year>2005</year>
<publisher-name><![CDATA[OttovonGuericke - University of Magdeburg]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Castañeda]]></surname>
<given-names><![CDATA[G, J. A.]]></given-names>
</name>
<name>
<surname><![CDATA[Rodríguez]]></surname>
<given-names><![CDATA[M, M. A.]]></given-names>
</name>
</person-group>
<collab>Departamento de Comercialización e Investigación de mercados^dFacultad de CC. EE.</collab>
<source><![CDATA[La Minería de Datos como herramienta de Marketing: Delimitación y Evaluación del resultado]]></source>
<year>2005</year>
<publisher-name><![CDATA[Universidad de Granada]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cabena]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Stadler]]></surname>
<given-names><![CDATA[V. Z.]]></given-names>
</name>
</person-group>
<source><![CDATA[Discovering Data mining From Concept To Implementation]]></source>
<year>1998</year>
<publisher-loc><![CDATA[Upper Saddle River ]]></publisher-loc>
<publisher-name><![CDATA[Prentice Hall PTR]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ceglar]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Roddick]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Association Mining: Flinders University of South Australia]]></article-title>
<source><![CDATA[ACM Computing Survey]]></source>
<year>Juli</year>
<month>o,</month>
<day> 2</day>
<volume>38</volume>
<numero>2</numero>
<issue>2</issue>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="">
<collab>Clementine-SPSS</collab>
<source><![CDATA[Descubra soluciones con Clementine que de otra manera no podría]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Danger]]></surname>
<given-names><![CDATA[M., R.]]></given-names>
</name>
<name>
<surname><![CDATA[Berlanga]]></surname>
<given-names><![CDATA[Ll, R.]]></given-names>
</name>
</person-group>
<collab>Universidad de Oriente^dDepartamento de Computación</collab>
<source><![CDATA[Informe técnico: Búsqueda de Reglas de Asociación en bases de datos y colecciones de textos]]></source>
<year>2001</year>
<publisher-loc><![CDATA[Santiago de Cuba ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[DeLuca]]></surname>
<given-names><![CDATA[M. P.]]></given-names>
</name>
</person-group>
<source><![CDATA[Plan para enfocar las campañas Bancarias utilizando Datamining]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Facca]]></surname>
<given-names><![CDATA[F.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Lanzi]]></surname>
<given-names><![CDATA[P. L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Mining interesting knowledge from weblogs: a survey]]></article-title>
<source><![CDATA[Data and knowledge Engineering]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Han]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Pei]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Yin]]></surname>
<given-names><![CDATA[Y.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Mining Frequent Patterns without Candidate Generation]]></article-title>
<source><![CDATA[ACM SIGMOD Record]]></source>
<year>2000</year>
<volume>29</volume>
<numero>2</numero>
<issue>2</issue>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Han]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Kamber]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Data Mining: Concepts and Techniques]]></source>
<year>2002</year>
<publisher-name><![CDATA[Simon Fraser University - Morgan Kaufmann Publishers]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hernandez]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Ramirez]]></surname>
<given-names><![CDATA[M. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Ferri]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<source><![CDATA[Introducción a la Minería de Datos]]></source>
<year>2004</year>
<publisher-name><![CDATA[Pearson Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Larose]]></surname>
<given-names><![CDATA[D. T.]]></given-names>
</name>
</person-group>
<source><![CDATA[Discovering Knowledge in Data: An Introduction to Data Mining]]></source>
<year>2004</year>
<publisher-name><![CDATA[John Wiley & Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kimball]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Ross]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling]]></source>
<year>2002</year>
<edition>Second</edition>
<publisher-name><![CDATA[McGraw Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<collab>Microsoft</collab>
<source><![CDATA[Introducción a la Tecnología .NET]]></source>
<year>2003</year>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Naranjo]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Montenegro]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Selección de una Técnica de Minería de Datos para la correlación de productos en el Comercio Electrónico tipo B2C]]></article-title>
<source><![CDATA[Revista Gerencia Tecnológica Informática]]></source>
<year>2007</year>
<volume>6</volume>
<numero>13</numero>
<issue>13</issue>
</nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Park]]></surname>
<given-names><![CDATA[J. S.]]></given-names>
</name>
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[M. S.]]></given-names>
</name>
<name>
<surname><![CDATA[Yu]]></surname>
<given-names><![CDATA[P. S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Using a Hash-Based Method with Transaction Trimming for Mining Association Rules]]></article-title>
<source><![CDATA[IEEE Transactions on Knowledge and Data Engineering]]></source>
<year>Sept</year>
<month>./</month>
<day>Oc</day>
<volume>9</volume>
<numero>5</numero>
<issue>5</issue>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pressman]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Ingeniería del Software: un enfoque práctico]]></source>
<year>2005</year>
<publisher-name><![CDATA[McGraw Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rumbaugh]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Jacobson]]></surname>
<given-names><![CDATA[I.]]></given-names>
</name>
<name>
<surname><![CDATA[Booch]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<source><![CDATA[El Lenguaje Unificado de Modelado: Manual de Referencia]]></source>
<year>1999</year>
<publisher-name><![CDATA[Addison Wesley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Savesere]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Omiecinski]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[Navatie]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<source><![CDATA[An efficient algorithm for mining association rules in large databases]]></source>
<year></year>
<conf-name><![CDATA[ 21st International Conference On Very Large Data Bases]]></conf-name>
<conf-date>1995</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tapscott]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
<name>
<surname><![CDATA[Lowy]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Ticoll]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<source><![CDATA[La Era de los Negocios Electrónicos]]></source>
<year>2000</year>
<publisher-name><![CDATA[McGraw Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="">
<collab>The CRISP-DM Consortium</collab>
<source><![CDATA[CRISP-DM Step by step data mining guide: 2000]]></source>
<year>2007</year>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<collab>Waikato ML Group</collab>
<source><![CDATA[The waikato environment for knowledge analysis]]></source>
<year>2007</year>
<publisher-name><![CDATA[The University of Waikato]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zari]]></surname>
<given-names><![CDATA[M. J.]]></given-names>
</name>
<name>
<surname><![CDATA[Parthasabathy]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Oghiara]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Li]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
</person-group>
<source><![CDATA[New Algorithms for fast discovery of association rules]]></source>
<year></year>
<conf-name><![CDATA[ 3rd International Conference on Knowledgement Discovery and Data Mining]]></conf-name>
<conf-date>1998</conf-date>
<conf-loc> </conf-loc>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
