CMIN - herramienta case basada en CRISP-DM para el soporte de proyectos de minería de datos

Cobos, Carlos; Zuñiga, Jhon; Guarin, Juan; León, Elizabeth; Mendoza, Martha

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Ingeniería e Investigación

Print version ISSN 0120-5609

Ing. Investig. vol.30 no.3 Bogotá Sept./Dec. 2010

CMIN - herramienta case basada en CRISP-DM para el soporte de proyectos de minería de datos

CMIN – a CRISP-DM-based case tool for supporting data mining projects

Carlos Cobos¹, Jhon Zuñiga², Juan Guarin³, Elizabeth León⁴ y Martha Mendoza⁵

¹ Ingeniero de Sistemas. M.Sc., en Informática, Universidad Industrial de Santander, Colombia. Candidato a Ph.D., en Ingeniería de Sistemas y Computación, Universidad Nacional de Colombia, Bogotá, Colombia. Docente de Planta Tiempo Completo Categoría Titular, Universidad del Cauca, Colombia. Investigador del Grupo de I+D en Tecnologías de la Información (GTI), Universidad del Cauca, Colombia. ccobos@unicauca.edu.co.
² Ingeniero de Sistemas, Universidad del Cauca, Colombia. Programador, Informática y Gestión S.A., Colombia. Auxiliar de investigación del Grupo de I+D en Tecnologías de la Información, Universidad del Cauca, Colombia. jzunigaparedes@unicauca.edu.co.
³ Ingeniero de Sistemas, Universidad del Cauca, Colombia. Programador, Solsoft S.A., Colombia. Auxiliar de investigación del Grupo de I+D en Tecnologías de la Información, Universidad del Cauca, Colombia. jguarin@unicauca.edu.co.
⁴ Ingeniera de Sistemas. M.Sc., en Ingeniería de Sistemas, Universidad Nacional de Colombia, Colombia. M.Sc., in Electrical and Computer Engineering, University of Memphis, EEUU. Ph.D., in Computer Science and Computer Engineering, University of Louisville, EEUU. Docente de Planta Tiempo Completo Categoría Asistente, Universidad Nacional de Colombia sede Bogotá, Colombia. Investigadora del Laboratorio de Investigación en Sistemas Inteligentes (LISI), Universidad Nacional de Colombia sede Bogotá, Colombia. eleonguz@unal.edu.co.
⁵ Ingeniera de Sistemas. M.Sc., en Informática, Universidad Industrial de Santander, Colombia. Estudiante de Ph.D., En Ingeniería de Sistemas y Computación, Universidad Nacional de Colombia sede Bogotá, Colombia. Docente de Planta Tiempo Completo Categoría Titular, Universidad del Cauca, Colombia. Investigadora del GTI, Universidad del Cauca, Colombia. mmendoza@unicauca.edu.co.

RESUMEN

En este artículo se presenta la CMIN, una herramienta CASE (Computer Aided Software Engineering) integrada (que soporta todas las fases de un proceso) basada en CRISP-DM 1.0 (Cross – Industry Standard Process for Data Mining) para soportar el desarrollo de proyectos de minería de datos. Primero se expone la funcionalidad general de CMIN, lo que incluye la gestión de procesos, plantillas y proyectos, y se destaca la capacidad de CMIN para realizar el seguimiento de los proyectos de una forma fácil e intuitiva y la manera como CMIN posibilita que el usuario incremente su conocimiento en el uso de CRISP-DM o de cualquier otro proceso que se defina en la herramienta a través de las ayudas e información que se ofrece en cada paso del proceso. Después, se detalla cómo CMIN permite enlazar en tiempo de ejecución (sin necesidad de volver a compilar la herramienta) nuevos algoritmos de minería de datos que apoyen la labor de modelado (basada en un flujo de trabajo o workflow) en un proyecto de minería de datos. Finalmente, se ofrecen los resultados de dos evaluaciones de la herramienta, las conclusiones y el trabajo futuro.

Palabras claves: minería de datos, CRISP-DM, herramientas CASE, workflow, reflexión.

ABSTRACT

This paper introduces CMIN, an integrated computer aided software engineering (CASE) tool based on cross-industry standard process for data mining (CRISP-DM) 1.0 designed to support carrying out data mining projects. It is "integrated" in the sense that it supports all phases of a process. A general overview of how CMIN works is presented first, including a treatment of processes, templates and project management. CMIN's capacity for easily and intuitively monitoring projects is highlighted, as is the manner in which CMIN allows a user to increase knowledge regarding using CRISP-DM or any other process defined in the CASE tool through the help and information presented in each step. Next, it is shown how CMIN can bind new data mining algorithms in runtime (without the need to recompile the tool) to support modelling tasks (based on a Workflow) and evaluate data mining projects. Finally, the results of two evaluations of the tool, some conclusions and suggestions for future work are presented.

Keywords: Data mining, CRISP-DM, CASE tools, workflow, reflection.

Recibido: julio 21 de 2009
Aceptado: noviembre 15 de 2010

Introducción

En ingeniería de software se han establecido diversos procesos, metodologías y herramientas para estandarizar y facilitar el desarrollo de sus productos. Entre las herramientas se cuentan las CASE, las cuales soportan en forma automática varios o todos los pasos de dichas metodologías y se enmarcan en la ingeniería del software asistida por computador o Computer Aided Software Engineering (INEI, 1999). Las herramientas CASE ayudan a reducir el tiempo empleado en el desarrollo de un sistema, lo que mantiene el costo estable y contribuye a mejorar su calidad (Miren Begoña, 2000). Además, permiten al analista documentar y modelar un sistema, desde la definición de requerimientos hasta el diseño, implementación y prueba (Miren Begoña, 2000).

Hoy se encuentran diversas herramientas software para apoyar el desarrollo de proyectos de minería de datos (Britos et al., 2005; Kdnuggets, 2005; MetaGroup, 2004). Basado en el listado de herramientas que aparecen en MetaGroup (2004) y Kdnuggest (2005), se realizó una valoración de las más representativas, entre ellas: Clementine (Khabaza & Shearer, 1995; SPSS-Inc., 2009), Insightful Miner (Insightful-Corporation), WEKA (Holmes, Donkin & Witten, 1994; University-of-Waikato, 2009), CART (Salford-System, 2009), PolyAnalyst (Mai, Krishna & Reddy, 2005; Megaputer, 2009; Rippa & Lendyuk, 2007) y SAS Enterprise Miner (SAS, 2009a). Los criterios generales para dicha valoración fueron: el acceso (costo de las herramientas), la interfaz de usuario (facilidad o dificultad que puede llegar a tener el uso de la herramienta por parte de los usuarios), el proceso (o metodología) en la que se basan, la extensibilidad (capacidad de ampliar fácil y dinámicamente el conjunto de algoritmos que ofrece la herramienta) y el soporte al desarrollo del proyecto por parte de equipos de trabajo. Como resultado se encontró que ninguna de las herramientas cumple completamente con CRISP-DM (Cross – Industry Standard Process for Data Minning) (CRISP-DM, 2006; Chapman et al., 2000), un proceso para el desarrollo de proyectos de minería de datos iterativo, abierto, personalizable y de gran reconocimiento por la industria y la academia; que ninguna de estas herramientas permite la ampliación dinámica y en tiempo de ejecución (sin volver a compilar el código) del conjunto de algoritmos de minería que se entregan inicialmente con la herramienta; y que a pesar de que algunas herramientas cuentan con una interfaz fácil de usar ninguna de ellas guía apropiadamente el desarrollo de un proyecto y mucho menos ayudan a sus usuarios a conocer y profundizar en el manejo del proceso y en general del desarrollo de proyectos de minería. Por lo anterior, el grupo de investigación GTI decidió desarrollar una herramienta CASE integrada (que soporta todas las fases de un proceso), basada en CRISP-DM (CRISP-DM, 2006; Chapman et al., 2000), fácilmente extensible en tiempo de ejecución, fácil de usar y que ayude al usuario a mejorar sus conocimientos y habilidades en el desarrollo de proyectos de minería.

A continuación se despliega un RESUMEN sobre CRISP-DM. Luego se presenta la CMIN, refiriendo el modelo conceptual y los casos de uso más importantes. Después se muestran los resultados de la evaluación de la herramienta, y finalmente, las conclusiones del trabajo y actividades a desarrollar en el corto plazo.

Existen varias metodologías para orientar el proceso de minería de datos; ellas pretenden facilitar la realización de nuevos proyectos con características similares, optimizar la planificación y dirección de éstos, reducir su complejidad y permitir hacerle un mejor seguimiento a ellos (Gondar Nores, 2004). Entre esas metodologías se destacan CRISP-DM (2006) y SEMMA -Sample, Explore, Modify, Model, Assess- (SAS, 2009b). SEMMA se centra en las características técnicas del desarrollo del proceso, mientras que CRISP-DM mantiene como foco central los objetivos empresariales del proyecto. Debido a ello, CRISP-DM comienza realizando un análisis del problema empresarial para su transformación en un problema técnico de minería de datos. CRISP-DM puede ser integrada con una metodología de gestión de proyectos específica que complemente las tareas administrativas y técnicas, además es de libre distribución, sin costo alguno, a diferencia de SEMMA (SAS, 2009b). CRISP-DM define una estructura para proyectos de minería de datos y suministra la orientación para su ejecución. Consta de un modelo de referencia y una guía de usuario (Chapman et al., 2000). El modelo de referencia da una visión general del ciclo de vida de un proyecto de minería de datos, contiene las fases con sus objetivos, las tareas y las relaciones entre éstas, y las instrucciones paso a paso que se deben llevar a cabo. Las fases definidas por el modelo de referencia son: comprensión del negocio, análisis de datos, preparación de los datos, modelamiento, evaluación y despliegue. Cada una de estas fases (nivel 1) está compuesta de tareas genéricas (nivel 2), que se dividen en tareas específicas (nivel 3), y finalmente, en el nivel 4 se encuentra la instancia del proceso, que describe las actividades específicas a efectuar en un proyecto de minería de datos. La guía del usuario brinda consejos detallados, pistas por cada fase, y cada operación dentro de una fase, y ejemplifica cómo hacer un proyecto de minería de datos. Esta guía de usuario es una excelente opción para desarrolladores que tienen poca experiencia en el desarrollo de este tipo de proyectos.

Modelo conceptual de CMIN

Para comprender mejor el funcionamiento de la CMIN primero se presenta el modelo conceptual del sistema, con los principales conceptos y las relaciones existentes entre éstos (Figura 1):

• Usuarios: comprende a las personas que pueden utilizar el sistema, los cuales pueden ser novatos o expertos en proyectos de minería de datos.

• Módulo de procesos: es el que permite la gestión de procesos, entre ellos CRISP-DM. La definición de procesos representa la acción de registrar un proceso mediante la agregación y definición de sus pasos, campos o actividades que se proponen para el desarrollo de un proyecto de minería de datos. Los reportes son los documentos o entregables que se deben proveer durante un proyecto, y que son soporte de la ejecución de él.

• Procesos: son los pasos que se han agregado a la CMIN y que sirven como base para gestionar los proyectos de minería con la herramienta.

• Módulo de proyectos: representa el módulo de gestión de proyectos de minería de datos basado en uno de los pasos previamente adicionado en el módulo de procesos. Los proyectos comprenden el conjunto de procesos que se han creado en la CMIN y que están en curso o han sido terminados. Los campos o actividades de un paso son las tareas específicas que se deben realizar para cumplir con el objetivo del paso al que pertenecen. Los resultados representan los productos de la realización de una actividad, que pueden ser: una sugerencia, un texto explicativo o una plantilla de información que se debe diligenciar.

• Workflow (WF): entorno gráfico que permite a los usuarios gestionar modelos de minería de datos basados en las tareas de minería definidas en la CMIN.

• Agregación dinámica de DLL (librerías de enlace dinámico, o por las siglas en inglés de Dynamic Link Library): es el módulo que permite la gestión de objetos (nuevos algoritmos) que sirven para la ejecución del WF, por medio de DLL. Los tipos de objetos del flujo de trabajo representan el conjunto de tipos de objetos reconocidos por la CMIN para ser agregados y posteriormente utilizados por el WF. Las interfaces abarcan el conjunto de contratos de software (por ejemplo, en clasificación, agrupación o reglas de asociación) que deben cumplir las DLL para agregarlas al conjunto de objetos que serán utilizados por el WF. Las DLL son el conjunto de logaritmos que posee actualmente la CMIN en su batería (objetos del WF).

• Objetos de WF: comprenden el conjunto de objetos que se agregan a la CMIN y pueden utilizarse en el WF, el cual puede crecer a medida que los usuarios hagan nuevas implementaciones de cualquiera de los tipos de objetos del WF especificados en la CMIN.

• Servidor CMIN: es el que aloja nuevas definiciones de procesos, así como nuevas implementaciones de objetos (algoritmos) del WF por medio de DLL para que los usuarios actualicen la CMIN si así lo requieren, ya que ella se ejecuta independientemente de este servidor.

Casos de uso de la CMIN

En la CMIN se consideran dos tipos de usuario (funciones): usuarios finales y editores expertos (Figura 2). Los casos de uso del sistema son: entrar al sistema (precondición para usar la herramienta) y gestionar procesos, proyectos, plantillas y DLL. Los usuarios, al ingresar al sistema, deben configurar el servidor de bases de datos de SQL Server con la finalidad de cargar la información necesaria para el funcionamiento del sistema (puede ser una versión express que es gratuita). Al gestionar proyectos los usuarios pueden desarrollar los pasos propuestos por el proceso en el que se basa el proyecto, de tal manera que ejecutan los campos que se definen para cada paso, y en algunos campos se puede utilizar el flujo de trabajo (workflow) si se necesita utilizar técnicas o algoritmos propios de minería de datos.

En la Figura 2 también se presentan los casos de uso de los editores expertos. Estos usuarios, además de usar la funcionalidad de un usuario final, pueden gestionar procesos (crearlos, modificarlos y eliminarlos, y los pasos y campos asociados a ellos), gestionar plantillas (personalizaciones de un proceso en un área específica de aplicación, eliminando pasos que no son apropiados en esa área) y gestionar las librerías de enlace dinámico (DLL) que se utilizan en el sistema. La división de funciones es lógica, ya que la herramienta permite a cualquier usuario desempeñar el papel de editor experto, pero este usuario debe poseer buenos conocimientos de los procesos de minería para definirlos y personalizarlos en plantillas, así como conocer la forma apropiada de crear y cargar nuevos algoritmos de minería de datos en la CMIN. Finalmente, la CMIN cuenta con un conjunto de servicios web XML que permiten centralizar nuevos procesos y DLL de algoritmos de minería de datos y estos recursos pueden trasladarse a los clientes con una opción sencilla de sincronización, haciendo que el trabajo del experto sea más sencillo.

Registro de CRISP-DM en CMIN

El módulo de gestión de procesos permite definir nuevos procesos de minería de datos. A continuación se explica de modo general la forma como se registró CRISP-DM V1.0 en la CMIN. Primero el editor experto registra la información básica del proceso (nombre, estado y descripción) y luego define los pasos y campos del proceso. La Figura 3, en el lado izquierdo, despliega un menú contextual que permite crear dichos pasos (fases, tareas genéricas, tareas específicas, etcétera). En cada paso se define su nombre, el tipo de paso en la jerarquía del proceso, una descripción (que sirve de ayuda al usuario de la CMIN) y el conjunto de campos (información que el desarrollador del proyecto de minería de datos deberá registrar en ese paso). En el lado derecho de la figura se ofrece el resultado de la edición de los pasos del proceso CRISP-DM 1.0 seguidos en la CMIN.

Después se lleva a cabo la edición de los campos del paso. La Figura 4 contiene un formulario en el que se le solicita al editor o experto en minería el registro de los campos (pueden ser varios) para cada paso. En cada campo se debe incluir una descripción (si es una actividad explica qué se debe hacer, y si es una sugerencia la descripción de ésta); el tipo de campo, que define si es una actividad o sugerencia, y si utiliza workflow (indicando si para realizar la actividad o campo es necesario utilizar el WF).

Gestión de un proyecto en CMIN

La CMIN permite desarrollar un proyecto de minería de datos basado en un proceso. Para hacer esto, los proyectos heredan la estructura del proceso que el usuario selecciona previamente. En la Figura 5, parte izquierda, se muestra la adición de un nuevo proyecto a la CMIN, lo que implica seleccionar un proceso base o una plantilla (si se ha definido previamente una), y a su derecha, se presenta el desarrollo de un proyecto. En el numeral (1) se puede observar la estructura del proceso base que es recorrida por el usuario en la medida en que desarrolla el proyecto de minería en la CMIN; en el (2) se aprecian los campos o actividades a desarrollar pertenecientes al paso en el cual se encuentra; el (3) muestra el botón que guarda la información resultante del campo o actividad; el (4) refiere cómo se puede crear un ciclo de cualquier paso del proceso, siendo esto muy importante, ya que la mayoría de proyectos necesitan reprocesar o repetir ciertos pasos en un momento específico de su evolución; en el (5) se reseña cómo se visualizan los ciclos.

Workflow de minería de datos en CMIN

En la Figura 6 se presenta el workflow de la CMIN; el número (1) registra los tipos de objetos del workflow (fuentes de datos, algoritmos de clasificación, algoritmos de descripción de datos, filtros, visualizadores y algoritmos de agrupamiento o clustering); el (2) exhibe un objeto ofrecido del tipo "fuente de datos", y el (3) un objeto en ejecución en el marco del workflow.

Para adicionar algoritmos u objetos a los tipos de objetos en tiempo de ejecución, se definió para cada tipo de objeto del workflow una interfaz de software o contrato (Microsoft-Corporation, 2009a), que agrupa los métodos necesarios para su uso, y otros métodos de interacción con los demás tipos de objetos del workflow. Cuando se crea un nuevo tipo de objeto éste se debe reportar a la CMIN con el formulario que se ofrece en el lado izquierdo de la Figura 7. La interfaz del nuevo tipo se desarrolla previamente con Visual Studio.NET (Chand, 2000), se compila como un ensamblado que se carga en la CMIN. La información del tipo de objeto es almacenado en la base de datos y el archivo ".DLL" es copiado y almacenado en la carpeta local de la CMIN denominada Assemblies_CMIN. Después de ingresar el tipo de objeto se debe definir con quién se pueden establecer enlaces, es decir, definir qué tipo de objeto puede entregarle información y a qué tipo de objeto se le puede brindar (ver lado derecho de la Figura 7).

Adición de un nuevo algoritmo a la CMIN

El proceso para adicionar un nuevo objeto a un tipo de objeto de CMIN es el siguiente:

• Un programador crea un proyecto de librería en Visual Studio.NET (Chand, 2000) adicionando como referencia la DLL que define el contrato o interfaz de software (Microsoft-Corporation, 2009a) para el tipo de objeto que va a implementar. Es decir, agrega al proyecto la interfaz de clustering.dll si va a implementar el algoritmo k-means (Figura 8)

• El programador implementa el algoritmo en el proyecto de librería cumpliendo con el contrato, genera la nueva DLL y la comprime en un archivo .zip (Figura 9).

• Cuando un usuario necesite usar el nuevo algoritmo en la CMIN primero selecciona el archivo .zip con la DLL, luego verifica que cumpla con el contrato -esta comparación se lleva a cabo utilizando reflexión (System.Reflection) (Microsoft-Corporation, 2009b) cargando los ensamblados y comparando los métodos-, crea una imagen que represente el nuevo algoritmo y finalmente la carga en la CMIN (Figura 10).

• Si el nuevo algoritmo cumple con la interfaz del tipo de objeto, se registra en la base de datos y los archivos del .zip son descomprimidos y almacenados en la carpeta local de CMIN denominada algoritmos, quedando listo para ser utilizado en el workflow (Figura 11).

Invocación de los algoritmos en tiempo de ejecución

Para la invocación de los métodos de los algoritmos que están implementados en las DLL se debe tener en cuenta que la CMIN almacena los ensamblados (Assemblys) o DLL de los algoritmos en carpetas locales y que tiene también almacenados los ensamblados de los tipos de objetos, es decir, las interfaces. Estos tipos de objetos del workflow son estáticos y la parte dinámica la conforman los algoritmos u objetos de cada uno de los tipos, los cuales pueden crecer en tiempo de ejecución. Con este precedente, el grupo definió previamente las interfaces de software (contratos) que cada tipo de objeto debía cumplir, teniendo en cuenta métodos que permitieran la interacción de los algoritmos con el usuario y el núcleo de la CMIN. Esto quiere decir que el núcleo de la CMIN, el corazón del workflow, funciona basado en la información de las interfaces software. El núcleo sabe qué métodos debe invocar en los objetos, ya que ellos cumplen con los contratos de cada tipo de objeto. Para la creación de objetos, la carga y la invocación de los métodos, se usó reflection (Microsoft-Corporation, 2009b). Además el núcleo valida las relaciones que se pueden dar entre los objetos basado en las reglas que se registran en la parte derecha de la Figura 7. Como resultado, el workflow funciona como se muestra en la Figura 12.

Evaluación de la CMIN

La CMIN ha sido sometida a dos evaluaciones:

• Evaluación preliminar de la gestión de procesos y la gestión de proyectos. Realizada en febrero de 2008 con 16 estudiantes de la asignatura electiva de minería de datos, en la Universidad del Cauca (UC). En esta evaluación se asignó cada fase de CRISP-DM a dos estudiantes del curso y basados en la versión 1.0 de CMIN realizaron una evaluación general del cumplimiento de las fases de CRISP-DM por parte de la herramienta y además evaluaron la facilidad de uso de ésta. Como conclusión general, la herramienta cumplió en un 100% con CRISP-DM, pero se detectó la necesidad de mejorar algunas plantillas de recolección de información en algunas fases. Teniendo en cuenta los resultados positivos de dicha evaluación, en marzo de 2008 se participó en una convocatoria de proyectos a ser presentados en el Demofest del Microsoft Research Academic Summit. En el proyecto, seleccionado por Microsoft, se presentó un póster científico de CMIN el 16 de mayo de 2008 en Ciudad de Panamá y se ofreció directamente la herramienta a los profesores e investigadores que participaron en el evento. A pesar de que en el Demofest se presentaron proyectos con inversiones muy superiores a la hecha por la CMIN, el proyecto recibió excelentes comentarios y Microsoft lo incluyó en una nota publicitaria que se presentó en el programa Adelantos, de CNN en español (ver copia del video en http://www.unicauca.edu.co/~ccobos/cnn-adelantos.wmv).

• Evaluación de la usabilidad de la herramienta. Esta evaluación fue hecha en marzo de 2009 con una prueba beta donde participaron ingenieros y estudiantes del programa de Ingeniería de Sistemas de la UC que trabajan en minería de datos. Esta prueba tuvo dos objetivos: la revisión completa de la CMIN en un ambiente diferente al de desarrollo, a través de un test de usabilidad, y verificar con un experimento si mediante el uso de la CMIN se podía mejorar el conocimiento que los usuarios tienen de CRISP-DM. El experimento se efectuó en seis pasos, de la siguiente manera: 1) aplicación de un test previo para valorar los conocimientos del grupo sobre CRISP-DM; 2) presentación básica de la herramienta CMIN; 3) desarrollo de un taller de minería de datos (consistente en resolver un problema típico de clasificación, para el cual se seleccionó el data set IRIS disponible en el repositorio de la UCI (Asuncion & Newman, 2007), mientras que los usuarios emplearon el workflow y obtuvieron el resultado desplegado en la Figura 12; 4) interacción con el grupo a través de preguntas y sugerencias; 5) aplicación de un test posterior para valorar el nuevo nivel de conocimientos del grupo sobre CRISP-DM (el contenido del test no cambió con respecto al del paso 1); y 6) aplicación de un test de usabilidad basado en un cuestionario de la Universidad Politécnica de Cataluña (Borges de Barros Pereira, 2002).

En términos generales la prueba fue exitosa, ya que la herramienta no tuvo errores y todos los participantes lograron resolver el problema de clasificación presentado. Los resultados del test de usabilidad fueron muy buenos. Se puede afirmar que la CMIN cuenta con una interfaz amigable, entendible y, sobre todo, que el manejo de los proyectos que contemplan aspectos repetitivos y en cierta medida complejos pueden ser manejados con facilidad. La interfaz minimiza lo que el usuario debe aprender y en cada paso lo orienta para llevar a feliz término cada una de las tareas correspondientes a un proyecto de minería de datos. En la Figura 13 se indican los principales resultados del test de usabilidad, donde los usuarios expresan para cada uno de los indicadores de evaluación una valoración mayoritariamente excelente y buena.

En cuanto al test de conocimiento sobre CRISP-DM se logró un incremento del 5 al 10% en el conocimiento del proceso en el poco tiempo que duró el taller (1 hora), destacando que éste no tenía como objetivo que los usuarios memorizaran las fases, las tareas genéricas y específicas de CRISP-DM y, lo más importante de esto, el cambio en los términos de las respuestas dadas por los usuarios en el test posterior, las cuales fueron más precisas, técnicas y directamente relacionadas con las fases del proceso.

Conclusiones y trabajo futuro

La CMIN es una herramienta CASE integrada que orienta el desarrollo de los proyectos a través de procesos, facilita la integración del proceso con el proyecto y asegura el cumplimiento del proceso en la ejecución del proyecto; su funcionalidad extensible (ampliación dinámica y en tiempo de ejecución de la batería de algoritmos) motiva y facilita el desarrollo en comunidad, ya que una nueva funcionalidad puede ser programada por miembros de la comunidad, y después puede ser probada y evaluada por un grupo de expertos y finalmente incluida y distribuida a los demás miembros de la comunidad de usuarios de la herramienta a través de la opción de sincronización. Mediante la información detallada y apropiada en cada paso de un proceso y de un proyecto en la CMIN se posibilita que el usuario conozca progresivamente sobre un proceso de minería de datos (por ejemplo, CRISP-DM).

Como trabajo futuro, el grupo de investigación planea implementar una versión mejorada del componente de seguimiento a proyectos que tenga en cuenta la administración de los recursos para cada actividad, de tal forma que se puedan hacer reportes de costos en cada paso del proyecto y en general, integrar a la CMIN una metodología de gestión de proyectos; además, centrar esfuerzos en el establecimiento de la comunidad que permita un rápido crecimiento de la batería de algoritmos que se puedan usar en la CMIN y potenciar de esta forma el uso del workflow.

Bibliografía

Asuncion, A., Newman, D. J., UCI Machine Learning Repository 2008., 2007. from http://www.ics.uci.edu/~mlearn/ML Repository.html [ Links ]

Borges de Barros Pereira, H. Análisis experimental de los criterios de evaluación de usabilidad de aplicaciones multimedia en entornos de educación y formación a distancia Unpublished Doctoral., Universitat Politecnica de Catalunya, Barcelona, 2002. [ Links ]

Britos, P., Fernández, E., Ochoa, M., Merlino, H., Diez, E., García, R., Metodología de Selección de Herramientas de Explotación de Datos., Paper presented at the II Workshop de Ingeniería del Software y Bases de Datos. XI Congreso Argentino de Ciencias de la Computación, 2005. [ Links ]

CRISP-DM., CRoss Industry Standard Process for Data Mining., 2006. from http://www.crisp-dm.org/ [ Links ]

Chand, M., Creating C# Class Library (DLL) Using Visual Studio .NET [Electronic Version]., C# Corner, (2000). from http://www.c-harpcorner.com/UploadFile/mahesh/dll12222005064058AM/dll.aspx [ Links ]

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., CRISP-DM 1.0: Step-by-step data mining guide: CRISP-DM Consortium., 2000. [ Links ]

Gondar Nores, J.-E., Metodologías para la Realización de Proyectos de Data Mining [Electronic Version]., 2004. from http://www.estadistico.com/arts.html?20040426 [ Links ]

Holmes, G., Donkin, A., Witten, I. H., WEKA: a machine learning workbench., Paper presented at the Intelligent Information Systems,1994., Proceedings of the 1994 Second Australian and New Zealand Conference on, 1994. [ Links ]

INEI., Herramientas CASE. Lima, Perú: Instituto Nacional de Estadística e Informática., 1999. [ Links ]

Insightful-Corporation., Insightful Miner., from http://www.insightful.com/products/iminer/default.asp [ Links ]

Kdnuggets., Tools data mining., 2005. from http://www.kdnuggets.com/polls/2005/data_mining_tools.htm [ Links ]

Khabaza, T., Shearer, C., Data mining with Clementine., Paper presented at the Knowledge Discovery in Databases, [IEE Colloquium on], 1995. [ Links ]

Mai, C. K., Krishna, I. V. M., Reddy, A. V. Polyanalyst application for forest data mining., Paper presented at the Geoscience and Remote Sensing Symposium, 2005, IGARSS '05. Proceedings. 2005 IEEE International, 2005. [ Links ]

Megaputer., PolyAnalyst 6.0 - simplify your analytics., 2009. from http://www.megaputer.com/ [ Links ]

MetaGroup., METAspectrum Market Summary., 2004. from http://www.oracle.com/technology/products/bi/odm/pdf/odm_metaspectrum_1004.pdf [ Links ]

Microsoft-Corporation., interface (C# Reference), 2009a. from http://msdn.microsoft.com/en-us/library/87d83y5b.aspx [ Links ]

Microsoft-Corporation., Reflection Overview [Electronic Version]. .NET Framework Developer's Guide., 2009b. from http://msdn.microsoft.com/en-us/library/f7ykdhsy.aspx [ Links ]

Miren Begoña, A.-R., A retrospective view of CASE tools adoption., SIGSOFT Softw. Eng. Notes, 25(2), 2000, pp. 46-50. [ Links ]

Rippa, S., Lendyuk, T. Selection of Alternative Projects Using Data Mining., Paper presented at the 4th IEEE Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications, IDAACS, 2007. [ Links ]

Salford-System., Classification And Regression Trees (CART)., 2009. from http://www.salfordsystems.com/cart.php [ Links ]

SAS., Data mining with SAS® Enterprise Miner., 2009a. from http://www.sas.com/technologies/analytics/datamining/miner/ [ Links ]

SAS. SAS Enterprise Miner - SEMMA., 2009b. from http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html [ Links ]

SPSS-Inc., Clementine., 2009. from http://www.spss.com/es/ clementine/ [ Links ]

University-of-Waikato., Weka 3: Data Mining Software in Java., 2009. from http://www.cs.waikato.ac.nz/ml/weka/ [ Links ]