Revista Colombiana de Estadística

Dynamic-Interactive Graphics for Statistics (26 Years Later)

This paper briefly reviews the history of dynamic-interactive graphics for statistics, introduces an example of such graphics, and provides a few glimpses as to the current state of things and the future trends we envision. The general conclusion is that dynamic-interactive graphics for statistics are thriving more than ever as they shift from the desktop to the internet. Thus, dynamic-interactive graphics are becoming increasingly important as they: 1) provide non-experts in statistics with the means to carry out analyses on their own; and 2) teach the basic concepts of statistics to students and practitioners with low to moderate mathematics skills. Their increasing popularity makes the lessons learned over the past 26 years of research on the subject more important than ever.

Este artículo revisa brevemente la historia de las gráficas dinámicas interactivas en estadística, introduce un ejemplo y muestra del estudio actual del arte y las tendencias hacia el futuro. La conclusión general es que las gráficas dinámicas interactivas para la estadística son más populares que nunca y se han desplazado del computador a la Internet. Su importancia en ascenso se debe a que: 1) brindan a los no expertos en estadística los medios para llevar a cabo análisis; 2) enseñan los caminos básicos a estudiantes y practicantes con habilidades bajas o moderadas en matemáticas. Su popularidad hace que las lecciones aprendidas sobre los últimos 26 años sean más importantes que nunca.

Recent Advances in Visualizing Multivariate Linear Models

This paper reviews our work in the development of visualization methods (implemented in \R) for understanding and interpreting the effects of predictors in multivariate linear models (MLMs) of the form Y = X B + U, and some of their recent extensions. We begin with a description of and examples from the Hypothesis-error (HE) plots framework (utilizing the \Rpackage{heplots}), wherein multivariate tests can be visualized via ellipsoids in 2D, 3D or all pairwise views for the Hypothesis and Error Sum of Squares and Products (SSP) matrices used in hypothesis tests. Such HE plots provide visual tests of significance: a term is significant by Roys test if and only if its H ellipsoid projects somewhere outside the E ellipsoid. These ideas extend naturally to repeated measures designs in the multivariate context. When the rank of the hypothesis matrix for a term exceeds 2, these effects can also be visualized in a reduced-rank canonical space via the \Rpackage{candisc}, which also provides new data plots for canonical correlation problems. Finally, we discuss some recent work-in-progress: the extension of these methods to robust MLMs, development of generalizations of influence measures and diagnostic plots for MLMs (in the \Rpackage{mvinfluence}).

Este artículo hace una revisión de los desarrollos recientes en métodos de visualización (implementados en \R) para la comprensión e interpretación de los efectos de los predictores en modelos lineales multivariados (MLMs) de la forma Y = X B + U y sus extensiones recientes. Comenzamos con una descripción y ejemplos de los gráficos de Hipótesis-Error (HE), (utilizando el paquete heplots) en los cuales los tests multivariados son visualizados vía elipsoides en 2D, 3D o todas las vistas pareadas de las matrices de sumas de cuadrados y productos (SSP por sus siglas en inglés) de Hipótesis y Error. Las gráficas HE permiten pruebas de significancia visuales: un término es significativo en el test de Roy si y solo si su elipsoide H es proyectado fuera del elipsoide E. Estas ideas se extienden a diseños de medidas repetidas en el contexto multivariado. Cuando el rango de la matriz de hipótesis para un término es mayor a 2, estos efectos pueden ser visualizados en un espacio canónico de rango reducido vía el paquete candisc, que a su vez también permite nuevos gráficos para problemas de correlación canónica. Finalmente, se discuten algunas áreas de investigación en desarrollo: la extensión de estos métodos a MLMs robustos, generalizaciones de las medidas de influencia y gráficas de diagnóstico para MLMs (en el paquete mvinfluence).

Statistical Graphics for Survey Weights

Survey weights are used for correcting known differences between the sample and the population due to sampling design, nonresponse, undercoverage, and other factors. However, practical considerations often result in weights that are not constructed in a systematic fashion. Graphical methods can be useful in understanding complex survey weights and their relations with other variables in the dataset, particularly when little to no information on the construction of the weights is available. Graphical tools can also assist in diagnostics, including detection of outliers and extreme weights. We apply our methods to the Fragile Families and Child Wellbeing Study, an ongoing longitudinal survey.

Los pesos de muestreo se utilizan para corregir las diferencias conocidas entre la muestra y la población debido al diseño muestral, la falta de respuesta, subcobertura, y otros factores. Sin embargo, consideraciones prácticas a menudo resultan en pesos que no se han construido de una manera sistemática. Los métodos gráficos pueden ser útiles en la comprensión de ponderaciones complejas de la encuesta y sus relaciones con otras variables del conjunto de datos, sobre todo cuando se dispone de poca información sobre la construcción de los pesos. Las herramientas gráficas también pueden ayudar en el diagnóstico, incluyendo la detección de valores atípicos y pesos extremos. Aplicamos nuestros métodos en el estudio de Familias Frágiles y Bienestar Infantil, un estudio longitudinal en curso.

Exploring the Mobile Structural Assessment Tool: Concept Maps for Learning Website

In this paper, we describe how the pathfinder algorithm converts relatedness ratings of concept pairs to concept maps; we also present how this algorithm has been used to develop the Concept Maps for Learning website (\url{http://www.conceptmapsforlearning.com}) based on the principles of effective formative assessment. The pathfinder networks, one of the network representation tools, claim to help more students memorize and recall the relations between concepts than spatial representation tools (such as Multi-Dimensional Scaling). Therefore, the pathfinder networks have been used in various studies on knowledge structures, including identifying students misconceptions. To accomplish this, each students knowledge map and the expert knowledge map are compared via the pathfinder software, and the differences between these maps are highlighted. After misconceptions are identified, the pathfinder software fails to provide any feedback on these misconceptions. To overcome this weakness, we have been developing a mobile-based concept mapping tool providing visual, textual and remedial feedback (ex. videos, website links and applets) on the concept relations. This information is then placed on the expert concept map, but not on the students concept map. Additionally, students are asked to note what they understand from given feedback, and given the opportunity to revise their knowledge maps after receiving various types of feedback.

En este artículo se describe cómo el algoritmo de búsqueda de ruta convierte puntajes de conceptos pareados en mapas conceptuales. También se presenta cómo este algoritmo ha sido utilizado para desarrollar estos mapas conceptuales para aprendizaje (\url{http://www.conceptmapsforlearning.com}) basados en los principios del aseguramiento formativo efectivo. Las redes de búsqueda de ruta, una de las herramientas de representación de redes, ayudan a memorizar a los estudiantes y enunciar las relaciones entre mapas más que las herramientas de expresión espacial (tales como el escalonamiento multidimensional). Por tanto, las redes de búsqueda de rutas han sido usadas en varios estudios de estructura del conocimiento incluyendo la identificación de malos conceptos usados por los estudiantes. Para lograr esto, cada mapa de conocimiento tanto del estudiante como del experto son comparados vía el software de búsqueda de ruta y se remarcan las diferencias entre éstos. Después que los malos conceptos son identificados, el software de búsqueda falla en entregar una retroalimentación en estos nodos conceptuales. Para superar esta debilidad, se desarrolla una herramienta de mapa conceptual móvil que manda retroalimentaciones visuales, textuales y remediales (e.g. vídeos, enlaces a páginas web y applets) en las relaciones de los conceptos. Adicionalmente, los estudiantes son preguntados acerca de qué entienden de la retroalimentación brindada y se les da la oportunidad de revisar sus mapas de conocimiento después de recibir varios tipos de retroalimentación.

Hierarchical Graphical Bayesian Models in Psychology

The improvement of graphical methods in psychological research can promote their use and a better comprehension of their expressive power. The application of hierarchical Bayesian graphical models has recently become more frequent in psychological research. The aim of this contribution is to introduce suggestions for the improvement of hierarchical Bayesian graphical models in psychology. This novel set of suggestions stems from the description and comparison between two main approaches concerned with the use of plate notation and distribution pictograms. It is concluded that the combination of relevant aspects of both models might improve the use of powerful hierarchical Bayesian graphical models in psychology.

El mejoramiento de los métodos gráficos en la investigación en psicología puede promover su uso y una mejor compresión de su poder de expresión. La aplicación de modelos Bayesianos gráficos jerárquicos se ha vuelto más frecuente en la investigación en psicología. El objetivo de este trabajo es introducir sugerencias para el mejoramiento de los modelos Bayesianos gráficos jerárquicos en psicología. Este conjunto de sugerencias se apoya en la descripción y comparación entre los dos enfoques principales con el uso de notación y pictogramas de distribución. Se concluye que la combinación de los aspectos relevantes de ambos puede mejorar el uso de los modelos Bayesianos gráficos jerárquicos en psicología

Graphical Tools to Assess Goodness-of-Fit in Non-Location-Scale Distributions

Goodness-of-fit (GOF) techniques are used for assessment whether a distribution is suitable to describe a data set or not. These techniques have been studied for distributions belonging to the location-scale family. However, one could be interested in making this assessment for distributions that do not belong to this family. We review the available GOF tests and propose graphical tools based on these tests for censored and uncensored data from non-location-scale distributions. Anderson-Darling, Cram\er-von Mises, Kolmogorov-Smirnov, Kuiper, Michael and Watson GOF statistics are considered. We apply the proposed results to real-world data sets to illustrate their potential, with emphasis on some Birnbaum-Saunders distributions.

Las técnicas de bondad de ajuste se usan para establecer si una distribución es apropiada o no para describir un conjunto de datos. Estas técnicas han sido estudiadas para distribuciones pertenecientes a la familia de locación y escala. Sin embargo, podríamos también estar interesados en establecer si una distribución que no pertenece a esta familia brinda un buen ajuste a los datos. Revisamos los tests de bondad de ajuste disponibles y proponemos herramientas gráficas basadas en estos tests para datos completos y censurados desde distribuciones de no locación y escala. Consideramos los estadísticos de Anderson-Darling, Cramér-von Mises, Kolmogorov-Smirnov, Kuiper, Michael y Watson. Aplicamos los resultados propuestos a conjuntos de datos reales para ilustrar su potencial, particularmente en algunas distribuciones Birnbaum-Saunders.

A Methodology for Biplots Based on Bootstrapping with R

A biplot is a graphical representation of two-mode multivariate data based on markers for rows and columns often provided in a two-dimensional space. These markers define parameters that help to interpret goodness of fit, quality of the representation and variability and relationships between variables. However, such parameters are estimated as point values by the biplot, thus no information on the accuracy of the corresponding estimators is obtained. We propose a graphical methodology, that may be considered as an inferential version of a biplot, based on bootstrap confidence intervals for the mentioned parameters. We implement our methodology in an \verb"R" package and validate it with simulated and real-world data.

Un biplot es una representación gráfica de datos multivariantes de dos vías basada en marcadores para filas y columnas proporcionada usualmente en un espacio bidimensional. Estos marcadores definen parámetros que ayudan a interpretar bondad de ajuste, calidad de representación y variabilidad y relaciones entre variables. Sin embargo, tales parámetros son estimados puntualmente en el biplot, sin proporcionar información acerca de la precisión de los estimadores. Se propone una metodología gráfica, que puede ser considerada como una versión inferencial de un biplot, basada en intervalos de confianza bootstrap para los parámetros mencionados. La metodología es implementada en un paquete \verb"R" y validada con datos simulados y reales.

Visualization of Skewed Data: A Tool in R

After discussing the main characteristics of the histogram and of a number of variations in the boxplot, this work presents a visualization tool specifically tailored to deal with skewed data. The idea is to use various types of boxplots (the classical one, which is tuned for skewness of the data, the shifting boxplot, and the box-percentile plot), the violin plot, and the histogram with a nonparametric estimate of the density overlay. The plots are presented in such a way that they facilitate the extraction of additional information from each one. We show that a good deal of information can be extracted from the inspection of the output using example data from synthetic aperture radar images. We provide an implementation in R based on functions already available.

Despu\es de discutir las principales características del histograma y de un número de variables en el boxplot, se presento una herramienta de visualisación específicamente diseñada para el tratamiento de datos. La idea es usar varios tipos de boxplots (el clásico, el cual es adaptado para la consideración de sesgo de los datos, el boxplot trasladado, y el gráfico de cajas de percentiles), el gráfico violin, y el histograma con un estimador no paramétrico de la densidad. Los gráficos son presentados de forma que faciliten la extracción de información adicional. Se muestra como una buena cantidad de información que puede ser extraída a través de ejemplos de imágenes de radar de apertura sintética. Se presenta su implementacón en R basada en funciones actualmente disponibles.

The Graphical Representation of Inequality

As of the past century, the analysis and the graphical representation of inequality play a very important role in economics. In the literature, several curves have been proposed and developed to simplify the description of inequality. The aim of this paper is a review and a comparison of the most known inequality curves, evaluating the features of each, with a particular focus on interpretation.

Desde el siglo pasado el análisis y representación gráfica de la desigualdad juega un papel importante en la economía. En la literatura varias curvas han sido propuestas y desarrolladas para simplificar la descripción de la desigualdad. El objetivo de este artículo es revisar y comparar las curvas de la desigualdad más conocidas evaluando sus características y enfocándose en su interpretación.

Visualizing Partially Ordered Sets for Socioeconomic Analysis

In this paper, we develop a visualization process for partial orders derived from considering many numerical indicators on a statistical population. The issue is relevant, particularly in the field of socio-economic evaluation, where explicitly taking into account incomparabilities among individuals proves much more informative than adhering to classical aggregative and compensative approaches, which collapse complexity into unidimensional rankings. We propose a process of visual analysis based on a combination of tools and concepts from partial order theory, multivariate statistics and visual design. We develop the process through a real example, based on data pertaining to regional competitiveness in Europe.

En este artículo, se desarrolla un proceso de visualización para órdenes parciales derivados al considerar varios indicadores numéricos de una población estadística. Esto es relevante parcialmente en el área de la evaluación socioedonómica donde se toma en cuenta explicitamente incomparabilidades entre los individuos y resulta ser más informativo que la agregación clásica y compensativa que colapsa la complejidad en rankings unidimensionales. Se propone un proceso de análisis visual basado en la combinación herramientas y conceptos de la teoría de orden parcial, estadítica multivariada y diseño usual. Se desarrollo el proceso a través de un ejemplo real, basado en datos de competitividad regional en Europa.

Linked Micromap Plots for South America -- General Design Considerations and Specific Adjustments

Linked micromap (LM) plots have been in use in the United States of America (USA) since their introduction in 1996 as an effective way to display statistical summaries associated with regional spatial units. However, LM plots were always hard to create by non--experts. The introduction of the {\it micromap} R package has simplified the construction of LM plots for arbitrary geographic regions by facilitating the use of external Geographic Information System (GIS) features (such as shapefiles) as the basis for the maps. In this article, we will introduce LM plots for countries from South America. However, spatial representations of features are often not immediately suitable for LM plots, even after some automated simplification of the boundaries of the map regions. A common problem is that relatively small geographic regions are often not visible when plotted in LM plots. Thus, it is necessary to enlarge small regions and display them on the outside of the main map. We introduce some algorithmic guidelines on how small regions can be addressed in LM plots for South America. Moreover, we will provide recommendations how to include areas into LM plots that are far away from the main geographic region.

Las gráficas de micromapas enlazados (LM por sus siglas en inglés) han sido usados en Estados Unidos desde su introducción en 1996 como una forma efectiva de presentar resúmenes estadísticos asociados con unidades espaciales regionales. Sin embargo, las gráficas LM son difíciles de crear por no expertos. La introducción al paquete R micromap ha simplificado la contrucción de gráficos LM para regiones geográficas arbitrarias al facilitar el uso de Sistemas de Información Geográficos (GIS por sus siglas en inglés) como la base para los mapas. En este artículo, se presentan gráficos LM para los países de Suramérica. Sin embargo, las representaciones espaciales están a menudo no disponibles para los gráficos LM, incluso después de simplificaciones automatizadas de los límites de las regiones. Un problema comón es que regiones geográficamente pequeñas a menuso no son visibles en los gráficos LM. Entonces, se hace necesario ampliar estas regiones pequeñas y mostrarlas por fuera del mapa principal. Se introducen algunas guías algoritmicas de cómo considerar regiones pequeñas en los gráficos LM de Suramérica. Adicionalmente, se dan recomendaciones de cómo incluir áreas que se encuentran lejanas de la principal región geográfica en los graficos LM.

Visualizing Gait Patterns of Able bodied Individuals and Transtibial Amputees with the Use of Accelerometry in Smart Phones

Human gait analysis is used to indirectly monitor the rehabilitation of patients affected by diseases or to directly monitor patients under orthotic care. Visualization of gait patterns on the instrument are used to capture the data. In this study, we created a mobile application that serves as a wireless sensor to capture movement through a smartphone accelerometer. The application was used to collect gait data from two groups (able-bodied and unilateral transtibial amputees). Standard gait activities such as walking, running and climbing, including non-movement, sitting were captured, stored and analyzed. This paper discusses different visualization techniques that can be derived from accelerometer data. Removing gravity data, accelerometer data can be transformed into distribution data using periodicity; features were derived from histograms. Decision tree analysis shows that only three significant features are necessary to classify subject activity, namely: average of minimum peak values, student t-statistics of minimum peak values and mode of maximum peak values. We found that the amputee group had a higher acceleration and a lower skewness period between peaks of accelerations than the able-bodied group.

Análisis del paso de humanos es usado como una manera indirecta de monitorear la rehabilitación de pacientes afectados por enfermedades o bajo el cuidado ortopédico. La visualización de patrones de paso se usa para captura de datos. En este estudio, se creó una aplicación móvil que sirve como un sensor inalámbrico para capturar el movimiento a través de un acelerómetro en un teléfono móvil. Se recolectaron datos de dos grupos (con y sin discapacidad tibial). Datos de actividades de paso estándar tales como caminar, correr y escalar, incluso moverse o sentarse fueron recogidos, grabados y analizados. Este artículo discute diferentes técnicas de visualización que fueron derivadas de estos datos de acelerómetro. Removiendo datos de gravedad, los datos del acelerómetro pueden ser transformados en datos de distribución usando periodicidad a partir de histogramas. Análisis del árbol de decisión muestra que sólo tres características significativas son necesarios para clasificar la actividad de los sujetos: promedio estadísticas t-student y moda de valores altos mínimos. Se encontró que el grupo de personas con discapacidad tibial tienen una aceleración alta, y un período de sesgo más bajo entre picos de aceleración que el grupo de no discapacitados.