Revista Colombiana de Estadística

Comparing Diagnostic Tests from ROC Curve

Se aborda el problema de comparar el poder de clasificación de métodos diferentes a partir de la curva ROC. Por un lado, se propone un método de comparación basado en la medida del supremo y, por otro, una solución al problema de comparar más de dos pruebas diagnósticas a través del área bajo la curva ROC (AUC) a partir de sus propiedades asintóticas. También se comprueba la validez de los estimadores propuestos para muestras pequeñas a partir del método bootstrap. Finalmente, se aplican los métodos propuestos en la predicción de diagnósticos sépticos (infecciosos) en pacientes admitidos en la Unidad de Cuidados Intensivos Pediátricos (UCIP) del Hospital Central de Asturias.

We study the problem of comparing the power of classification of different methods from the ROC Curve. On one hand, we propose a method based on the supremum measure and, on the other hand, we study the problem of comparing two or more ROC curves from the asymptotic properties of area under ROC curves (AUC). We study the performance of proposed estimators to small samples problems with Bootstrap method and we apply them to differentiate two classes of patients of the Pediatric Intensive Care Unit (PICU) of the Hospital Central de Asturias.

Two Permutation Tests and the Mann-Whitney Test: A Robustness Study

Se exploró y comparó la robustez de las pruebas de Mann-Whitney, de permutación basada en diferencia de medias y de permutación basada en diferencia de medianas mediante simulación para varios grados de violación del supuesto de igualdad de varianzas. Las muestras se generaron de la aproximación a las distribuciones beta, logística y exponencial doble por medio de la familia de distribuciones λ generalizada; se consideraron tamaños de muestra {7,14,21} y razones entre varianzas {0.5,1.0,1.5,2.0}. En los casos donde la muestra de menor tamaño proviene de la población con mayor varianza, el nivel de significación simulado toma valores cercanos a tres veces el obtenido cuando se cumple el supuesto. Para la mayoría de los casos estudiados, las pruebas de permutación presentan los mayores niveles de significación simulados.

The robustness of the permutation and the Mann-Whitney U tests was explored and compared through simulation for several violation degrees of the variances equality assumption. Samples were obtained from the approximation to beta, logistic and double exponential distributions by means of the Generalized λ Distribution Family; sample sizes {7,14,21} were considered as well as quotients between variances {0.5,1.0,1.5,2.0}. When the sample of smaller size comes of the population with greatest variance, the simulated significance level takes values of almost three times the obtained whenever the assumption is fulfilled. For most of the cases, permutation tests present higher simulated significance levels.

A Spline Model for Electricity Demand Forescasting

El propósito de este trabajo es modelar, con fines de pronóstico, la demanda diaria de energía eléctrica en una región del suroccidente colombiano, mediante la implementación de modelos de regresión no paramétrica teniendo en cuenta factores de influencia tales como hora del día, día de la semana, mes y año, entre otros. Los datos empleados en el desarrollo de este proyecto provienen de una compañía local de distribución de energía eléctrica y se tomaron de Valencia (2005). La información disponible va desde enero de 2001 hasta noviembre de 2004. Estos datos muestran un comportamiento complejo, difícil de modelar con la teoría básica de los métodos paramétricos. Dado que un análisis exploratorio de la información sugiere la existencia de una curva típica diaria de demanda, se eligió estimarla utilizando modelos de regresión no paramétrica. Para efectos comparativos, se propuso la aplicación de otras metodologías que involucran modelos ARIMA y variables macroeconómicas. Todo el procesamiento estadístico se ejecutó con R.

Our goal is to model, with forecasting aims, the daily electricity demand in a southeast colombian region through a non-parametric regression model implementation. We consider some "calendar variables" such as time of the day, day of the week, month, and year, among others, on the estimation process. Data come from an electricity distribution local company and are taken from Valencia (2005). Available data go from January 2001 to November 2004. These data show such a complicated behavior that it becomes hard to model using classical parametric models. Since exploratory analysis suggested the existence of an electricity demand daily typical curve, we used non-parametric models instead. For comparison purposes, we made use of some other methodologies including ARIMA models and the insertion of macroeconomic variables. Statistical processing was run using R.

A Jackknife Variance Estimator under Two-Fases Sampling with Unequal Probability

Se emplea la metodología jackknife para muestreo con probabilidades desiguales en la estimación de varianza de estimadores basados en diseños de muestreo en dos fases con probabilidades desiguales. Se asume que los parámetros por estimar y sus estimadores se pueden escribir como funciones de medias poblacionales y muestrales, respectivamente. El estimador propuesto permite la estimación consistente de la varianza debida a cada fase muestral. También se presenta un estudio por simulación que sustenta los resultados teóricos obtenidos.

We propose a jackknife variance estimator under two-fases sampling with unequal probability. We assume that the parameters of interest and its stimators can be expressed as a function of means. We propose a jackknife estimator for each component of variance. We demonstrate that the estimator is consistent for the same asymptotic variance as the linearization estimator. Also we support this result with a simulation study.

Three state Markov model: comparing three parameterizations of the transition intensity rate. Application to rheumatoid arthritis data

Se considera un modelo múltiple de tres estados donde uno de ellos es absorbente. Se asume que la dependencia entre las observaciones registradas para un mismo sujeto sigue un proceso de Markov. Se comparan, vía simulación, tres diferentes parametrizaciones de la tasa de intensidad de transición: la primera está basada en el modelo de hazard multiplicativo de Andersen-Gill (Andersen et al. 1993), la segunda, en el modelo logístico, y la tercera depende del modelo log-log complementario. El método de estimación de parámetros se basa en la función de verosimilitud la cual se optimiza usando las soluciones exactas de un sistema de ecuaciones de Kolmogorov hacia adelante junto con el algoritmo de Newton-Raphson (Abramowitz & Stegun 1972). Usando el sesgo relativo, se selecciona el mejor método de parametrización y se ilustra usando datos recopilados en la Corporación para Investigaciones Biológicas, CIB, acerca de pacientes con artritis reumatoidea.

We consider a three state model with an absorbing state assuming an underlying Markov process to explain the dependence among observations within subjects. We compare, using a simulation study, three different parameterizations of the transition intensity rate: the first one is based on the Andersen-Gills multiplicative hazard model (Andersen et al. 1993), the second one is based on the logistic model, and the third one depends on the complementary log-log model. The method to estimate the effect of the parameters is based on the likelihood function which can be optimized using the exact solutions of a Kolmogorov forward differential equations system in conjunction with the Newton-Raphson algorithm (Abramowitz & Stegun 1972). We use the relative bias to select the best estimation estrategy. The methodology is ilustrated using longitudinal data about rheumatoid arthritis (RA) from the Corporación para Investigaciones Biológicas, CIB.

Combination of Factorial Methods and Cluster Analysis in R: The Package FactoClass

Se presenta el paquete de R FactoClass, donde se implementa la estrategia descrita en Lebart et al. (1995), que combina métodos factoriales con análisis de conglomerados, en la exploración multivariada de tablas de datos. Se utilizan funciones de ade4 (Chessel et al. 2004) para realizar el análisis factorial de los datos y de stats para el análisis de conglomerados. Se crean funciones para tareas específicas y se modifican algunas de las existentes. Se describen los pasos para crear FactoClass en ambiente Windows y se ilustra el uso del paquete con un ejemplo.

The new R package FactoClass to combine factorial methods and cluster analysis is presented. This package is implemented in order to perform a multivariate exploration of a data table according to Lebart et al. (1995). We use some ade4 functions (Chessel et al. 2004) to perform the factorial analysis of the data and some stats functions in R to perform cluster methods. Some new functions are programmed to make specific tasks and another old ones are modified. We describe the implementation of FactoClass in the Windows environment and illustrate its use with an example.

Time Series Data Reconstruction: An Application to the Hourly Demand of Electricity

Generalmente, la identificación y estimación de modelos ARIMA parten del supuesto de que las series que se van a analizar no contienen datos faltantes, ni observaciones atípicas, ni existen intervenciones en el período de estudio. Sin embargo, en la práctica, estos problemas pueden ocurrir simultáneamente, afectando la identificación del modelo adecuado y por tanto su capacidad de pronóstico. Este artículo presenta un procedimiento que permite estimar el efecto de las intervenciones, de las observaciones atípicas, estimar las observaciones faltantes y simultáneamente identificar el modelo ARIMA. El procedimiento se aplica a una serie de demanda horaria de electricidad en la cual ocurren los tres eventos mencionados.

Usually, in the identification and estimation of ARIMA models it is supposed that the series to analyze contain neither missing data, nor atypical observations, and interventions do not exist under study period. Nevertheless, in the practice, these problems can happen simultaneously, affecting the identification of the suitable model and therefore his forecasting capacity. This article presents a procedure that allows to estimate the effect of the interventions, of the atypical observations, to estimate the missing observations and simultaneously to identify the ARIMA model. The procedure is applied to a series of hourly electricity demand in which the three mentioned events happen.

Estimation of Missing Data in Repeated Measurements with Binary Response

Se propone una metodología para la estimación de datos faltantes en condiciones longitudinales con respuesta binaria, desde una perspectiva univariada, basada en máxima verosimilitud. Suponiendo que las respuestas son faltantes de forma aleatoria (FFA), en cada una de las ocasiones se emplea el algoritmo EM de dos formas distintas: en la primera, el paso E se expresa como una log-verosimilitud ponderada de la respuesta, condicionada a las anteriores ocasiones tomadas como covariables adicionales, con base en el método de Ibrahim (1990) para covariables categóricas faltantes, obteniendo de esta forma estimadores máximo verosímiles. En la segunda, en el paso E se realiza la estimación e imputación de datos faltantes basada en el método Ancova de Bartlett (1937). La metodología propuesta es aplicada en un caso de estudio relacionado con factores de riesgo coronario, presentado en Fitzmaurice et al. (1994).

A maximum likelihood method is proposed to provide estimates for models with binary response in longitudinal data based on an univariate model. Under a missing at random (MAR) mechanism, the EM algorithm is used in two different forms: in the first, the E step can be expressed as a weighted log-likelihood responses given the previous times, based in the method of weights proposed by Ibrahim (1990), for partially missing covariates. In the second, on the E step the estimation and imputation for missing data is based in Ancova method proposed by Bartlett (1937). Finally, we apply our method to the data from the Muscatine Coronary Risk Factor Study, employed in Fitzmaurice et al. (1994).

Central Limit Theorems for S-Gini and Theil Inequality Coefficients

The Hungarian Construction (Komlós et al. 1975) is used for getting a proof of asymptotic normality of S-Gini coefficient; this method is very interesting because it can be used to check asymptotic normality of other income inequality measures as Theil coefficient. Besides, explicit expressions of asymptotic means and variances are given for S-Gini and Theil estimators. Finally, to illustrate the performance of obtained results, we carry out a simulation study comparing the asymptotic and Smoothed Bootstrap approximations.

Se usa el Proceso Húngaro (Komlós et al. 1975) para derivar la normalidad asintótica del S-Gini; Este método es muy interesante ya que puede ser usado para demostrar la normalidad asintótica de otros coeficientes usados para medir la desigualdad de ingresos como el de Theil. Se consiguen expresiones explícitas para la media y la varianza del S-Gini y del coeficiente de Theil. Finalmente, se realiza un estudio de simulación, en el que se compara el rendimiento de la aproximación asintótica propuesta y del método Bootstrap Suavizado.

Comparison of Process Capability Indices under Autocorrelated Data

The process capability indices provide a measure of how a process fits within the specification limits. In calculating indices is usual to assume that the process data are independent. However, in industrial applications data are often autocorrelated. This paper deals with the indices Cp, Cpk, Cpm and Cpmk when data are autocorrelated. Variances for their estimators are derived and coverage probabilities of some confidence intervals are calculated.

Los índices de capacidad de un proceso suministran una información numérica acerca de cómo el proceso se ajusta a unos límites de especificación. En el cálculo de estos índices se asume que las observaciones son independientes; sin embargo, en aplicaciones industriales frecuentemente los datos están autocorrelacionados. Este artículo analiza los índices Cp, Cpk, Cpm y Cpmk cuando los datos presentan autocorrelación, se encuentran las varianzas para sus estimadores cuando los procesos son gaussianos y se calculan los porcentajes de cobertura para algunos intervalos de confianza.