Revista Colombiana de Estadística

Hypothesis Test to Compare the Equality Among k-populations

Este trabajo estudia las ventajas y limitaciones de un test para contrastar la igualdad de las distribuciones de origen de k-muestras independientes. El estadístico propuesto, denominado LGk, está basado en una medida que generaliza la norma L1 entre funciones de densidad y que permite comparar simultáneamente k densidades. Desde esta medida y a partir de la estimación kernel, se desarrolla un test para contrastes de igualdad entre k poblaciones independientes (LGk). A partir de un "amplio" estudio de simulación, se estudia la potencia del test propuesto y se compara con algunos de los test no paramétricos ya existentes, considerando ocho estadísticos diferentes. También se analiza el tema de la elección del tamaño del parámetro ventana y se realizan algunas propuestas relativas a este problema.

In this paper we study a test to contrast the equality among the origen distributions of k-independent samples. The proposed statistic, denoted as LGk, is based in a measure which generalizes the L1-norm among density functions and it allows us to compare k-different densities. From this measure and the kernel density estimation, a k-sample test for independent populations is developed. We make a wide simulation study for the proposed test and we compare its power with other nonparametric k-sample test, by considering a total of eight different statistics. We also analyze the topic of the bandwidth selection and make the same proposals about this problem.

Introduction to Kernel PCA and other Spectral Methods Applied to Unsupervised Learning

En el presente trabajo, se introducen las técnicas de kernel ACP (KACP) y conglomeramiento espectral con algunos ejemplos ilustrativos. Se pretende estudiar los efectos de aplicar ACP como preproceso sobre las observaciones que se desean agrupar, para lo cual se hacen experimentos con datos reales. Entre las tareas adicionales que requieren estos procedimientos está la sintonización de parámetros (ajuste de valores); el alineamiento del kernel se presenta como alternativa de solución. La técnica de alineamiento del kernel presenta buenos resultados al contrastar las curvas de alineamiento con los índices de Rand obtenidos para los datos evaluados. Finalmente, el estudio muestra que el éxito de ACP depende del problema y que no se tiene un criterio general para decidir.

In this work, the techniques of Kernel Principal Component Analysis (Kernel PCA or KPCA) and Spectral Clustering are introduced along with some illustrative examples. This work focuses on studying the effects of applying PCA as a preprocessing stage for clustering data. Several tests are carried out on real data to establish the pertinence of including PCA. The use of these methods requires of additional procedures such as parameter tuning; the kernel alignment is presented as an alternative for it. The results of kernel alignment expose a high level of agreement between the tuning curves their respective Rand indexes. Finally, the study shows that the success of PCA is problem-dependent and no general criteria can be established.

Trend and Seasonality Assessment for Monthly Precipitation in Venezuela

En este artículo se analizan los datos de 113 estaciones de precipitación mensual disponibles para años recientes en Venezuela. Los datos provienen de la red de estaciones climáticas de la Corporación Venezolana de Guayana-Electrificación del Caroní (CVG-EDELCA), la Fuerza Aérea Venezolana (FAV) y el Ministerio del Ambiente y de los Recursos Naturales (MARN). Se hace un análisis de homogeneidad utilizando la prueba de Alexandersson (Alexandersson 1986) para determinar si existen estaciones con cambios importantes en la media de la serie que no forman parte de la variabilidad climática interanual. Se ajustan modelos lineales con componente de tendencia, estacionalidad y errores autorregresivos utilizando el método de mínimos cuadrados generalizados. Se comparan distintos modelos para determinar si el componente de tendencia debe o no debe ser incluido en el modelo así como la representación del componente estacional con uno o dos armónicos, para describir el comportamiento unimodal o bimodal de la precipitación a lo largo del año. Se utiliza el criterio de información bayesiana (CIB) para la selección de los modelos propuestos. Los valores de tendencia estimados y la significancia del componente de tendencia son representados espacialmente. Se encuentra que la zona norte costera y la mayor parte de la región andina presentan una tendencia negativa en la precipitación. Por el contrario, la zona sureste del estado Bolívar presenta una tendencia positiva. Sin embargo, el componente de tendencia no es significativo para la mayoría de las estaciones. Además, el patrón estacional está mejor representado por un modelo con dos armónicos, dadas las características estacionales de las estaciones analizadas.

This paper analyzes data from 113 Venezuelan monthly precipitation stations for recent years. The data come from the climatic network from the Venezuelan Guayana Coorporation- Caroni Electrification (CVG-EDELCA), the Venezuelan Air Force (FAV), and the Ministry of Environment and Natural Resources (MARN). An homogeneity test is carried out by using Alexanderssons test (Alexandersson 1986) to detect locations with important changes in the mean, which are not part of the natural climate variability. Linear models with a trend component, a seasonal component and autoregressive errors are fitted by using Generalized Least Squares. Different models are compared to determine whether the trend component should be included within the model, as well as the seasonal component with one or two harmonics, depending on whether the precipitation presents a single or two modes along the year. The Bayesian Information Criteria (BIC) is used for model selection. The estimated trend values and the significance of the trend component are spatially represented. It is found that in the northern coastal region and most of the Andean region precipitation trends are negative. On the contrary, southeast of Bolívar state presents a positive trend. However, the model trend component is not significant for most locations. Moreover, the seasonal pattern is best represented with a model with two harmonics, given the seasonal characteristics of the analyzed locations.

A New Test for the Fractional Differencing Parameter

Este documento presenta una nueva prueba para el parámetro de diferenciación fraccional de un modelo ARFIMA, basada en una aproximación autorregresiva de su componente a corto plazo. El comportamiento de la prueba se estudia por medio de experimentos Monte Carlo en una distribución normal, y se compara con el comportamiento de algunas de las pruebas más utilizadas. Para los casos estudiados, se concluye que la nueva prueba tiene generalmente potencias superiores, conservando un tamaño adecuado. A partir de la estimación del parámetro de diferenciación fraccional usando el modelo aproximado, es posible identificar el modelo correcto para la componente a corto plazo, lo cual permite mejorar la inferencia sobre dicho parámetro. Una ventaja adicional del procedimiento propuesto es que permite probar la existencia de larga memoria en presencia de errores dependientes, como en el caso de modelos de volatilidad de la familia ARCH. Se ilustra su aplicación en un procedimiento de identificación y estimación de un modelo ARFIMA--ARCH usando datos simulados.

This paper presents a new test for the fractional differencing parameter of an ARFIMA model, based on an autoregressive approximation of its short-range component. The tests behavior is studied using Monte Carlo simulations under a normal distribution and is compared to results found for others well--known long memory tests. In general, the results show that the new test has a superior power while maintaining an adequate size of the test. From the estimation of the fractional differencing parameter using the approximate model, it is possible to identify the correct model for the short--term component, which allows improving the inference on the above mentioned parameter. An additional advantage of the proposed procedure is the possibility of testing long memory in the presence of dependent errors such as in the volatility models of ARCH family. The identification and estimation procedure is applied to simulated data from an ARFIMA--ARCH model

Confidence Intervals for the Parameters of the Birnbaum-Saunders Distribution via Relative likelihood

La distribución Birnbaum-Saunders es importante como una distribución del tiempo de falla causada en elementos que están bajo cargas cíclicas. En este artículo se desarrollan estimaciones por intervalo para los diferentes parámetros de la distribución Birnbaum-Saunders vía verosimilitud relativa y se comparan con el procedimiento de estimación de máxima verosimilitud. También se ilustran las diferentes situaciones mediante la aplicación de dicha distribución en el análisis de un conjunto de datos apropiado. El método de simulación de Monte Carlo se utiliza para comparar el comportamiento de todos estos estimadores. Se evalúan tanto las probabilidades de cobertura de los Intervalos de Confianza (IC) como las longitudes de los mismos para diferentes tamaños muestrales

The Birnbaum-Saunders distribution is important as a failure time distribution to study fatigue failure caused under cyclic loading. In this work we developed interval estimators for the different parameters of the Birnbaum-Saunders distribution by means of the relative probability and we will compare them with other procedures using Monte Carlos method. The coverage probabilities of the confidence intervals as well as the lengths for different sizes samples are also evaluated.

Analysis of Covariance with Spatially Correlated Secondary Variables

Advances in precision agriculture allow researchers to capture data more frequently and in more detail. For example, it is typical to collect "on-the-go" data such as soil electrical conductivity readings. This creates the opportunity to use these measurements as covariates for the primary response variable to possibly increase experimental precision. Moreover, these measurements are also spatially referenced to one another, creating the need for methods in which spatial locations play an explicit role in the analysis of the data. Data sets which contain measurements on a spatially referenced response and covariate are analyzed using either cokriging or spatial analysis of covariance. While cokriging accounts for the correlation structure of the covariate, it is purely a predictive tool. Alternatively, spatial analysis of covariance allows for parameter estimation yet disregards the correlation structure of the covariate. A method is proposed which both accounts for the correlation in and between the response and covariate and allows for the estimation of model parameters; also, this method allows for analysis of covariance when the response and covariate are not colocated.

Los avances en agricultura de precisión permiten a los investigadores obtener datos con más frecuencia y en detalle. Por ejemplo, es común colectar "en el transcurso" datos como lecturas de electro-conductividad del suelo. Esto crea la oportunidad de usar estas medidas como covariables para incrementar la precisión experimental de la variable de respuesta. Aún más, estas medidas están espacialmente relacionadas entre sí, creando la necesidad de métodos en los cuales la ubicación espacial representa un papel explícito en el análisis de los datos. Se analizan conjuntos de datos que contienen variables de respuesta y covariables espacialmente relacionadas, usando el método cokriging o el análisis espacial de covarianza. Aunque el método cokriging usa la estructura de correlación de la covariable, es una herramienta puramente predictiva. Alternativamente, el análisis espacial de covarianza permite la estimación de parámetros pero sin tener en cuenta la estructura de correlación de la covariable. El presente artículo propone un método que tiene en cuenta la correlación en la covariable, así como la correlación entre la covariable y la variable de respuesta, permitiendo la estimación de los parámetros del modelo. De la misma manera, este método permite el análisis espacial de covarianza cuando la variable de respuesta y la covariable no están colocalizadas.

Methods of Estimation in Multiple Linear Regression: Application to Clinical Data

Nesse artigo, tem-se o interesse em avaliar diferentes estratégias de estimação de parâmetros para um modelo de regressão linear múltipla. Para a estimação dos parâmetros do modelo foram utilizados dados de um ensaio clínico em que o interesse foi verificar se o ensaio mecânico da propriedade de força máxima (EM-FM) está associada com a massa femoral, com o diâmetro femoral e com o grupo experimental de ratas ovariectomizadas da raça Rattus norvegicus albinus, variedade Wistar. Para a estimação dos parâmetros do modelo serão comparadas três metodologias: a metodologia clássica, baseada no método dos mínimos quadrados; a metodologia Bayesiana, baseada no teorema de Bayes; e o método Bootstrap, baseado em processos de reamostragem.

In this paper, we show different parameters estimation forms for multiple linear regression model. We used clinical data, where the interest was to verify the relationship among the mechanical assay maximum stress with femoral mass, femoral diameter and group of ovariectomized Wistar rats. We used three inference methods: Classic inference, based on the least square method; bayesian inference, based on the Bayes theorem; and bootstrap inference, based on resampling processes.

EWMA Chart Based on the Effective Variance for Monitoring the Variability of Multivariate Quality Control Process

Cuando se tiene interés en monitorear pequeños cambios en la variabilidad (o en la media) de un proceso, las cartas tipo EWMA han mostrado ser muy eficientes. Estas cartas, en el caso multivariado, tradicionalmente han utilizado la varianza generalizada como medida global de variabilidad, definida como el determinante de la matriz de varianzas y covarianzas. Peña & Rodríguez (2003) propusieron una medida global de variabilidad, llamada varianza efectiva, definida para p variables como la raíz p-ésima de la varianza generalizada, la cual, en algunos escenarios del análisis multivariado, ofrece algunas ventajas sobre la varianza generalizada. En este artículo se construye una carta EWMA utilizando la varianza efectiva.

When it is of interest monitoring small changes in the variability (and/or the mean) of a process, the EWMA control charts have shown to be very efficient. These charts, usually use the generalized variance as a measure of global variability, defined as the determinant of the variance covariance matrix. Peña & Rodríguez (2003) proposed a measure of overall variability, called effective variance, defined to p variates as the pth root of the generalized variance, which, in some scenarios of multivariate analysis, offers some advantages over the generalized variance. In this paper an EWMA control chart is constructed by using the effective variance.