Revista Colombiana de Estadística

About Joining Explanation Factor Levels in the Binary Logit Model

Se discute el efecto que se produce sobre el modelo logit binario con un único factor explicativo cuando el investigador decide agrupar algunos niveles de dicho factor. Con base en la parametrización de referencia y el modelo saturado se sugiere un procedimiento que, aprovechando los cómputos de un primer ajuste logit y corrigiendo el supuesto distribucional sobre la varianza, produce estimaciones más eficientemente y con mayor precisión que las que se producen si solo se decide reiterar un ajuste logit. Una vez colocado el tema en perspectiva, se desarrollan las ecuaciones que sustentan el procedimiento sugerido, apelando a la teoría asintótica. Se ilustra mediante un ejemplo la diferencia entre el procedimiento sugerido y el habitual y, con base en una extensa simulación, se muestran tendencias sólidas a favor del primero, en la medida en que las probabilidades de éxito de la variable respuesta (Y=1), asociadas con las categorías del factor explicativo incluidas en la agrupación, sean más disímiles entre sí.

We discuss the effect that is produced on the binary logit model with one explanatory factor, when the researcher decides to join some levels of the factor. Based on the reference parametrization and the saturated model a procedure is suggested, that takes advantage of the calculations of the first adjustment and corrects the distribucional supposition around the variance. As a result, it produces estimations more efficiently and with more precision, than those which take place if it is decided to repeat the usual logit fit. Once placed the topic in perspective, we develop the equations that support the suggested procedure, based on asymptotic theory. We illustrate with an example the difference between the suggested procedure and the usual one. By developing an extensive simulation, some solid trends appear in favour of the first one, especially when the probabilities of success of the response (Y=1), associated with the categories of the explanatory factor included in the group, are less similar each other.

Comparison between Two Dimensionality Reduction Methods in Time Series

En este trabajo se analizan dos métodos de reducción de dimensionalidad en series de tiempo multivariadas estacionarias: el método de Peña y Box, basado en el dominio del tiempo, y el método de Brillinger, basado en el dominio de las frecuencias. Se encontraron dos fallas en el método de Peña y Box, y se propusieron correcciones a estas. También se compararon los dos métodos con respecto a la capacidad para identificar el número de factores latentes mediante simulaciones y se realizó una aplicación empírica.

Two methods of dimensionality reduction of multivariate stationary time series are analyzed: Peña-Boxs methodology in the time domain and Brillingers methodology in the frequency domain. Two failures of Peña-Boxs methodology were found, and their corrections are given. Also the two methods are compared regarding to their capacities to identify the number of latent factors by simulations and an empirical application.

A Linear Mixed Model Adapted to a Markov Chain with Ordinal State Space. Application to Data about Grade Point Average (GPA)

En este artículo se estudia una metodología para estimar los efectos de las covariables usando un modelo lineal mixto con intercepto aleatorio y respuesta policótoma categórica ordinal, bajo distintas especificaciones distribucionales de dicho efecto aleatorio. Esta metodología constituye una extensión de la propuesta hecha por Salazar et al. (2007), en la medida que en este último trabajo se presentan resultados obtenidos con un modelo donde la respuesta es nominal. Específicamente, se considera una cadena de Markov de k+2 estados con dos estados absorbentes que compiten entre sí y k estados transitorios. Con este modelo se obtiene la función de verosimilitud de los datos. Luego, por medio de un estudio de simulación se evalúa el efecto sobre las estimaciones bajo distintas formas distribucionales para el efecto aleatorio. La maximización de la función de verosimilitud se lleva a cabo numéricamente utilizando el método de la cuadratura de Gauss en asocio con el algoritmo de Newton-Raphson. Finalmente, se ilustra la metodología usando datos sobre los promedios acumulados de estudiantes de la Universidad Nacional de Colombia, sede Medellín, recolectados entre 2005 y 2007.

In this paper we study methodology to estimate the effects of covariates using a linear mixed model with random intercept and polytomous ordinal categorical response, under different distributional specifications of this random intercept. This methodology represents an extension of the one proposed in Salazar et al. (2007), where it is presented results obtained using a model where the response is treated in a nominal scale. Specifically, it is considered a Markov chain with k+2 states with two absorbing and k transient states. The likelihood function for the data is derived. Under this model and using a simulation study we assess the effects on the estimates under different distributional specifications for the random intercept. The likelihood function is maximized using the Gauss quadrature method in conjunction with the Newton-Raphson algorithm. Finally, we ilustrated the methodology using data about the Grade Point Average (GPA) from students of the Universidad Nacional de Colombia, at Medellín, collected from 2005 to 2007.

An Application of Hierarchical Method of Mixtures for the Classification of the Venezuelan Counties using Socioeconomic Variables

En este trabajo se presenta una aplicación del método propuesto por Fraley & Raftery (2002) para la obtención de grupos de municipios de Venezuela a partir de un conjunto de variables socioeconómicas. Las variables consideradas miden aspectos del hogar de las familias que viven en los municipios, la ocupación de sus miembros, la educación, aspectos demográficos, entre otros. Como datos de entrada, se decidió tomar los primeros seis componentes principales de un análisis previo realizado a estos datos. Se obtuvieron nueve grupos diferenciados entre sí marcando, principalmente, diferencias en el estatus social, en el acceso a algunos servicios, y la calidad de vida en general.

In this work, we present an application of the method proposed by Fraley & Raftery (2002) to obtain groups of Venezuelan counties, using the information of socio-economic variables. The variables considered in the application includes some aspects related with the families that live in counties, such as occupation of its members, education, demographic aspects and others. For the analysis, we use the first six principal components taken from a previous analysis. A classification on nine groups was obtained, and the difference between these groups was influenced by the socioeconomic status, the access to some basic services and quality of life.

Comparison for three Classification Techniques

En este artículo se muestran los resultados de un estudio de comparación mediante simulación de tres técnicas de clasificación, regresión logística multinomial (MLR), análisis discriminante no métrico (NDA) y análisis discriminante lineal (LDA). El desempeño de las técnicas se midió usando la tasa de clasificación errónea. Se encontró que las técnicas MLR y LDA tuvieron un desempeño similar y muy superior a NDA cuando la distribución multivariada de las poblaciones es normal o logit-normal; en el caso de distribuciones multivariadas log-normal y Sinh-1-normal la técnica MLR tuvo mejor desempeño.

In this paper we show the results of a comparison simulation study for three classification techniques: Multinomial Logistic Regression (MLR), No Metric Discriminant Analysis (NDA) and Linear Discriminant Analysis (LDA). The measure used to compare the performance of the three techniques was the Error Classification Rate (ECR). We found that MLR and LDA techniques have similar performance and that they are better than DNA when the population multivariate distribution is Normal or Logit-Normal. For the case of log-normal and Sinh-1-normal multivariate distributions we found that MLR had the better performance.

Regression Models with Heteroscedasticity using Bayesian Approach

In this paper, we compare the performance of two statistical approaches for the analysis of data obtained from the social research area. In the first approach, we use normal models with joint regression modelling for the mean and for the variance heterogeneity. In the second approach, we use hierarchical models. In the first case, individual and social variables are included in the regression modelling for the mean and for the variance, as explanatory variables, while in the second case, the variance at level 1 of the hierarchical model depends on the individuals (age of the individuals), and in the level 2 of the hierarchical model, the variance is assumed to change according to socioeconomic stratum. Applying these methodologies, we analyze a Colombian tallness data set to find differences that can be explained by socioeconomic conditions. We also present some theoretical and empirical results concerning the two models. From this comparative study, we conclude that it is better to jointly modelling the mean and variance heterogeneity in all cases. We also observe that the convergence of the Gibbs sampling chain used in the Markov Chain Monte Carlo method for the jointly modeling the mean and variance heterogeneity is quickly achieved.

En este artículo, comparamos el desempeño de dos aproximaciones estadísticas para el análisis de datos obtenidos en el área de investigación social. En la primera, utilizamos modelos normales con modelación conjunta de media y de heterogeneidad de varianza. En la segunda, utilizamos modelos jerárquicos. En el primer caso, se incluyen variables del individuo y de su entorno social en los modelos de media y varianza, como variables explicativas, mientras que, en el segundo, la variación en nivel 1 del modelo jerárquico depende de los individuos (edad de los individuos). En el nivel 2 del modelo jerárquico, se asume que la variación depende del estrato socioeconómico. Aplicando estas metodologías, analizamos un conjunto de datos de talla de los colombianos, para encontrar diferencias que pueden explicarse por sus condiciones socioeconómicas. También presentamos resultados teóricos y empíricos relacionados con los dos modelos considerados. A partir de este estudio comparativo concluimos que, en todos los casos, es "mejor" la modelación conjunta de media y varianza. Además de una interpretación muy sencilla, observamos una rápida convergencia de las cadenas generadas con la metodología propuesta para el ajuste de estos modelos.

Teorema de Cramér-Chernoff para la norma L₁ del estimador núcleo para dos muestras independientes

In this paper a Chernoff type theorem for the L1 distance between kernel estimators from two independent and identically distributed random samples is developed. The harmonic mean is used to correct the distance for inequal sample sizes case. Moreover, the proved result is used to compute the Bahadur slope of a test based on L1 distance and to compare it with the classical nonparametric Mann-Whitney test by using the Bahadur relative efficiency.

En este trabajo se desarrolla un teorema de tipo Chernoff para la distancia L1 entre estimadores núcleo procedentes de muestras aleatorias independientes e idénticamente distribuidas. Se usa la media armónica para corregir esta distancia en el caso de muestras de distintos tamaños. Además, se usa el resultado demostrado para el cálculo de la pendiente de Bahadur de un test para la comparación de densidades basado en la distancia L1 y se compara con el clásico test de Mann-Whitney a partir de la eficiencia relativa de Bahadur.

Random or Deterministic Trend: A New Test Based on the Traditional Theory

En la literatura de series de tiempo se encuentran diferentes procedimientos para probar la hipótesis sobre el origen aleatorio o determinístico de la componente de tendencia de una serie. La mayoría de ellos se basan en establecer la existencia de una raíz unitaria ya sea en el polinomio autorregresivo o en el polinomio de medias móviles. El desarrollo de las pruebas para verificar estas hipótesis se basa fundamentalmente en el empleo de la teoría no estándar asociada a procesos de Wiener. Este artículo presenta una nueva prueba que hace uso de las funciones de autocorrelación (ACF) de los residuales de los modelos bajo la hipótesis nula H0:Zt=β0+Zt-1+a t, y bajo la hipótesis alterna H1:Zt=β0+β1t+a t. A partir de la teoría tradicional, con el supuesto que a t es un ruido blanco gaussiano, se obtiene por simulación la distribución nula del estadístico de prueba para muestras finitas y se deriva una aproximación asintótica. Para el caso en el cual a t es un proceso autocorrelacionado, se generaliza la prueba y se obtiene la distribución nula asintótica del estadístico de prueba. Los resultados muestran que la prueba asintótica tiene, en general, una potencia alta y mayor que la potencia de la prueba de Dickey y Fuller Aumentada (ADF), particularmente cuando una raíz del polinomio AR o MA está cerca de 1. La prueba asintótica propuesta también presenta menos distorsiones en el tamaño que la prueba ADF.

Several procedures to test the null hypothesis on the random or deterministic origin of the trend in a time series are found in the specialized literature. Most of these tests are based on the analysis of the unit roots of the autoregressive or moving average operators. The procedures are based on the nonstandard theory associated to a Wiener process. In this paper it is proposed a test that uses the autocorrelation function (ACF) of the residuals considering the null hypothesis H0:Zt=β0+Zt-1+a t, and the alternative hypothesis H1:Zt=β0+β1t+a t. The distribution of the test statistics for finite sample sizes and the asymptotic approximation are obtained using the usual theory, assuming that a t is a gaussian white noise. The procedure is generalized for the case where a t is a correlated white noise. The results obtained using simulation show that the proposed test has in general high power and specially when it is compared the well known Dicker-Fuller Augmented test (ADF), in the case when the roots of the autoregressive or moving average operators are close to one. The proposed procedure has also better approximation to the nominal test size when it is also compared with the ADF.