Revista Colombiana de Estadística

Aplicación de medidas de linealidad del gráfico P-P al problema de dos muestras

We present a non-parametric statistic based on a linearity measure of the P-P plot for the two-sample problem by adapting a known statistic proposed for goodness of fit to a univariate parametric family. A Monte Carlo comparison is carried out to compare the method proposed with the classical Wilcoxon and Ansari-Bradley statistics and the Kolmogorov-Smirnov and Cramér-von Mises statistics the two-sample problem, showing that, for certain relevant alternatives, the proposed method offers advantages, in terms of power, over its classical counterparts. Theoretically, the consistency of the statistic proposed is studied and a Central Limit Theorem is established for its distribution.

Se presenta un estadástico no-paramétrico para el problema de dos muestras, basado en una medida de linealidad del gráfico P-P. El estadástico propuesto es la adaptación de una idea bien conocida en la literatura en el contexto de bondad de ajuste a una familia paramétrica. Se lleva a cabo una comparación Monte Carlo con los métodos clásicos de Wilcoxon y Ansari-Bradley, Kolmogorov-Smirnov y Cramér-von Mises para el probelam de dos muestras. Dicha comparación demuestra que el método propuesto ofrece una potencia superior frente a ciertas alternativas relevantes. Desde el punto de vista teórico, se estudia la consistencia del método propuesto y se establece un Teorema del Lámite Central para su distribución.

Análisis bayesiano para modelos con errores en las variables con punto de cambio

Changepoint regression models have originally been developed in connection with applications in quality control, where a change from the in-control to the out-of-control state has to be detected based on the available random observations. Up to now various changepoint models have been suggested for differents applications like reliability, econometrics or medicine. In many practical situations the covariate cannot be measured precisely and an alternative model are the errors in variable regression models. In this paper we study the regression model with errors in variables with changepoint from a Bayesian approach. From the simulation study we found that the proposed procedure produces estimates suitable for the changepoint and all other model parameters.

Los modelos de regresión con punto de cambio han sido originalmente desarrollados en el ámbito de control de calidad, donde, basados en un conjunto de observaciones aleatorias, es detectado un cambio de estado en un proceso que se encuentra controlado para un proceso fuera de control. Hasta ahora varios modelos de punto de cambio han sido sugeridos para diferentes aplicaciones en confiabilidad, econometría y medicina. En muchas situaciones prácticas la covariable no puede ser medida de manera precisa, y un modelo alternativo es el de regresión con errores en las variables. En este trabajo estudiamos el modelo de regresión con errores en las variables con punto de cambio desde un enfoque bayesiano. Del estudio de simulación se encontró que el procedimiento propuesto genera estimaciones adecuadas para el punto de cambio y todos los demás parámetros del modelo.

Una técnica alternativa de conteo de ítems en encuestas sensitivas

The present study is basically meant to propose an improved item count technique which will mainly have an impact on sensitive fields such as health care. It is attempted to highlight the scope of the proposal relative to the usual and existing methods serving the same purpose. The proposed improved Item Count Technique (ICT) has the major advantage that it does not require two subsamples (as is the case in usual ICT) and there is no need of finding optimum subsample sizes. The proposed ICT has been observed performing well, as compared to the usual ICT, in terms of relative efficiency. The innovative method of Randomized Response (RR) technique has also been compared with the proposed ICT and it is found that the proposed technique uniformly performs better when the number of innocuous items is greater than 3.

El presente articulo propone una técnica de conteo de items con aplicaciones principalmente en el campo de la salud. Se muestran las ventajas de nuestra propuesta y de otros métodos que sirven con el mismo fin. La técnica de conteo de ítems propuesta (ICT, por su sigla en inglés) tiene la ventaja de que no requiere dos submuestras (como es el caso en el ICT clásico) y no es necesario de encontrar los tamaños de las submuestras óptimos. El ICT propuesto tiene un mejor comportamiento en términos de eficiencia relativa. El método de la técnica de respuesta aleatorizada (RR, por su sigla en inglés) es también comparado con el ICT propuesto y se encuentra que la técnica propuesta se desempeña mejor cuando el número de ítems inocuos es mayor de 3.

Medición del grado alejamiento del modelo extendido cuasi simétrico para tablas de contingencia cuadradas

For square contingency tables with ordered categories, the present paper proposes a measure to represent the degree of departure from the extended quasi-symmetry (EQS) model. It is expressed by using the Cressie-Read power-divergence or Patil-Taillie diversity index. The present paper also defines the maximum departure from EQS which indicates the maximum departure from the uniformity of ratios of symmetric odds-ratios. The measure lies between 0 and 1, and it is useful for not only seeing the degree of departure from EQS in a table but also comparing it in several tables.

El presente artículo propone una medida para representar el grado de alejamiento del modelo extendido cuasisimétrico (EQS, por su sigla en inglés) para tablas de contingencia con categorías ordenadas. Esta medida se expresa mediante el uso de la divergencia de potencia de Cressie-Read o el índice de diversidad Patil-Taillie. Nuestro trabajo también define el máximo alejamiento de EQS, el cual indica el alejamiento máximo de la uniformidad de razones de odds-ratios simétricos. La medida cae entre 0 y 1 y es útil no solo para determinar el grado de alejamiento de EQS en una tabla, sino también para comparar este grado de alejamiento en varias tablas.

Estimación de confiabilidad en la resistencia al estrés de multicomponentes basado en la distribución exponencial generalizada

A multicomponent system of k components having strengths following k- independently and identically distributed random variables X1, X2,\ldots,Xk and each component experiencing a random stress Y is considered. The system is regarded as alive only if at least s out of k (sk) strengths exceed the stress. The reliability of such a system is obtained when strength and stress variates are given by generalized exponential distribution with different shape parameters. The reliability is estimated using ML method of estimation in samples drawn from strength and stress distributions. The reliability estimators are compared asymptotically. The small sample comparison of the reliability estimates is made through Monte Carlo simulation. Using real data sets we illustrate the procedure.

Se considera un sistema de k multicomponentes que tiene resistencias que se distribuyen como k variables aleatorias independientes e idénticamente distribuidas X1, X2,\ldots, Xk y cada componente experimenta un estrés aleatorio Y. El sistema se considera como vivo si y solo si por lo menos s de k (s < k) resistencias exceden el estrés. La confiabilidad de este sistema se obtiene cuando las resistencias y el estrés se distribuyen como una distribución exponencial generalizada con diferentes parámetros de forma. La confiabilidad es estimada usando el método ML de estimación en muestras extraídas tanto para distribuciones de resistencia como de estrés. Los estimadores de confiabilidad son comparados asintóticamente. La comparación para muestras pequeñas de los estimadores de confiabilidad se hace a través de simulaciones Monte Carlo. El procedimiento también se ilustra mediante una aplicación con datos reales.

Cuantificación de encuestas ordinales y pruebas de racionalidad: una aplicación con la encuesta mensual de expectativas económicas

Expectations and perceptions obtained in surveys play an important role in designing the monetary policy. In this paper we construct continuous variables from the qualitative responses of the Colombian Economic Expectation Survey (EES). This survey examines the perceptions and expectations on different economic variables. We use the methods of quantification known as balance statistics, the Carlson-Parkin method, and a proposal developed by the Analysis Quantitative Regional (AQR) group of the University of Barcelona. Then, we later prove the predictive ability of these methods and reveal that the best method to use is the AQR. Once the quantification is made, we confirm the rationality of the expectations by testing four key hypotheses: unbiasedness, no autocorrelation, efficiency and orthogonality.

En este artículo se cuantifican las respuestas cualitativas de la \textquotedblleft Encuesta Mensual de Expectativas Económicas (EMEE)\textquotedblright a través de métodos de conversión tradicionales como la estadística del balance de Batchelor, el método probabilístico propuesto por Carlson-Parkin (CP) y la propuesta del grupo de Análisis Cuantitativo Regional (ACR) de la Universidad de Barcelona. Para las respuestas analizadas de esta encuesta se encontró que el método ACR registra el mejor desempeño teniendo en cuenta su mejor capacidad predictiva. Estas cuantificaciones son posteriormente utilizadas en pruebas de racionalidad de expectativas que requieren la verificación de cuatro hipótesis fundamentales: insesgamiento, correlación serial, eficiencia y ortogonalidad.

Patrones del IGBC y valor en riesgo: evaluación del desempeño de diferentes metodologías para datos intra-día

This paper evaluates the performance of 16 different parametric, non-parametric and one semi-parametric specifications to calculate the Value at Risk (VaR) for the Colombian Exchange Market Index (IGBC). Using high frequency data (10-minute returns), we model the variance of the returns using GARCH and TGARCH models, that take in account the leverage effect, the day-of-the-week effect, and the hour-of-the-day effect. We estimate those models under two assumptions regarding returns behavior: Normal distribution and t distribution. This exercise is performed using two different ten-minute intraday samples: 2006-2007 and 2008-2009. For the first sample, we found that the best model is a TGARCH(1,1) without day-of the week or hour-of-the-day effects. For the 2008-2009 sample, we found that the model with the correct conditional VaR coverage would be the GARCH(1,1) with the day-of-the-week effect, and the hour-of-the-day effect. Both methods perform better under the t distribution assumption.

El documento evalúa el desempeño de 16 métodos paramétricos, uno no paramétrico y uno semiparamétrico, para estimar el VaR (Valor en Riesgo) de un portafolio conformado por el Índice General de la Bolsa de Valores de Colombia (IGBC). El ejercicio se realiza analizando dos muestras de datos intra-día con una periodicidad de 10 minutos para los períodos 2006-2007 y 2008-2009. Los modelos paramétricos evaluados consideran la presencia o no de patrones de comportamiento, tales como: el efecto "Leverage", el efecto día de la semana, el efecto hora y el efecto día-hora. Nuestros resultados muestran que para la primera muestra el mejor modelo es un TGARCH(1,1) sin el efecto día de la semana ni la hora del día y bajo el supuesto de una distribución t. Para la segunda muestra, 2008-2009, el método que presenta el mejor comportamiento corresponde al modelo GARCH(1,1), que tiene en cuenta el efecto del día y la hora. Estos dos modelos presentan una correcta cobertura condicional y menor función de pérdida.

El modelo logístico multinomial para el caso en que la variable de respuesta puede asumir uno de tres niveles y modelos relacionados

The aim of this work is to examine multinomial logistic models when the response variable can assume three levels, generalizing a previous work of logistic models with binary response variables. We also describe some related models: The null, complete, and saturated models. For each model, we present and prove some theorems concerning to the estimation of the corresponding parameters with details that we could not find in the current literature.

El objetivo de este trabajo es examinar los modelos de regresión logística multinomial cuando la variable de respuesta puede asumir tres niveles, generalizando un trabajo anterior con variables respuesta binarias. También describimos algunos modelos relacionados: los modelos nulo, completo y saturado. Para cada modelo, presentamos y demostramos teoremas relacionados con la estimación de los parámetros correspondientes con detalles que no fueron posibles encontrar en la literatura.

La agregación de niveles en un factor explicativo del modelo logit binomial: generalización al caso multifactorial no saturado

We discuss a situation in which, once a logit model is fitted to the data in a contingency table, some factor levels are grouped. Generally, researchers reapply a logit model on the pooled data, however, this approach leads to the violation of the original distributional assumption, when the probabilities of success of the random variables of aggregation differ. In this paper we suggest an alternative procedure that operates under the unsaturated, multifactorial, binomial, logit model. Based on asymptotic theory and taking advantage of the decrease in the variance when the correct distributional assumption is made, the suggested procedure significantly improves the estimates, reduces the standard error, produces lower residuals and is less likely to reject the goodness of fit test on the model. We present the necessary theory, the results of an extensive simulation designed for this purpose, and the suggested procedure contrasted with the usual approach, through a complete numerical example.

Se discute la situación en la que, una vez ajustado un modelo logit a los datos contenidos en una tabla de contingencia, se selecciona un factor cualquiera de los participantes y se agregan algunos de sus niveles. Generalmente los investigadores proceden a postular nuevamente un modelo logit sobre los datos agrupados, sin embargo, este proceder conduce a la violación del supuesto distribucional original, cuando las probabilidades de éxito de las variables aleatorias de la agregación, son disímiles. En este trabajo se sugiere un procedimiento alternativo que opera en el marco del modelo logit binomial no saturado, multifactorial. Con base en la teoría asintótica y aprovechando la disminución en la varianza cuando se postula el modelo distribucional correcto, el procedimiento sugerido mejora apreciablemente las estimaciones, reduce el error estándar, produce valores residuales más cercanos al cero y menores probabilidades de rechazo en la prueba de bondad del ajuste del modelo. Sustentan tales afirmaciones tanto los desarrollos teóricos necesarios, como los resultados de una extensa simulación diseñada al efecto. También se expone el procedimiento sugerido contrastado con el habitual, mediante un ejemplo numérico completo.

Estimación de los coeficientes de un modelo de coeficientes dinámicos y aleatorios a través de funciones radiales kernel

A methodology to estimate a time-varying coefficient model through a linear combination of radial kernel functions which are centered around all the measuring times, or their quantiles is developed. The linear combination is weighted by a bandwidth that may change or not among coefficients. The proposed methodology is compared with the local polynomial kernel methods by means of a simulation study. The proposed methodology shows a better behavior in a high proportion of times in all cases, or at least it has a similar behavior in relation with the estimation through local polynomial kernel regression, that in a low rate of times has a better behavior in relation with the average mean square error. In order to illustrate the methodology the data set ACTG 315 related with an AIDS study is taken into account. The dynamic relationship between the viral load and the CD4+ cell counts is investigated.

Se propone una metodología para estimar los coeficientes de un modelo de coeficientes dinámicos y aleatorios a través de una combinación lineal de funciones radiales kernel centradas en los diferentes puntos de medición, o en cuantiles de éstos, escalada por un ancho de banda que puede cambiar de coeficiente a coeficiente. En un estudio de simulación se compara la metodología propuesta con la estimación mediante los métodos de polinomios locales kernel, obteniéndose que la nueva metodología propuesta es la mejor opción en un alto porcentaje de veces para todos los escenarios simulados, o por lo menos se desempeña similarmente a la estimación a través de la regresión de polinomios locales kernel, que pocas veces se desempeña mejor que la estimación mediante funciones radiales kernel, en relación al error cuadrático medio promedio. Para ilustrar la estrategia de estimación propuesta se considera el conjunto de datos ACTG 315 asociado con un estudio del SIDA, en el que se modela dinámicamente la relación entre la carga viral y el conteo de células CD4+.