Revista Colombiana de Estadística

Estimación de verosimilitud perfil de los parámetros de vulnerabilidad P(X\textgreater v) y proporción de mezcla p en el modelo Gumbel de mezclas

This paper concerns to the problem of making inferences about the vulnerability θ=P(X\textgreater v) and the mixing proportion p parameters, when the random variable X is distributed as a mixture of two Gumbel distributions and v is a known fixed value. A profile likelihood approach is proposed for the estimation of these parameters. This approach is a powerful though simple method for separately estimating a parameter of interest in the presence of unknown nuisance parameters. Inferences about θ, p or \left(θ,p\right) are given in terms of profile likelihood regions and can be easily obtained on a computer. This methodology is illustrated through a real problem where the main purpose is to model the size of non-metallic inclusions in steel.

En este artículo consideramos el problema de hacer inferencias sobre el parámetro de vulnerabilidad θ=P(X\textgreater v) y la proporción de mezcla p cuando X es una variable aleatoria cuya distribución es una mezcla de dos distribuciones Gumbel y v es un valor fijo y conocido. Se propone el enfoque de verosimilitud perfil para estimar estos parámetros, el cual es un método simple, pero poderoso, para estimar por separado un parámetro de interés en presencia de parámetros de estorbo desconocidos. Las inferencias sobre θ, p o \left(θ,p\right) se presentan por medio de regiones de verosimilitud perfil y se pueden obtener fácilmente en una computadora. Esta metodología se ilustra mediante un problema real donde se modela el tamaño de inclusiones no metálicas en el acero.

Distribución de una combinación lineal de dos variables chi-cuadrado correlacionadas

The distribution of the linear combination of two chi-square variables is known if the variables are independent. In this paper, we derive the distribution of positive linear combination of two chi-square variables when they are correlated through a bivariate chi-square distribution. Some properties of the distribution, namely, the characteristic function, cumulative distribution function, raw moments, mean centered moments, coefficients of skewness and kurtosis are derived. Results match with the independent case when the variables are uncorrelated. The graph of the density function is presented.

La distribución de una combinación lineal de dos variables chi cuadrado es conocida si las variables son independientes. En este artículo, se deriva la distribución de una combinación lineal positiva de dos variables chi cuadrado cuando estas están correlacionadas a través de una distribución chi cuadrado bivariada. Algunas propiedades de esta distribución como la función característica, la función de distribución acumulada, sus momentos, momentos centrados alrededor de la media, los coeficientes de sesgo y curtosis son derivados. Los resultados coinciden con el caso independiente cuando las variables son no correlacionadas. La gráfica de la función de densidad es también presentada.

Tests de Portmanteau generalizados basados en métodos de subespacios

The problem of diagnostic checking is tackled from the perspective of the subspace methods. Two statistics are presented and their asymptotic distributions are derived under the null hypothesis. The procedures are devised to deal with univariate and multivariate processes, are flexible and able to separately check regular and seasonal correlations. The performance in finite samples of the proposals is illustrated via Monte Carlo simulations and two examples with real data.

Este artículo trata el problema de la diagnosis residual desde la perspectiva de los métodos de subespacios. Se presentan dos estadísticos y sus distribuciones asintóticas bajo la hipótesis nula. Ambos estadísticos pueden usarse con procesos univariantes o multivariantes, son flexibles y permiten contrastar separadamente las correlaciones regulares y estacionales. El comportamiento en muestras finitas de las dos propuestas se ilustra mediante simulaciones de Monte Carlo y dos ejemplos con datos reales.

Prueba de igualdad de varias matrices de correlación

In this article we show that the Kullbacks statistic for testing equality of several correlation matrices may be considered a modified likelihood ratio statistic when sampling from multivariate normal populations. We derive the asymptotic null distribution of L* in series involving independent chi-square variables by expanding L* in terms of other random variables and then inverting the expansion term by term. An example is also given to exhibit the procedure to be used when testing the equality of correlation matrices using the statistic L\ast.

En este artículo se muestra que el estadístico L* de Kullback, para probar la igualdad de varias matrices de correlación, puede ser considerado como un estadístico modificado del test de razón de verosimilitud cuando se muestrean poblaciones normales multivariadas. Derivamos la distribución asintótica nula de L* en series que involucran variables independientes chi-cuadrado, mediante la expansión de L* en términos de otras variables aleatorias y luego invertir la expansión término a término. Se da también un ejemplo para mostrar el procedimiento a ser usado cuando se prueba igualdad de matrices de correlación mediante el estadístico L*.

Estimación de lascomponentes de varianza en modelos lineales mixtos con estructura de bloques ortogonal conmutativa

Segregation and matching are techniques to estimate variance components in mixed models. A question arising is whether segregation can be applied in situations where matching does not apply. Our motivation for this research relies on the fact that we want an answer to that question and to explore this important class of models that can contribute to the development of mixed models. That is possible using the algebraic structure of mixed models. We present two examples showing that segregation can be applied in situations where matching does not apply.

La segregación y el emparejamiento son técnicas para estimar las componentes de varianza en modelos mixtos. Una pregunta que ha surgido es si la segregación puede ser aplicada en situaciones en las que el emparejamiento no es aplicable. Nuestra motivación para esta investigación se basa en el hecho de que se quiere una respuesta a esta pregunta y se quiere explorar esta importante clase de modelos con el fin de contribuir al desarrollo de los modelos mixtos. Esto es posible utilizando la estructura algebraica de los modelos mixtos con estructura de bloques ortogonal conmutativa. Se presentan dos ejemplos que muestran que la segregación puede ser aplicada en situaciones donde el emparejamiento no es aplicable.

Detección de observaciones influenciales en modelos de regresión semiparamétricos

In this article, we consider the semiparametric regression model and examine influential observations which have undue effects on the estimators for this model. One of the approaches to measure the influence of an individual observation is to delete the observation from the data. The most common measure based on this approach is Cooks distance. Recently, Daniel Peña introduced a new measure based on this approach. Penas measure is able to detect high leverage outliers, which could be undetected by Cooks distance, in large data sets in linear regression model. The Cooks distances for parameter vector, unknown smooth function and response variable in semiparametric regression model are expressed by authors as functions of the residuals and leverages. Following the study of them we derive a type of Penas measure as functions of the residuals and leverages for the same model. We compare the performance of these measures as to detection of influential observations using real data, artificial data and simulation. The results show that the performance of Penas measure is better than Cooks distance to detect high leverage outliers in large data sets in the semiparametric regression model such as in the linear regression model.

En este artículo, se consideran modelos de regresión semiparamétrica y se examinan observaciones influenciales que pueden tener efectos sobre los estimadores para este modelo. Una de las formas de medir la influencia de una observación individual es borrando la observación en el conjunto de datos. La medida más común bajo esta idea es la distancia de Cook. Recientemente, Daniel Peña introdujo una nueva medida basada en estas ideas. Las distancias de Cook para el vector de parámetros, la función de suavizamiento y la variable respuesta en modelos de regresión semiparamétrica han sido expresadas por otros autores como funciones de los residuales y los puntos de apalancamiento. Se deriva en este artículo, una medida del tipo de la de Peña como función de los residuales y puntos de apalancamiento para el mismo modelo. Se compara el desempeño de estas medidas para la detección de observaciones influenciales usando datos reales y bajo simulación. Los resultados muestran que la medida de Peña es mejor que la distancia de Cook para detectar outliers y puntos de apalancamiento en conjuntos de datos grandes en los modelos de regresión semiparamétrica tales como el modelo de regresión lineal.

Modelo bimodal censurado simétrico-asimétrico alpha-potencia

We introduce the censored bimodal symmetric-asymmetric alpha-power models to adjust censored data with bimodality and high levels of skewness and kurtosis. The moments corresponding are computed, the maximum likelihood estimation for the model parameters is considered and the observed information matrix is derived. We show the appropriateness of the proposed models through two applications with censored real data related to HIV-1 RNA measurement.

Se introducen los modelos potencia alfa simétricos asimétricos bimodales censurados con el fin de ajustar datos censurados con bimodalidad y altos niveles de sesgo y curtosis. Los momentos correspondientes son calculados, se considera la estimación máximo verosímil para los parámetros del modelo y se deriva la matriz de información observada. Se muestra la utilidad de los modelos propuestos a través de dos aplicaciones con datos censurados reales relacionados con la medición de HIV-1 RNA.

Técnica de conteo de items bayesiana mejorada usando diferentes distribuciones a priori

Item Count Technique (ICT) serves the purpose of estimating the proportion of the people with stigmatizing attributes using the indirect questioning method. An improved ICT has been recently proposed in the literature (not requiring two subsamples and hence free from finding optimum subsample sizes unlike the usual ICT) in a classical framework that performs better than the usual ICT and the Warner method of Randomized Response (RR) technique. This study extends the scope of this recently proposed ICT in a Bayesian framework using different priors in order to derive posterior distributions, posterior means and posterior variances. The posterior means and variances are compared in order to study which prior is more helpful in updating the item count technique. Moreover, we have compared the Proposed Bayesian estimation with Maximum Likelihood (ML) estimation. We have observed that simple and elicited Beta priors are superior choices (in terms of minimum variance), depending on the sample size, number of items and the sum of responses. Also, the Bayesian estimation provides relatively more precise estimators than the ML Estimation.

La técnica de conteo de ítems (ICT, por sus siglas en inglés) es útil para estimar la proporción de personas que poseen atributos que pueden tener algún grado de estigmatización mediante el uso de un método de preguntas indirectas. Una ICT mejorada ha sido propuesta recientemente en la literatura bajo la inferencia clásica (la cual no requiere dos submuestras y libre de la necesidad de encontrartamaños de muestra óptimos para cada una de ellas como sucede en la ICT usual). Esta ICT mejorada se desempeña mejor que la ICT usual y que el método de Respuesta Aleatorizada (RR, por sus siglas en inglés) de Warner. Este artículo extiende su estudio bajo una visión Bayesiana usando diferentes a priori con el fin de derivar distribuciones, medias y varianzas a posteriori.Las medias y varianzas a posteriori son comparadas con el fin de estudiar cuál a priori es más útil en mejorar la técnica de conteo de ítems. Se observa que a priori simples y Beta elicitadas son las mejores escogencias (en términos dela varianza mínima) dependiendo del tamaño de muestra, el número de ítems y la suma de la respuesta. También, la estimación bayesiana proporciona estimadores relativamente más precisas que la estimación ML.

Inferencia Bayesiana para la distribución Gamma de dos parámetros asumiendo diferentes a prioris no informativas

In this paper distinct prior distributions are derived in a Bayesian inference of the two-parameters Gamma distribution. Noniformative priors, such as Jeffreys, reference, MDIP, Tibshirani and an innovative prior based on the copula approach are investigated. We show that the maximal data information prior provides in an improper posterior density and that the different choices of the parameter of interest lead to different reference priors in this case. Based on the simulated data sets, the Bayesian estimates and credible intervals for the unknown parameters are computed and the performance of the prior distributions are evaluated. The Bayesian analysis is conducted using the Markov Chain Monte Carlo (MCMC) methods to generate samples from the posterior distributions under the above priors.

En este artículo diferentes distribuciones a priori son derivadas en una inferencia Bayesiana de la distribución Gamma de dos parámetros. A prioris no informativas tales como las de Jeffrey, de referencia, MDIP, Tibshirani y una priori innovativa basada en la alternativa por cópulas son investigadas. Se muestra que una a priori de información de datos maximales conlleva a una a posteriori impropia y que las diferentes escogencias del parámetro de interés permiten diferentes a prioris de referencia en este caso. Datos simulados permiten calcular las estimaciones Bayesianas e intervalos de credibilidad para los parámetros desconocidos así como la evaluación del desempeño de las distribuciones a priori evaluadas. El análisis Bayesiano se desarrolla usando métodos MCMC (Markov Chain Monte Carlo) para generar las muestras de la distribución a posteriori bajo las a priori consideradas.

Inferencia para la distribución Weibull basada endatos difusos

Classical estimation procedures for the parameters of Weibull distribution are based on precise data. It is usually assumed that observed data are precise real numbers. However, some collected data might be imprecise and are represented in the form of fuzzy numbers. Thus, it is necessary to generalize classical statistical estimation methods for real numbers to fuzzy numbers. In this paper, different methods of estimation are discussed for the parameters of Weibull distribution when the available data are in the form of fuzzy numbers. They include the maximum likelihood estimation, Bayesian estimation and method of moments. The estimation procedures are discussed in details and compared via Monte Carlo simulations in terms of their average biases and mean squared errors. Finally, a real data set taken from a light emitting diodes manufacturing process is investigated to illustrate the applicability of the proposed methods.

Los procedimientos clásicos de estimación para los parámetros de la distribución Weibull se encuentran basados en datos precisos. Se asume usualmente que los datos observados son números reales precisos. Sin embargo, algunos datos recolectados podrían ser imprecisos y ser representados en la forma de números difusos. Por lo tanto, es necesario generalizar los métodos de estimación estadísticos clásicos de números reales a números difusos. En este artículo, diferentes métodos de estimación son discutidos para los parámetros de la distribución Weibull cuando los datos disponibles están en la forma de números difusos. Estos incluyen la estimación por máxima verosimilitud, la estimación Bayesiana y el método de momentos. Los procedimientos de estimación se discuten en detalle y se comparan vía simulaciones de Monte Carlo en términos de sesgos promedios y errores cuadráticos medios.