Revista Colombiana de Estadística

Evaluación de diferentes medidas de asociación

In this article our objective is to evaluate the performance of different measures of associations for hypothesis testing purposes. We have considered different measures of association (including some commonly used) in this study, one of which is parametric and others are non-parametric including three proposed modifications. Performance of these tests are compared under different symmetric, skewed and contaminated probability distributions that include Normal, Cauchy, Uniform, Laplace, Lognormal, Exponential, Weibull, Gamma, t, Chi-square, Half Normal, Mixed Weibull and Mixed Normal. Performances of these tests are measured in terms of power. We have suggested appropriate tests which may perform better under different situations based on their efficiency grading(s). It is expected that researchers will find these results useful in decision making.

En este articulo el objetivo es evaluar el desempeño de diferentes medidas de asociación para pruebas de hipótesis. Se consideran diferentes medidas, algunas paramétricas y otras no paramétricas, así como tres modificaciones propuestas por los autores. El desempeño de estas pruebas se evalúa considerando distribuciones simétricas, sesgadas y contaminadas incluyendo la distribución normal, Cauchy, uniforme, Laplace, lognormal, exponencial, Weibull, Gamma, t, Chi-cuadrado, medio normal, Weibull mezclada y normal mezclada. El desempeño se evalúa en términos de la potencia de los tests. Se sugieren tests apropiados que tienen un mejor desempeño bajo diferentes niveles de eficiencia. Se espera que los investigadores encuentren estos resultados útiles en la toma de decisiones.

Una nueva extensión de la distribución exponencial

The present paper considers an extension of the exponential distribution based on mixtures of positive distributions. We study the main properties of this new distribution, with special emphasis on its moments, moment generator function and some characteristics related to reliability studies. We also discuss parameter estimation considering the maximum likelihood and moments approach. An application reveals that the model proposed can be very useful in fitting real data. A final discussion concludes the paper.

En el presente paper se considera una extensión de la distribución exponencial basada en mezclas de distribuciones positivas. Estudiamos las principales propiedades de esta nueva distribución, con especial énfasis en sus momentos, función generadora de momentos, y algunas características relacionadas a estudios de confiabilidad. También se analiza la estimación de parámetros a través de los métodos de momentos y de máxima verosimilitud. Una aplicación muestra que el modelo propuesto puede ser muy útil para ajustar datos reales. Una discusión final concluye el artículo.

Orden de la razón de verosimilitud discreta para la distribución de series de potencias

It is well-known that some discrete distributions belong to the power series distribution (PSD) family, so it seems useful to study conditions to establish the discrete likelihood ratio order for this family. In this paper, conditions to some cases of PSD family under which the discrete likelihood ratio order we have looked at the holds. Also, we study the discrete version of the proportional likelihood ratio as an extension of the likelihood ratio order. Then we compare some members of the PSD family by discrete proportional likelihood ratio order.

Es bien conocido en la literatura que algunas distribuciones discretas pertenecen a la familia de distribuciones de series de potencias (PSD, power series distributions por sus siglas en inglés). Por lo tanto, es útil estudiar algunas condiciones para establecer el orden de la razón de verosimilitud para esta familia. En este artículo, se estudian las condiciones para algunos casos de la familia PSD bajo las cuales se mantiene el orden de la razón de verosimilitud. Otros autores han introducido y estudiado el orden de la razón de verosimilitud proporcional como una extensión del orden de razón de verosimilitud para variables aleatorias continuas. Aquí, se presenta el orden de razón de verosimilitud proporcional para variables aleatorias discretas y se estudian para la familia PSD.

El estadístico de Cramér-Von Mises para medidas repetidas

The Cramér-von Mises criterion is employed to compare whether the marginal distribution functions of a k-dimensional random variable are equal or not. The well-known Donsker invariance principle and the Karhunen-Loéve expansion is used in order to derive its asymptotic distribution. Two different resampling plans (one based on permutations and the other one based on the general bootstrap algorithm, gBA) are also considered to approximate its distribution. The practical behaviour of the proposed test is studied from a Monte Carlo simulation study. The statistical power of the test based on the Cramér-von Mises criterion is competitive when the underlying distributions are different in location and is clearly better than the Friedman one when the sole difference among the involved distributions is the spread or the shape. Both resampling plans lead to similar results although the gBA avoids the usual required interchangeability assumption. Finally, the method is applied on the study of the evolution inequality incomes distribution between some European countries along the years 2000 and 2011.

El criterio de Cramér-von Mises es empleado para comparar la igualdad entre las distribuciones marginales de una variable aleatoria k-dimensional. El conocido principio de invaranza de Donsker y la expansión de Karhunen-Loéve se usan para derivar su distribución asintótica. Dos planes de remuestreo diferentes (uno basado en permutaciones y el otro basado en el algoritmo bootstrap general, gBA) son usados para aproximar su distribución. El comportamiento práctico del test propuesto es estudiado mediante simulaciones de Monte Carlo. La potencia estadística del test basado en el criterio de Cramér-von Mises es competitiva cuando la distribuciones subyacentes difieren en el parámetro de localización. Este test es claramente superior al de Friedman cuando las únicas diferencias son en la dispersión o la forma. Ambos planes de remuestreo obtienen resultados similares aunque el gBA evita la hipótesis de intercambiabilidad. Finalmente, el método propuesto es aplicado al estudio de la evolución de las desigualdades en los ingresos entre algunos países Europeos entre los años 2000 y 2011.

Una nuevo método para la detección de valores p significativos y su aplicación a datos genéticos

A new method for detecting significant p-values is described in this paper. This method, based on the distribution of the m-th order statistic of a U(0,1) distribution, is shown to be suitable in applications where m→∞ independent hypothesis are tested and it is of interest for a fixed type I error probability to determine those being significant while controlling the false positives. Equivalencies and comparisons between our method and others methods based-on p-values are also established, and a graphical representation of the distribution of the test statistic is depicted for different values of m. Finally, our proposal is illustrated with two microarray data sets.

Se describe una nuevo método para la detección de valores p significativos. Este método, basado en el m-ésimo estadístico de orden de la distribución U(0,1), es adecuado en casos en los que se realizan m→∞ pruebas de hipótesis independientes y es de interés determinar aquellas que son significativas, controlando los falsos positivos, para una probabilidad de error tipo I predeterminada. Adicionalmente, se realiza una comparación con algunas pruebas clásicas y se grafica la distribución del estadístico de prueba para diferentes valores de m. Finalmente se ilustra el uso de la metodología con dos conjuntos de datos provenientes de estudios con microarreglos.

Tres medidas de similitud entre conjuntos de datosunidimensionales

Based on an interval distance, three functions are given in order to quantify similarities between one-dimensional data sets by using first-order statistics. The Glass Identification Database is used to illustrate how to analyse a data set prior to its classification and/or to exclude dimensions. Furthermore, a non-parametric hypothesis test is designed to show how these similarity measures, based on random samples from two populations, can be used to decide whether these populations are identical. Two comparative analyses are also carried out with a parametric test and a non-parametric test. This new non-parametric test performs reasonably well in comparison with classic tests.

Basadas en una distancia intervalar, se dan tres funciones para cuantificar similaridades entre conjuntos de datos unidimensionales mediante el uso de estadísticos de primer orden. Se usa la base de datos Glass Identification para ilustrar cómo esas medidas de similaridad se pueden usar para analizar un conjunto de datos antes de su clasificación y/o para excluir dimensiones. Además, se diseña un test de hipótesis no parámetrico para mostrar cómo similaridad, basadas en muestras aleatorias de dos poblaciones, se pueden usar para decidir si esas poblaciones son idénticas. También se realizan dos análisis comparativos con un test paramétrico y un test no paramétrico. Este nuevo test se comporta razonablemente bien en comparación con test clásicos.

Diseños D-óptimos locales con heterocedasticidad: una comparación entre dos metodologías

The classic theory of optimal experimental designs assumes that the errors of the model are independent and have a normal distribution with constant variance. However, the assumption of homogeneity of variance is not always satisfied. For example when the variability of the response is a function of the mean, it is probably that a heterogeneity model be more adequate than a homogeneous one. To solve this problem there are two methods: The first one consists of incorporating a function which models the error variance in the model, the second one is to apply some of the Box-Cox transformations to both sides on the nonlinear regression model to achieve a homoscedastic model (R.J. Carroll & D. Ruppert 1988, Chapter 4). In both cases it is possible to find the optimal design but the problem becomes more complex because it is necessary to find an expression for the Fisher information matrix of the model. In this paper we present the two mentioned methodologies for the D-optimality criteria and we show a result which is useful to find D-optimal designs for heteroscedastic models when the variance of the response is a function of the mean. Then we apply both methods with an example, where the model is nonlinear and the variance is not constant. Finally we find the D-optimal designs with each methodology, calculate the efficiencies and evaluate the goodness of fit of the obtained designs via simulations.

La teoría clásica de los diseños experimentales óptimos supone que los errores del modelo son independientes y tienen una distribución normal con varianza constante. Sin embargo, el supuesto de homogeneidad de varianza no siempre se satisface. Por ejemplo, cuando la variabilidad de la respuesta es una función de la media, es probable que un modelo heterocedástico sea más adecuado que uno homogéneo. Para solucionar este problema hay dos métodos: el primero consiste en incorporar una función que modele la varianza del error en el modelo; el segundo consiste en aplicar alguna de las transformaciones de Box-Cox en el modelo de regresión no lineal (R.J. Carroll & D. Ruppert 1988, Capítulo 4). En ambos casos es posible hallar el diseño óptimo, pero el problema se vuelve más complejo porque es necesario encontrar una expresión de la matriz de información de Fisher del modelo. En este artículo se presentan las dos metodologías mencionadas para el criterio D-optimalidad y se muestra un resultado que es útil para encontrar diseños D-óptimos para modelos heterocedásticos cuando la varianza de la respuesta es una función de la media. Luego, se aplican ambos métodos en un ejemplo donde el modelo es no lineal y la varianza no constante. Finalmente se encuentra el diseño D-óptimo con cada metodología, se calculan las eficiencias y se evalúa la bondad del ajuste de los diseños obtenidos a través de simulaciones.

Un método iterativo para el ajuste de curvas basado en la optimización en una variable y su aplicación al caso lineal en una variable independiente

An iterative method for the adjustment of curves is obtained by applying the least squares method reiteratively in functional subclasses, each defined by one parameter, after assigning values to the rest of the parameters which determine a previously determined general functional class. To find the minimum of the sum of the squared deviations, in each subclass, only techniques of optimization are used for real functions of a real variable.The value of the parameter which gives the best approximation in an iteration is substituted in the general functional class, to retake the variable character of the following parameter and repeat the process, getting a succession of functions. In the case of simple linear regression, the convergence of that succession to the least squares line is demonstrated, because the values of the parameters that define each approximation coincide with the values of the parameters obtained when applying the method of Gauss - Seidel to the normal system of equations. This approach contributes to the teaching objective of improving the treatment of the essential ideas of curve adjustment, which is a very important topic in applications, what gives major importance to the optimization of variable functions.

Se obtiene un método iterativo para el ajuste de curvas al aplicar reiteradamente el método de los mínimos cuadrados en subclases funcionales, cada una definida por un parámetro, luego de asignar valores a los restantes parámetros que determinan una clase funcional general, seleccionada previamente. Para hallar el mínimo de la suma de las desviaciones cuadráticas, en cada subclase, solo se utilizan técnicas de optimización para funciones reales de una variable real. El valor del parámetro, que proporciona la mejor aproximación en una iteración, se sustituye en la clase funcional general, para retomar el carácter variable del siguiente parámetro y repetir el proceso, obteniéndose una sucesión de funciones. En el caso de la regresión lineal simple se demuestra la convergencia de esa sucesión a la recta mínimo cuadrática, pues coinciden los valores de los parámetros que definen cada aproximación con los que se obtienen al aplicar el método de Gauss - Seidel al sistema normal de ecuaciones. Este enfoque contribuye al objetivo docente de adelantar el tratamiento de las ideas esenciales del ajuste de curvas, temática muy importante en las aplicaciones, lo que le confiere mayor significación a la optimización de funciones de una variable.

Algoritmos para calcular probabilidades exactas de inclusión para un diseño de muestreo no rechazable πpt

AP-design, an efficient non-rejective implementation of the πps sampling design, was proposed in the literature as an alternative Poisson sampling scheme. In this paper, we have updated inclusion probabilities formulas in the AP sampling design. The formulas of these inclusion probabilities have been greatly simplified. The proposed results show that the AP design and the algorithms to calculate inclusion probabilities are simple and effective, and the design is possible to be used in practice. Three real examples have also been included to illustrate the performance of these designs.

Una implementación del diseño de muestreo πpt, que no es de rechazo, ha sido recientemente propuesta como alternativa al esquema de Poisson. En este trabajo, hemos adaptado las formulas de probabilidades de inclusión en el diseño de muestreo Poisson alternativo (AP por sus siglas en inglés). Estas fórmulas han sido significativamente simplificadas. Los resultados propuestos muestran que el diseño AP y los algoritmos para calcular las probabilidades de inclusión son simples y efectivos, y que el diseño se puede usar en la práctica. Se incluyen tres ejemplos reales para ilustrar el desempeño de la propuesta.

La distribución Beta-Gompertz

In this paper, we introduce a new four-parameter generalized version of the Gompertz model which is called Beta-Gompertz (BG) distribution. It includes some well-known lifetime distributions such as Beta-exponential and generalized Gompertz distributions as special sub-models. This new distribution is quite flexible and can be used effectively in modeling survival data and reliability problems. It can have a decreasing, increasing, and bathtub-shaped failure rate function depending on its parameters. Some mathematical properties of the new distribution, such as closed-form expressions for the density, cumulative distribution, hazard rate function, the kth order moment, moment generating function, Shannon entropy, and the quantile measure are provided. We discuss maximum likelihood estimation of the BG parameters from one observed sample and derive the observed Fishers information matrix. A simulation study is performed in order to investigate the properties of the proposed estimator. At the end, in order to show the BG distribution flexibility, an application using a real data set is presented.

En este artículo, se introduce una versión generalizada en cuatro parámetros de la distribución de Gompertz denominada como la distribución Beta-Gompertz (BG). Esta incluye algunas distribuciones de duración de vida bien conocidas como la Beta exponencial y distribuciones Gompertz generalizadas como casos especiales. Esta nueva distribución es flexible y puede ser usada de manera efectiva en datos de sobrevida y problemas de confiabilidad. Su función de tasa de falla puede ser decreciente, creciente o en forma de bañera dependiendo de sus parámetros. Algunas propiedades matemáticas de la distribución como expresiones en forma cerrada para la densidad, función de distribución, función de riesgo, momentos k-ésimos, función generadora de momentos, entropía de Shannon y cuantiles son presentados. Se discute la estimación máximo verosímil de los parámetros desconocidos del nuevo modelo para la muestra completa y se obtiene una expresión para la matriz de información. Con el fin de mostrar la flexibilidad de esta distribución, se presenta una aplicación con datos reales. Al final, un estudio de simulación es desarrollado.

Monitoreo de perfiles para datos composicionales

In a growing number of quality control applications, the quality of a product or process is best characterized and summarized by a functional relationship between a response variable and one or more explanatory variables. Profile monitoring is used to understand and to check the stability of this relationship over time. In some applications with compositional data, the relationship can be characterized by a Dirichlet regression model. We evaluate five T² control charts for monitoring these profiles in Phase I. A real example from production of concrete is given.

En un gran número de aplicaciones la calidad de un producto o proceso está mejor representada por una relación funcional entre una variable de respuesta y una o más variables explicatorias. El monitoreo de perfiles permite entender y chequear la estabilidad de esta relación funcional a través del tiempo. En algunas aplicaciones con datos composicionales, la relación puede ser representada por un modelo de regresión Dirichlet. En este artículo nosotros evaluamos cinco cartas de control T² para monitorear estos perfiles en Fase I. Un ejemplo real asociado a la producción de concreto es presentado.

Modelos de regresión asimétrico Bernoulli/distribución Log Hazard proporcional

In this paper we introduce a kind of asymmetric distribution for non-negative data called log-proportional hazard distribution (LPHF). This new distribution is used to study an asymmetrical regression model for data with limited responses (censored) through the mixture of a Bernoulli distribution with logit link and the LPHF distribution. Properties of the LPHF distribution are studied, maximum likelihood parameter estimation and information matrices are addressed. An illustration with real data shows that the model is a new alternative for studies with positive data censored.

En este artículo se introduce una forma de distribución asimétrica para datos no-negativos llamada distribución log hazard proporcional (LPHF). Esta nueva distribución es usada para estudiar un modelo de regresión asimétrico para datos con respuestas limitadas (censuradas) a través de mezclas de una distribución Bernoulli con función link logit y la distribución LPHF. Propiedades de la distribución LPHF son estudiadas, se abordan las estimaciones de máxima verosimilitud de los parámetros y las matrices de información. Se presenta una ilustración con datos reales, donde se muestra que el modelo propuesto es una nueva alternativa para estudios con datos positivos censurados.

Un nuevo estimador tipo diferencia-cum-exponencial de la media de una población finita en muestras aleatorias simple

Auxiliary information is frequently used to improve the accuracy of the estimators when estimating the unknown population parameters. In this paper, we propose a new difference-cum-exponential type estimator for the finite population mean using auxiliary information in simple random sampling. The expressions for the bias and mean squared error of the proposed estimator are obtained under first order of approximation. It is shown theoretically, that the proposed estimator is always more efficient than the sample mean, ratio, product, regression and several other existing estimators considered here. An empirical study using 10 data sets is also conducted to validate the theoretical findings.

Información auxiliar se utiliza con frecuencia para mejorar la precisión de los estimadores al estimar los parámetros poblacionales desconocidos. En este trabajo, se propone un nuevo tipo de diferencia-cum-exponencial estimador de la población finita implicar el uso de información auxiliar en muestreo aleatorio simple. Las expresiones para el sesgo y el error cuadrático medio del estimador propuesto se obtienen en primer orden de aproximación. Se muestra teóricamente, que el estimador propuesto es siempre más eficiente que la media de la muestra, la relación de, producto, regresión y varios otros estimadores existentes considerados aquí. Un estudio empírico utilizando 10 conjuntos de datos también se lleva a cabo para validar los resultados teóricos.

Estimadores tipo exponencial generalizado para la varianza poblacional en muestreo de encuestas

In this paper, generalized exponential-type estimator has been proposed for estimating the population variance using mean auxiliary variable in single-phase sampling. Some special cases of the proposed generalized estimator have also been discussed. The expressions for the mean square error and bias of the proposed generalized estimator have been derived. The proposed generalized estimator has been compared theoretically with the usual unbiased estimator, usual ratio and product, exponential-type ratio and product, and generalized exponential-type ratio estimators and the conditions under which the proposed estimators are better than some existing estimators have also been given. An empirical study has also been carried out to demonstrate the efficiencies of the proposed estimators.

En este artículo, de tipo exponencial generalizado ha sido propuesto con el fin de estimar la varianza poblacional a través de una variables auxiliar en muestreo en dos fases. Algunos casos especiales del estimador medio y el sesgo del estimador generalizado propuesto son derivados. El estimador es comprado teóricamente con otros disponibles en la literatura y las condiciones bajos los cuales éste es mejor. Un estudio empírico es llevado a cabo para comprar la eficiencia de los estimadores propuestos.

Distribución Poisson-Lomax

In this paper we propose a new three-parameter lifetime distribution with upside-down bathtub shaped failure rate. The distribution is a compound distribution of the zero-truncated Poisson and the Lomax distributions (PLD). The density function, shape of the hazard rate function, a general expansion for moments, the density of the rth order statistic, and the mean and median deviations of the PLD are derived and studied in detail. The maximum likelihood estimators of the unknown parameters are obtained. The asymptotic confidence intervals for the parameters are also obtained based on asymptotic variance-covariance matrix. Finally, a real data set is analyzed to show the potential of the new proposed distribution.

En este artículo se propone una nueva distribución de sobrevida de tres parámetros con tasa fallo en forma de bañera. La distribución es una mezcla de la Poisson truncada y la distribución Lomax. La función de densidad, la función de riesgo, una expansión general de los momentos, la densidad del r-ésimo estadístico de orden, y la media así como su desviación estándar son derivadas y estudiadas en detalle. Los estimadores de máximo verosímiles de los parámetros desconocidos son obtenidos. Los intervalos de confianza asintóticas se obtienen según la matriz de varianzas y covarianzas asintótica. Finalmente, un conjunto de datos reales es analizado para construir el potencial de la nueva distribución propuesta.