Revista Colombiana de Estadística

Two Dependent Diagnostic Tests: Use of Copula Functions in the Estimation of the Prevalence and Performance Test Parameters

In this paper, we introduce a Bayesian analysis to estimate the prevalence and performance test parameters of two diagnostic tests. We concentrated our interest in studies where the individuals with negative outcomes in both tests are not verified by a gold standard. Given that the screening tests are applied in the same individual we assume dependence between test results. Generally, to capture the possible existing dependence between test outcomes, it is assumed a binary covariance structure, but in this paper, as an alternative for this modeling, we consider the use of copula function structures. The posterior summaries of interest are obtained using standard MCMC (Markov Chain Monte Carlo) methods. We compare the results obtained with our approach with those obtained using binary covariance and assuming independence. We considerate two published medical data sets to illustrate the approach.

En este articulo introducimos un análisis Bayesiano para estimar la prevalencia y los parámetros de desempeño de pruebas para diagnóstico clínico, con datos obtenidos bajo estudios de tamizaje que incluyen el uso de dos pruebas diagnósticas en los cuales, los individuos con resultado negativo en las dos pruebas no son confirmados con una prueba patrón de oro. Dado que las pruebas de tamizaje son aplicadas al mismo indivíduo, nosotros asumimos dependencia entre los resultados de las pruebas. Generalmente, para capturar la posible dependencia existente entre los resultados de las pruebas diagnósticas, se asume una estrutura de covarianza binaria, pero en este artículo, nosotros consideramos el uso de estructuras que pueden ser modaladas usando funciones cópula, como una alternativa al modelamiento de la dependencia. Las estadísticas a posteriori de interés son obtenidas usando métodos MCMC. Los resultados obtenidos usando nuestra aproximación son comparados con los obtenidos usando modelos que asumen estructura binária y con los obtenidos usando modelos bajo el supuesto de independencia entre resultados de las pruebas para diagnóstico clínico. Para ilustrar la aplicación del método y para hacer las comparaciones se usaron los datos de dos estudios publicados en la literatura.

Fatigue Statistical Distributions Useful for Modeling Diameter andMortality of Trees

Mortality processes and the distribution of the diameter at breast height (DBH) of trees are two important problems in forestry. Trees die due to several factors caused by stress according to a phenomenon similar to material fatigue. Specifically, the force (rate) of mortality of trees quickly increases at a first stage and then reaches a maximum. In that moment, this rate slowly decreases until stabilizing at a constant value in the long term establishing a second stage of such a rate. Birnbaum-Saunders (BS) distributions are models that have received considerable attention currently due to their interesting properties. BS models have their genesis from a problem of material fatigue and present a failure or hazard rate (equivalent to the force of mortality) that has the same behavior as that of the DBH of trees. Then, BS distributions have arguments that transform them into models that can be useful in forestry. In this paper, we present a methodology based on BS distributions associated with this forest thematic. To complete this study, we perform an application of five real DBH data sets (some of them unpublished) that provides statistical evidence in favor of the BS methodology in relation to the forestry standard methodology. This application provides valuable financial information that can be used for making decisions in forestry.

Los procesos de mortalidad y la distribución del diámetro a la altura del pecho (DAP) de árboles son dos problemas importantes en el área forestal. Los árboles mueren debido a diversos factores causados por estrés mediante un fenómeno similar a la fatiga de materiales. Específicamente, la fuerza (tasa) de mortalidad de árboles crece rápidamente en una primera fase y luego alcanza un máximo, momento en el que comienza una segunda fase en donde esta tasa decrece lentamente estabilizándose en una constante en el largo plazo. Distribuciones Birnbaum-Saunders (BS) son modelos que han recibido una atención considerable en la actualidad debido a sus interesantes propiedades. Modelos BS nacen de un problema de fatiga de materiales y poseen una tasa de fallas (equivalente a la fuerza de mortalidad) que se comporta de la misma forma que ésa del DAP de árboles. Entonces, distribuciones BS poseen argumentos que las transforman en modelos que puede ser útiles en las ciencias forestales. En este trabajo, presentamos una metodología basada en la distribución BS asociada con esta temática forestal. Para finalizar, realizamos una aplicación con cinco conjuntos de datos reales (algunos de ellos no publicados) de DAP que proporciona una evidencia estadística en favor de la metodología BS en relación a la metodología estándar usada en ciencias forestales. Esta aplicación entrega información que puede ser valiosa para tomar decisiones forestales.

A modified Cucconi Test for Location and Scale Change Alternatives

The most common approach to develop a test for jointly detecting location and scale changes is to combine a test for location and a test for scale. For the same problem, the test of Cucconi should be considered because it is an alternative to the other tests as it is based on the squares of ranks and contrary-ranks. It has been previously shown that the Cucconi test is robust in level and is more powerful than the Lepage test, which is the most commonly used test for the location-scale problem. A modification of the Cucconi test is proposed. The idea is to modify this test consistently with the familiar approach which develops a location-scale test by combining a test for location and a test for scale. More precisely, we will combine the Cucconi test with the Wilcoxon rank test for location and a modified Levene test following the theory of the nonparametric combination. A power comparison of this modified Cucconi test with the original one, the Lepage test and the Podgor-Gastwirth PG2 test, shows that the modified Cucconi test is robust in size and markedly more powerful than the other tests for every considered type of distributions, from short- to normal- and long-tailed ones. A real data example is discussed.

La alternativa más común para implementar una prueba que detecta cambios en localización y escala conjuntamente es combinar una prueba de localización con una de escala. Para este problema, la prueba de Cucconi es considerada como una alternativa de otras pruebas que se basan en los cuadrados de los rangos y los contrarangos. Esta prueba es robusta en nivel y es más poderosa que la prueba de Lepage la cual es la más usada para el problema de localización-escala. En este artículo se propone una modificación de la prueba de Cucconi. La idea es modificar la prueba mediante la combinación de una prueba de localización y uno de escala. Mas precisamente, se sugiere combinar la prueba de Cucconi con la prueba de rangos de Wilcoxon para localizacion y una prueba modificada de Levene siguiendo la teoría de la combinación no paramétrica. Una comparación de la potencia de esta prueba modificada de Cucconi con la prueba original, la prueba de Lepage y la prueba PG2 de Podgor-Gastwirth muestran que la prueba de Cucconi modificada es robusta en tamaño y mucho más poderosa que las anteriores para todas las distribuciones consideradas desde la normal hasta algunas de colas largas. Se hace una aplicación a datos reales.

geofd: An R Package for Function-Valued Geostatistical Prediction

Spatially correlated curves are present in a wide range of applied disciplines. In this paper we describe the R package geofd which implements ordinary kriging prediction for this type of data. Initially the curves are pre-processed by fitting a Fourier or B-splines basis functions. After that the spatial dependence among curves is estimated by means of the trace-variogram function. Finally the parameters for performing prediction by ordinary kriging at unsampled locations are by estimated solving a linear system based estimated trace-variogram. We illustrate the software analyzing real and simulated data.

Curvas espacialmente correlacionadas están presentes en un amplio rango de disciplinas aplicadas. En este trabajo se describe el paquete R geofd que implementa predicción por kriging ordinario para este tipo de datos. Inicialmente las curvas son suavizadas usando bases de funciones de Fourier o B-splines. Posteriormente la dependencia espacial entre las curvas es estimada por la función traza-variograma. Finalmente los parámetros del predictor kriging ordinario son estimados resolviendo un sistema de ecuaciones basado en la estimación de la función traza-variograma. Se ilustra el paquete analizando datos reales y simulados.

Goodness of Fit Tests for the Gumbel Distribution with Type II right Censored data

In this article goodness of fit tests for the Gumbel distribution with type II right censored data are proposed. One test is based in earlier works using the Kullback Leibler information modified for censored data. The other tests are based on the sample correlation coefficient and survival analysis concepts. The critical values of the tests were obtained by Monte Carlo simulation for different sample sizes and percentages of censored data. The powers of the proposed tests were compared under several alternatives. The simulation results show that the test based on the Kullback-Leibler information is superior in terms of power to the correlation tests.

En este artículo se proponen pruebas de bondad de ajuste para la distribución Gumbel para datos censurados por la derecha Tipo II. Una prueba se basa en trabajos previos en los que se modifica la información de Kullback-Leibler para datos censurados. Las otras pruebas se basan en el coeficiente de correlación muestral y en conceptos de análisis de supervivencia. Los valores críticos se obtuvieron mediante simulación Monte Carlo para diferentes tamaños de muestras y porcentajes de censura. La potencia de la pruebas se compararon bajo varias alternativas. Los resultados de la simulación muestran que la prueba basada en la Divergencia de Kullback-Leibler es superior a las pruebas de correlación en términos de potencia.

On the Entropy of Written Spanish

A discussion on the entropy of the Spanish language by means of a practical method for calculating the entropy of a text by direct computer processing is presented. As an example of application, thirty samples of Spanish text are analyzed, totaling 22.8 million characters. Symbol lengths from n = 1 to 500 were considered for both words and characters. Both direct computer processing and the probability law of large numbers were employed for calculating the probability distribution of the symbols. An empirical relation on entropy involving the length of the text (in characters) and the number of different words in the text is presented. Statistical properties of the Spanish language when viewed as produced by a stochastic source, (such as origin shift invariance, ergodicity and asymptotic equipartition property) are also analyzed.

Se presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.

On the Use of Ranked Set Samples in Entropy Based Test of Fit for the Laplace Distribution

Statistical methods based on ranked set sampling (RSS) often lead to marked improvement over analogous methods based on simple random sampling (SRS). Entropy has been influential in the development of measures of fit of parametric models to the data. This article develops goodness-of-fit tests of the Laplace distribution based on sample entropy when data are collected according to some RSS-based schemes. For each design, critical values of the corresponding test statistic are estimated, by means of simulation, for some sample sizes. A Monte Carlo study on the power of the new tests is performed for several alternative distributions and sample sizes in order to compare our proposal with available method in SRS. Simulation results show that RSS and its variations lead to tests giving higher power than the test based on SRS.

Los métodos estadísticos basados en muestreo de rango ordenado a menudo son una considerable mejora que el muestreo aleatorio simple. La medida de entropía ha sido influencial en el desarrollo de medidas de ajuste de modelos paramétricos. Este artículo propone pruebas de bondad de ajuste de la distribución Laplace basada en la entropía muestral cuando se usan estructuras basadas en muestras de rango ordenado. Para cada diseño, los valores críticos del correspondiente estadístico de prueba son estimados por medio de simulaciones para diferentes tamaños de muestra. Un estudio de Monte Carlo de la potencia de los nuevos tests es implementado para diferentes distribuciones alternas y tamaños de muestra con el fin de comparar el método propuesto con otros disponibles. La simulación muestra que el muestreo de rango ordenado y sus variaciones brindan mayor potencia que los métodos basados en muestreo aleatorio simple.

An Empirical Comparison of EM Initialization Methods and Model Choice Criteria for Mixtures of Skew-Normal Distributions

We investigate, via simulation study, the performance of the EM algorithm for maximum likelihood estimation in finite mixtures of skew-normal distributions with component specific parameters. The study takes into account the initialization method, the number of iterations needed to attain a fixed stopping rule and the ability of some classical model choice criteria to estimate the correct number of mixture components. The results show that the algorithm produces quite reasonable estimates when using the method of moments to obtain the starting points and that, combining them with the AIC, BIC, ICL or EDC criteria, represents a good alternative to estimate the number of components of the mixture. Exceptions occur in the estimation of the skewness parameters, notably when the sample size is relatively small, and in some classical problematic cases, as when the mixture components are poorly separated.

El presente artículo muestra un estudio de simulación que evalúa el desempeño del algoritmo EM utilizado para determinar estimaciones por máxima verosimilitud de los parámetros de la mezcla finita de distribuciones normales asimétricas. Diferentes métodos de inicialización, así como el número de interacciones necesarias para establecer una regla de parada especificada y algunos criterios de selección del modelo para permitir estimar el número apropiado de componentes de la mezcla han sido considerados. Los resultados indican que el algoritmo genera estimaciones razonables cuando los valores iniciales son obtenidos mediante el método de momentos, que junto con los criterios AIC, BIC, ICL o EDC constituyen una eficaz alternativa en la estimación del número de componentes de la mezcla. Resultados insatisfactorios se verificaron al estimar los parámetros de simetría, principalmente seleccionando un tamaño pequeño para la muestra, y en los casos conocidamente problemáticos en los cuales los componentes de la mezcla están suficientemente separados.

An Introductory Review of a Structural VAR-X Estimation and Applications

This document presents how to estimate and implement a structural VAR-X model under long run and impact identification restrictions. Estimation by Bayesian and classical methods are presented. Applications of the structural VAR-X for impulse response functions to structural shocks, multiplier analysis of the exogenous variables, forecast error variance decomposition and historical decomposition of the endogenous variables are also described, as well as a method for computing higher posterior density regions in a Bayesian context. Some of the concepts are exemplified with an application to US data.

Este documento cubre la estimación e implementación del modelo VAR-X estructural bajo restricciones de identificación de corto y largo plazo. Se presenta la estimación tanto por métodos clásicos como Bayesianos. También se describen aplicaciones del modelo como impulsos respuesta ante choques estructurales, análisis de multiplicadores de las variables exógenas, descomposición de varianza del error de pronóstico y descomposición histórica de las variables endógenas. Así mismo se presenta un método para calcular regiones de alta densidad posterior en el contexto Bayesiano. Algunos de los conceptos son ejemplificados con una aplicación a datos de los Estados Unidos.

Some Alternative Predictive Estimators of PopulationVariance

Using a predictive estimation procedure, an attempt has been made to develop some estimators for the finite population variance in the presence of an auxiliary variable. Analytical and simulation studies have been undertaken for understanding the performance of the suggested estimators compared to some existing ones.

Mediante el uso de un procedimiento de estimación predictivo, se desarrollan algunos estimadores de la varianza poblacional en la presencia de una variable auxiliar. Estudios analíticos y de simulación son implementados para entender el desempeño de los estimadores sugeridos en comparación con otros ya existentes.