Revista Colombiana de Estadística

An Extension to the Scale Mixture of Normals for Bayesian Small-Area Estimation

This work considers distributions obtained as scale mixture of normal densities for correlated random variables, in the context of the Markov random field theory, which is applied in Bayesian spatial intrinsically autoregressive random effect models. Conditions are established in order to guarantee the posterior distribution existence when the random field is assumed as scale mixture of normal densities. Lung, trachea and bronchi cancer relative risks and childhood diabetes incidence in Chilean municipal districts are estimated to illustrate the proposed methods. Results are presented using appropriate thematic maps. Inference over unknown parameters is discussed and some extensions are proposed.

Este trabajo aborda las distribuciones obtenidas como mezcla de escala de normales para variables aleatorias correlacionadas, en el contexto de la teoría de los campos markovianos, la cual es aplicada a modelos bayesianos espaciales con efectos aleatorios autoregresivos intrínsecos. Se establecen condiciones para garantizar la existencia de la distribución a posteriori cuando se asume una distribución mezcla de escala de normales para el campo markoviano propuesto. Para ilustrar los métodos propuestos, se estiman los riesgos relativos de cáncer de tráquea, bronquios y pulmón, y tasas de incidencia de diabetes tipo 1 en distritos municipales de Chile. Los resultados son presentados usando mapas temáticos apropiados. Se discute la inferencia sobre los parámetros desconocidos y se proponen algunas extensiones.

Integration Methods of Odds Ratio Based on Meta-AnalysisUsing Fixed and Random Effect Models Useful in Public Health

Un meta-análisis integra información proveniente de varios estudios con el propósito de generar un resultado común para un problema determinado. En la literatura nos encontramos con varios métodos de integración de resultados, siendo el más básico el método de integración de niveles de probabilidad y, con una complejidad mayor, el método de integración del tamaño del efecto. Este último hace uso de modelos de efectos fijos y aleatorios. En este estudio, comparamos los resultados de dos métodos de estimación del tamaño del efecto basados en un meta-análisis usando modelos de efectos fijos y aleatorios. La medida del tamaño del efecto considerada en este estudio es el odds ratio, debido a que esta medida es usada frecuentemente en revisiones sistemáticas de varios temas de interés en salud pública, tales como cáncer cérvico uterino, colecistectomía laparoscópica, enfermedades cardiovasculares, enfermedad de Parkinson y tabaquismo. Las conclusiones de este trabajo indican las condiciones de aplicabilidad de los estimadores analizados del odds ratio en función de la magnitud del efecto poblacional, de la variabilidad entre estudios, del tamaño del meta-análisis y de los tamaños muestrales de tales estudios.

Meta-analysis integrates information from different studies to generate a common response to a determined problem. In the literature, we find several integration methods of results, with the integration method of levels of probability being the more basic and, with a greater complexity, the integration method of the effect size, which uses fixed and random effect models. In this study, we compare the results of two estimation methods of the effect size based on meta-analysis using fixed and random effect models. The measure of the effect size considered here is the odds ratio, due to this measure is frequently used in systematic reviews of several topics of interest in public health, such as heart diseases, laparoscopic colectomy, Parkinson disease, tobacco addiction and uterine cervical cancer. Conclusions of this work indicate the applicability conditions of the analyzed estimators of the odds ratio in function of the size of the population effect, of the variability among studies, of the size of the meta-analysis and of the sample sizes of such studies.

Comparison between SVM and Logistic Regression: Which One is Better to Discriminate?

The classification of individuals is a common problem in applied statistics. If X is a data set corresponding to a sample from an specific population in which observations belong to g different categories, the goal of classification methods is to determine to which of them a new observation will belong to. When g=2, logistic regression (LR) is one of the most widely used classification methods. More recently, Support Vector Machines (SVM) has become an important alternative. In this paper, the fundamentals of LR and SVM are described, and the question of which one is better to discriminate is addressed using statistical simulation. An application with real data from a microarray experiment is presented as illustration.

La clasificación de individuos es un problema muy común en el trabajo estadístico aplicado. Si X es un conjunto de datos de una población en la que sus elementos pertenecen a g clases, el objetivo de los métodos de clasificación es determinar a cuál de ellas pertenecerá una nueva observación. Cuando g=2, uno de los métodos más utilizados es la regresión logística. Recientemente, las Máquinas de Soporte Vectorial se han convertido en una alternativa importante. En este trabajo se exponen los principios básicos de ambos métodos y se da respuesta a la pregunta de cuál es más recomendable para discriminar, vía simulación. Finalmente, se presenta una aplicación con datos provenientes de un experimento con microarreglos.

¿ When does Alzheimer's Disease Begin? Kaplan-Meier versus Turnbull: An Application to Arbitrary Censoring Data

La mayoría de los análisis de supervivencia se basan en tiempos de falla exactos y observaciones censuradas a la derecha, utilizándose métodos ampliamente difundidos como el método de Kaplan-Meier (KM). Para estimar la edad de inicio de la Enfermedad de Alzheimer (EA) familiar cuando las censuras son arbitrarias (censura a derecha, a izquierda o en intervalo), ¿cuál es el cambio en los resultados clínicos, si se utiliza el método de KM mediante imputación comparado con el método de Turnbull sugerido para este tipo de datos? El método de Turnbull se comparó con el método de KM mediante un estudio de simulación y una aplicación con datos reales. Se realizó KM con imputación a través del punto medio del intervalo (PM) y en el extremo derecho (ED). Se analizaron diferentes tamaños de muestra y diferentes tiempos entre visitas. En todos los escenarios de simulación, las funciones que fueron estimadas, usando imputación de datos, difieren significativamente de la verdadera función de supervivencia S(t). La edad de inicio de la EA determinada a través de un método de imputación tiene implicaciones clínicas relevantes que afectarían la toma de decisiones a la hora de iniciar una terapia preventiva. El método de Turnbull presenta un menor sesgo cuando se necesita realizar un análisis de supervivencia con censuras arbitrarias.

Most of the survival analysis are based on exact failure times and right censored observations, using methods widely known as the Kaplan-Meier (KM). To estimate the onset age of familial Alzheimers Disease (AD) when the censor times are arbitrary (right, left or interval censor), what is the change in clinical outcomes, using the KM method with data imputation compared with procedure proposed by Turnbull for this kind of data? Turnbulls method was compared with KM method in a simulation study and an application with real data. KM method was based on data imputation through the midpoint of the interval (MP) and the right side of the interval (RS), considering several sample sizes and different times between visits. In all simulation scenarios estimated functions using data imputation differ significantly from the actual simulated survival function S(t). The estimated onset age of AD through data imputation methods has relevant clinical implications that would affect decision-making in initiating preventive therapy. Turnbulls method has fewer bias when was compared with KM with imputation to perform a survival analysis with arbitrary censure data.

A Statistical Model for Analyzing Interdependent Complex of Plant Pathogens

We introduce a new approach for modeling multivariate overdispersed binomial data, from a plant pathogen complex. After recalling some theoretical foundations of generalized linear models (GLMs) and Copula functions, we show how the later can be used to model correlated observations and overdispersed data. We illustrate this approach using fungal incidence in vegetables, which we analyzed using Gaussian copula with Beta-binomial margins. Compared to classical and generalized linear models, the model using Gaussian copula function best controls for overdispersion, being less prone to the underestimation of standard errors, the major cause of wrong inference in the statistical analysis of plant pathogen complex.

Se introduce un nuevo enfoque para modelar datos binomiales multivariados con sobredispersión, obtenidos de complejos de patógenos vegetales. Después de revisar los conceptos básicos de los modelos lineales generalizados (GLMs) y las funciones Cópula, se muestra cómo estas últimas pueden usarse para modelar observaciones correlacionadas y datos con sobredispersión. Se ilustra el método usando la incidencia de hongos en hortalizas, analizando el caso por medio de la función cópula Gaussiana con marginales Beta-binomiales. Comparado con los modelos lineales clásicos y generalizados, el modelo construido con la cópula Gaussiana es el que mejor controla la sobredispersión, siendo menos propenso a la subestimación de los errores estándar, la causa más importante de inferencia inapropiada en el análisis estadístico de complejos de patógenos vegetales.

Modeling of Indicators of Nutritional Status of Pregnant Women from a Multilevel Approach

Se presenta una estrategia para la construcción de indicadores antropométricos empleados para evaluar el estado nutricional de la mujer embarazada. Las referencias del peso por semana de embarazo, según la estatura y el índice de masa corporal de la mujer al inicio de la gestación, se construyen a partir de modelos multinivel para medidas repetidas. Para verificar la consistencia de los valores estimados y ajustar el posible efecto del desbalance de los datos causado por observaciones perdidas, las estimaciones máximo-verosímil se comparan con las obtenidas mediante un método bootstrap. Los resultados obtenidos no sólo evidencian el poder de los modelos multinivel para la construcción de patrones de referencia, sino que además permiten estimar rangos de ganancia de peso recomendados para las embarazadas de la población en estudio.

A strategy for the construction of anthropometric indicators employed for the evaluation of the pregnant womens nutritional state is presented. The references of weight by pregnancy week, according to height and the body mass index at the beginning of pregnancy, are constructed by means of multilevel models for repeated measurements. The maximum likelihood estimations are compared to those obtained by the bootstrap method in order to verify the consistency of the estimated values and the fitting of the possible data imbalance effect, caused by missing observations. The obtained results evidence not only the power of the multilevel models for the construction of reference patterns, but they also permit estimate ranks of gain in weight recommended for pregnant women representative of the population under study.

Determinants of Birth Intervals in Tamil Nadu in India: Developing Cox Hazard Models with Validations and Predictions

The present study uses data from National Family Health Survey (NFHS-1) 1992-93 (International Institute for Population Sciences 1995) conducted in the state of Tamil Nadu, India. Cox models were developed to analyze the effect of breastfeeding as time varying and time dependent factor on birth intervals. Breastfeeding alone improved the log likelihood up to a higher level in each birth interval. Other factors that entered into the models were: at first birth interval, womens education (high school & above) and working status of women; at second birth interval, survival status of index child alive and husbands education (high school & above), and at third birth interval, breastfeeding more than 22 month were found to be protective factors for next births. Validation of the developed models was done through bootstrapping to predict birth intervals.

Este estudio utiliza datos de la Encuesta Nacional de Salud Familiar (International Institute for Population Sciences 1995) realizada en el estado de Tamil Nadu, India. Se desarrollaron modelos de Cox para analizar el efecto de la lactancia materna cuando varía en el tiempo y el factor tiempo depende de los intervalos genésicos. La lactancia materna sólo mejora la probabilidad de acceder a un nivel más alto en cada intervalo de nacimiento. Otros factores que entraron en los modelos fueron en el intervalo del primer parto: nivel educativo de la madre (secundaria y superior) y trabajo de la madre; en el intervalo del segundo parto: nivel de supervivencia en el índice de vida infantil y nivel educativo del padre (secundaria y superior), y en el intervalo del tercer parto: lactancia materna más 22 meses. Cada uno de los anteriores es un factor protector para ampliar el intervalo entre nacimientos en el estudio. Además, este estudio confirma los modelos desarrollados en los servicios públicos de predicción para los intervalos genésicos.

Random Regression Models for Estimation of Covariance Functions, Genetic Parameters and Prediction of Breeding Values for Rib Eye Area in a Colombian Bos indicus-Bos taurus Multibreed Cattle Population

In this paper we present an application of random regression models (RRM) to obtain restricted maximum likelihood estimates of covariance functions and predictions of breeding values for longitudinal records of rib eye area measured by ultrasound (REA) in a Colombian multibreed cattle population. The dataset contained 708 records from 340 calves progeny of 37 sires from nine breeds mated to Gray Brahman Cows. The mixed model was a RRM that used Legendre polynomials (LP) of order 1 to 3. Fixed effects were age of animal, dam parity, contemporary group (herd*year*season*sex), breed additive genetic and heterosis, whereas direct and maternal additive genetic and maternal permanent environment were random effects. Residual variances were modeled either as constant or changing across the growth trajectory. Models were compared with two Information Criteria, the corrected Akaikes and the Schwartzs Bayesian. According to these criteria the best model was the one with first order LP and constant residual variance. Given that with this model estimated maternal additive genetic and permanent environment covariance functions showed that these effects were not accurately disentangled, a parsimonious model without maternal additive genetic effects was used to obtain genetic parameters and breeding values. Direct additive genetic variance decreased until 150 days and then increased. Maternal permanent environment variance increased with age. Direct heritability estimates for REA at 4 months, weaning, 12 and 15 months (considered as target ages), were 0.003, 0.007, 0.034 and 0.058, respectively. Direct additive correlations ranged from -0.7 to 1. Maternal permanent environmental correlations were close to unity across the entire range of ages. Estimates of (co)variance components showed the need to validate results with larger multigenerational multibreed populations before implement RRM in regional or national genetic evaluation procedures in Colombia.

En este trabajo presentamos una aplicación de modelos de regresión aleatoria (RRM) para obtener estimadores de máxima verosimilitud restringida de funciones de covarianza y predicciones del valor genético para datos longitudinales de área de ojo del lomo medidos por ultrasonido (REA) en una población bovina multirracial en Colombia. El conjunto de datos contenía 708 registros de 340 animales descendientes de 37 toros de 9 razas apareados con hembras Brahman Gris. Los modelos mixtos empleados fueron RRM que usaron polinomios de Legendre (LP) de orden 1 a 3. Los efectos fijos fueron edad del animal, número de partos de la madre, grupo contemporáneo (hacienda*año*época*sexo), efectos genéticos aditivos de raza y heterosis, mientras que los efectos genéticos aditivos directos y maternos y de ambiente permanente materno fueron aleatorios. Las varianzas residuales se modelaron como constantes o cambiantes a través de la trayectoria de crecimiento. Los modelos fueron comparados mediante el criterio de información de Akaike corregido y el de información bayesiana de Schwartz. Según esos criterios, el mejor modelo fue aquel con LP de orden 1 y varianza residual constante. Dado que con este modelo las estimaciones de las funciones de covarianza genética aditiva materna y de ambiente permanente materno indicaron que estos dos efectos no se separaron adecuadamente, un modelo más parsimonioso sin los efectos genéticos aditivos maternos fue empleado para obtener parámetros y valores genéticos. La varianza genética aditiva directa decreció hasta 150 días y luego aumentó. La varianza de ambiente permanente materno aumentó con la edad. Las estimaciones de heredabilidad directa para REA a los 4 meses, destete, 12 y 15 meses (consideradas como edades de referencia) fueron 0.003, 0.007, 0.034 y 0.058, respectivamente. Las correlaciones aditivas directas variaron de -0.7 a 1. Las correlaciones de ambiente permanente materno fueron cercanas a la unidad a través de todo el rango de edades. Las estimaciones de componentes de (co)varianza mostraron la necesidad de validar los resultados con poblaciones multirraciales multigeneracionales mayores antes de implementar RRM en procedimientos de evaluación genética regionales o nacionales en Colombia.