Revista Colombiana de Estadística

Some Developments in Bayesian Hierarchical Linear Regression Modeling

Abstract Considering the flexibility and applicability of Bayesian modeling, in this work we revise the main characteristics of two hierarchical models in a regression setting. We study the full probabilistic structure of the models along with the full conditional distribution for each model parameter. Under our hierarchical extensions, we allow the mean of the second stage of the model to have a linear dependency on a set of covariates. The Gibbs sampling algorithms used to obtain samples when fitting the models are fully described and derived. In addition, we consider a case study in which the plant size is characterized as a function of nitrogen soil concentration and a grouping factor (farm).

Resumen Considerando la flexibilidad y aplicabilidad del modelamiento Bayesiano, en este trabajo se revisan las principales características de dos modelos jerárquicos en un escenario de regresión. Se estudia la estructura probabilística completa de los modelos junto con la distribución condicional completa para cada parámetro del modelo. Las extensiones jerárquicas que se presentan permiten que la media de la segunda etapa del modelo tenga una dependencia lineal de un conjunto de covariables. Se describen y derivan completamente los algoritmos de muestreo de Gibbs para ajustar los modelos. Además, se considera un caso de estudio en el que se caracteriza el tamaño de plantas en función de la concentración de nitrógeno en el suelo y un factor de agrupación (fincas).

On Cumulative Residual Renyi's Entropy

Abstract At the entropy measures and their generalization path, in the direction of statistics and information science, recently, Sunoj & Linu (2012) proposed the cumulative residual Renyi's entropy of order a and its dynamic version and studied its main properties. In this paper, we introduce an alternative We also consider its dynamic version and study their main properties in the context of reliability theory and stochastic orders. We give an estimator of the proposed CRRE and investigate its exact and asymptotic distribution. Numerous examples illustrating the theory are also given.

Resumen En las medidas de entropía y su camino de generalización, en la dirección de las estadísticas y la ciencia de la información, recientemente, Sunoj & Linu (2012) propuso el residual acumulativo la entropía de Renyi de orden a este artículo presentamos una medida alternativa de la entropía residual consideramos su versión dinámica y estudiamos sus principales propiedades en el contexto de la teoría de la confiabilidad y los órdenes estocásticos. Damos un estimador del CRRE propuesto e investigamos su distribución exacta y asintótica. También se dan numerosos ejemplos que ilustran la teoría.

Measuring Individual Benefits of Medical Treatments Using Longitudinal Hospital Data with Non-Ignorable Missing Responses Caused by Patient Discharge: Application to the Study of Benefits of Pain Management Post Spinal Fusion

Abstract Electronic health records (EHR) provide valuable resources for longitudinal studies and understanding risk factors associated with poor clinical outcomes. However, they may not contain complete follow-ups, and the missing data may not be at random since hospital discharge may depend in part on expected but unrecorded clinical outcomes that occur after patient discharge. These non-ignorable missing data requires appropriate analysis methods. Here, we are interested in measuring and analyzing individual treatment benefits of medical treatments in patients recorded in EHR databases. We present a method for predicting individual benefits that handles non-ignorable missingness due to hospital discharge. The longitudinal clinical outcome of interest is modeled simultaneously with the hospital length of stay using a joint mixed-effects model, and individual benefits are predicted through a frequentist approach: the empirical Bayesian approach. We illustrate our approach by assessing individual pain management benefits to patients who underwent spinal fusion surgery. By calculating sample percentiles of empirical Bayes predictors of individual benefits, we examine the evolution of individual benefits over time. We additionally compare these percentiles with percentiles calculated with a Monte Carlo approach. We showed that empirical Bayes predictors of individual benefits do not only allow examining benefits in specific patients but also reflect overall population trends reliably.

Resumen Los registros de salud electrónicos (RSE) suministran recursos valiosos para estudios longitudinales y para comprender los factores de riesgo asociados con pobres resultados clínicos. Sin embargo, estos podrían no contener seguimientos completos, y los datos faltantes podrían no ser al azar, debido a que el alta hospitalaria puede depender en parte de resultados clínicos esperados pero no registrados que ocurren después de dar de alta al paciente. Esta ausencia de datos no ignorables requiere métodos apropiados de análisis. Aquí estamos interesados en medir y analizar beneficios individuales de tratamientos médicos en pacientes consignados en bases de datos RSE. Proponemos un método para predecir beneficios individuales el cual maneja los datos faltantes debidos al alta hospitalaria. La respuesta clínica longitudinal de interés se modela junto con el tiempo de estadía en el hospital usando un modelo conjunto de efectos mixtos, y los beneficios individuales se predicen por medio de un enfoque frecuentista: el enfoque Bayesiano empírico. Nuestro enfoque es ilustrado evaluando los beneficios individuales del tratamiendo para el dolor en pacientes que fueron sometidos a cirugía de fusión espinal. Aquí examinamos la evolución de los beneficios individuales a través del tiempo mediante el cálculo de los percentiles muéstrales de los predictores de Bayes empíricos de los beneficios individuales. También comparamos estos percentiles con percentiles calculados mediante un enfoque Monte Cario. Los resultados mostraron que los predictores de Bayes empíricos de beneficios individuales no sólo permiten examinar beneficios en pacientes específicos sino que también reflejan confiablemente las tendencias poblacionales globales.

Likelihood-Based Inference for the Asymmetric Exponentiated Bimodal Normal Model

Abstract Asymmetric probability distributions have been widely studied by various authors in recent decades. Special interest has been had families of flexible distributions with the capability to have into account degree of skewness and kurtosis greater than the cl 1 distributions widely known in statistical theory. While, most of the new distributions fit unimodal data, and a few fit bimodal data, in the bimodal proposals, singularity problems have been found in the information matrices. Therefore, in this paper, extensions of the alpha-power family of distributions are developed, which have non-singular information matrix. The new proposals are based on the bimodal-normal and bimodal elliptical skew-normal distributions. These new extensions allow modeling asymmetric bimodal data, which are commonly found in several areas of scientific interest. The properties of these new distributions of probability are also studied in detail, and the statistical inference process is carried out to estimate the parameters of the proposed models. The stochastic convergence for the maximum likelihood estimator (MLE) vector can be found due to the non-singularity of the expected information matrix in the corresponding support. We also introduced extensions of the asymmetric bimodal normal and bimodal elliptical skew-normal models for the situations in which the data present censorship. A small simulation study to evaluate the properties of the MLE is also presented and, finally, two applications to real data set are presented for illustrative purposes.

Resumen Las distribuciones de probabilidad asimétricas han sido ampliamente estudiadas por diversos autores en las últimas décadas. Se ha tenido especial interés en familias de distribuciones flexibles con la capacidad de tener en cuenta grados de asimetría y curtosis mayores que las distribuciones el ampliamente conocidas en teoría estadística. Si bien la mayoría de las nuevas distribuciones se ajustan a datos unimodales y unas pocas a datos bimodales, en las propuestas bimodales se han encontrado problemas de singularidad en las matrices de información. Por lo tanto, en este artículo se desarrollan extensiones de la familia de distribuciones alfa-potencia, que tienen matriz de información no singular. Las nuevas propuestas se basan en las distribuciones bimodal-normal y bimodal elíptica sesgada-normal. Estas nuevas extensiones permiten modelar datos bimodales asimétricos, que se encuentran comúnmente en varias áreas de interés científico. También se estudian en detalle las propiedades de estas nuevas distribuciones de probabilidad, y se realiza el proceso de inferencia estadística para estimar los parámetros de los modelos propuestos. La convergencia estocástica para el vector estimador de máxima verosimilitud (EMV) se puede encontrar debido a la no singularidad de la matriz de información esperada en el soporte correspondiente. También introdujimos extensiones de los modelos asimétrico bimodal normal y bimodal elíptico sesgado-normal para las situaciones en las que los datos presentan censura. También se presenta un pequeño estudio de simulación para evaluar las propiedades del EMV y, finalmente, se presentan dos aplicaciones a conjuntos de datos reales con fines ilustrativos.

Application of Binary Response Regression Models to Detect Factors Influencing the Occurrence of Infection in Dental Surgeries

Abstract Postoperative infection is common in dental surgery, for example, in the removal of the third molar. To control these and other postoperative complications, various studies have reported the use of some drug protocols, namely the prophylact and the preemptive ones, using drugs such as dexamethasone and betamethasone. In this work, we used the generalized linear model via logistic regression to verify whether, in addition to the medicaments mentioned, some covariates that are frequently used in dental surgeries influence the occurrence, or not, of postoperative infection in surgeries for removal of the third molar. One of the main reasons that led us to employ such a model is because the response variable (having or not having infection) presents values of the binary type, in addition to being one of the most applied models in the area of health, among them, the dentistry area. The application of descriptive methods and analysis of association via statistical tests were also used to choose other factors that influence the response variable infection in addition to medications. The AIC (Akaike Information Criterion) selection criterion, analysis of the difference in the deviations, and the analysis of residual using the half-normal plot for selection and the assumption of the proposed model were employed. The data set under analysis consists of 113 patients submitted to dental surgery in a specialized clinic in the city of Piracicaba, SP-Brazil between 2003 and 2018. Through the proposed model, some important information the covariates in relation to the patients submitted to dental surgery. One of the key information is that characteristics as Age and Dental extractions are associated with the inflammatory processes after surgery. This relationship indicates that the older the patient, the chance of having an infection after surgery increases. The analysis is similar to the Number of extractions.

Resumen La infección postoperatoria es común en cirugía dental, por ejemplo, en la extracción del tercer molar. Para el control de estas y otras complicaciones postoperatorias, diversos estudios han reportado el uso de algunos protocolos farmacológicos, a saber, el profiláctico y el preventivo, utilizando fármacos como la dexametasona y la betametasona. En este trabajo utilizamos el modelo lineal generalizado mediante regresión logística para verificar si, además de los medicamentos mencionados, algunas covariables que se utilizan con frecuencia en las cirugías dentales influyen en la aparición o no de infección posoperatoria en las cirugías de extracción del tercer tercio, molar. Una de las principales razones que nos llevó a emplear dicho modelo es porque la variable respuesta (tener o no tener infección) presenta valores de tipo binario, además de ser uno de los modelos más aplicados en el área de la salud, entre ellos, el área de odontología. También se utilizó la aplicación de métodos descriptivos y análisis de asociación a través de pruebas estadísticas para elegir otros factores que influyen en la variable respuesta infección además de los medicamentos. Se empleó el criterio de selección AIC (Akaike Information Criterion), el análisis de la diferencia en las desviaciones y el análisis de residuos utilizando la seminormal para la selección y la asunción del modelo propuesto. El conjunto de datos bajo análisis consta de 113 pacientes sometidos a cirugía dental en una clínica especializada en la ciudad de Piracicaba, SP-Brasil entre 2003 y 2018. A través del modelo propuesto, algunas informaciones importantes las covariables en relación a los pacientes sometidos a cirugía dental. Uno de los datos clave es que características como la edad y las extracciones dentales están asociadas a los procesos inflamatorios posteriores a la cirugía. Esta relación indica que a mayor edad del paciente, aumenta la probabilidad de tener una infección después de la cirugía. El análisis es similar al Número de extracciones.

Spatial Econometric Models: A Bayesian Approach

Abstract In this paper we propose Bayesian methods to fit econometric regression models, including those where the variability is assumed to follow a regression structure. We formulate the main functions of the statistical R-package BSPADATA, developed according to the proposed methods to obtain posteriori parameter inferences. After that, we include results of simulated studies to illustrate the use of this package and the performance of the proposed methods. Finally, we provide studies to illustrate the applications of the models and compare our results with that obtained by maximum likelihood.

Resumen En este artículo proponemos métodos bayesianos para ajustar modelos de regresión econométrica, incluidos aquellos en los que la variabilidad sigue una estructura de regresión. Formulamos las principales funciones del Rpackage estadístico BSPADATA, desarrollado según los métodos propuestos para obtener inferencias de parámetros a posteriori. Luego, incluimos resultados de estudios de simulación para ilustrar el uso de este paquete y el desempeño de los métodos propuestos. Finalmente, proporcionamos estudios para ilustrar las aplicaciones de los modelos y comparamos nuestros resultados con los obtenidos por máxima verosimilitud.

Robust Post-Hoc Multiple Comparisons: Skew t Distributed Error Terms

Abstract The pairwise comparisons or post-hoc methods are used for determining the source of the difference of group means in one-way ANOVA. These methods are mostly depend on normality assumption. However, nonnormal distributions are more prevalent than normal distribution. Therefore, robust estimation methods become very important tools in statistical analysis. In this paper, we assume that the distribution of the error terms is Azzalini's skew t and obtain the robust estimators in order to make post-hoc tests in one-way ANOVA. We use maximum likelihood (ML) methodology and compare this methodology with some of robust estimators like M estimator, Wave estimator, trimmed mean and modified maximum likelihood (MML) methodology with Monte Carlo simulation study. Simulation results show that the proposed methodology is more preferable. We also compare power values of the test statistics and conclude that the test statistics based on the ML estimators are more powerful than the test statistics based on other methods.

Resumen Las comparaciones por pares o métodos post-hoc se utilizan para determinar la fuente de la diferencia de medias de grupo en ANOVA unidireccional. Estos métodos dependen principalmente de la suposición de normalidad. Sin embargo, no normales distribuciones son más frecuentes que la distribución normal. Por lo tanto, los métodos robustos de estimación se convierten en herramientas muy importantes en el análisis estadístico. En este artículo, asumimos que la distribución de los términos de error es la de Azzalini sesgar t y obtener los estimadores robustos para realizar pruebas post-hoc en ANOVA de una vía. Utilizamos la metodología de máxima verosimilitud (ML) y comparamos esta metodología con algunos de los estimadores robustos como el estimador M, estimador de onda, media recortada y máxima verosimilitud modificada (MML) metodología con estudio de simulación Monte Cario. Los resultados de la simulación muestran que la metodología propuesta es más preferible. También comparamos potencia valores de las estadísticas de prueba y concluimos que las estadísticas de prueba basadas en los estimadores ML son más poderosos que las estadísticas de prueba basadas en otros métodos.

Behavior of Some Hypothesis Tests for the Covariance Matrix of High Dimensional Data

Abstract The study of the structure of the covariance matrix when the dimension of the data is much greater than the sample size (high dimensional data) is a complicated problem, since we have many unknown parameters and few data. Several hypothesis tests for the covariance matrix, in the high dimensional context and in the classical case (where the dimension of the data is less than the sample size), can be found in the literature. It has been of interest to test the null hypothesis that either the covariance matrix of Gaussian data is equal to the identity matrix or proportional to it, considering the cl case as well as the high dimensional context. Since it is important to have a wide comparison between these tests found in the literature, and for some of them it is difficult to have theoretical results about their powers, in this work we compare several tests by simulations, in terms of the size and power of the test. We also present some examples of application with real high dimensional data found in the literature.

Resumen El estudio de la matriz de covarianza cuando la dimensión de los datos es mucho más grande que el tamaño de la muestra (datos de dimensión alta) es un problema complicado, ya que se tiene una gran cantidad de parámetros desconocidos y pocos datos. Se pueden encontrar en la literatura varias pruebas de hipótesis para la matriz de covarianza, en el contexto de datos de dimensión alta y en el caso clásico (donde la dimensión de los datos es menor que el tamaño de la muestra). Ha sido de interés probar la hipótesis nula de que la matriz de covarianza de datos Gaussianos es igual a la matriz identidad o proporcional a ella, considerando el contexto clásico así como el de dimensión alta. Ya que es importante tener una amplia comparación entre estas pruebas encontradas en la literatura, y para algunas de ellas es difícil tener resultados teóricos acerca de sus potencias, en este trabajo comparamos varias pruebas mediante simulaciones, en términos del tamaño y la potencia de la prueba. También presentamos algunos ejemplos de aplicación con datos de dimensión alta reales encontrados en la literatura.

Nonparametric Prediction for Spatial Dependent Functional Data Under Fixed Sampling Design

Abstract In this work, we consider a nonparametric prediction of a spatio-functional process observed under a non-random sampling design. The proposed predictor is based on functional regression and depends on two kernels, one of which controls the spatial structure and the other measures the proximity between the functional observations. It can be considered, in particular, as a supervised classification method when the variable of interest belongs to a predefined discrete finite set. The mean square error and almost complete (or sure) convergence are obtained when the sample considered is a locally stationary a-mixture sequence. Numerical studies were performed to illustrate the behavior of the proposed predictor. The finite sample properties based on simulated data show that the proposed prediction method outperforms the cl 1 predictor which not taking into account the spatial structure.

Resumen En este trabajo consideramos una predicción no paramétrica de un proceso espacial y funcional observado bajo un diseño de muestreo no aleatorio. El predictor propuesto se basa en la regresión funcional y depende de dos núcleos, uno de los cuales controla la estructura espacial y el otro mide la proximidad entre las observaciones funcionales. Esta metodología puede considerarse, en particular, como una nueva herramienta de clasificación supervisada cuando la variable de interés pertenece a un conjunto finito discreto predefinido. El error cuadrático medio y la convergencia casi completa (o certera) se obtienen cuando la muestra considerada es una a realizado estudios numéricos para ilustrar el comportamiento de nuestro predictor. Esta aplicación mediante simulación de un modelo numérico muestra que el método de predicción propuesto supera al predictor clásico que no tiene en cuenta la estructura espacial.