Revista Colombiana de Estadística

Editorial

Multivariate Normality Tests for Serially Correlated Data

Abstract We extend univariate normality tests for time‑dependent observations to their multivariate versions using orthogonalization or empirical standardization of the data. This extension allows us to assess the multivariate normality of serially correlated data. The proposed test statistics asymptotically follow the \(\chi^2\) distribution, which allows for readily applicable tests. A comprehensive Monte Carlo study indicates that the proposed tests exhibit good size control and high empirical power. Furthermore, we provide empirical illustrations of all the extended tests using West German macroeconomic data (Lütkepohl, 2005).

Resumen Extendemos las pruebas de normalidad univariadas para observaciones dependientes del tiempo a sus versiones multivariadas usando ortogonalización o estandarización empírica de los datos. Esta extensión nos permite evaluar la normalidad multivariada, de datos correlacionados en serie. Las estadísticas de prueba propuestas siguen asintóticamente la distribución \(\chi^2\), que permite pruebas fácilmente aplicables. Un comprensivo Estudio de Montecarlo indica que las pruebas propuestas presentan buen tamaño control y alto poder empírico. Además, proporcionamos ilustraciones empíricas de todas las pruebas ampliadas utilizando datos macroeconómicos de Alemania Occidental (Lütkepohl, 2005).

Two-Step Calibrated Designed Weighted Estimators of Finite Population Variance for a Mailed Survey Design Characterized by Non-response

Abstract In this paper, a new class of variance estimators based on a two- step designed weights technique in the presence of non- response is proposed. The proposed estimator is designed to be robust against extreme values or out- liers. In the first step, the calibration weights of the new class of estimators are set proportional to the design weights of the existing finite population variance estimator for a mailed survey design characterized by the presence of non- response. In the second step, the constants of proportionality are determined based on different objectives of the investigator such as bias re- duction or minimum mean squared error. Many estimators available in the literature can be shown to be special cases of the proposed two- step cal- ibrated estimator. The properties of the proposed estimators are studied theoretically and numerically. Empirical studies were conducted using ten simulated data to illustrate the performance of proposed estimators over ex- isting ones. The results of the numerical comparison depicted the superiority of two members of the proposed estimator in all cases of data considered.

Resumen En este artículo se propone una nueva clase de estimadores de varianza basados en una técnica de ponderaciones diseñadas en dos pasos en presencia de falta de respuesta. El estimador propuesto está diseñado para ser robusto frente a valores extremos o valores atípicos. En el primer paso, las ponderaciones de calibración de la nueva clase de estimadores se establecen proporcionales a las ponderaciones de diseño del estimador de varianza de población finita existente para un diseño de encuesta enviada por correo caracterizado por la presencia de falta de respuesta. En el segundo paso, las constantes de proporcionalidad se determinan en función de diferentes objetivos del investigador, como la reducción del sesgo o el error cuadrático medio mínimo. Se puede demostrar que muchos estimadores disponibles en la literatura son casos especiales del estimador calibrado de dos pasos propuesto. Se estudian teórica y numéricamente las propiedades de los estimadores propuestos. Se realizaron estudios empíricos utilizando diez datos simulados para ilustrar el desempeño de los estimadores propuestos sobre los existentes. Los resultados de la comparación numérica mostraron la superioridad de dos miembros del estimador propuesto en todos los casos de datos considerados.

Double Sampling Plan for OPPE Model Using Combined Mean

Abstract This work provides Double Sampling (DS) inspection plans considering the average lifetime as a quality characteristic which follows one parameter polynomial exponential (OPPE) family of distributions. Exponential, Lindley, Akash, Aradhana, Sujatha, length-biased Lindley, etc., are a few particular cases of the OPPE family. The quality of a lot is computed in this technique, by the lot average \((\mu)\) for first sample and, for the second sample we have taken combined mean to measure the lot quality. Also, we have estimated the optimum value of parameters of the proposed plan by non-linear optimization approaches considering acceptable quality level and rejectable quality level. A comparison part of the study is given, with respect to the sample size, between the Double Sampling (DS) plan and the Single Sampling (SS) plan for the variable. To describe the proposed work, we have also taken one example.

Resumen Este trabajo proporciona planes de inspección de doble muestreo (DS) considerando la vida útil promedio como una característica de calidad que sigue una familia de distribuciones polinomiales exponenciales (OPPE). Exponencial, Lindley, Akash, Aradhana, Sujatha, Lindley con sesgo de longitud, etc., son algunos casos particulares de la familia OPPE. La calidad de un lote se calcula en esta técnica, mediante el promedio del lote \((\mu)\) para la primera muestra y, para la segunda muestra, hemos tomado la media combinada para medir la calidad del lote. Además, hemos estimado el valor óptimo de los parámetros del plan propuesto mediante enfoques de optimización no lineal considerando el nivel de calidad aceptable y el nivel de calidad rechazable. Se da una parte comparativa del estudio, con respecto al tamaño de la muestra, entre el plan de Doble Muestreo (DS) y el plan de Muestreo Único (SS) para la variable. Para describir el trabajo propuesto, también hemos tomado un ejemplo.

The Zografos-Balakrishnan Type-I Heavy-Tailed-G Family of Distributions with Applications

Abstract We propose a new family of distributions called the Zografos-Balakrishnan type-I heavy-tailed-G (ZBTHT-G) distributions. A special model of the proposed family, namely Zografos-Balakrishnan type-I heavy-tailed-Weibull (ZBTHT-W) model is thoroughly studied. Statistical properties of the new family of distributions including, among others, the hazard rate function, quantile function, moments, distribution of order statistics and Rényi entropy are presented. The maximum likelihood method of estimation is used for estimating the model parameters and Monte Carlo simulation is conducted to examine the performance of the estimators of the model parameters. The flexibility and importance of the new family of distributions are demonstrated by means of applications to real data sets.

Resumen Proponemos una nueva familia de distribuciones Zografos-Balakrishnan tipo I de colas pesadas G con aplicaciones (ZBTHT-G). Un modelo especial de la familia propuesta Zografos-Balakrishnan tipo I-Weibull de cola pesada (ZBTHT-W) está profundamente estudiada. Propiedades estadísticas de la nueva familia de distribuciones que incluyen, entre otras, la función de tasa de riesgo. Se presenta la función cuantil, momentos, distribución de estadísticas de orden y entropía de Rényi. Se utiliza el método de estimación de máxima verosimilitud para estimar los parámetros del modelo y se realiza una simulación de Monte Carlo para examinar el desempeño de los estimadores de los parámetros del modelo. La flexibilidad e importancia de la nueva familia de distribuciones son demostradas mediante aplicaciones a conjuntos de datos reales.

Unit Regression Models to Explain Vote Proportions in the Brazilian Presidential Elections in 2018

Abstract In this paper, we aim to identify the covariates associated with the proportion of votes of candidates elected in Brazilian municipalities with a population of more than 300,000 inhabitants. We analyzed the vote proportions from the 2018 presidential runoff election using distributions within the Generalized Additive Models for Location, Scale, and Shape (GAMLSS) class. Unit distributions are quite useful for modeling vote proportions due to their flexibility to accommodate asymmetry and heavy tails. Furthermore, they provide adequate representations of the physiological properties and the empirical distribution of the data. We fit the beta, simplex, unit gamma, and unit Lindley regression models, considering random and fixed effects components to verify spatial correlation among the municipalities. The beta regression with fixed components regarding Brazilian regions is superior. The covariates with significant effects are the proportion of evangelicals, monthly household income per capita, the political spectrum of the governors' party elected in 2014 and 2018, and if the municipality is the capital of the state. We note that some Brazilian regions impact the vote proportions' mean and dispersion.

Resumen En este artículo, nuestro objetivo es identificar las covariables asociadas con la proporción de votos de los candidatos electos en municipios brasileños con una población de más de 300,000 habitantes. Analizamos las proporciones de votos de la segunda vuelta de las elecciones presidenciales de 2018 utilizando distribuciones dentro de la clase de Modelos Aditivos Generalizados para localización, Escala y Forma (GAMLSS). Las distribuciones unitarias son muy útiles para modelar proporciones de votos debido a su flexibilidad para acomodar asimetría y colas pesadas. Además, proporcionan representaciones adecuadas de las propiedades fisiológicas y la distribución empírica de los datos. Ajustamos los modelos de regresión beta, simplex, gamma unitario y Lindley, considerando componentes de efectos aleatorios y fijos para verificar la correlación espacial entre los municipios. La regresión beta con componentes fijos respecto a las regiones brasileñas es superior. Las covariables con efectos significativos son la proporción de evangélicos, el ingreso mensual por hogar per cápita, el espectro político del partido de los gobernadores elegidos en 2014 y 2018, y si el municipio es la capital del estado. Notamos que algunas regiones brasileñas impactan en la media y la dispersión de las proporciones de voto.

New Unconditional and Quantile Regression Model Erf-Weibull: An Alternative to Gamma, Gumbel and Exponentiated Exponential Distributions

Abstract In this paper, we present a stochastic model that uses the Gaussian error function to change the likelihood of the Weibull distribution without changing the complexity of its parametric space. Several mathematical properties are derived for the proposed model, which has numerical examples to illustrate its usability in practice. The failure rate function of the resulting model presents non‑monotonous shapes, such as the shape of a bathtub, which represents a gain concerning the base distribution. Two parameter estimation methods are presented and evaluated numerically. In addition to the unconditional model, a regression model for the quantiles of the distribution is derived. Both absolute and regression models have applications to actual data and simulation studies, corroborating their use in practical situations.

Resumen En este artículo, presentamos un modelo estocástico que utiliza la función de error de Gauss para cambiar la probabilidad de la distribución de Weibull sin cambiar la complejidad de su espacio paramétrico. Se derivan varias propiedades matemáticas para el modelo propuesto, que tiene ejemplos numéricos para ilustrar su usabilidad en la práctica. La función de tasa de falla del modelo resultante presenta formas no monótonas, como la forma de una bañera, lo que representa una ganancia con respecto a la distribución base. Se presentan y evalúan numéricamente dos métodos de estimación de parámetros. Además del modelo incondicional, se deriva un modelo de regresión para los cuantiles de la distribución. Tanto los modelos absolutos como los de regresión tienen aplicaciones a datos reales y estudios de simulación, corroborando su uso en situaciones prácticas.

A New Technique to Generate Families of Continuous Distributions

Abstract We introduce a novel technique for producing several families of distributions: the alpha- log- power transformed method. The novelty of our new approach lies in the fact that it adds one new shape parameter and was not derived from any established parent model. Some examples of the new family are presented. Also, some important statistical properties of the new family are studied. The maximum likelihood estimation approach is utilized to estimate the model parameters of the new family. To evaluate the performance of the estimators, Monte Carlo simulation is conducted using some arbitrary baseline distributions namely the Weibull, Burr- XII and Pareto distribution. Two real datasets are used to empirically show the potential significance and applicability of the alpha log power transformed Weibull. The alpha log power transformed Weibull is a very competitive model for characterizing observations in survival analysis.

Resumen Introducimos una técnica novedosa para producir varias familias de distribuciones: el método transformado de potencia logarítmica alfa. La novedad de nuestro nuevo enfo que radica en el hecho de que agrega un nuevo parámetro de forma y no se deriva de ningún modelo principal establecido. Se presentan algunos ejemplos de la nueva familia. Además, se estudian algunas propiedades estadísticas importantes de la nueva familia. Se utiliza el enfoque de estimación de máxima verosimilitud para estimar los parámetros del modelo de la nueva familia. Para evaluar el desempeño de los estimadores, se realiza una simulación de Monte Carlo utilizando algunas distribuciones de referencia arbitrarias, a saber, la distribución de Weibull, Burr- XII y Pareto. Se utilizan dos conjuntos de datos reales para mostrar empíricamente la importancia potencial y la aplicabilidad de Weibull transformado en potencia logarítmica alfa. El poder logarítmico alfa transformado de Weibull es un modelo muy competitivo para caracterizar observaciones en el análisis de supervivencia.

Cancer Data Modelling: Application of the Gamma-Odd Topp-Leone-G Family of Distributions

Abstract The study introduces a new generalised family of distributions for cancer data modelling using a generalisation of the gamma function and a Topp-Leone-G distribution called the Gamma-Odd Topp-Leone-G (GOTL-G). Cancer data is normally characterised by complex heterogeneous properties like skewness, kurtosis, and presence of extreme values which makes it difficult to model using classical distributions. We derived multiple statistical properties including the linear representation, Rényi entropy, quantile functions, distribution of order statistics, and maximum likelihood estimates which normally guarantees a positive effect on the generalisability of cancer data. Interestingly, we observed that these derived statistical properties make it possible for the generalisation of different models which are useful in the analysis, control, insurance, and survival of cancer patients. Our results show that this new family of distributions can be applied to a variety of data sets such as bladder and breast cancer data which exhibited high level of skewness and kurtosis as well as symmetric attributes. Therefore, we can conclude that the GOTL-G family of distributions can be extremely useful in capturing distinct complex heterogeneous properties normally exhibited by cancer patients. We recommend that this new family of distributions can be useful in modelling complex real-life applications including cancer data.

Resumen El estudio presenta una nueva familia generalizada de distribuciones para el modelado de datos sobre cáncer utilizando una generalización de la función gamma y una distribución Topp-Leone-G llamada Gamma-Odd Topp-Leone-G (GOTL-G). Los datos sobre el cáncer normalmente se caracterizan por propiedades heterogéneas complejas como asimetría, curtosis y presencia de valores extremos, lo que dificulta el modelado utilizando distribuciones clásicas. Derivamos múltiples propiedades estadísticas, incluida la representación lineal, la entropía de Rényi, funciones cuantiles, estadísticas de distribución de orden y estimaciones de máxima verosimilitud, que normalmente garantizan un efecto positivo en la generalización de los datos sobre el cáncer. Curiosamente, observamos que estas propiedades estadísticas derivadas permiten la generalización de diferentes modelos que son útiles en el análisis, control, seguro y supervivencia de pacientes con cáncer. Nuestros resultados muestran que esta nueva familia de distribuciones se puede aplicar a una variedad de conjuntos de datos, como datos de cáncer de vejiga y de mama, que mostraron un alto nivel de asimetría y curtosis, así como atributos simétricos. Por lo tanto, podemos concluir que la familia de distribuciones GOTL-G puede ser extremadamente útil para capturar distintas propiedades heterogéneas complejas que normalmente exhiben los pacientes con cáncer. Recomendamos que esta nueva familia de distribuciones pueda resultar útil para modelar aplicaciones complejas de la vida real, incluidos datos sobre cáncer.

Joint Occurrences of Competing Risks and Multivariate Longitudinal Data: A Prediction Investigation for the HIV.long Data

Abstract In this article, some prediction strategies are introduced for event times, where multivariate data with competing or semi- competing risks are simultaneously collected. Without loss of generality, the proposed methods can be used to analyze multivariate longitudinal data with competing or semi- competing risks, often encountered in social sciences and sports activities. Regarding the situations mentioned earlier, we can provide the prediction values of: I. Time of occurrences of any cause for specific individuals II. Time of subsequent events for some cause in other individuals III. The covariate values on predicted time of I and II. Accordingly, doctor assistants or nurses can schedule good visiting times based on I and II. Item III can provide the missing values of all covariates that are utilized for better modeling. The corresponding statistical background is extensively discussed. Finally, an actual data set has been analyzed, the prediction values are provided, and their performances are assessed.

Resumen En este artículo, se presentan algunas estrategias de predicción para los tiempos de eventos, donde se recopilan datos multivariados con riesgos competitivos o semi- competitivos de manera simultánea. Sin pérdida de generalidad, los métodos propuestos se pueden utilizar para analizar datos longitudinales multivariados con riesgos competitivos o semi- competitivos, que a menudo se encuentran en las ciencias sociales y actividades deportivas. En relación con las situaciones mencionadas anteriormente, podemos proporcionar los valores de predicción de: I. Tiempo de ocurrencia de cualquier causa para individuos específicos. II. Tiempo de eventos subsiguientes para alguna causa en otros individuos. III. Los valores de covariables en el tiempo predicho de I y II. En consecuencia, los asistentes médicos o enfermeras pueden programar buenos momentos de visita en función de I y II. El ítem III puede proporcionar los valores faltantes de todas las covariables que se utilizan para un mejor modelado. El fondo estadístico correspondiente se discute ampliamente. Finalmente, se ha analizado un conjunto de datos reales, se proporcionan los valores de predicción y se evalúan sus rendimientos.

A Review of the Use of Small Area Estimation in Colombia

Abstract This article provides a review of the work carried out in Colombia on small area estimation. It considers initiatives of an academic nature, mainly originating from universities, as well as initiatives focused on generating official statistics from public offices and private companies in the country. The objective of the work is to update the interested reader on the progress of this methodology in the country and to encourage the community to deepen into the analysis and publication of content on small area estimation. Additionally, a summary of the main models used in small area estimation is presented.

Resumen En este artículo se presenta una revisión de los trabajos realizados en Colombia sobre estimación en áreas pequeñas. Se considera iniciativas de carácter académico originadas principalmente en las universidades, así como iniciativas orientadas a la generación de estadísticas oficiales provenientes de oficinas públicas del país y de empresas privadas. El trabajo busca actualizar al lector interesado sobre los avances acerca de esta metodología en el país y motivar a la comunidad a profundizar en el análisis y la publicación de contenidos sobre estimación en áreas pequeñas. Adicionalmente, se presenta un resumen de los principales modelos utilizados en estimación en áreas pequeñas.

Data-Driven Modeling of Impact of Differential Efficacy of COVID-19 Vaccines in Two Socio-Economically Contrasting Cities: New York, USA and Bogotá, Colombia

Abstract In an effort to curb the spread of COVID-19, various types of vaccines, including mRNA, viral vectors, and traditional ones, were globally approved and implemented. However, the distribution of vaccines in each country became a critical and determining factor in the disease's evolution. The present study aims to understand the differential impact of the different available vaccine types on disease burden. A proposed mathematical model considers multiple vaccines in a community to analyze the dynamics of COVID-19 transmission in two socioeconomically diverse regions. Secondary incidence data for the cities of Bogotá, Colombia, and New York, USA, from March 2020 to December 2021 were used to estimate vaccine-related parameters and actual transmission rates. The results suggest that although New York has more effective vaccines, higher vaccination rates, and lower poverty rates compared to Bogotá, its disease burden was significantly higher due to higher population density and, consequently, a greater number of contacts. This indicates that while more effective vaccines are crucial to flattening the curve, social distancing measures are equally important for quickly controlling the disease if the vaccination rate is not sufficiently high. Additionally, the model successfully captures the epidemiological behaviour of transmission through the use of vaccines, calculating the basic reproductive number in different scenarios and estimating the parameters of the proposed model.

Resumen En un esfuerzo por frenar la propagación del COVID-19, se aprobaron e implementaron globalmente varios tipos de vacunas, incluidas las de ARNm, vectores virales y las tradicionales. Sin embargo, la distribución de vacunas en cada país se convirtió en un factor crítico y determinante en la evolución de la enfermedad. El presente estudio tiene como objetivo comprender el impacto diferencial de los diferentes tipos de vacunas disponibles en la carga de la enfermedad. Se propone un modelo matemático que considera múltiples vacunas en una comunidad para analizar la dinámica de transmisión del COVID-19 en dos regiones socioeconómicamente diversas. Se utilizaron datos de incidencia secundaria de las ciudades de Bogotá, Colombia, y Nueva York, EE.UU., desde marzo de 2020 hasta diciembre de 2021 para estimar los parámetros relacionados con las vacunas y las tasas reales de transmisión. Los resultados sugieren que, aunque Nueva York tiene vacunas más efectivas, mayores tasas de vacunación y menores tasas de pobreza en comparación con Bogotá, su carga de enfermedad fue significativamente mayor debido a una mayor densidad de población y, por consiguiente, un mayor número de contactos. Esto indica que, si bien las vacunas más efectivas son cruciales para aplanar la curva, las medidas de distanciamiento social son igualmente importantes para controlar rápidamente la enfermedad si la tasa de vacunación no es lo suficientemente alta. Además, el modelo captura con éxito el comportamiento epidemiológico de la transmisión mediante el uso de vacunas, calculando el número reproductivo básico en diferentes escenarios y estimando los parámetros del modelo propuesto.

The Flexible Generalized Gamma Distribution With Applications to COVID-19 Data

Abstract The article presents the flexible generalized gamma distribution, whose density function can be expressed as an infinite linear combination of generalized gamma densities. Some of its statistical properties are reported, and maximum likelihood estimation is also discussed. A regression model with two systematic components is constructed for censored data. Three applications to real COVID-19 data reveal that the new model provides adequate fit and outperforms some competing models.

Resumen El artículo presenta la distribución gamma generalizada flexible, cuya función de densidad puede expresarse como una combinación lineal infinita de densidades gamma generalizadas. Se describen algunas de sus propiedades estadísticas y se analiza la estimación por máxima verosimilitud. Se construye un modelo de regresión con dos componentes sistemáticos para datos censurados. Tres aplicaciones a datos reales de COVID-19 revelan que el nuevo modelo proporciona y supera a algunos modelos de la competencia.

Analysis of Academic Data to Group Students According to Their Academic Risk

Abstract The Consillium Academica initiative, spearheaded by the academic vice- deanship of the Faculty of Sciences at Universidad Nacional de Colombia in Bogotá, is based on a comprehensive clustering analysis of undergraduate students. This study leverages data spanning from the 2012- 1S to 2022- 2S academic terms to semi- automatically identify a group of students consistently exhibiting academic underperformance each semester with a potential high risk of academic dropout. The methodology employed in this initiative serves as a proactive measure to identify and support students at risk, to improve the effectiveness of the intervention strategies of the tutor- teacher program, facilitating direct contact between mentors and identified students to provide personalized guidance and academic advisement. This article presents the methodology, key findings, and implications of the Consillium Academica initiative, shedding light on its potential to fortify academic support systems and contribute to the overall success and retention of undergraduate students.

Resumen La iniciativa Consillium Academica, liderada por la vicedecanatura académica de la Facultad de Ciencias en la Universidad Nacional de Colombia- sede Bogotá, lleva a cabo un exhaustivo análisis de agrupación de estudiantes de pregrado. Este estudio aprovecha los datos de los periodos académicos 2012- 1S a 2022- 2S para identificar de forma semiautomática una cohorte de estudiantes que muestran sistemáticamente un bajo rendimiento académico cada semestre, indicativo de un mayor riesgo de expulsión o abandono académico. La metodología empleada en esta iniciativa sirve como medida proactiva para identificar y apoyar a los estudiantes en situación de riesgo, con el objetivo de mejorar la eficacia de las estrategias de intervención del programa de profesores tutores, el cual, desempeña un papel fundamental en este proceso, facilitando el contacto directo entre los tutores y los estudiantes identificados para proporcionarles orientación personalizada y asesoramiento académico. Este artículo presenta la metodología, los principales resultados y las implicaciones de la iniciativa Consillium Academica, arrojando luz sobre su potencial para fortalecer los sistemas de apoyo académico y contribuir al éxito general y la retención de los estudiantes universitarios.