Revista Colombiana de Estadística

Validation of the Scale of Attitudes toward Statistics in Spanish Students of Physical Activity and Sport Sciences

Este trabajo analiza la estructura dimensional de la Escala de Actitudes hacia la Estadística en su aplicación a estudiantes de Ciencias de la Actividad Física y del Deporte. En virtud de los datos obtenidos con una muestra de 145 participantes de ambos sexos que fueron seleccionados por muestreo incidental en dos universidades públicas españolas, se concluye que no son plausibles las estructuras dimensionales propuestas por otros autores. Al mismo tiempo, se defiende una solución factorial basada en tres dimensiones y doce ítems, con capacidad para explicar el 68\

This article analyses the dimensional structure of the Scale of Attitudes toward Statistics in its implementation for Physical Activity and Sport Science students. On the data obtained with a sample of 145 participants of both sexes who were selected by incidental sampling in two Spanish universities, it is concluded that dimensional structures proposed by other autores are not plausible. At the same time, this study presents a factorial solution based on three dimensions and twelve items, with capacity to explain 68\

Wherein are Shown some Results of Autorship Attribution to Cervantes' Work

En este artículo se aplican algunos métodos de clasificación a un conjunto de textos con el objetivo de estudiar la probabilidad que el libro Novela de la tía fingida haya sido escrita por Miguel de Cervantes. Esta novela se le ha atribuido históricamente, pero existen algunas posiciones encontradas al respecto. Los métodos usados en este artículo contemplan: regresión logística, regresión logística aditiva, análisis discriminante lineal, cuadrático, regularizado, de mezclas y flexible, árboles de clasificación, método de los k-ésimos vecinos más cercanos, método de Bayes ingenuo y máquinas de soporte vectorial. Los métodos fueron calibrados y aplicados utilizando un corpus de autores contemporáneos a Cervantes (Lope de Vega, Jerónimo de Pasamonte, Alonso Fernández de Avellaneda, Mateo Alemán y Francisco de Quevedo) junto con más de cuarenta variables, principalmente palabras y signos de puntuación, medidas sobre muestras de los textos escritos por estos autores. Con respecto a estos métodos, la mayoría clasifica la obra como cervantina; sin embargo, es recomendable ampliar el corpus utilizado para el estudio e incluir más autores para la comparación.

In this paper, some classification methods are applied to a set of texts with the aim of studying the probability that the book Novela de la tía fingida has been written by Miguel de Cervantes. This novel has been historically attributed to him but there are some encountered positions about this. The methods used in this paper range from: logistic regression, additive logistic regression, linear, quadratic, regularized, mixture and flexible discriminant analysis, classification tree, k-nearest neighbour, Naive Bayes method and support vector machines. Methods were trained and applied using a corpus of authors contemporary to Cervantes as Lope de Vega, Jerónimo de Pasamonte, Alonso Fernández de Avellaneda, Mateo Alemán, and Francisco de Quevedo and more than forty variables, mainly words and punctuation marks, measured over written texts by these authors. Respect to these methods, most of them classify the novel as another Cervantes work; however, is our recommendation to include more texts from these authors and more authors.

Socioeconomic Determinants of Infant Mortality in Colombia{,} 1993

Este artículo estima los determinantes socioeconómicos de la mortalidad infantil en Colombia, haciendo uso de los datos censales más recientes y disponibles al público en el país (1993). Para tal fin, se estiman las tasas de mortalidad infantil (TMI) de manera indirecta siguiendo el método Brass-Trussell, dadas las altas tasas de subregistro, que pueden alcanzar el 30\

This article considers the socioeconomic determinants of infant mortality in Colombia, by using the most recent and available census to the public data in Colombia (1993). For such aim, the Infant Mortality Rate (IMR) is calculated by indirect estimation techniques following the Brass-Trussell method, given the high rates of sub-registry, which can reach 30\

Testing Linearity against a Univariate TAR Specification in Time Series with Missing Data

Nowadays, procedures for testing the null hypothesis of linearity of a (univariate or multivariate) stochastic process are well known, almost all of them based on the assumption that their paths (i.e. observed time series) are complete. This paper describes an approach for testing this null hypothesis in the presence of missing data, using an extension of one of the test statistics used in the literature. The alternative hypothesis is that the univariate stochastic process of interest follows a threshold autoregressive (TAR) model. It is found that if the missing-data percentage is low, the null distribution of the proposed test statistic is maintained; while if it is high, it is not. A threshold value for the missing-data percentage is detected, which can be utilized in practice.

Las pruebas estadísticas que se conocen actualmente para examinar la hipótesis nula de linealidad de un proceso estocástico (univariado o multivariado) están basadas, casi todas, en el supuesto de que las series temporales observadas son completas. En este trabajo, se presenta un nuevo procedimiento para examinar esta hipótesis nula, en presencia de datos faltantes, el cual es una extensión de un método muy citado en la literatura. La hipótesis alternativa especifica que el proceso estocástico de interés obedece a un modelo autoregresivo de umbrales (TAR). Se encuentra que si el porcentaje de observaciones faltantes es bajo, la distribución nula de la estadística de prueba se mantiene; en otro caso no. El estudio arroja un valor umbral para este porcentaje, el cual puede ser usado en la práctica.

Bayesian Analysis for the Generalized Lognormal Distribution Applied to Failure Time Analysis

Existen varias versiones de la distribución lognormal en la literatura estadística y una de ellas está basada en la transformación exponencial de la distribución normal generalizada (NG). En el presente artículo se presenta el análisis Bayesiano para la distribución lognormal generalizada (logNG) considerando distribuciones a priori de Jeffreys independientes para los parámetros; así como el procedimiento para implementar el muestreador de Gibbs que permite obtener las distribuciones a posteriori de los parámetros. Los resultados obtenidos son usados para analizar modelos de tiempo de falla con datos no censurados y censurados a derecha Tipo I. El procedimiento propuesto es ilustrado usando una base de datos real relacionada con tiempos de falla de computadores.

There are several versions of the lognormal distribution in the statistical literature, one is based in the exponential transformation of generalized normal distribution (GN). This paper presents the Bayesian analysis for the generalized lognormal distribution (logGN) considering independent non-informative Jeffreys distributions for the parameters as well as the procedure for implementing the Gibbs sampler to obtain the posterior distributions of parameters. The results are used to analyze failure time models with right-censored and uncensored data. The proposed method is illustrated using actual failure time data of computers.

A Bayesian Analysis in the Presence of Covariates for Multivariate Survival Data: An example of Application

In this paper, we introduce a Bayesian analysis for survival multivariate data in the presence of a covariate vector and censored observations. Different "frailties" or latent variables are considered to capture the correlation among the survival times for the same individual. We assume Weibull or generalized Gamma distributions considering right censored lifetime data. We develop the Bayesian analysis using Markov Chain Monte Carlo (MCMC) methods.

En este artículo, se introduce un análisis bayesiano para datos multivariados de sobrevivencia en presencia de un vector de covariables y observaciones censuradas. Diferentes "fragilidades" o variables latentes son consideradas para capturar la correlación entre los tiempos de sobrevivencia para un mismo individuo. Asumimos distribuciones Weibull o Gamma generalizadas considerando datos de tiempo de vida a derecha. Desarrollamos el análisis bayesiano usando métodos Markov Chain Monte Carlo (MCMC).

Nonparametric Cutoff Point Estimation for Diagnostic Decisions with Weighted Errors

The study of diagnostic tests is a hot topic which has direct applications in biomedical sciences. Despite of the relevance, in a diagnostic process, of the threshold (or cutoff point) employed on the decision taken by the physician, the study and comparison of the accuracy among different diagnostic criterions has been the main field of study. In this paper, the authors are interested in the study of the involved cutoff point estimation in diagnostic tests with weighted errors. With this goal, a nonparametric smoothed utility function estimator is considered. The bootstrap and the asymptotic distributions for the related M-estimator are derived. Finally, the obtained results are applied to study the Procalcitonin level which determines whether a child within the Pediatric Intensive Care Unit (UCIP) has a virical sepsis.

El estudio de tests diagnósticos es un tema candente con aplicaciones directas en las ciencias biomédicas. Aunque en la práctica, a la hora de tomar una decisión, los clínicos deben fijar un valor umbral (o punto de corte) a pesar de la relevancia que este valor tiene, el estudio y la comparación de la calidad entre diferentes criterios diagnósticos ha sido el principal campo de estudio. En este trabajo, los autores están interesados en el estudio de la estimación del punto de corte involucrado en un test diagnóstico con errores ponderados. Con este objetivo, se considera un estimador suavizado para una función de utilidad. Se estudian las distribuciones bootstrap y asintóticas del M-estimador resultante. Finalmente, los resultados obtenidos son aplicados al estudio de los niveles de Procalcitonina que determinan si un niño ingresado en la Unidad de Cuidados Intensivos Pediátricos (UCIP) tiene infección vírica.

New Control Charts Based on the Birnbaum-Saunders Distribution and their Implementation

l modelo Birnbaum-Saunders (BS) es una distribución de vida que tiene propiedades interesantes y aplicaciones en varias áreas. Esto la ha convertido en un foco de investigación importante en el último tiempo. Sin embargo, la suma de variables aleatorias independientes BS (BSsum) no sigue una distribución BS. A través de la distribución BSsum, se pueden monitorear los tiempos de vida de productos expuestos a fallas mediante una carta de control de calidad. Los procedimientos clásicos de cartas de control suponen normalidad en la distribución de los datos. No obstante, una de las características principales de los tiempos de vida es que éstos generalmente siguen distribuciones asimétricas. Por tanto, si se quiere monitorear estos tiempos, se deben considerar cartas de control para distribuciones asimétricas, como es el caso de la distribución BS. El monitoreo de los tiempos de vida se realiza generalmente mediante el tiempo acumulado o el tiempo promedio hasta la ocurrencia de cierto número de fallas. Entonces, usando la distribución BSsum, desarrollamos, implementamos y aplicamos una nueva metodología para cartas de control basada en la distribución BS.

The Birnbaum-Saunders (BS) model is a life distribution with interesting properties and applications in several fields. This has transformed the BS model in an important research focus in recent decades. However, the sum of BS (BSsum) independent random variables does not follow a BS distribution. By means of the BSsum distribution, we can monitor the lifetime of products subject to failures using a quality control chart. Classic procedures for control charts assume normality in the distribution of the data. Nevertheless, one of the main characteristics of the lifetimes is that them generally follow asymmetric distributions. Therefore, if we want to monitor these lifetimes, we must consider control charts for asymmetric distributions, such as it is the case of the BS distribution. The monitoring of the lifetimes is carried out generally by the accumulated lifetime or the lifetime average until than a number of failures occurs. Thus, by using the BSsum distribution, we develop, implement and apply a new methodology for control charts based on the BS distribution.

On the Student-t Mixture Inverse Gaussian Modelwith an Application to Protein Production

In this article, we introduce a mixture inverse Gaussian (MIG) model based on the Student-t distribution and apply it to bacterium-based protein production for food industry. This model is mainly useful to describe data that follow positively skewed distributions and accommodate atypical observations in a better way than its classical version. Specifically, we present a characterization of the MIG-t distribution. In addition, we carry out a hazard analysis of this distribution centered mainly on its hazard rate. Furthermore, we discuss the maximum likelihood method, which produces--in this case--robust parameter estimates. Moreover, to evaluate the potential influence of atypical observations, we produce a diagnostic analysis for the model. Finally, we apply the obtained results to novel bacterium-based protein production data and statistically compare two types of protein producers using the likelihood ratio test based on the MIG-t model as an alternative methodology to the procedures available until now. This fact is very important, since the evaluation of protein production using both constructions allows practitioners to choose the most productive one before the bacterial culture is scaled to an industrial level.

En este art\iculo, introducimos un modelo Gaussiano inverso (MIG) mezclado basado en la distribuci\on t-Student y lo aplicamos a la producci\on de prote\inas basada en bacterias para la industria de alimentos. Este modelo es especialmente \util para describir datos que siguen una distribuci\on con sesgo positivo ya que permite acomodar observaciones at\ipicas de mejor forma que su versión cl\asica. Espec{i}ficamente, presentamos una caracterizaci\on de la distribución MIG-t y realizamos un an\alisis de confiabilidad de esta distribuci\on centrado principalmente en la tasa de fallas. También, discutimos el m\etodo de verosimilitud m\axima, el cual proporciona en este caso estimaciones robustas de los par\ametros del modelo. Con el fin de evaluar la influencia potencial de observaciones at\ipicas, proponemos un an\alisis de diagn\ostico para la distribuci\on. Finalmente, aplicamos los resultados obtenidos al análisis de datos nuevos de producci\on de prote\ina basada en bacterias utilizada en la industria de alimentos y comparamos estadísticamente dos tipos de bacterias productoras usando la prueba de raz\on de verosimilitudes basada en el modelo MIG-t como una metodolog\ia alternativa a los procedimientos disponibles a la fecha. Este punto es muy importante, ya que la evaluaci\on de producci\on de prote\inas usando dos construcciones distintas permite a los investigadores escoger el tipo m\as productivo antes de proceder al cultivo industrial a gran escala.

Comparison of Confidence Intervals for the Survival Function in the Presence of Right Censoring

En este trabajo se comparan métodos para encontrar intervalos de confianza para la función de supervivencia, como los métodos de remuestreo Bootstrap aplicado a los estimadores de Kaplan-Meier y Nelson-Aalen. También, mediante las transformaciones \log, \log(-\log) y \arcsen que pueden resultar en muchos casos más efectivos. Además, se muestra el comportamiento que presentan los intervalos de confianza no paramétricos frente a los paramétricos.

This work compares methods to find confidence interval for the survival function such as the resampling methods Bootstrap, applied to the Kaplan-Meier and Nelson-Aalen estimators. Also through \log, \log(-\log) and arcsin transformations that can result more effectives in many cases. The behavior of nonparametric confidence intervals against parametric ones is also shown.