Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120200001&lang=en vol. 43 num. 1 lang. en <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[Relationship Between Kendall's tau Correlation and Mutual Information]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000100003&lng=en&nrm=iso&tlng=en Abstract Mutual information (MI) can be viewed as a measure of multivariate association in a random vector. However, the estimation of MI is difficult since the estimation of the joint probability density function (PDF) of non-Gaussian distributed data is a hard problem. Copula function is an appropriate tool for estimating MI since the joint probability density function of random variables can be expressed as the product of the associated copula density function and marginal PDF's. With a little search, we find that the proposed copulas-based mutual information is much more accurate than conventional methods such as the joint histogram and Parzen window-based MI. In this paper, by using the copulas-based method, we compute MI for some family of bivariate distribution functions and study the relationship between Kendall's tau correlation and MI of bivariate distributions. Finally, using a real dataset, we illustrate the efficiency of this approach.<hr/>Resumen La información mutua (MI) puede ser vista como una medida de asociación multivariante en un vector aleatorio. Sin embargo, la estimación de MI es difícil ya que la estimación de la función de densidad de probabilidad conjunta (PDF) de datos distribuidos no gaussianos es un problema difícil. La función copula es una herramienta apropiada para estimar el MI ya que la función de densidad de probabilidad de las variables aleatorias se puede expresar como el producto de la función de densidad de cópula asociada y de los PDF marginales. Con una pequeña búsqueda, encontramos que la información mutua propuesta basada en cópulas es mucho más precisa que los métodos convencionales, como el histograma de la articulación y el MI basado en ventana de Parzen. En este artículo, al utilizar el método basado en cópulas, calculamos el MI para algunas familias de funciones de distribución bivariadas y estudiamos la relación entre la correlación tau de Kendall y el MI de las distribuciones bivariadas. Finalmente, usando un conjunto de datos real, ilustramos la eficiencia de este enfoque. <![CDATA[Two Useful Discrete Distributions to Model Overdispersed Count Data]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000100021&lng=en&nrm=iso&tlng=en Abstract The methods to obtain discrete analogs of continuous distributions have been widely considered in recent years. In general, the discretization process provides probability mass functions that can be competitive with the tra ditional model used in the analysis of count data, the Poisson distribution. The discretization procedure also avoids the use of continuous distribution in the analysis of strictly discrete data. In this paper, we seek to introduce two discrete analogs for the Shanker distribution using the method of the in finite series and the method based on the survival function as alternatives to model overdispersed datasets. Despite the difference between discretization methods, the resulting distributions are interchangeable. However, the dis tribution generated by the method of the infinite series method has simpler mathematical expressions for the shape, the generating functions, and the central moments. The maximum likelihood theory is considered for estima tion and asymptotic inference concerns. A simulation study is carried out in order to evaluate some frequentist properties of the developed methodology. The usefulness of the proposed models is evaluated using real datasets pro vided by the literature.<hr/>Resumen Los métodos para obtener análogos discretos de distribuciones continuas han sido ampliamente considerados en los últimos años. En general, el pro ceso de discretización proporciona funciones de probabilidad en masa que pueden ser competitivas con el modelo tradicional utilizado en el análisis de datos de conteo, la distribución de Poisson. El procedimiento de discretización también evita el uso de la distribución continua en el análisis de datos estrictamente discretos. En este artículo, intentamos introducir dos análogos discretos para la distribución de Shanker utilizando el método de la serie infinita y el método basado en la función de supervivencia como al ternativas para modelar conjuntos de datos sobre dispersados. A pesar de la diferencia entre los métodos de discretización, las distribuciones resultantes son intercambiables. Sin embargo, la distribución generada por el método de series infinitas tiene expresiones matemáticas más simples para la forma, las funciones de generación y los momentos centrales. La teoría de máxi ma verosimilitud se considera para la estimación y las preocupaciones de inferencia asintótica. Se lleva a cabo un estudio de simulación para evaluar algunas propiedades frecuentistas de la metodología desarrollada. La utili dad de los modelos propuestos se evalúa utilizando conjuntos de datos reales proporcionados por la literatura. <![CDATA[Spatial MCUSUM Control Chart]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000100049&lng=en&nrm=iso&tlng=en Abstract This paper proposes a spatial multivariate CUSUM control chart in order to monitor the mean of a single characteristic of a product or process, when the measurements are taken in different locations on each sampled item. To estimate the variance and covariance matrix some tools from the geostatistics are used, taking into account the spatial correlation between the measurements. The performance of this control chart is explored by simulation and its use is illustrated with an example.<hr/>Resumen Este documento propone una carta de control CUSUM multivariada espacial para monitorear la media de una sola característica de un producto o proceso, cuando las mediciones se toman en diferentes ubicaciones en cada elemento muestreado. Para estimar la matriz de varianza y covarianza, se utilizan algunas herramientas de la geoestadística, teniendo en cuenta la correlación espacial entre las mediciones. El desempeño de esta carta de control se explora por simulación y su uso se ilustra con un ejemplo. <![CDATA[Generalized Poisson Hidden Markov Model for Overdispersed or Underdispersed Count Data]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000100071&lng=en&nrm=iso&tlng=en Abstract The most suitable statistical method for explaining serial dependency in time series count data is that based on Hidden Markov Models (HMMs). These models assume that the observations are generated from a finite mixture of distributions governed by the principle of Markov chain (MC). Poisson-Hidden Markov Model (P-HMM) may be the most widely used method for modelling the above said situations. However, in real life scenario, this model cannot be considered as the best choice. Taking this fact into account, we, in this paper, go for Generalised Poisson Distribution (GPD) for modelling count data. This method can rectify the overdispersion and underdispersion in the Poisson model. Here, we develop Generalised Poisson Hidden Markov model (GP-HMM) by combining GPD with HMM for modelling such data. The results of the study on simulated data and an application of real data, monthly cases of Leptospirosis in the state of Kerala in South India, show good convergence properties, proving that the GP-HMM is a better method compared to P-HMM.<hr/>Resumen El método estadístico más adecuado para explicar la dependencia serial en los datos de recuento de series de tiempo se basan en los modelos ocultos de Markov (HMM). Estos modelos suponen que las observaciones se generan a partir de un finito mezcla de distribuciones regidas por el principio de la cadena de Markov (MC). El modelo de Markov oculto de Poisson (P-HMM) puede ser el método ms utilizado para modelar las situaciones mencionadas anteriormente. Sin embargo, en el escenario de la vida real, este modelo no puede considerarse como la mejor opción. Teniendo en cuenta este hecho, nosotros, en este artículo, apostamos por la distribución generalizada de Poisson (GPD) para modelar datos de conteo. Este método puede rectificar la sobredispersión y subdispersión en el modelo de Poisson. Aqu desarrollamos Poisson generalizado Modelo de Markov oculto (GP-HMM) combinando GPD con HMM para modelando tales datos. Los resultados del estudio sobre datos simulados y una aplicación de datos reales, casos mensuales de leptospirosis en el estado de Kerala en South India, muestra buenas propiedades de convergencia, lo que demuestra que el GP-HMM Es un método mejor en comparación con P-HMM. <![CDATA[A Birnbaum-Saunders Model for Joint Survival and Longitudinal Analysis of Congestive Heart Failure Data]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000100083&lng=en&nrm=iso&tlng=en Abstract We consider a parametric joint modelling of longitudinal measurements and survival times, motivated by a study conducted at the Heart Institute (Incor), São Paulo, Brazil, with the objective of evaluating the impact of B-type Natriuretic Peptide (BNP) collected at different instants on the survival of patients with Congestive Heart Failure (CHF). We employ a linear mixed model for the longitudinal response and a Birnbaum-Saunders model for the survival times, allowing the inclusion of subjects without longitudinal observations. We derive maximum likelihood estimators of the joint model parameters and conduct a simulation study to compare the true survival probabilities with dynamic predictions obtained from the fit of the proposed joint model and to evaluate the performance of the method for estimating the model parameters. The proposed joint model is applied to the cohort of 1609 patients with CHF, of which 1080 have no BNP measurements. The parameter estimates and their standard errors obtained via: i) the traditional approach, where only individuals with at least one measurement of the longitudinal response are included and ii) the proposed approach, which includes survival information from all individuals, are compared with those obtained via marginal (longitudinal and survival) models.<hr/>Resumen Consideramos una modelación conjunta paramétrica de mediciones longitudinales y tiempos de supervivencia, motivados por un estudio realizado en el Instituto do Coração (Incor), São Paulo, Brasil, con el objetivo de evaluar el impacto del Péptido Natriurético tipo B (BNP) recolectado en diferentes instantes, sobre la supervivencia de pacientes con Insuficiencia Cardíaca Congestiva (ICC). Empleamos un modelo lineal de efectos mixtos para la respuesta longitudinal y un modelo Birnbaum-Saunders para los tiempos de supervivencia, permitiendo la inclusión de sujetos sin observaciones longitudinales. Obtenemos los estimadores de máxima verosimilitud de los parámetros del modelo conjunto y realizamos un estudio de simulación para comparar las probabilidades de supervivencia verdaderas con las predicciones dinámicas obtenidas al ajustar el modelo conjunto propuesto y para evaluar el desempeño del método para estimar los parámetros del modelo. El modelo conjunto propuesto se aplica a la cohorte de 1609 pacientes con ICC, de los cuales 1080 no tienen mediciones de BNP. Las estimaciones de los parámetros y sus errores estándar obtenidos por medio de: i) el enfoque tradicional, donde únicamente se incluyen individuos con al menos una medición de la respuesta longitudinal y ii) el enfoque propuesto, que incluye la información de supervivencia de todos los individuos; se comparan con los obtenidos por medio de los modelos marginales (longitudinal y de supervivencia). <![CDATA[Nested and Repeated Cross Validation for Classification Model With High-dimensional Data]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000100103&lng=en&nrm=iso&tlng=en Abstract With the advent of high throughput technologies, the high-dimensional datasets are increasingly available. This has not only opened up new insight into biological systems but also posed analytical challenges. One important problem is the selection of informative feature-subset and prediction of the future outcome. It is crucial that models are not overfitted and give accurate results with new data. In addition, reliable identification of informative features with high predictive power (feature selection) is of interests in clinical settings. We propose a two-step framework for feature selection and classification model construction, which utilizes a nested and repeated cross-validation method. We evaluated our approach using both simulated data and two publicly available gene expression datasets. The proposed method showed comparatively better predictive accuracy for new cases than the standard cross-validation method.<hr/>Resumen Con la llegada de las tecnologías de alto rendimiento, los conjuntos de datos de alta dimensión están cada vez más disponibles. Esto no sólo ha abierto una nueva visión acerca de los sistemas biológicos, sino que también plantea desafíos analíticos. Un problema importante es la selección de subconjuntos de variables y la predicción de resultados futuros. Es crucial que los modelos no sean sobreajustados y que den resultados precisos con nuevos datos. Además, la identificación confiable de variables informativas con alto poder predictivo (selección de características) es de interés en entornos clínicos. Proponemos un procedimiento de dos etapas para la selección de variables y la construcción de modelos de clasificación, el cual utiliza un método de validación cruzada anidada y repetida. Evaluamos nuestro enfoque utilizando tanto datos simulados como dos conjuntos de datos de expresión génica disponibles públicamente. El método propuesto mostró una precisión predictiva comparativamente mejor para casos nuevos en comparación con el método estándar de validación cruzada.