Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120210001&lang=pt vol. 44 num. 1 lang. pt <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[On a New Procedure for Identifying a Dynamic Common Factor Model]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100001&lng=pt&nrm=iso&tlng=pt Abstract In the context of the exact dynamic common factor model, canonical correlations in a multivariate time series are used to identify the number of latent common factors. In this paper, we establish a relationship between canonical correlations and the autocovariance function of the factor process, in order to modify a pre-established statistical test to detect the number of common factors. In particular, the test power is increased. Additionally, we propose a procedure to identify a vector ARMA model for the factor process, which is based on the so-called simple and partial canonical autocorrelation functions. We illustrate the proposed methodology by means of some simulated examples and a real data application.<hr/>Resumen En el contexto del modelo exacto de factores comunes dinámicos, las correlaciones canónicas en series de tiempo multivariadas son usadas para identificar el número de factores latentes. En este artículo, establecemos la relación entre correlación canónica y la función de autocovarianza del proceso de los factores, con el fin de modificar una prueba estadística diseñada para identificar el número de factores comunes. En particular, se incrementa la potencia de la prueba. Adicionalmente, proponemos un procedimiento para identificar el modelo VARMA para el proceso de los factores, el cual está basado en lo que denominamos las funciones de autocorrelación simple y parcial. Ilustramos la metodología propuesta por medio de ejemplos simulados y una aplicación con datos reales. <![CDATA[On Some Statistical Properties of the Spatio-Temporal Product Density]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100023&lng=pt&nrm=iso&tlng=pt Abstract We present an extension of the non-parametric edge-corrected Ohser-type kernel estimator for the spatio-temporal product density function. We derive the mean and variance of the estimator and give a closed-form approximation for a spatio-temporal Poisson point process. Asymptotic properties of this second-order characteristic are derived, using an approach based on martingale theory. Taking advantage of the convergence to normality, confidence surfaces under the homogeneous Poisson process are built. A simulation study is presented to compare our approximation for the variance with Monte Carlo estimated values. Finally, we apply the resulting estimator and its properties to analyse the spatio-temporal distribution of the invasive meningococcal disease in the Rhineland Regional Council in Germany.<hr/>Resumen En este artículo, presentamos un estimador para la función de densidad producto de un patrón de puntos en espacio-tiempo. Este estimador es una extensión del estimador no paramétrico de Ohser, el cuál está basado en una función Kernel y ponderado por un corrector de borde. Deducimos la media y la varianza del estimador y, a su vez, damos una aproximación analítica para el caso de un patrón Poisson (completamente aleatorio). Adicionalmente, estudiamos ciertas propiedades asintóticas de nuestro estimador utilizando un enfoque basado en la teoría de martingalas y construimos superficies de confianza para el caso de aleatoriedad completa. Presentamos un estudio de simulación para comparar nuestra aproximación de la varianza con los valores estimados a través del método Monte Carlo. Finalmente, utilizamos nuestro estimador para analizar la distribución espacio-temporal de los registros de una enfermedad meningocócica invasiva en la provincia del Rin en Alemania. <![CDATA[Comparison of Correction Factors and Sample Size Required to Test the Equality of the Smallest Eigenvalues in Principal Component Analysis]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100043&lng=pt&nrm=iso&tlng=pt Abstract In the inferential process of Principal Component Analysis (PCA), one of the main challenges for researchers is establishing the correct number of components to represent the sample. For that purpose, heuristic and statistical strategies have been proposed. One statistical approach consists in testing the hypothesis of the equality of the smallest eigenvalues in the covariance or correlation matrix using a Likelihood-Ratio Test (LRT) that follows a x2 limit distribution. Different correction factors have been proposed to improve the approximation of the sampling distribution of the statistic. We use simulation to study the significance level and power of the test under the use of these different factors and analyze the sample size required for an adequate approximation. The results indicate that for covariance matrix, the factor proposed by Bartlett offers the best balance between the objectives of low probability of Type I Error and high Power. If the correlation matrix is used, the factors W * B and cχ 2 D are the most recommended. Empirically, we can observe that most factors require sample sizes 10 or 20 times the number of variables if covariance or correlation matrices, respectively, are implemented.<hr/>Resumen Dentro del proceso inferencial del Análisis de Componentes Principales (PCA) uno de los interrogantes principales de los investigadores es sobre el número correcto de componentes para representar la muestra. Para este fin se han propuesto estrategias heurísticas y estadísticas. Un enfoque estadístico consiste en probar la hipótesis sobre la igualdad de los valores propios más pequeños de la matriz de covarianza o correlación a través de una prueba de razón de verosimilitud (LRT) que sigue una distribución límite x2. Diferentes factores de corrección han sido propuestos para mejorar la aproximación de la distribución muestral del estadístico. En este trabajo utilizamos simulación para estudiar el nivel de significancia y la potencia de la prueba bajo el uso de estos diferentes factores, así como una revisión del tamaño de muestra requerido para una adecuada aproximación. Los resultados para la matriz de covarianza indican que el factor propuesto por Bartlett ofrece el mejor equilibrio entre los objetivos de baja probabilidad de Error Tipo I y alta potencia. En caso de la matriz de correlación, los factores W * B y cχ 2 D son los más recomendados. Empíricamente se observa que la mayoría de los factores requieren tamaños de muestra 10 y 20 veces mayores al número de variables en caso de la matriz de covarianza o de correlación respectivamente. <![CDATA[A Reparameterized Weighted Lindley Distribution: Properties, Estimation and Applications]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100065&lng=pt&nrm=iso&tlng=pt Abstract In this paper, we discuss several mathematical properties and estimation methods for a reparameterized version of the weighted Lindley (RWL) distribution. The RWL distribution can be particularly useful for modeling reliability (survival) data with bathtub-shaped or increasing hazard rate function. The inferential procedure to obtain the parameter estimates is conducted via the maximum likelihood approach considering random right-censoring. Extensive numerical simulations are carried out to investigate and evaluate the performance of the proposed estimation method. Finally, the potentiality of the RWL model is analyzed by employing two real data sets.<hr/>Resumen En este artículo, discutimos varias propiedades matemáticas y métodos de estimación para una versión reparametrizada de la distribución ponderada de Lindley (RWL). La distribución RWL puede ser particularmente útil para modelar datos de confiabilidad (supervivencia) con función de tasa de riesgo en forma de bañera o creciente. El procedimiento inferencial para obtener las estimaciones de los parámetros se realiza mediante el enfoque de máxima verosimilitud considerando la censura aleatoria a la derecha. Se realizan extensas simulaciones numéricas para investigar y evaluar el rendimiento del método de estimación propuesto. Finalmente, la utilidad del modelo RWL se analiza mediante el uso de dos conjuntos de datos reales. <![CDATA[Complete-Linkage Clustering Analysis of Surrogate Measures for Road Safety Assessment in Roundabouts]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100091&lng=pt&nrm=iso&tlng=pt Abstract This paper presents the findings of a comparative road safety assessment between an existing two-lane roundabout and proposed basic turbo-roundabout, both designed for the same intersection, to determine which one is safer, based on traffic conflicts and surrogate safety measures. We performed microsimulation models in VISSIM to replicate the field-observed traffic operation, and the SSAM to determinate six surrogate measures. We validated the consistency of values obtained by several statistical analyzes. The number of conflicts was 72% lower at the turbo-roundabout. Through a complete-linkage clustering analysis and Euclidean distances of the surrogate measures, we found that traffic conflicts at the turbo-roundabout tend to cluster in a group, whereas conflicts at the roundabout are scattered, suggesting better organization of traffic flows at the turbo-roundabout. Three-dimensional graphical analysis of clusters and its centroids allowed verifying that surrogate measures point out a safer operation at the turbo-roundabout, even though it presented higher operating speeds. Reducing the dimensionality by principal components analysis, the cumulative variance for the first two components (87.72%) allowed observing results on a two-dimensional graph and their clusters. To endorse conflicts classification, resulting of clusters, we used discriminant analysis. Results validate the methodology and the safety benefits of the turbo-roundabout.<hr/>Resumen Este artículo presenta los hallazgos de una evaluación comparativa de seguridad vial entre una glorieta clásica existente y una turboglorieta propuesta, en la misma intersección, para determinar cuál es más segura, con base en conflictos de tráfico y medidas sustitutas. Elaboramos modelos en VISSIM para recrear la operación del tráfico observada en campo y SSAM para determinar seis medidas sustitutas. Validamos la consistencia de los resultados por varios análisis estadísticos. El número de conflictos fue 72% menor en la turboglorieta. Mediante un análisis de conglomerados de las medidas sustitutas, los conflictos en la turboglorieta tienden a agruparse en un clúster, mientras que en la glorieta éstos están dispersos, sugiriendo una mejor organización de los flujos de tráfico en la turboglorieta. El análisis gráfico tridimensional de conglomerados y centroides permitió verificar que las medidas sustitutas indican una operación más segura en la turboglorieta, a pesar de presentar velocidades de aproximación más altas. Reduciendo la dimensionalidad, mediante análisis de componentes principales, la varianza acumulada de los dos primeros componentes (87.72%) permitió observar los resultados en dos dimensiones. Mediante análisis discriminante, respaldamos la clasificación de conflictos resultante de los clústeres. Los resultados validan la metodología y los beneficios en seguridad de la turboglorieta. <![CDATA[Combining Interval Time Series Forecasts. A First Step in a Long Way (Research Agenda)]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100123&lng=pt&nrm=iso&tlng=pt Abstract We observe every day a world more complex, uncertain, and riskier than the world of yesterday. Consequently, having accurate forecasts in economics, finance, energy, health, tourism, and so on; is more critical than ever. Moreover, there is an increasing requirement to provide other types of forecasts beyond point ones such as interval forecasts. After more than 50 years of research, there are two consensuses, "combining forecasts reduces the final forecasting error" and "a simple average of several forecasts often outperforms complicated weighting schemes", which was named "forecast combination puzzle (FCP)". The introduction of interval-valued time series (ITS) concepts and several forecasting methods has been proposed in different papers and gives answers to some big data challenges. Hence, one main issue is how to combine several forecasts obtained for one ITS. This paper proposes some combination schemes with a couple or various ITS forecasts. Some of them extend previous crisp combination schemes incorporating as a novelty the use of Theil's U. The FCP under the ITS forecasts framework will be analyzed in the context of different accuracy measures and some guidelines will be provided. An agenda for future research in the field of combining forecasts obtained for ITS will be outlined.<hr/>Resumen Cada día observamos un mundo más complejo, incierto y con mayor riesgo que el mundo de ayer. Luego, tener pronósticos precisos en economía, finanzas, energía, salud, turismo, etc.; es más crítico que nunca. Además, existe un requisito creciente de proporcionar otro tipo de pronósticos más allá de los puntuales, como los pronósticos de intervalos. Después de más de 50 años de investigación, hay dos consensos, "combinar pronósticos reduce el error de pronóstico final" y "un promedio simple de varios pronósticos a menudo supera complicados esquemas de ponderación", que se denominó "rompecabezas de combinación de pronósticos (FCP)". La introducción de los conceptos de series de tiempo de intervalo (ITS) y varios métodos de pronóstico se han propuesto y dan respuestas a algunos desafíos de los grandes datos. Entonces, un problema es cómo combinar varios pronósticos obtenidos para una ITS. Este documento propone algunos esquemas combinados con un par o varios pronósticos ITS. Algunos extienden esquemas previos para datos puntuales, incorporando como novedad la U de Theil. El FCP en el marco de pronósticos ITS se analizará con diferentes medidas de exactitud y se proporcionarán algunas pautas. Se describirá una agenda para futuras investigaciones en la combinación de pronósticos obtenidos para ITS. <![CDATA[Elicitation of the Parameters of Múltiple Linear Models]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100159&lng=pt&nrm=iso&tlng=pt Abstract Estimating the parameters of a multiple linear model is a common task in all areas of sciences. In order to obtain conjugate distributions, the Bayesian estimation of these parameters is usually carried out using noninformative priors. When informative priors are considered in the Bayesian estimation an important problem arises because techniques are required to extract information from experts and represent it in an informative prior distribution. Elicitation techniques can be used for such purpose even though they are more complex than the traditional methods. In this paper, we propose a technique to construct an informative prior distribution from expert knowledge using hypothetical samples. Our proposal involves building a mental picture of the population of responses at several specific points of the explanatory variables of a given model and indirectly eliciting the mean and the variance at each of these points. In addition, this proposal consists of two steps: the first step describes the elicitation process and the second step shows a simulation process to estimate the model parameters.<hr/>Resumen La estimación de los parámetros de un modelo de regresión lineal múltiple es una tarea común en todas las áreas de las ciencias. Con la idea de obtener distribuciones conjugadas, la estimación Bayesiana de estos parámetros se lleva a cabo usando distribuciones a priori no informativas. Un problema importante resulta cuando se incorporan distribuciones a priori informativas en la estimación Bayesiana, puesto que se hace necesario usar técnicas para extraer información de expertos, y representar dicha información en una distribución a prior informativa. Así, los métodos de elicitación pueden ser implementados para tal fin, a pesar de la complejidad de esta tarea en relación con las metodologías tradicionales. En este paper, se propone un técnica para construir una distribución a priori informativa a partir de muestras hipotéticas usando información de expertos. Esta propuesta se basa en la construcción de un mapa mental de la población de respuestas en diferentes valores específicos de la variable explicativa en el modelo, y luego elicitar de forma indirecta la media y la varianza en cada uno de dichos valores de interés. La propuesta es presentada en dos pasos, el primer paso describe el proceso de elicitación, y el segundo paso muestra un proceso de simulación para estimar los parámetros del modelo. <![CDATA[A Review of Latent Space Models for Social Networks]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100171&lng=pt&nrm=iso&tlng=pt Abstract In this paper, we provide a review on both fundamentals of social networks and latent space modeling. The former discusses important topics related to network description, including vertex characteristics and network structure; whereas the latter articulates relevant advances in network modeling, including random graph models, generalized random graph models, exponential random graph models, and social space models. We discuss in detail several latent space models provided in literature, providing special attention to distance, class, and eigen models in the context of undirected, binary networks. In addition, we also examine empirically the behavior of these models in terms of prediction and goodness-of-fit using more than twenty popular datasets of the network literature.<hr/>Resumen En este artículo, proporcionamos una revisión sobre los fundamentos de redes sociales y el modelamiento de espacio latente. La primera trata temas importantes relacionados con la descripción de la red, incluidas las características de los vértices y la estructura de la red; mientras que la segunda articula avances relevantes en el modelado de redes, incluidos modelos de grafos aleatorios, modelos de grafos aleatorios generalizados, modelos de grafos aleatorios exponenciales y modelos de espacio social. Discutimos en detalle varios modelos de espacio latente proporcionados en la literatura, prestando especial atención a los modelos de distancia, clase y eigen, en el contexto de redes binarias no dirigidas. Además, también examinamos empíricamente el comportamiento de estos modelos en términos de predicción y bondad de ajuste utilizando más de veinte conjuntos de datos populares de la literatura de redes. <![CDATA[Stress-Strength Reliability Estimation of Time-Dependent Models with Fixed Stress and Phase Type Strength Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512021000100201&lng=pt&nrm=iso&tlng=pt Abstract The time-dependent stress-strength reliability models deal with systems whose strength or the stress imposed on it or both are time-dependent. In this paper, we consider time-dependent stress-strength reliability model which is subjected to constant stress and it causes a change in the strength of the system over each run of the system. Assuming a continuous phase-type distribution for the initial strength and exponential distribution for the duration of each run of the system called cycle time we derived the expression for the stress-strength reliability of the system at time t. The model is further extended to the cases where cycle time distribution is Gamma and Weibull. Simulation studies are conducted to assess the variations in stress-strength reliability, R(t) at different time points, corresponding to the changes in the initial strength distribution and cycle time distribution.<hr/>Resumen Los modelos de confiabilidad tensión-resistencia dependientes del tiempo tratan con sistemas cuya fuerza o el estrés que se le impone o ambos dependen de tiempo. En este artículo, consideramos modelos de confiabilidad de resistencia-tensión dependientes del tiempo que está sometido a un estrés constante y provoca un cambio en la fuerza del sistema después de cada ejecución del sistema. Asumiendo una fase continua distribución de tipo para la fuerza inicial y distribución exponencial para la duración de cada ejecución del sistema llamado tiempo de ciclo que obtuvimos la expresión de la fiabilidad tensión-resistencia del sistema en el tiempo t. El modelo se amplía aún más a los casos en los que la distribución del tiempo de ciclo es Gamma y Weibull. Se realizan estudios de simulación para evaluar las variaciones en la confiabilidad tensión-resistencia, R(t) en diferentes puntos de tiempo, correspondiente a los cambios en la distribución y el ciclo de la fuerza inicial distribución del tiempo.