Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120160002&lang=es vol. 39 num. 2 lang. es <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[Distribuciones condicionales univariadas de un proceso estocástico TAR sin retroalimentación]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200001&lng=es&nrm=iso&tlng=es Clusters of large values are observed in sample paths of certain open-loop threshold autoregressive (TAR) stochastic processes. In order to characterize the stochastic mechanism that generates this empirical stylized fact, three types of marginal conditional distributions of the underlying stochastic process are analyzed in this paper. One allows us to find the conditional variance function that explains the aforementioned stylized fact. As a by-product, we are able to derive a sufficient condition to have asymptotic weak stationarity in an open-loop TAR stochastic process.<hr/>En trayectorias de un proceso estocástico autoregresivo de umbrales (TAR), sin retroalimentación, se observan conglomerados de valores extremos. Con el fin de caracterizar el mecanismo probabilístico que los genera, en este artículo se estudian tres tipos de distribuciones marginales condicionales del proceso subyacente. Uno de ellos permite encontrar la función de varianza condicional que explica ese hecho estilizado del proceso. Como un resultado adicional, se obtiene una condición suficiente para determinar estacionariedad débil asintótica, de un proceso TAR sin retroalimentación. <![CDATA[Gráfico de control EWMA doble no paramétrico del proceso de supervisión]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200002&lng=es&nrm=iso&tlng=es In monitoring process parameters, we assume normality of the quality characteristic of interest, which is an ideal assumption. In many practical situations, we may not know the distributional behavior of the data, and hence, the need arises use nonparametric techniques. In this study, a nonparametric double EWMA control chart, namely the NPDEWMA chart, is proposed to ensure efficient monitoring of the location parameter. The performance of the proposed chart is evaluated in terms of different run length properties, such as average, standard deviation and percentiles. The proposed scheme is compared with its recent existing counterparts, namely the nonparametric EWMA and the nonparametric CUSUM schemes. The performance measures used are the average run length (ARL), standard deviation of the run length (SDRL) and extra quadratic loss (EQL). We observed that the proposed chart outperforms the said existing schemes to detect shifts in the process mean level. We also provide an illustrative example for practical considerations.<hr/>En el seguimiento de los parámetros del proceso, asumimos normalidad de la característica de calidad de interés que es un supuesto ideal. En muchas situaciones prácticas, no podemos conocer el comportamiento de distribución de los datos y por lo tanto, surge la necesidad de técnicas no paramétricas. En este estudio, un gráfico de control EWMA doble paramétrico, a saber, la carta NPDEWMA, se propone para una vigilancia eficaz en el parámetro de localización. El rendimiento del gráfico propuesto se evalúa en términos de propiedades diferentes de longitud de ejecución, como promedio, desviación estándar y percentiles. El esquema propuesto se compara con sus homólogos de los últimos existentes, a saber, la EWMA no paramétrico y los esquemas de CUSUM no paramétricas. Las medidas de desempeño utilizadas son la longitud promedio de carreras (ARL), la desviación estándar de la longitud de ejecución (SDRL) y pérdida cuadrática extra (EQL). Se observa que el gráfico propuesto supera a dichos regímenes existentes para detectar cambios en el proceso de nivel medio. También se proporciona un ejemplo ilustrativo para consideraciones prácticas. <![CDATA[Un estudio de cartas de control de cantidades acumuladas por mixturas de modelos Rayleigh bajo un enfoque Bayesiano]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200003&lng=es&nrm=iso&tlng=es This study deals with the cumulative charting technique based on a simple and a mixture of Rayleigh models. The respective charting schemes are referred as the SRCQC-chart and the MRCQC-chart. These are stimulated from existing statistical control charts in this direction i.e. the cumulative quantity control (CQC) chart, based on exponential and Weibull models, and the cumulative count control (CCC) chart, based on the simple geometric model. Another motivation for this study is the mixture cumulative count control (MCCC) chart based on the two component geometric model. The use of mixture cumulative quantity is an attractive approach for process monitoring. The design structure of the proposed control chart is derived by using the cumulative distribution function of simple, and two components of mixture distribution(s). We observed that the proposed charting structure is efficient in detecting the changes in process parameters. The application of the proposed scheme is illustrated using a real dataset.<hr/>Este estudio trata con cartas de control acumuladas basadas en distribuciones Rayleigh y en mixturas de estas mismas. Las cartas se denominan SRCQC y MRCQC, respectivamente. Estas se fundamentan en cartas existentes como la carta de control de cantidades acumuladas (CQC), basada en modelos exponencial y Weibull en la carta de control de conteos acumulados (CCC), soportada en un modelo geométrico. Otra propuesta del estudio es la carta de control de mixtura de conteos acumulados (MCCC). Esta última es muy atractiva en procesos de monitoreo. La estructura de diseño de las cartas propuestas se deriva usando la función de distribución acumulada simple y la mixtura de dos distribuciones acumuladas. Se observa que las cartas propuestas son eficientes para detectar cambios en los parámetros del proceso. La aplicación del esquema propuesto es ilustrada usando un conjunto de datos reales. <![CDATA[Análisis bayesiano de la heterogeneidad del estilo literario]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200004&lng=es&nrm=iso&tlng=es We proposed statistical analysis of the heterogeneity of literary style in a set of texts that simultaneously use different stylometric characteristics, like word length and the frequency of function words. The data set consists of several tables with the same number of rows, with the i-th row of all tables corresponding to the i-th text. The analysis proposed clusters the rows of all these tables simultaneously into groups with homogeneous style, based on a finite mixture of sets of multinomial models, one set for each table. Different from the usual heuristic cluster analysis approaches, our method naturally incorporates the text size, the discrete nature of the data, and the dependence between categories in the analysis. The model is checked and chosen with the help of posterior predictive checks, together with the use of closed form expressions for the posterior probabilities that each of the models considered to be appropriate. This is illustrated through an analysis of the heterogeneity in Shakespeares plays, and by revisiting the authorship-attribution problem of Tirant lo Blanc.<hr/>Se propone un análisis estadístico para modelar la heterogeneidad del estilo literario en un conjunto de textos, para ello se utilizan simultáneamente diferentes características estilométricas, como longitud de palabra y la frecuencia de palabras función. Los datos consisten en varias tablas con el mismo número de filas, donde la fila i-ésima corresponde al texto i-ésimo. El análisis propuesto agrupa las filas de todas estas tablas simultáneamente en grupos de estilo homogéneo, en base a una mezcla finita de modelos multinomiales. El modelo propuesto tiene la ventaja sobre los análisis de conglomerados heurísticos habituales, de incorporar de forma natural el tamaño del texto, la naturaleza discreta de los datos y la dependencia entre las categorías. El modelo se selecciona y válida con la ayuda de simulaciones de la distribución predictiva a posteriori, junto con el uso de las expresiones en forma cerrada para la probabilidad a posteriori de cada uno de los modelos de mezcla considerados. Todo ello se ilustra a través de un análisis de la heterogeneidad en las obras de Shakespeare, y revisitando el problema de atribución de autoría del texto Tirant lo Blanc. <![CDATA[Estimación eficiente de una función de un parámetro a través de una combinación lineal de dos estimadores]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200005&lng=es&nrm=iso&tlng=es In this paper, we consider the problem of improving the efficiency of a linear combination of two estimators when the population coefficient of variation is known. We generalized the discussion from the case of a parameter to a function of are interested parameter. We show that two estimators obtained from a improved linear combination of two estimators and a linear combination of two improved estimators are equivalent in terms of efficiency. We also show how a doubly-improved linear combination of two estimators can be constructed when the population coefficient of variation is known.<hr/>En este artículo, se considera el problema de mejorar la eficiencia de una combinación lineal de dos estimadores cuando el coeficiente de variación poblacional es conocido. Se generaliza el caso de un solo parámetro al de una función del parámetro. Se muestra que hay equivalencia, en términos de eficiencia, entre usar combinaciones lineales mejoradas y combinaciones lineales de estimadores mejorados. También se muestra como construir una combinación lineal doblemente mejorada cuando el coeficiente de variación poblacional es conocido. <![CDATA[Análisis Factorial Interbaterías vía PLS: el caso de datos faltantes]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200006&lng=es&nrm=iso&tlng=es In this article we develop the Inter-battery Factor Analysis (IBA) by using PLS (Partial Least Squares) methods. As the PLS methods are algorithms that iterate until convergence, an adequate intervention in some of their stages provides a solution to problems such as missing data. Specifically, we take the iterative stage of the PLS regression and implement the "available data" principle from the NIPALS (Non-linear estimation by Iterative Partial Least Squares) algorithm to allow the algorithmic development of the IBA with missing data. We provide the basic elements to correctly analyse and interpret the results. This new algorithm for IBA, developed under the R programming environment, fundamentally executes iterative convergent sequences of orthogonal projections of vectors coupled with the available data, and works adequately in bases with or without missing data. To present the basic concepts of the IBA and to cross-reference the results derived from the algorithmic application, we use the complete Linnerud database for the classical analysis; then we contaminate this database with a random sample that represents approximately 7% of the non-available (NA) data for the analysis with missing data. We ascertain that the results obtained from the algorithm running with complete data are exactly the same as those obtained from the classic method for IBA, and that the results with missing data are similar. However, this might not always be the case, as it depends on how much the ‘original’ factorial covariance structure is affected by the absence of information. As such, the interpretation is only valid in relation to the available data.<hr/>En este artículo se desarrolla el Análisis Factorial Interbaterías (AIB) mediante el uso de métodos PLS (Partial Least Squares). Ya que los métodos PLS son algoritmos que iteran hasta la convergencia, permiten ser intervenidos adecuadamente en algunas de sus etapas para tratar problemas tales como datos faltantes. Específicamente se toma la fase iterativa de la regresión PLS y se implementa el principio de "datos disponibles" del algoritmo NIPALS (Non-linear estimation by Iterative Partial Least Squares) para permitir el desarrollo algorítmico del AIB con datos faltantes, proporcionando los elementos básicos para el análisis e interpretación de los resultados. Este nuevo algoritmo para AIB elaborado bajo el entorno de programación R, fundamentalmente realiza secuencias iterativas convergentes de proyecciones ortogonales de vectores emparejados con los datos disponibles y funciona adecuadamente en bases con y sin datos faltantes. Para efectos de presentar los conceptos básicos del AIB y cotejar los resultados derivados de la aplicación algorítmica, se toma la base de datos completa de Linnerud para el análisis clásico; y luego esta base es contaminada con una muestra aleatoria que representa aproximadamente el 7% de los datos no disponibles (NA) para el análisis con datos faltantes. Se comprueba que con datos completos los resultados derivados del algoritmo son idénticos a los obtenidos mediante el desarrollo del método clásico para AIB, y que los resultados con datos faltantes son similares, aunque esto no siempre será así porque ello dependerá de que tanto se afecta la estructura de covarianza factorial ‘original’ ante la cantidad de información ausente; por tanto la interpretación será válida solo en relación con los datos disponibles. <![CDATA[Una propuesta multi-agente en la resolución de instancias del BIBD]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200007&lng=es&nrm=iso&tlng=es The problem with designing balanced incomplete blocks (BIBD) is enclosed within the combinatorial optimization approach that has been extensively used in experimental design. The present proposal addresses this problem by using local search techniques known as Hill Climbing, Tabu Search, and an approach based considerable sized the use of Multi-Agents, which allows the exploration of diverse areas of search spaces. Furthermore, the use of a vector vision for the consideration associated with vicinity is presented. The experimental results prove the advantage of this technique compared to other proposals that are reported in the current literature.<hr/>El problema del diseño de bloques incompletos equilibrados (BIBD) se enmarca dentro del enfoque de optimización combinatoria que ha sido utilizado ampliamente en el diseño de experimentos. La presente propuesta aborda este problema utilizando técnicas de búsqueda local conocidas como Ascenso a la Colina (Hill Climbing), Búsqueda Tabú (Tabu Search) y un enfoque basado en el uso de Multi-Agentes que permiten la exploración de diversas áreas de espacios de búsqueda de tamaño considerable, además se presenta el uso de una visión vectorial para la consideración asociada a la vecindad. Los resultados experimentales evidencian la ventaja de esta técnica frente a otras propuestas mostradas en la literatura actual. <![CDATA[Sobre la calibración multivariada sobre razones, medias y proporciones]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200008&lng=es&nrm=iso&tlng=es In this paper, the calibration approach is revisited in order to allow new calibration weights that are subject to the restriction of multiple calibration equations on a vector of ratios, means and proportions. The classical approach is extended in such a way that the calibration equations are not based on a vector of totals, but on a vector of other nonlinear parameters. We stated some properties of the resulting estimators and carry out some empirical simulations in order to asses the performance of this approach. We found that this methodology is suitable for some practical situations like vote intention estimation, estimation of labor force, and retrospective studies. The methodology is applied in the context of the Presidential elections held in Colombia in 2014 for which we estimated the vote intention in the second round using information from an election poll, taking the results from the first round as auxiliary information.<hr/>En este artículo se aborda la metodología de calibración que reproduce pesos nuevos sujeto la restricción de las ecuaciones de calibración múltiple sobre un vector de razones, medias o proporciones. Se extiende la calibración clásica de tal forma que las ecuaciones de calibración no estén basados solo un vector de totales, sino un vector de parámetros no lineales. Se dan algunas propiedades de los estimadores resultantes y se llevan a cabo algunas simulaciones empíricas para verificar el desempeño de este enfoque. Encontramos que este es apropiado para algunas situaciones prácticas tales como la estimación de la intención de voto, estimación de fuerza laboral y estudios retrospectivos. La metodología es aplicada en el contexto de las elecciones presidenciales de Colombia en el 2014, donde estimamos la intención de voto en la segunda vuelta utilizando datos provenientes de una encuesta electoral tomando los resultados de la primera vuelta como información auxiliar. <![CDATA[Modelo de duración condicionada y heterogeneidad inobservada de los agentes. Una mezcla infinita de distribuciones no exponenciales]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512016000200009&lng=es&nrm=iso&tlng=es This paper extends the conditional duration model proposed by Luca & Zuccolotto (2003) proposing an infinite mixture of distributions based on non-exponentials that account for the unobserved market heterogeneity of traders. The model we propose takes into account the fact that reaction times follow a gamma distribution and that the intensity parameter follows the reciprocal of an inverse Gaussian distribution. This extension allows us to capture, not only various density shapes of durations, but also non-monotonic shapes of hazard functions. The model also allows us to test the unobserved heterogeneity of traders. This mixture model is easy to fit and characterises the behaviour of the conditional durations reasonably well.<hr/>Este trabajo extiende el modelo de duración condicionada propuesto por Luca & Zuccolotto (2003) introduciendo una mezcla infinita de distribuciones no exponenciales que permite incorporar la heterogeneidad inobservada en el mercado por los agentes. El modelo propuesto tiene en cuenta el hecho de que el tiempo de respuesta sigue una distribución gamma y que el parámetro que mide la intensidad sigue una distribución recíproca inversa Gaussiana. Esta modelización permite no sólo capturar distintas formas de la distribución de la duración sino que también captura funciones de azar no monótonas. El modelo propuesto es fácil de ajustar a datos de duración proporcionando resultados razonables y competitivos con otros modelos utilizados en la literatura.