Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120150001&lang=en vol. 38 num. 1 lang. en <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[Optimization of Contribution Margins in Food Services by Modeling Independent Component Demand]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100001&lng=en&nrm=iso&tlng=en We propose a methodology useful for food services, allowing contribution margins to be optimized. This is based on statistical tools, inventory models and financial indicators. To reduce the gap between theory and practice, we apply this methodology to the case study of a Chilean company to show its potential. We conduct a real-world demand data analysis for perishable and non-perishable products in the companys inventory assortment. Then, we use suitable inventory models to optimize the associated costs. We compare the proposed optimized system with the non-optimized system currently employed by the company, using financial indicators.<hr/>Proponemos una metodología útil para servicios de alimentación, la que permite optimizar sus márgenes de contribución. Ésta se basa en herramientas estadísticas, modelos de inventario e indicadores financieros. Para reducir la brecha entre la teoría y la práctica, la aplicamos a un estudio de casos de una empresa chilena para mostrar su potencial. Realizamos un análisis de datos de demanda del mundo real para productos perecederos y no perecederos del surtido de inventario de esta empresa. Entonces, utilizamos modelos de inventarios adecuados para optimizar los costos asociados. Comparamos el sistema optimizado propuesto y el sistema no optimizado, que es actualmente empleado por la empresa, a través de indicadores financieros. <![CDATA[Slashed Rayleigh Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100002&lng=en&nrm=iso&tlng=en In this article we study a subfamily of the slashed-Weibull family. This subfamily can be seen as an extension of the Rayleigh distribution with more flexibility in terms of the kurtosis of distribution. This special feature makes the extension suitable for fitting atypical observations. It arises as the ratio of two independent random variables, the one in the numerator being a Rayleigh distribution and a power of the uniform distribution in the denominator. We study some probability properties, discuss maximum likelihood estimation and present real data applications indicating that the slashed-Rayleigh distribution can improve the ordinary Rayleigh distribution in fitting real data.<hr/>En este artículo estudiamos una subfamilia de la familia slashed-Weibull. Esta subfamilia puede ser vista como una extensión de la distribución Rayleigh con más flexibilidad en cuanto a la kurtosis de la distribución. Esta particularidad hace que la extensión sea adecuada para ajustar observaciones atípicas. Esto surge como la razón de dos variables aleatorias independientes, una en el numerador siendo una distribución Rayleigh y una potencia de la distribución uniforme en el denominador. Estudiamos algunas propiedades de probabilidad, discutimos la estimación de máxima verosimilitud y presentamos aplicaciones a datos reales indicando que la distribución slashed-Rayleigh presenta mejor ajuste para datos reales que la distribución Rayleigh. <![CDATA[Cointegration Vector Estimation by DOLS for a Three-Dimensional Panel]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100003&lng=en&nrm=iso&tlng=en This paper extends the results of the dynamic ordinary least squares cointegration vector estimator available in the literature to a three-dimensional panel. We use a balanced panel of N and M lengths observed over T periods. The cointegration vector is homogeneous across individuals but we allow for individual heterogeneity using different short-run dynamics, individual-specific fixed effects and individual-specific time trends. We also model cross-sectional dependence using time-specific effects. The estimator has a Gaussian sequential limit distribution that is obtained by first letting T&rarr;&infin;; and then letting N&rarr;&infin;, M&rarr;&infin;. The Monte Carlo simulations show evidence that the finite sample properties of the estimator are closely related to the asymptotic ones.<hr/>Este documento extiende los resultados de los estimadores mínimos cuadrados dinámicos para series cointegradas disponible en la literatura a un panel de tres dimensiones. Se utiliza un panel balanceado de longitudes N y M para un periodo de tiempo de longitud T. El vector de cointegración es homogéneo a través de los individuos; sin embargo, el modelo permite cierto grado de heterogeneidad al usar diferentes dinámicas de corto plazo, efectos fijos y tendencias a niveles individuales. También se utilizan efectos en el tiempo para incluir dependencias cruzadas entre los individuos. El estimador tiene una distribución secuencial límite gausiana en la cual primero T&rarr;&infin;; y posteriormente N&rarr;&infin;, M&rarr;&infin;;. Simulaciones Monte Carlo muestran evidencia de que las propiedades de muestra finita del estimador son cercanas a las asintóticas. <![CDATA[Estimation and Testing in One-Way ANOVA when the Errors are Skew-Normal]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100004&lng=en&nrm=iso&tlng=en We consider one-way analysis of variance (ANOVA) model when the error terms have skew- normal distribution. We obtain the estimators of the model parameters by using the maximum likelihood (ML) and the modified maximum likelihood (MML) methodologies (see, Tiku 1967). In the ML method, iteratively reweighting algorithm (IRA) is used to solve the likelihood equations. The MML approach is a non-iterative method used to obtain the explicit estimators of model parameters. We also propose new test statistics based on these estimators for testing the equality of treatment effects. Simulation results show that the proposed estimators and the tests based on them are more efficient and robust than the corresponding normal theory solutions. Also, real data is analysed to show the performance of the proposed estimators and the tests.<hr/>Se considera el modelo de análisis de varianza a una vía (ANOVA) cuando los términos de error siguen una distribución normal sesgada. Se obtienen estimadores de los parámetros desconocidos mediante el uso de la metodología de máxima verosimilitud (ML). Se proponen nuevos estadísticos de prueba basados en estos estimadores. Los resultados de la simulación muestran que los estimadores propuestos y los tests basados en ellos son más eficientes y robustos que los correspondientes a las soluciones de la teoría normal. Un conjunto de datos real es analizado con el fin de mostrar el desempeño de los estimadores propuestos y sus tests relacionados. <![CDATA[Simulation Studies of a Hölder Perturbation in a New Estimator for Proportion Considering Extra-Binomial Variability]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100005&lng=en&nrm=iso&tlng=en This present work aims to propose an estimator in order to estimate the probability of success of a binomial model that incorporates the extra-binomial variation generated by zero-inflated samples. The construction of this estimator was carried out with a theoretical basis given by the Holder function and its performance was evaluated through Monte Carlo simulation considering different sample sizes, parametric values (&pi;), and excess of zero proportions (&gamma;). It was concluded that for the situations in (&gamma; = 0.20) and (&gamma; = 0.50) that the proposed estimator presents promising results based on the specified margin of error.<hr/>El presente trabajo tiene como objetivo proponer un estimador para estimar la probabilidad de éxito de un modelo binomial que incorpora la variación extra-binomial generada por muestras cero-inflados. La construcción de este estimador se llevó a cabo con una base teórica dada por la función Holder y su desempeño fue evaluado a través de la simulación de Monte Carlo considerando diferentes tamaños de muestra, valores paramétricos (&pi;), y el exceso de proporciones cero (&gamma;). Se concluyó que para las situaciones en (&gamma; = 0,20) y (&gamma; = 0,50) que el estimador propuesto presenta resultados prometedores basados en el margen de error especificado.. <![CDATA[Nonparametric Simultaneous Test Procedures]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100006&lng=en&nrm=iso&tlng=en In this research we propose several nonparametric simultaneous test procedures for location and scale parameters. We construct test statistics based on linear rank statistics choosing a suitable combining function. We obtain the overall p-values by applying the permutation principle. We compare the efficiency amongst combining functions by obtaining empirical powers through a simulation study. We discuss some interesting aspects of our procedure as concluding remarks.<hr/>En este artículo se propone un procedimiento de pruebas simultáneas no paramétricas para los paramétros de localización y escala. Se construyen los estadísticos de prueba basados en los estadísticos de rangos lineales para las subhipótesis nulas con la escogencia de una adecuada función de combinación; se obtienen los valores p al aplicar el principio de permutación; se compara la eficiencia entre las funciones de combinación mediante la obtención de las potencias empíricas a través de un estudio de simulación y por último se discuten algunos aspectos interesantes del procedimiento como conclusiones. <![CDATA[The Exponentiated Generalized Gumbel Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100007&lng=en&nrm=iso&tlng=en A class of univariate distributions called the exponentiated generalized class was recently proposed in the literature. A four-parameter model within this class named the exponentiated generalized Gumbel distribution is defined. We discuss the shapes of its density function and obtain explicit expressions for the ordinary moments, generating and quantile functions, mean deviations, Bonferroni and Lorenz curves and Rényi entropy. The density function of the order statistic is derived. The method of maximum likelihood is used to estimate model parameters. We determine the observed information matrix. We provide a Monte Carlo simulation study to evaluate the maximum likelihood estimates of model parameters and two applications to real data to illustrate the importance of the new model.<hr/>Recientemente fue propuesta una clase de distribuciones univariadas conocida como la clase exponencializada generalizada. Dentro de esta clase se define un modelo con cuatro parámetros conocido como distribución Gumbel exponencializada generalizada. En este artículo estudiamos las formas de la función de densidad de este modelo, obtenemos expresiones explicitas para los momentos ordinarios, las funciones generadora de momentos y cuantílica, para los desvíos medios, las curvas de Bonferroni y Lorenz, y, para la entropía de Rényi. Derivamos la función de densidad de la estadística de orden. Usamos el método de máxima verosimilitud para estimar los parámetros del modelo. Determinamos la matriz de información observada. Presentamos una simulación de Monte Carlo que evalúa las estimativas de máxima verosimilitud de los parámetros del modelo y presentamos dos aplicaciones a datos reales que ilustran la importancia del modelo nuevo. <![CDATA[Estimation of Population Mean in the Presence of Non-Response and Measurement Error]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100008&lng=en&nrm=iso&tlng=en Under classical survey sampling theory the errors mainly studied in the estimation are sampling errors. However, often non-sampling errors are more influential to the properties of the estimator than sampling errors. This is recognized by practitioners, researchers and many great works of literature regarding non-sampling errors have been published during last two decades, especially regarding non-response error which is one of the cornerstones of the non-sampling errors. The literature handles one kind of non-sampling error at a time, although in real surveys more than one non-sampling error is usually present.In this paper, two kinds of non-sampling errors are considered at the estimation stage: non-response and measurement error. An exponential ratio type estimator has been developed to estimate the population mean of the response variable in the presence of non-response and measurement errors. Theoretically and empirically, it has been shown that the proposed estimator is more efficient than usual unbiased estimator and other existing estimators.<hr/>En la teoría de muestreo de la encuesta clásica los errores estudiados principalmente en la estimación son el muestreo errores. Sin embargo, a menudo los errores ajenos al muestreo son más influyentes que las propiedades del estimador de errores de muestreo. Esto es reconocido por los profesionales, los investigadores y muchos grandes obras de la literatura en relación con los errores ajenos al muestreo se ha publicado en los últimos dos decenios, especialmente en relación con el error de falta de respuesta, que es una de las piedras angulares de los errores ajenos al muestreo. La literatura se ocupa de un tipo de error no muestral a la vez, aunque en las encuestas reales más de un error no muestral suele estar presente. En este trabajo, dos tipos de errores ajenos al muestreo son considerados en la etapa de la estimación: la falta de respuesta y el error de medición. Un tipo exponencial estimador de razón ha sido desarrollado para estimar la media poblacional de la variable de respuesta en presencia de errores de falta de respuesta y de medición. Teóricamente y empíricamente, se ha mostrado que el estimador propuesto es más eficiente que estimador insesgado habitual y otros estimadores existentes. <![CDATA[Accounting for Model Selection Uncertainty: Model Averaging of Prevalence and Force of Infection Using Fractional Polynomials]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100009&lng=en&nrm=iso&tlng=en In most applications in statistics the true model underlying data generation mechanisms is unknown and researchers are confronted with the critical issue of model selection uncertainty. Often this uncertainty is ignored and the model with the best goodness-of-fit is assumed as the data generating model, leading to over-confident inferences. In this paper we present a methodology to account for model selection uncertainty in the estimation of age-dependent prevalence and force of infection, using model averaging of fractional polynomials. We illustrate the method on a seroprevalence cross-sectional sample of hepatitis A, taken in 1993 in Belgium. In a simulation study we show that model averaged prevalence and force of infection using fractional polynomials have desirable features such as smaller mean squared error and more robust estimates as compared with the general practice of estimation based only on one selected "best" model.<hr/>En la mayoría de aplicaciones en estadística se desconoce el verdadero modelo que determina el mecanismo de generación de los datos, y los investigadores deben confrontarse con la incertidumbre en la selección del modelo. En muchas ocasiones esta incertidumbre es ignorada cuando solo se usa el modelo que mejor ajusta los datos observados, lo cual conlleva a estimaciones con nivel de confianza menor a los deseados. Las enfermedades infecciosas pueden ser estudiadas por medio de parámetros tales como la prevalencia dependiente de la edad y la fuerza de infección. En este trabajo nosotros estimamos estos dos parámetros mediante polinomios fraccionarios y proponemos el uso de promedio de modelos para incluir la variabilidad debida a la incertidumbre en la selección del modelo. Nosotros ilustramos esta metodología usando una muestra de seroprevalencia de hepatitis A en Bélgica en 1993. Por medio de simulaciones mostramos que la metodología propuesta en este artículo tiene atractivas propiedades tales como menor erro cuadrado medio y estimaciones más robustas comparado con la frecuente práctica de estimación basada en un único modelo. <![CDATA[Decision Theory for the Variance Ratio in One-Way ANOVA with Random Effects]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100010&lng=en&nrm=iso&tlng=en Estimating a variance component in the model of analysis of variance with random effects and testing the hypothesis that the variance vanishes are important issues in many applications. Such inferences are beyond the confines of the standard (asymptotic) theory because a zero variance is on the boundary of the parameter space and the maximum likelihood or another reasonable estimator of variance has a non-trivial probability of zero in many settings. We derive decision rules regarding the variance ratio in balanced one-way analysis of variance, in both the frequentist and Bayesian perspectives. We argue that this approach is superior to hypothesis testing because it incorporates the consequences of the two kinds of error (incorrect choice) that may be committed. An application to a track athletes training performance is presented.<hr/>La estimación de una de las varianzas en el modelo de análisis de la varianza con efectos aleatorios y la prueba de hipótesis de que la varianza se anula, son temas importantes en muchas aplicaciones. Tales inferencias están fuera de los confines de la teoría asintótica estándar porque una varianza cero está en la frontera del espacio paramétrico y la máxima verosimilitud u otro estimador razonable de una varianza tiene una probabilidad no trivial de cero en muchos contextos. Nosotros derivamos una regla de decisión sobre la razón de varianzas en un análisis de varianza de un factor balanceado tanto para la perspectiva frecuentista como la Bayesiana. Argumentamos que este enfoque es superior a la prueba de hipótesis porque incorpora las consecuencias de los dos tipos de error (elección incorrecta) que pueden cometerse. Se presenta una aplicación sobre los rendimientos de los entrenamientos de un atleta de pista. <![CDATA[Optimization of Spearman's Rho]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100011&lng=en&nrm=iso&tlng=en This paper proposes an approximation method to achieve optimum possible values of Spearmans rho for a special class of copulas.<hr/>El artículo propone un método de aproximación para alcanzar los valores óptimos posibles del coeficiente rho de Spearman para algunas clases especiales de cópulas. <![CDATA[Identification of Common Factors in Multivariate Time Series Modeling]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100012&lng=en&nrm=iso&tlng=en For multivariate time series modelling, it is essential to know the number of common factors that define the behaviour. The traditional approach to this problem is investigating the number of cointegration relations among the data by determining the trace and the maximum eigenvalue and obtaining the number of stationary long-run relations. Alternatively, this problem can be analyzed using dynamic factor models, which involves estimating the number of common factors, both stationary and not, that describe the behaviour of the data. In this context, we empirically analyze the power of such alternative approaches by applying them to time series that are simulated using known factorial models and to financial market data. The results show that when there are stationary common factors, when the number of observations is reduced and/or when the variables are part of more than one cointegration relation, the common factors test is more powerful than the usually applied cointegration tests. These results, together with the greater flexibility to identify the loading matrix of the data generating process, render dynamic factor models more suitable for use in multivariate time series analysis.<hr/>Para la modelización multivariante de series temporales no estacionarias es imprescindible conocer el número de factores comunes que definen el comportamiento de las series. La forma tradicional de abordar este problema es el estudio de las relaciones de cointegración entre los datos a travé de las pruebas de la traza y el máximo valor propio, obteniendo el número de relaciones de largo plazo estacionarias. Como alternativa, se pueden emplear modelos factoriales dinámicos que estiman el número de factores comunes, estacionarios o no, que describen el comportamiento de los datos. En este contexto, analizamos empíricamente el resultado de aplicar tales métodos a series simuladas mediante modelos factoriales conocidos, y a datos reales de los mercados financieros. Los resultados muestran que cuando hay factores comunes estacionarios, cuando el número de observaciones se reduce y/o cuando las variables participan en más de una relación de cointegración, la prueba de factores comunes es más potente que las pruebas habituales de cointegración. Estos resultados, junto con la mayor flexibilidad para identificar la matriz de cargas del proceso generador de datos, hacen que los modelos de factores dinímicos sean más adecuados para su utilización en el análisis multivariante. <![CDATA[TAR Modeling with Missing Data when the White Noise Process Follows a Student's t-Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100013&lng=en&nrm=iso&tlng=en This paper considers the modeling of the threshold autoregressive (TAR) process, which is driven by a noise process that follows a Students t-distribution. The analysis is done in the presence of missing data in both the threshold process {Zt} and the interest process {Xt}. We develop a three-stage procedure based on the Gibbs sampler in order to identify and estimate the model. Additionally, the estimation of the missing data and the forecasting procedure are provided. The proposed methodology is illustrated with simulated and real-life data.<hr/>En este trabajo consideramos el modelamiento de los modelos autoregresivos de umbrales (TAR) con datos faltantes tanto en la serie de umbrales como la serie de interés cuando el proceso del ruido blanco sigue una distribución t de student. Desarrollamos un procedimiento de tres etapas basado en el muestreador de Gibbs para identificar y estimar el modelo, además de la estimación de los datos faltantes y el procedimiento para el pronóstico. La metodología propuesta fue aplicada a datos simulados y datos reales. <![CDATA[Estimating Population Proportions by Means of Calibration Estimators]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100014&lng=en&nrm=iso&tlng=en This paper considers the problem of estimating the population proportion of a categorical variable using the calibration framework. Different situations are explored according to the level of auxiliary information available and the theoretical properties are investigated. A new class of estimator based upon the proposed calibration estimators is also defined, and the optimal estimator in the class, in the sense of minimal variance, is derived. Finally, an estimator of the population proportion, under new calibration conditions, is defined. Simulation studies are considered to evaluate the performance of the proposed calibration estimators via the empirical relative bias and the empirical relative efficiency, and favourable results are achieved.<hr/>El artículo considera el problema de la estimación de la proporción poblacional de una variable categórica usando como marco de trabajo la calibración. Se exploran diferentes situaciones de acuerdo con la información auxiliar disponible y se investigan las propiedades teóricas. Una nueva clase de estimadores basada en los estimadores de calibración propuestos también es definida y el estimador óptimo en la clase, en el sentido de varianza mínima, es obtenido. Finalmente, un estimador de la proporción poblacional, bajo nuevas condiciones de calibración es también propuesto. Estudios de simulación para evaluar el comportamiento de los estimadores calibrados propuestos a través del sesgo relativo empírico y de la eficiencia relativa empírica son incluidos, obteniéndose resultados satisfactorios. <![CDATA[Curves Extraction in Images]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512015000100015&lng=en&nrm=iso&tlng=en We present a methodology for extracting processes of curves in images, using a statistical summary of the directional information given in measures of location, curvature and direction associated with the pixels that compose each curve. The main purpose is to obtain measures that serve as input for the reconstruction, in vector format, of a process of curves which are of interest, so that the extracted curves can be easily stored and reconstructed based on few parameters conserving representative information of its curvature at each pixel. As starting point, the directional information obtained from a methodology of consistent curves detection is used, which includes the decomposition of the image in a directional domain contained in \mathbb{R}2-k, with k\in\mathbb {N}. Basic summary measures criteria are proposed for this type of data and the application to four cases of satellite images for extraction of sections of rivers in these images are shown.<hr/>Presentamos una metodología para la extracción de procesos de curvas en imágenes, mediante un resumen estadístico de la información direccional dado en medidas de localización, curvatura y dirección asociadas a los pixels que componen cada curva. El propósito principal es obtener medidas que sirvan como insumo para la reconstrucción de los procesos de curvas que sean de interés, en formato de vector, de manera que las curvas extraídas puedan ser almacenadas fácilmente y reconstruidas en base a pocos parámetros conservando información representativa de su curvatura en cada pixel. Como punto de partida se usa la información direccional obtenida a partir de la metodología de detección consistente de curvas, la cual comprende la descomposición de la imagen en un dominio direccional contenido en \mathbb{R}2-k, con k\in\mathbb{N}. Para este tipo de datos se proponen criterios básicos para las medidas de resumen y se muestra la aplicación a cuatro casos de imágenes satelitales para la extracción de tramos de río en dichas imágenes.