Revista Colombiana de Estadística

Un enfoque bayesiano para la estimación de los parámetros del modelo regresión Simplex: una comparación con la regresión Beta

Some variables are restricted to the open interval (0,1) and several methods have been developed to work with them under the scheme of the regression analysis. Most of research consider maximum likelihood methods and the use of Beta or Simplex distributions. This paper presents the use of Bayesian techniques to estimate the parameters of the simplex regression supported on the implementation of some simulations and a comparison with Beta regression. We consider both models with constant variance and models with variance heterogeneity. Regressions are exemplified with heteroscedasticity.

Algunas variables están restringidas al intervalo abierto (0,1) y para trabajar con ellas se han desarrollado diversos métodos bajo el esquema del análisis de regresión. La mayoría de ellos han sido concebidos originalmente para ser estimados por métodos de máxima verosimilitud. Los más naturales parecen descansar especialmente sobre las distribuciones Beta o Simplex. En este trabajo se presenta el uso de técnicas Bayesianas para la estimación de los parámetros de la regresión Simplex respaldada con la aplicación de algunas simulaciones y comparaciones con la regresión Beta. Se presentan resultados para modelos de varianza constante y de varianza heterogénea para cada individuo. Se presenta un ejemplo con datos reales.

Sistema casi ideal de demanda multinivel: el caso de la demanda de carne de res en Colombia

The main objective in this paper is to obtain reliable long-term and short-term elasticities estimates of the beef demand in Colombia using quarterly data since 1998 until 2007. However, complexity on the decision process of consumption should be taken into account, since expenditure on a particular good is sequential. In the case of beef demand in Colombia, a Multi-Stage process is proposed based on an Almost Ideal Demand System (AIDS). The econometric novelty in this paper is to estimate simultaneously all the stages by the Generalized Method of Moments to obtain a joint covariance matrix of parameter estimates in order to use the Delta Method for calculating the standard deviation of the long-term elasticities estimates. Additionally, this approach allows us to get elasticity estimates in each stage, but also, total elasticities which incorporate interaction between stages. On the other hand, the short-term dynamic is handled by a simultaneous estimation of the Error Correction version of the model; therefore, Monte Carlo simulation exercises are performed to analyse the impact on beef demand because of shocks at different levels of the decision making process of consumers. The results indicate that, although the total expenditure elasticity estimate of demand for beef is 1.78 in the long-term and the expenditure elasticity estimate within the meat group is 1.07, the total short-term expenditure elasticity is merely 0.03. The smaller short-term reaction of consumers is also evidenced on price shocks; while the total own price elasticity of beef is -0.24 in the short-term, the total and within meat group long-term elasticities are -1.95 and -1.17, respectively.

El objetivo más importante de este artículo es obtener estimaciones confiables de las elasticidades de la demanda de carne de res en Colombia para el largo y corto plazo utilizando información trimestral desde 1998 hasta 2007. Sin embargo, las decisiones que toman los consumidores se enmarcan en un ambiente complejo, puesto que el gasto en un bien particular se realiza de forma secuencial. En el caso particular de la demanda de carne de res en la economía colombiana, se propone un Sistema Casi Ideal de Demanda Multinivel. La novedad econométrica en este artículo es estimar simulatáneamente todos los niveles del modelo mediante el Método Generalizado de los Momentos; esto permite obtener una matriz conjunta de covarianzas de todos los parámetros, y así utilizar el Método Delta para calcular las desviaciones estándar de las elasticidades estimadas de largo plazo. Adicionalmente, este enfoque nos permite obtener estimaciones de las elasticidades en cada nivel, pero también, elasticidades totales que incorporan la interacción entre los niveles. Por otra parte, la dinámica de corto plazo se estudia a través de la estimación conjunta de la versión en Corrección de Errores del modelo; de esta forma, ejercicios de simulación Monte Carlo son reaizados para analizar el impacto sobre la demanda de carne de res debido a perturbaciones en diferentes niveles del proceso de toma de decisiones de los consumidores. Los resultados indican que aunque en el largo plazo la elasticidad estimada de la demanda de carne de res con respecto al gasto total es 1.78, y la elasticidad estimada de la demanda con respecto al gasto en cárnicos es 1.07, la elasticidad de la demanda con respecto al gasto total en el corto plazo es solo 0.03. La reducida reacción en el corto plazo también está presente ante perturbaciones en el precio; mientras que la elasticidad precio propia total de la demanda de carne de res es -0.24 en el corto plazo, las elasticidades total y al interior del grupo de cárnicos para el largo plazo son -1.95 y -1.17, respectivamente.

La familia de distribuciones alfa-potencia log-skew-normal usando datos de precipitación

We present a new set of distributions for positive data based on a skew-normal alpha-power (PSN) model including a new parameter which in turn makes the log-skew-normal alpha-power (LPSN) model more flexible than both the log-normal (LN) model and log-skew-normal (LSN) model. The LPSN model contains the LN model and LSN model as special cases. Furthermore, it models positive data with asymmetry and kurtosis larger than the one permitted by the LN distribution. Precipitation data illustrates the usefulness of the LPSN model being less influenced by outliers.

Presentamos una nueva familia de distribuciones para datos positivos basada en el modelo skew-normal alpha-power (PSN), incluyendo un nuevo parámetro el cual hace el modelo log-skew-normal alpha-power (LPSN) más flexible que los modelos log-normal (LN) y log-skew-normal (LSN). El\linebreak modelo LPSN contiene el modelo LN y el modelo LSN como casos particulares. Además, modela datos positivos con asimetría y curtosis más allá de lo permitido por la distribución LN. Datos de precipitación ilustran la utilidad del modelo LPSN siendo menos influenciado por outliers.

Sobre las características de los momentos de los procesos de Poisson compuestos univariados y bivariados con aplicaciones

The univariate and bivariate compound Poisson process (CPP and BCPP, respectively) ensure a better description than the homogeneous Poisson process for clustering of events. In this paper, new explicit representations of the moment characteristics (general, central, factorial, binomial and ordinary moments, factorial cumulants) and some covariance structures are derived for the CPP and BCPP. Then, the skewness and kurtosis of the univariate CPP are obtained for the first time and special cases of the CPP are studied in detail. Applications to two real data sets are given to illustrate the usage of these processes.

Los procesos univariados y bivariados compuestos de Poisson (CPP y BCCPP, por sus siglas en inglés respectivamente) permiten una mejor descripción que los procesos homogéneos de Poisson para agrupamiento de eventos. En este artículo, se muestran específicamente las representaciones de las características de momentos (general, central, factorial, momentos binomiales y ordinarios, acumuladas factoriales) y algunas estructuras de covarianza para los CPP y BCPP. Adicionalmente, el sesgo y la curtosis de los procesos univariados CPP son presentados y casos especiales son estudiados en detalle. La aplicación a dos conjuntos de datos reales es usada con el fin de ilustrar el uso de estos procesos.

Comparación de momentos TL, momentos L y momentos convencionales de la distribución Dagum mediante datos simulados

Modeling income, wage, wealth, expenditure and various other social variables have always been an issue of great concern. The Dagum distribution is considered quite handy to model such type of variables. Our focus in this study is to derive the L-moments and TL-moments of this distribution in closed form. Using L & TL-moments estimators we estimate the scale parameter which represents the inequality of the income distribution from the mean income. Comparing L-moments, TL-moments and conventional moments, we observe that the TL-moment estimator has lessbias and root mean square errors than those of L and conventional estimators considered in this study. We also find that the TL-moments have smaller root mean square errors for the coefficients of variation, skewness and kurtosis. These results hold for all sample sizes we have considered in our Monte Carlo simulation study.

La modelación de ingresos, salarios, riqueza, gastos y muchas otras variables de tipo social han sido siempre un tema de gran interés. La distribución Dagum es considerada para modelar este tipo de variables. Nos centraremos en este artículo en la derivación de los momentos L y los momentos TL de esta distribución de manera cerrada. Mediante el uso de los estimadores de momentos L y TL, estimamos el parámetro de escala que representa la desigualdad de la distribución de ingresos a partir de la media. Comparando los momentos L, los momentos TL y los momentos convencionales, concluimos que los momentos TL tienen menor sesgo y errores cuadráticos medios. También concluimos que los momentos TL tiene la menor error cuadrático medio para los coeficientes de variación, sesgo y curtosis. Estas conclusiones son igualmente aplicables para todos los tamaños de muestras considerados en nuestro estudio de simulación de Monte Carlo.

Propiedades e inferencia para modelos de Hazard proporcional

We consider an arbitrary continuous cumulative distribution function F(x) with a probability density function f(x) = dF(x)/dx and hazard function h f(x)=f(x)/[1-F(x)]. We propose a new family of distributions, the so-called proportional hazard distribution-function, whose hazard function is proportional to h f(x). The new model can fit data with high asymmetry or kurtosis outside the range covered by the normal, t-student and logistic distributions, among others. We estimate the parameters by maximum likelihood, profile likelihood and the elemental percentile method. The observed and expected information matrices are determined and likelihood tests for some hypotheses of interest are also considered in the proportional hazard normal distribution. We show an application to real data, which illustrates the adequacy of the proposed model.

Consideramos una función de distribución continua arbitraria F(x) con función de densidad de probabilidad f(x)=dF(x)/dx y función de riesgo h f(x)=f(x)/[1-F (x)]. En este artículo proponemos una nueva familia de distribuciones cuya función de riesgo es proporcional a la función de riesgo h f(x). El modelo propuesto puede ajustar datos con alta asimetría o curtosis fuera del rango de cobertura permitido por la distribución normal, t-Student, logística, entre otras. Estimamos los parámetros del modelo usando máxima verosimilitud, verosimilitud perfilada y el método elemental de percentiles. Calculamos las matrices de información esperada y observada. Consideramos test de verosimilitudes para algunas hipótesis de interés en el modelo con función de riesgo proporcional a la distribución normal. Presentamos una aplicación con datos reales que ilustra que el modelo propuesto es adecuado.

Análisis de correspondencias de tablas de contingencia consubparticiones en filas y columnas

We present Intra-Table Correspondence Analysis using two approaches: Correspondence Analysis with respect to a model and Weighted Principal Component Analysis. In addition, we use the relationship between Correspondence Analysis and the Log-Linear Models to provide a deeper insight into the interactions that each Correspondence Analysis describes. We develop in detail the Internal Correspondence Analysis as an Intra-Table Correspondence Analysis in two dimensions and introduce the Intra-blocks Correspondence Analysis. Moreover, we summarize the superimposed representations and give some aids to interpret the graphics associated to the subpartition structures of the table. Finally, the methods presented in this work are illustrated by their application to the standardized public test data collected from Colombian secondary education students in 2008.

Para presentar los análisis de correspondencias intra-tablas, se usan los enfoques del análisis de correspondencias con respecto a un modelo y del análisis en componentes principales ponderado. Adicionalmente, se utiliza la relación de los análisis de correspondencias con los modelos log-lineales para entender mejor las interacciones que cada análisis de correspondencias describe. Se desarrolla de manera detallada el análisis de correspondencias interno como un análisis de correspondencias intra-tablas en dos dimensiones y se introduce el análisis de correspondencias intrabloques. Por otra parte, se resumen las representaciones superpuestas y las ayudas para la interpretación de las gráficas asociadas a la estructura de subparticiones de la tabla. Finalmente, se ilustran los procedimientos con el análisis de una tabla de contingencia construida a partir de los resultados de las pruebas de estado realizadas a los estudiantes de educación media en Colombia en el año 2008.

Estimador tipo razón exponencial mejorado para la varianza poblacional

\noindent This article considers the problem of estimating the population variance using auxiliary information. An improved version of Singhs exponential type ratio estimator has been proposed and its properties have been studied under large sample approximation. It is shown that the proposed exponential type ratio estimator is more efficient than that considered by the Singh estimator, conventional ratio estimator and the usual unbiased estimator under some realistic conditions. An empirical study has been carried out to judge the merits of the suggested estimator over others.

Este artículo considera el problema de estimar la varianza poblacional usando información auxiliar. Una versión mejorada de un estimador exponencial tipo razón de Singh ha sido propuesta y sus propiedades han sido estudiadas bajo aproximaciones de grandes muestras. Se muestra que el estimador exponencial tipo razón propuesto es más eficiente que el estimador de Singh, el estimador de razón convencional y el estimador insesgado usual bajo algunas condiciones realísticas. Un estudio empírico se ha llevado a cabo con el fin de juzgar los méritos del estimador sugerido sobre otros disponibles.

Optimización de superficies de respuesta en curvas de crecimiento a través de análisis multivariado

A methodology is proposed to jointly model treatments with quantitative levels measured throughout time by combining the response surface and growth curve techniques. The model parameters, which measure the effect throughout time of the factors related to the second-order response surface model, are estimated. These estimates are made through a suitable transformation that allows to express the model as a classic MANOVA model, so the traditional hypotheses are formulated and tested. In addition, the optimality conditions throughout time are established as a set of specific combination factors by the fitted model. As a final step, two applications are analyzed using our proposed model: the first was previously analyzed with growth curves in another paper, and the second involves two factors that are optimized over time.

En este artículo se propone una metodología para modelar conjuntamente tratamientos con niveles cuantitativos medidos en el tiempo, mediante la combinación de técnicas de superficies de respuesta con curvas de\linebreak crecimiento. Se estiman los parámetros del modelo, los cuales miden el efecto en el tiempo de los factores relacionados con el modelo de superficie de respuesta de segundo orden. Estas estimaciones se realizan a través de una transformación que permite expresar el modelo como un modelo clásico de MANOVA; de esta manera, se expresan y juzgan las hipótesis tradicionales. Además, las condiciones de optimización a través del tiempo son establecidas para un conjunto de factores específicos por medio del modelo ajustado. Como paso final, se analizan dos aplicaciones utilizando el modelo propuesto: la primera fue analizada mediante curvas de crecimiento en otro artículo, y la segunda consiste en dos factores que son optimizados a lo largo del tiempo.

Regresión de mínimos cuadrados parciales sobre matrices simétricas definidas positiva

Recientemente ha habido un aumento en el interés de analizar diferentes tipos de datos variedad-valuados, dentro de los cuáles aparecen los datos de matrices simétricas definidas positivas. En muchos estudios de análisis de imágenes médicas cerebrales, es de interés principal establecer la asociación entre un conjunto de covariables y los datos variedad-valuados que son considerados como respuesta, con el fin de caracterizar las diferencias y formas en ciertas estructuras sub-corticales. Debido a que los datos variedad-valuados no forman un espacio vectorial, no es adecuado aplicar directamente las técnicas estadísticas clásicas, ya que ciertas operaciones sobre espacio vectoriales no están definidas en una variedad riemanniana general. En este artículo se realiza una aplicación de la metodología de regresión de mínimos cuadrados parciales, para el entorno de un número grande de covariables en un espacio euclídeo y una o varias respuestas que viven una variedad curvada llamada espacio simétrico Riemanniano. Para poder llevar a cabo la aplicación de dicha técnica se utilizan el mapa exponencial Riemanniano y el mapa log Riemanniano sobre el conjunto de matrices simétricas positivas definida, mediante los cuales se transforman los datos a un espacio vectorial en donde se pueden aplicar técnicas estadísticas clásicas. La metodología es evaluada por medio de un conjunto de datos simulados en donde se analiza el comportamiento de la técnica con respecto a la regresión por componentes principales.

Recently there has been an increased interest in the analysis of different types of manifold-valued data, which include data from symmetric positive-definite matrices. In many studies of medical cerebral image analysis, a major concern is establishing the association among a set of covariates and the manifold-valued data, which are considered as responses for characterizing the shapes of certain subcortical structures and the differences between them. The manifold-valued data do not form a vector space, and thus, it is not adequate to apply classical statistical techniques directly, as certain operations on vector spaces are not defined in a general Riemannian manifold. In this article, an application of the partial least squares regression methodology is performed for a setting with a large number of covariates in a euclidean space and one or more responses in a curved manifold, called a Riemannian symmetric space. To apply such a technique, the Riemannian exponential map and the Riemannian logarithmic map are used on a set of symmetric positive-definite matrices, by which the data are transformed into a vector space, where classic statistical techniques can be applied. The methodology is evaluated using a set of simulated data, and the behavior of the technique is analyzed with respect to the principal component regression.