Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120100002&lang=en vol. 33 num. 2 lang. en <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[Testing and Monitoring the Randomness of d Digit Number Game]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200001&lng=en&nrm=iso&tlng=en El interés de este trabajo se centra en el problema de probar la aleatoriedad de los resultados de los juegos de números de d dígitos. Es usual que este problema se aborde con pruebas aproximadas del tipo &chi;² y otras pruebas de independencia de resultados sucesivos. Pero estas pruebas, tienen entre otras limitantes, el hecho de que requieren muestras grandes. Como alternativa, en este trabajo se detalla una prueba bayesiana basada en el modelo multinomial. Además, para monitorear los resultados de este tipo de juego de azar y detectar en forma oportuna patrones y resultados no aleatorios, se propone la utilización de una carta de control geométrica. Se hace un breve estudio Monte Carlo para comprender mejor las características de la carta propuesta. Como caso práctico se analizan los resultados de 500 sorteos de la lotería mexicana Tris y se detectan problemas de falta de aleatoriedad, tanto con la prueba bayesiana como con la carta de control.<hr/>this work is centered on testing the randomness of d-digit number game. It is usual that this problem is studied by the &chi; ² test and other tests for independence of successive draws. However, these tests require of large sample sizes. As an alternative, it is proposed a Bayesian methodology based on the multinomial model. This methodology does not depend on asymptotic results. Besides, for monitoring the results of this type of game, it is proposed a geometric control chart. Monte Carlo study is carried out to analyze this chart. As a practical case, the data of 500 draws of mexican lottery Tris were analyzed, and problems of lack of randomness are detected. <![CDATA[Probabilistic Estimation of Climate Change in Venezuela using a Bayesian approach]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200002&lng=en&nrm=iso&tlng=en El problema del cambio climático es uno de los grandes problemas ambientales que enfrenta la humanidad, ya que ligeras variaciones en las variables climáticas pueden traer graves consecuencias en las actividades económicas y el bienestar humano en general. Hoy en día los modelos de circulación general (MCG) de la atmósfera son la principal herramienta para estudiar los cambios climáticos. El Ministerio del Ambiente y de los Recursos Naturales (MARN) lideró en el año 2005 la Primera Comunicación Nacional en Cambio Climático de Venezuela, utilizando salidas de 16 MCGs a escala global (resolución de 5\circ°\times 5\circ), cuyas proyecciones estiman incrementos para la temperatura y disminución en la precipitación para los próximos años. Cada MCG arroja diferentes resultados generando incertidumbre en la señal del cambio climático futuro. Este trabajo utiliza un enfoque Bayesiano y una extensión del método Reliability Ensemble Average (REA) (Tebaldi et al. 2005), combinando las salidas (presente y futura) de precipitación y temperatura de los 16 MCG con observaciones de las condiciones climáticas actuales, con el fin de determinar las distribuciones de probabilidad del cambio climático futuro para estas dos variables climáticas en nueve regiones de Venezuela. Para el estudio se toman en cuenta dos criterios: sesgo, el cual considera la diferencia entre las salidas de los modelos y el clima actual, y convergencia, que cuantifica las diferencias en los cambios simulados por los múltiples modelos del clima futuro. El principal resultado obtenido del trabajo es que aún existe considerable incertidumbre en las proyecciones de los MCG, ya que estos no incluyen todos los aspectos sobre el funcionamiento del sistema climático. También se pudo establecer que mientras menor sea la variabilidad natural de la variable climática, más efectiva será su proyección.<hr/>The changing climate is one of the main environmental problems facing humanity, since slight variations in the climate variables might have terrible consequences in the economic activities and human well-being. Nowadays atmospheric Global Circulation Models (GCMs) are the main tools to study changing climate. The Ministry of Environment and Natural Resources (MENR) led in 2005 the First Communication in Climate Change of Venezuela, using the outputs of 16 GCMs at a global scale (resolution of 5\circ \times 5\circ) whose projections estimate increasing temperature and diminishing precipitation in the coming years. Each GCM gives different results, generating uncertainty in the future changing climate signal. This work uses a Bayesian approach and an extension of the Reliability Ensemble Average (REA) (Tebaldi et al. 2005) method, combining the outputs (present and future) of precipitation and temperature of the 16 GCMs with observations of present climate conditions, to determine the probability distributions of future changing climate change for these two climate variables in 9 regions in Venezuela. For this study, two criteria are used: bias, which considers the difference between the model outputs and the present climate; and convergence, which quantifies the differences among the simulated changes of future climate by multiple models. The main result of this work is that a large amount of uncertainty still exists in the GCMs projections, since they as yet do not include all aspects of the climate system functioning. It was also concluded that the lower the natural variability in the climate variable, the more effective is its projection. <![CDATA[An Extension of the Two-Parameter Weibull Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200003&lng=en&nrm=iso&tlng=en En este artículo se presenta una extensión de la distribución Weibull de dos parámetros, con el objetivo de flexibilizar el modelo en términos de la kurtosis. Se estudian las propiedades básicas de la nueva densidad obtenida, así como su función de distribución, momentos, coeficientes de asimetría y kurtosis. Se realizan estudios de simulación para algunos casos particulares, ilustrando la utilidad de la extensión considerada.<hr/>In this paper, we present an extension of the Two-parameter Weibull distribution to make it even more flexible in terms of its kurtosis coefficient. Properties involving moments and asymmetry and kurtosis indexes are studied. Simulation studies for some cases, illustrating the usefulness of the extension considered, are carried out. <![CDATA[Procedure and Estimation Algorithm in Multilevel Models for Proportions]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200004&lng=en&nrm=iso&tlng=en En este artículo se describe un procedimiento para la estimación de parámetros fijos y aleatorios en modelos multinivel para proporciones. El procedimiento de estimación se basa en el método de los mínimos cuadrados generalizados. Una vez que se formula el modelo, se demuestra que es posible aplicar la teoría asintótica de estimación en el marco del modelo lineal general. Se elabora un algoritmo que permite calcular los estimadores propuestos. La aplicación se ilustra con un ejemplo de meta-análisis. Se concluye que el procedimiento presentado puede ser una estrategia favorable en investigaciones aplicadas.<hr/>This paper describes a procedure for the estimation of fixed and random parameters in multilevel model for proportions. The estimation procedure is developed using Iterative Generalized Least Squares. Once the model is formulated, we demonstrate that it is possible to apply the asymptotic estimation theory in the framework of the general lineal model. An algorithm to calculate the proposed estimators is elaborated. We illustrate the application using an example of meta-analysis. It is concluded that the proposed procedure can be favorable strategy to do applied research. <![CDATA[A Proposed Runs Trimming Test for the Hypothesis of Symmetry]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200005&lng=en&nrm=iso&tlng=en Combinando la teoría de rachas desarrollada por Corzo (1989) y la idea de Modarres & Gastwirth (1996), que utilizan el número de rachas que quedan después de recortar la sucesión dicotomizada, se proponen tres pruebas de rachas para la hipótesis de simetría. Utilizando la técnica de linealización de Taylor se aproxima el valor esperado y la varianza, y se realiza un estudio de aproximación de la distribución del estadístico por la distribución normal. Las pruebas propuestas son comparadas en términos de su potencia con algunas de las pruebas no paramétricas más recientes y comunes para dicho problema en tamaños de muestra n=10(1)25, n=30, n=50(50)250 y n=500. Para la comparación se utilizaron métodos de Monte Carlo, y las muestras fueron generadas de nueve distribuciones pertenecientes a la familia lambda generalizada (DLG). Las simulaciones indican que para una gran variedad de alternativas asimétricas las pruebas propuestas son más potentes que las pruebas existentes en la literatura.<hr/>Combining the runs theory developed by Corzo (1989) and the idea of Modarres & Gastwirth (1996), which uses the number of runs left after cutting the dichotomized succession, three families of statistics based on runs and three tests for the hypothesis of symmetry are proposed. Using the linearization Taylor's technique, the expected value and variance of two from the three proposed families is approximated. A study to aproximate the distribution of the statistics through the normal distribution for the studied sample sizes is realized. The proposed tests are compared in terms of their power with some other recent and common nonparametric tests for Symmetry, for the sample sizes n=10(1)25, n=30, n=50(50)250 and n=500. For this comparison, Monte Carlo methods were used and the samples were generated from nine distributions obtained from the generalized lambda distribution. The simulations indicate that, for a wide variety of asymmetric alternatives in the generalized lambda distribution, the tests proposed are more powerful than the existing tests in literature. <![CDATA[Analysis of Correspondence from a Probabilistic Sample]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200006&lng=en&nrm=iso&tlng=en A partir del análisis de correspondencias clásico aplicado a las tablas denominadas de correspondencias, se desarrolla la teoría para dicho análisis a partir de una muestra probabilística. El enfoque de esta teoría se encamina a la estimación de los valores y vectores propios asociados a las matrices por diagonalizar, ya sea en el análisis simple o en el múltiple, para luego establecer las estimaciones de los vectores propios que conducen a los ejes factoriales, permitiéndose una representación gráfica para mejorar la interpretación en el análisis. Se realizan además estimaciones de las medidas de calidad asociadas a la representación, como son: inercia, contribuciones y cosenos cuadrados.<hr/>From the classic analysis of correspondences applied to the denominated tables of correspondences, the theory for this analysis from a probabilistic sample is developed. The approach of this theory directs to the estimation of eigenvalues and eigenvectors associated to the matrices to be diagonalized, either in a simple analysis or in the multiple one, to establish estimations of the eigenvectors that lead to the factorial axes, allowing a graphical representation to improve performance in the analysis. Estimates of quality measures associated to the representation are made, such as inertia, contributions and squares cosines. <![CDATA[Biweight Variance and Correlation Functionsfor Normal Distributions]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200007&lng=en&nrm=iso&tlng=en En este trabajo se analiza el comportamiento del funciona \varrho asociado al estimador de correlación bicuadrático -\widehat{\varrho}-, asumiendo que se observan vectores aleatorios con distribución normal bivariada. Esto, con el objetivo de verificar si este estimador robusto es un estimador insesgado del coeficiente de correlación -&rho;-. El trabajo se desarrolló a partir de las propiedades de la función generadora de momentos de una distribución. De acuerdo con los resultados, \varrho>&rho; cuando &rho;<0, \varrho<&rho cuando &rho;>0, y \varrho=0 cuando &rho;=0, e indican que el estimador propuesto \widehat{\varrho} no es un estimador insesgado del coeficiente de correlación. Lo anterior plantea como reto modificar el estimador \widehat{\varrho} con el objetivo de obtener un estimador robusto insesgado o asintóticamente insesgado del coeficiente de correlación.<hr/>In this paper, we have analized the behavior of the functional \varrho, associated to the bi weight correlation estimator -\widehat{\varrho}-, assuming the sampled population has a bivariate normal distribution. The purpose is to verify if the estimator \widehat{\varrho} is an unbiased estimator of the correlation coefficient &rho;. The results show \varrho>&rho; when &rho;<0, \varrho<\rho when &rho;>0, y when &rho;=0. This results indicate \widehat{\varrho} is not an unbiased estimator of the correlation coefficient. <![CDATA[The Size Problem of Bootstrap Tests when the Null isNon- or Semiparametric]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200008&lng=en&nrm=iso&tlng=en In non- and semiparametric testing, the wild bootstrap is a standard method for determining the critical values of tests. If the null hypothesis is also semi- or nonparametric, then we know that at least asymptotically oversmoothing is necessary in the pre-estimation of the null model for generating the bootstrap samples. See Hardle & Marron (1990, 1991). However, in practice this knowledge is of little help. In this note we highlight that this bandwidth choice problem can become quite serious. As an alternative, we briegly discuss the possibility of subsampling.<hr/>En contrastes no- y semiparamétricos el wild-bootstrap es un método estándar para la determinación de los valores críticos de los estadísticos de contrastes. Si la hipótesis nula es no o semiparamétrica, sabemos que al menos asintóticamente es necesaria una sobre-suavización en la pre-estimación del modelo bajo la nula para generar las muestras bootstrap, ver por ejemplo Hardle & Marron (1990, 1991). No obstante, en la práctica este conocimiento es de poca o ninguna ayuda. En este artículo, ponemos de manifiesto que el problema de la selección de la banda de suavidad para procedimientos de contraste puede ser muy serio. Como alternativa, discutimos brevemente la posibilidad de usar sub-muestras. <![CDATA[A Review of the Most Common Partition Algorithms in Cluster Analysis: A Comparative Study]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512010000200009&lng=en&nrm=iso&tlng=en Este estudio está enfocado en comparar diversos métodos de partición del análisis de conglomerados, usualmente conocidos como métodos no jerárquicos. En este trabajo, se realizan estudios de simulación para comparar los resultados obtenidos al implementar los algoritmos k-medias, k-medianas, PAM y Clara cuando los datos son multivariados y de tipo continuo. Adicionalmente, se efectúa un estudio de simulación con el fin de comparar algoritmos de partición para datos cualitativos, confrontando la eficiencia de los algoritmos PAM y k-modas. La eficiencia de los algoritmos se compara usando el índice de Rand ajustado y la tasa de correcta clasificación. Finalmente, se aplican los algoritmos a bases de datos reales, las cuales poseen clases predefinidas.<hr/>This study is oriented to compare several partition methods in the context of cluster analysis, which are also called non hierarchical methods. In this work, a simulation study is performed to compare the results obtained from the implementation of the algorithms k-means, k-medians, PAM and CLARA when continuous multivariate information is available. Additionally, a study of simulation is presented to compare partition algorithms qualitative information, comparing the efficiency of the PAM and k-modes algorithms. The efficiency of the algorithms is compared using the Adjusted Rand Index and the correct classification rate. Finally, the algorithms are applied to real databases with predefined classes.