Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120180002&lang=pt vol. 41 num. 2 lang. pt <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[Using an Anchor to Improve Linear Predictions with Application to Predicting Disease Progression]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512018000200137&lng=pt&nrm=iso&tlng=pt Abstract Linear models are some of the most straightforward and commonly used modelling approaches. Consider modelling approximately monotonic response data arising from a time-related process. If one has knowledge as to when the process began or ended, then one may be able to leverage additional assumed data to reduce prediction error. This assumed data, referred to as the “anchor”, is treated as an additional data-point generated at either the beginning or end of the process. The response value of the anchor is equal to an intelligently selected value of the response (such as the upper bound, lower bound, or 99th percentile of the response, as appropriate). The anchor reduces the variance of prediction at the cost of a possible increase in prediction bias, resulting in a potentially reduced overall mean-square prediction error. This can be extremely effective when few individual data-points are available, allowing one to make linear predictions using as little as a single observed data-point. We develop the mathematics showing the conditions under which an anchor can improve predictions, and also demonstrate using this approach to reduce prediction error when modelling the disease progression of patients with amyotrophic lateral sclerosis.<hr/>Resumen Modelos lineales son los modelos más fáciles de usar y comunes en modelamiento. Si se considera el modelamiento de una respuesta aproximadamente monótona que surge de un proceso relacionado al tiempo y se sabe cuándo el proceso inició o terminó, es posible asumir datos adicionales como palanca para reducir el error de predicción. Estos datos adicionales son llamados de “anclaje” y son datos generados antes del inicio o después del final del proceso. El valor de respuesta del anclaje es igual a un valor de respuesta escogido de manera inteligente (como por ejemplo la cota superior, inferior o el percentil 99, según conveniencia). Este anclaje reduce la varianza de la predicción a costo de un posible sesgo en la misma, lo cual resulta en una reducción potencial del error medio de predicción. Lo anterior puede ser extremadamente efectivo cuando hay pocos datos individuales, permitiendo hacer predicciones con muy pocos datos. En este trabajo presentamos en desarrollo matemático demostrando las condiciones bajo las cuales el anclaje puede mejorar predicciones y también demostramos una reducción del error de predicción aplicando el método a la modelación de progresión de enfermedad en pacientes con esclerosis lateral amiotrófica. <![CDATA[Form-Invariance of the Non-Regular Exponential Family of Distributions]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512018000200157&lng=pt&nrm=iso&tlng=pt Abstract The weighted distributions are used when the sampling mechanism records observations according to a nonnegative weight function. Sometimes the form of the weighted distribution is the same as the original distribution except possibly for a change in the parameters that are called the form-invariant weighted distribution. In this paper, by identifying a general class of weight functions, we introduce an extended class of form-invariant weighted distributions belonging to the non-regular exponential family which included two common families of distribution: exponential family and non-regular family as special cases. Some properties of this class of distributions such as the su-cient and minimal su-cient statistics, maximum likelihood estimation and the Fisher information matrix are studied.<hr/>Resumen Las distribuciones ponderadas son usadas cuando el mecanismo de muestreo registra observaciones de acuerdo a una función no negativa. En ocasiones la forma de la función ponderada es igual a la original, excepto, posiblemente, en un cambio de parámetros y se denominan distribuciones ponderadas de forma invariante. En este artículo identificamos una clase general de funciones ponderadas e introducimos una forma extendida de distribuciones ponderadas de forma invariante, la cual incluye dos familias comunes: la familia exponencial y la familia no regular como caso particular. Algunas propiedades de estas distribuciones como las estadísticas suficientes y máximas suficientes, la estimación de máxima verosimilitud y la matriz de información de Fisher son estudiadas. <![CDATA[Artificial Neuronal Networks: A Bayesian Approach Using Parallel Computing]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512018000200173&lng=pt&nrm=iso&tlng=pt Abstract An Artificial Neural Network (ANN) is a learning paradigm and automatic processing inspired in the biological behavior of neurons and the brain structure. The brain is a complex system; its basic processing unit are the neurons, which are distributed massively in the brain sharing multiple connections between them. The ANNs try to emulate some characteristics of humans, and can be thought as intelligent systems that perform some tasks in a dierent way that actual computer does. The ANNs can be used to perform complex activities, for example: pattern recognition and classification, weather prediction, genetic values prediction, etc. The algorithms used to train the ANN, are in general complex, so therefore there is a need to have alternatives which lead to a significant reduction of times employed to train an ANN. In this work, we present an algorithm based in the strategy “divide and conquer” which allows to train an ANN with a single hidden layer. Part of the sub problems of the general algorithm used for training are solved by using parallel computing techniques, which allows to improve the performance of the resulting application. The proposed algorithm was implemented using the C++ programming language, and the libraries Open MPI and ScaLAPACK. We present some application examples and we asses the application performance. The results shown that it is possible to reduce significantly the time necessary to execute the program that implements the algorithm to train the ANN.<hr/>Resumen Una Red Neuronal Artificial (RNA) es un paradigma de aprendizaje y procesamiento automático inspirado en el comportamiento biológico de las neuronas y en la estructura del cerebro. El cerebro es un sistema altamente complejo; su unidad básica de procesamiento son las neuronas, las cuales se encuentra distribuidas de forma masiva compartiendo múltiples conexiones entre ellas. Las RNAs intentan emular ciertas características propias de los humanos, pueden ser vistas como un sistema inteligente que lleva a cabo tareas de manera distinta a como lo hacen las computadoras actuales. Las RNAs pueden emplearse para realizar actividades complejas, por ejemplo: reconocimiento y clasificación de patrones, predicción del clima, predicción de valores genéticos, etc. Los algoritmos utilizados para entrenar las redes, son en general complejos, por lo cual surge la necesidad de contar con alternativas que permitan reducir de manera significativa el tiempo necesario para entrenar una red. En este trabajo se presenta una propuesta de algoritmos basados en la estrategia “divide y conquista” que permiten entrenar las RNAs de una sola capa oculta. Parte de los sub problemas del algoritmo general de entrenamiento se resuelven utilizando técnicas de cómputo paralelo, lo que permite mejorar el desempeño de la aplicación resultante. El algoritmo propuesto fue implementado utilizando el lenguaje de programación C++, así como las librerías Open MPI y ScaLAPACK. Se presentan algunos ejemplos de aplicación y se evalúa el desempeño del programa resultante. Los resultados obtenidos muestran que es posible reducir de manera significativa los tiempos necesarios para ejecutar el programa que implementa el algoritmo para el ajuste de la RNA. <![CDATA[Construction of the Design Matrix for Generalized Linear Mixed-Effects Models in the Context of Clinical Trials of Treatment Sequences]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512018000200191&lng=pt&nrm=iso&tlng=pt Abstract The estimation of carry-over effects is a di-cult problem in the design and analysis of clinical trials of treatment sequences including cross-over trials. Except for simple designs, carry-over effects are usually unidentifiable and therefore nonestimable. Solutions such as imposing parameter constraints are often unjustified and produce differing carry-over estimates depending on the constraint imposed. Generalized inverses or treatment-balancing often allow estimating main treatment eects, but the problem of estimating the carry-over contribution of a treatment sequence remains open in these approaches. Moreover, washout periods are not always feasible or ethical. A common feature of designs with unidentifiable parameters is that they do not have design matrices of full rank. Thus, we propose approaches to the construction of design matrices of full rank, without imposing artificial constraints on the carry-over effects. Our approaches are applicable within the framework of generalized linear mixed-effects models. We present a new model for the design and analysis of clinical trials of treatment sequences, called Antichronic System, and introduce some special sequences called Skip Sequences. We show that carry-over effects are identifiable only if appropriate Skip Sequences are used in the design and/or data analysis of the clinical trial. We explain how Skip Sequences can be implemented in practice, and present a method of computing the appropriate Skip Sequences. We show applications to the design of a cross-over study with 3 treatments and 3 periods, and to the data analysis of the STAR*D study of sequences of treatments for depression.<hr/>Resumen La estimación de los efectos de arrastre es un problema difícil en el diseño y análisis de ensayos clínicos de secuencias de tratamientos, incluyendo ensayos cruzados. Excepto por diseños simples, estos efectos son usualmente no identificables y, por lo tanto, no estimables. La imposición de restricciones a los parámetros es a menudo no justificada y produce diferentes estimativos de los efectos de arrastre dependiendo de la restricción impuesta. Las inversas generalizadas o el balance de tratamientos a menudo permiten estimar los efectos principales de tratamiento, pero no resuelven el problema de estimar la contribución de los efectos de arrastre de una sequencia de tratamiento. Además, los períodos de lavado no siempre son factibles o éticos. Los diseños con parámetros no identificables comúnmente tienen matrices de diseño que no son de rango completo. Por lo tanto, proponemos métodos para la construcción de matrices de rango completo, sin imponer restricciones artificiales en los efectos de arrastre. Nuestros métodos son aplicables en un contexto de modelos lineales mixtos generalizados. Presentamos un nuevo modelo para el diseño y análisis de ensayos clínicos de secuencias de tratamientos, llamado Sistema Anticrónico, e introducimos secuencias de tratamiento especiales llamadas Secuencias de Salto. Demostramos que los efectos de arrastre son identificables sólo si se usan Secuencias de Salto apropiadas. Explicamos como implementar en la práctica estas secuencias, y presentamos un método para calcular las secuencias apropiadas. Presentamos aplicaciones al diseño de un estudio cruzado con 3 tratamientos y 3 períodos, y al análisis del estudio STAR*D de secuencias de tratamientos para la depresión. <![CDATA[Kernel Function in Local Linear Peters-Belson Regression]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512018000200235&lng=pt&nrm=iso&tlng=pt Abstract Determining the extent of a disparity, if any, between groups of people, for example, race or gender, is of interest in many fields, including public health for medical treatment and prevention of disease or in discrimination cases concerning equal pay to estimate the pay disparities between minority and majority employees. The Peters-Belson (PB) regression is a form of statistical matching, akin in spirit to Bhattacharya's bandwidth matching which is proposed for this purpose. In this paper, we review the use of PB regression in legal cases from Bura, Gastwirth &amp; Hikawa (2012). Parametric and nonparametric approaches to PB regression are described and we show that in nonparametric PB regression a suitable kernel function can improve results, i.e. by selecting the appropriate kernel function, we can reduce bias and variance of estimators, also increase the power of tests.<hr/>Resumen Determinar el alcance de una disparidad, si la hubiere, entre grupos de personas, por ejemplo, raza o género, es de interés en muchos campos, incluida la salud pública para el tratamiento médico y la prevención de enfermedades o en casos de discriminación en relación con la igualdad salarial para estimar las disparidades salariales entre los empleados minoritarios y mayoritarios. La regresión de Peters Belson (PB) es una forma de coincidencia estadística, similar en espíritu a la coincidencia de ancho de banda de Bhattacharya que se propone para este propósito. En este trabajo, repasamos el uso de la regresión del PB en casos legales de Bura et al. (2012). Se describen los enfoques paramétricos y no paramétricos de la regresión del PB y demostramos que en la regresión no paramétrica del PB una función de kernel adecuada puede mejorar los resultados, es decir, seleccionando la función de kernel apropiada, podemos reducir el sesgo y la varianza de los estimadores, también aumentan el poder de las pruebas. <![CDATA[On Reliability in a Multicomponent Stress-Strength Model with Power Lindley Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512018000200251&lng=pt&nrm=iso&tlng=pt Abstract In this paper we study the reliability of a multicomponent stress-strength model assuming that the components follow power Lindley model. The maximum likelihood estimate of the reliability parameter and its asymptotic confidence interval are obtained. Applying the parametric Bootstrap technique, interval estimation of the reliability is presented. Also, the Bayes estimate and highest posterior density credible interval of the reliability parameter are derived using suitable priors on the parameters. Because there is no closed form for the Bayes estimate, we use the Markov Chain Monte Carlo method to obtain approximate Bayes estimate of the reliability. To evaluate the performances of different procedures, simulation studies are conducted and an example of real data sets is provided.<hr/>Resumen En este trabajo, estudiamos la fiabilidad de un modelo multicomponente de resistencia al estrés suponiendo que los componentes siguen el modelo Lindley de potencia. Se obtiene la estimación de máxima verosimilitud del parámetro de confiabilidad y su intervalo de confianza asintótico. Aplicando la técnica Bootstrap paramétrica, se presenta la estimación de intervalo de la confiabilidad. Además, la estimación de Bayes y el intervalo creíble de la densidad posterior más alta del parámetro de confiabilidad se obtienen utilizando los antecedentes adecuados sobre los parámetros. Debido a que no existe una forma cerrada para la estimación de Bayes, utilizamos el método de Markov Chain Monte Carlo para obtener una estimación aproximada de Bayes de la confiabilidad. Para evaluar el rendimiento de diferentes procedimientos, se realizan estudios de simulación y se proporciona un ejemplo de conjuntos de datos reales.