1. Introducción
El análisis de datos de confiabilidad proporciona a los consumidores una medida asociada con la duration promedio de un producto de interés, y a su vez los fabricantes cuentan con una medida que les indica que tan bueno es su producto. Una característica típica de los datos en confiabilidad es la presencia de censura, la cual se clasifica en: censura a derecha, censura a izquierda o censura a intervalo [1]. Este trabajo, se enfoca en la censura a intervalo, que se produce cuando el tiempo de falla de un producto es desconocido pero se sabe que ocurrió en un intervalo de tiempo que por lo general es aleatorio.
En el caso de muestras aleatorias bivariadas se debe tener en cuenta la estructura de dependencia asociada, de tal manera que en el análisis de datos se logre identificar dicha estructura, para medirla usualmente se utiliza el т de Kendall, propuesto en [2]. El coeficiente de concordancia т de Kendall, mide el grado de dependencia entre dos variables aleatorias, cuya escala de medida es ordinal o de intervalo; la estimación del т de Kendall se basa en el orden de las observaciones. La propiedad más importante del т de Kendall es que es invariante a transformaciones monotonas. Una extension para estimar el coeficiente de concordancia т de Kendall, con censura a intervalo, es propuesta por [3].
Para estimar el т de Kendall en datos bivariados con censura a intervalo, [4] proponen una estimación basada en máxima verosimilitud que en lugar de usar los datos censurados de forma multiple directamente, estima la covarianza de los datos censurados individualmente. Alternativamente, [5] proponen modelar las distribuciones marginales con un modelo de falla acelerado con un termino de error flexible sugerido por [6], la asociación se modela de forma paramétrica y se utilizan las cópulas Gaussiana y Clayton para datos bivariados.
En este artículo, se comparan a través de un estudio de simulación los métodos anteriormente descritos para estimar el coeficiente de concordancia т de Kendall para datos bivariados con censura a intervalo. Tal comparación se realiza mediante dos medidas de calidad de los estimadores que son: el error cuadrático medio y la mediana de la desviación absoluta.
En la Sección 2, se presentan algunos conceptos importantes para el desarrollo de este trabajo, tales como: función de supervivencia, tipos de censura, estimación de la función de supervivencia para datos con censura a intervalo y medidas de asociación. La Sección 3 presenta dos métodos de estimación del т de Kendall: la primera es la estimación suponiendo normalidad en las marginales y ajustándolas individualmente, y la segunda es la estimación por medio de cópulas, en particular se usan las cópulas Gaussiana y Clayton. En la Sección 4, se realiza un estudio de simulación, en donde se comparan los resultados analizados de los dos métodos mediante el error cuadrático medio y la mediana de la desviación absoluta. Finalmente, la Sección 5 presenta algunas conclusiones de la investigación.
2. Conceptos básicos
A continuación se presentan algunos conceptos importantes relacionados con la función de supervivencia, los tipos de censura, la estimación de la función de supervivencia para datos con censura a intervalo, medidas de asociación, cópulas, el modelo de mezcla gaussiano penalizado y el modelo de tiempo de falla acelerado.
2.1. Funcion de supervivencia
La función de supervivencia es el complemento de la función de distribución acumulada, da la probabilidad de sobrevivir mas alla del tiempo t. Sea T una variable aleatoria continua no negativa, que representa el tiempo de supervivencia de un individuo de una población, la función de supervivencia S(t ) se define como:
donde F (t) es la función de distribución acumulada (f.d.a) y f(x) es la función de densidad de probabilidad (f.d.p).
Sean T1 y T2 dos variables aleatorias continuas no negativas, la función de supervivencia conjunta es:
Es decir S(t 1 , t2) es la probabilidad de que ambas unidades sobrevivan a los tiempos t 1 y t 2 , respectivamente.
2.2. Tipos de censura
Una característica típica de los datos de supervivencia es el hecho de que el tiempo hasta un evento no siempre se observa exactamente y las observaciones están sujetas a censura. Las pruebas de vida a menudo usan datos con censura, ya sea a izquierda, a derecha o a intervalo.
Siguiendo la notation en [7], donde los individuos acuden periodicamente a visitas programadas donde se verifica si un evento ha ocurrido o no, para los individuos cuyos tiempos están censurados a izquierda, el evento de interés ha ocurrido antes de la primera visita, para los individuos cuyos tiempos están censurados a la derecha, a menudo, el estudio termina antes de que todos los sujetos que hacen parte de este hayan mostrado el evento de interés, debido a que el sujeto abandona el estudio antes de experimentar el evento, por tanto el evento no ha ocurrido hasta la última visita del sujeto. En la censura a intervalo, la falla se encuentra entre dos visitas, pero no se sabe en qué momento exactamente ocurrió la falla.
La censura se puede clasificar en 3 tipos que son tipo I, tipo II y aleatoria. Los datos con censura tipo I, resultan cuando todas las unidades que no han fallado antes de un tiempo pre-especificado tc, se censuran en el tiempo t c (censura al tiempo). Los datos con censura tipo II resultan cuando una prueba es terminada después de un numero pre-especificado r de fallas, 2 ≤ r ≤ n (censura a la falla). Cuando r = n, todas las unidades fallan y esto se conoce como datos completos. La censura aleatoria se refiere a los individuos que dejan de asistir al estudio por otros motivos que no están relacionados con el estudio, este tipo de censura está sujeta al azar.
En la práctica, cuando se realiza un determinado estudio, es importante distinguir cuándo los datos están censurados a derecha, a izquierda o a intervalo. Siguiendo a [7], se utiliza la notation \l, u\ para señalar un intervalo abierto, semi-abierto o cerrado con límite inferior l y límite superior u, acompañado de un indicador de censura 8 igual a 0,1,2 o 3 para denotar censura a derecha, censura a izquierda, censura a intervalo o falla exacta, respectivamente, como se ilustra en la siguiente tabla:
2.3. Medida de asociación т de Kendall
Las medidas de asociación globales más conocidas son el coeficiente de correlation de Pearson y el coeficiente de concordancia т de Kendall.
La medida de correlation más utilizada es el coeficiente de correlation de Pearson, fue definido originalmente para variables aleatorias que tienen distribution normal bivariada. El coeficiente de correlation de Pearson mide la fuerza de asociación lineal entre dos variables aleatorias, esta medida no es muy atractiva para modelar distribuciones de supervivencia bivariadas. En ese caso, se define otra medida de asociación como lo es el coeficiente т de Kendall.
El т de Kendall es una medida de dependencia que representa el grado de concordancia entre dos variables. Para variables aleatorias continuas, sean (X1,Y1 ) y (X2, Y 2 ) vectores aleatorios independientes e idénticamente distribuidos, cada uno con función de distribution conjunta H(x,y), entonces el т de Kendall es dado por la probabilidad de concordancia menos la probabilidad de discordancia [8], dada por:
La estimación muestral del т de Kendall definida en [9] en términos de concordancia y discordancia, se presenta a continuación:
Sea (x1, y1), (x2, y2),..., (xn, yn) una muestra aleatoria de n observaciones de un vector ( X, Y) de variables aleatorias continuas ó al menos ordinales. Un par de observaciones (x¡,y;) y (x j ,y j ) son concordantes si x ¡ < x ¡ y y ¡ < y ¡ , o si x¡ > xj y yi > yj y un par de observaciones (xi, yj) y (xj, yj ) son discordantes si xi < xj y y ¡ > y j , o si xi > xj y y ¡ < y j .
Existen (n 2) pares diferentes (xi, y ¡ ) y (xj, yj) de observaciones en la muestra, y cada par es concordante o discordante. Sea Nc el numero de pares concordantes y N d el numero de pares discordantes. Entonces la estimación del т de Kendall para la muestra se define como:
La principal ventaja del т de Kendall es que su distribución se aproxima a la distribution normal rapidamente, cuando el tamaño de la muestra es grande.
2.3.1. Propiedad de invarianza del т de Kendall
Sean (X1, Y1 ) y (X2, Y2 ) dos variables aleatorias bivariadas independientes, cada una con la distribution bivariada comun de H (x,y), y sean g1 y g2 dos funciones reales monotonas (crecientes o decrecientes), entonces т [g1 (X),g2 (Y)] = т (X, Y). La demostración de este resultado se puede ver en [10].
2.4. Cópulas
Una cópula es una función multivariada que describe la asociación entre las variables de una distribución conjunta. En [7] se considera que la distribución marginal describe la forma en que una variable aleatoria actua por sí sola, mientras que la función cópula describe como se unen para determinar la distribution multivariada. Las cópulas extraen la estructura de dependencia de la función de distribution conjunta y por lo tanto, separan la estructura de dependencia de las funciones de distribution marginal; además se han convertido en una herramienta importante en varios campos, como en medicina, ingeniería, economía entre otras áreas.
[8] considera un par de variables aleatorias X y Y con distribuciones marginales F (x) = P[X ≤ x] y G(y) = P[Y ≤ y], respectivamente, y con distribution conjunta H(x,y) = P[X ≤ x,Y ≤ y].
Se define la cópula Ca, con a el parametro de la cópula, como una función que le asigna al par (F (x), G(y)) un numero real H( x, y) en el intervalo [0, 1 ], es decir:
Las cópulas tienen las siguientes propiedades:
1. Cα(a, 0) = 0 = Cα(0, b) para todo a, b Є [0,1].
2. Cα(a, 1) = a y Cα(1, b) = b para todo a, b Є [0,1].
3. Paratodo (a1,b1 ), (a2,b2) Є [0,1] x [0,1] cona1 ≤ a2 y b1 ≤ b2 se tiene que:
Siguiendo a [7]. Sean (T1 , T2) el par de tiempos de supervivencia que se encuentran en el rectángulo ⌊l1, u1⌋ x ⌊l 2, u2⌋ con 0 ≤ l j < u j ≤ ∞, para j = 1,2. Los indicadores de censura a izquierda y a intervalo para T j ( j = 1 , 2) se denotan como δj1 y δj2, los cuales producen el vector δ = (δ11, δj 2), δ21, 822). Se denota por y = (l 1, u 1 ,l 2 ,u 2 )' los datos censurados a intervalo y asumiendo que (T, T2) son independientes de (L 1 , U 1 ,L 2 , U 2 ), pero (L 1 , U 1 ) y (L 2 , U 2 ) pueden ser dependientes.
Denote por D la muestra de tamaño n de variables aleatorias i.i.d de intervalos bivariados , ⌊ l li, u li ⌋ x ⌊l 2i, u2i⌋ (i = 1,..., n).
Las cópulas también pueden ser definidas en términos de la función de supervivencia S y se denominan cópulas de supervivencia. Sean T1 y T2 dos variables aleatorias continuas no negativas, con funciones marginales de supervivencia S1(t) y S2(t) respectivamente y la función de supervivencia conjunta S(t1, t2) = P[T > t1, T2 > t2], la cópula de supervivencia está dada por
donde Č α es una cópula de supervivencia específica con parámetro α, el cual regula la asociación entre T1 y T2.
La cópula Č α de una función de distribution acumulada H y su cópula de supervivencia Cα están relacionadas de la siguiente manera: Č α (a, b) = a + b + Č α (1 - a, 1 - b) -1.
Cuando se trabaja con cópulas una decision importante, es la de elegir la cópula adecuada para modelar los datos [11], en donde el mayor interés se encuentra en la dependencia de las variables aleatorias. Existe una gran variedad de cópulas, entre ellas se encuentran las cópulas Gaussiana y Clayton, que han sido utilizadas en [9].
Cuando se supone un modelo con enfoque paramétrico para datos que presentan censura a intervalo, hay dificultad para elegir la distribution correcta. La solution a este problema se puede encontrar con el uso de una cópula. La medida de asociación т de Kendall se puede expresar como una función de una cópula de supervivencia de la siguiente manera:
Para varias cópulas, se puede establecer la relación entre el parámetro de la cópula y las medidas de asociación p de Pearson y т de Kendall. Se considerarán las cópulas Gaussiana y Clayton. Adicionalmente, se definira la cópula Gumbel que es utilizada en este trabajo para la generación de las bases de datos en el estudio de simulación.
2.4.1. Cópula Clayton
Para θ L > 0, con θ L ≠ 1 y α = θ L el parametro de la cópula Clayton, la cual se define como [7]:
También se conoce como la familia Pareto de cópulas.
El modelo Clayton asume una "constant local cross ratio function", la cual evalua el grado de dependencia en un solo punto de tiempo y se define como [5]:
La "local cross ratio function" tiene una interpretación muy natural en las tasas de riesgo condicionales como en [12], a saber:
donde λ1 y λ2 son las funciones de riesgo para T 1 y T 2 respectivamente.
La independencia corresponde a un valor 0L = 1, la dependencia positiva θ L > 1 y la dependencia negativa θ L < 1.
2.4.2. Cópula Gaussiana
Los datos bivariados que se distribuyen normal producen la cópula Gaussiana, con a = p el parámetro de la cópula, que en este caso corresponde al coeficiente de correlation lineal de Pearson. La expresión de la cópula Gaussiana esta dada por [5]:
donde Фρ denota la funcion de distribution normal bivariada estándar con correlación ρ. La cópula Gaussiana no tiene una forma cerrada simple, pero puede expresarse como una integral sobre la densidad de (U, V). En dos dimensiones para |ρ| < 1 se tiene que:
donde a = Ф -1 (u) y b = Ф -1 (v)
La cópula Gaussiana, puede ser considerada como una estructura de dependencia que interpola entre la dependencia positiva perfecta y la dependencia negativa, donde el parámetro p representa la fuerza de la dependencia.
2.4.3. Cópula Gumbel
La función de confiabilidad bivariada perteneciente a la familia Gumbel tiene la siguiente forma [13]:
Sean T 1 y T 2, tiempos de falla Weibull. Una función de confiabilidad conjunta para la distribution Weibull bivariada definida en [14] es:
donde, ß1,01, ß2,θ2 son los parámetros de forma y escala asociados a los tiempos T1 y T2, respectivamente, los cuales son positivos. 0 < α ≤ 1 es el parámetro de dependencia entre T1 y T2, donde las distribuciones marginales están dadas por:
Cuando α = 1 se cumple que hay independencia entre los tiempos de falla Weibull T 1 y T 2.
Si se compara la ecuación (11) con la ecuación (10), la re-presentación de la distribución Weibull bivariada se obtiene mediante la cópula Gumbel, para 0 < α < 1, es decir, cuando T 1 y T 2 no son independientes.
2.4.4. Relation del parámetro de la cópula con las medidas de asociación p de Pearson y т de Kendall
Para las diferentes cópulas descritas en la Sección 2.4, se puede establecer una relation explícita entre el parámetro de la cópula y una medida de asociación.
Siguiendo a [7], para la cópula Clayton, el т de Kendall y el parametro θ L se relacionan como т = θ L/(θ L + 2). La cópula Clayton solo permite modelar correlaciones positivas.
Para la cópula Gaussiana, la correlation p de Pearson es el parametro de la cópula. El coeficiente т de Kendall esta dado por: т = (2/ϖ) • arcsin(ρ).
2.5. Modelo de mezcla gaussiano penalizado
En este modelo se presenta la estimación de las densidades de los errores para el método basado en cópulas que se desarrollará en la Sección 3.2.
Para conjuntos de datos bivariados, siguiendo la notación de [7], g(y1,y2) representa la densidad conjunta de (Y1, Y2) , Yd = log(Td) (d = 1,2) con g1(y1) y g2(y2) las densidades marginales. Para una muestra de tamaño n, una aproximación suave de esta densidad puede obtenerse de una suma ponderada penalizada de densidades normales bivariadas no correlacionadas ubicadas en una rejilla predefinida, es decir, que la densidad es diferenciable. El método se basa en el procedimiento de suavizado penalizado descrito en [15].
Con los puntos de la rejilla preespecificados μ k1k2 =(μ 1k1 , μ 2k2 )’ (k 1 =1,…k1; k 2=1,…,k 2), se asume que:
donde N 2(.) denota la distribution normal bivariada y
es una matriz de covarianza diagonal con valores preespecificados de σ2
1 y σ2
2 of. Ademas, w
k1k2 > 0 para todo k
1, k
2 y
La idea de este método es estimar los pesos wkbk2 (k 1 = 1,..., K 1; k 2 = 1,..., K2) maximizando la verosimilitud, de forma que los puntos de la rejilla permanezcan fijos. Los estimadores de máxima verosimilitud sin restricciones se pueden obtener expresando el log de la verosimilitud como una funcion de a = (akbk2: k1 = 1,...,K1; k2 = 1,...,K2) usando la siguiente igualdad:
Un término de penalización que involucra las diferencias de los α-coeficientes (ver [15]), esta dado por:
el cual evita un sobreajuste. En la ecuación (14) el vector λ = (λ1, λ2) con λ1, λ2 > 0 son los parámetros de penalización o suavizado. Δs
d es el s-esimo operador de diferencia en la d-esima dimension (d = 1,2), definido iterativamente (para la primera dimension) como
para s > 0y Δ0
1ak1,k2 = a
k1,k2
.Dados λ1 y λ2,el log de la verosimilitud penalizada lP(α; λ) = l(a) - q(a; λ) es maximizado con respecto a a, produciendo estimaciones
(k1 = 1,...,K1; k2 = 1,...,K2). Los valores optimos de λ1 y λ2 se pueden obtener minimizando el criterio de Akaike (AIC). Este procedimiento proporciona un enfoque parametrico que produce una solution suave, ver [16].
2.6. Modelo de tiempo de falla acelerado
Es usado para modelar las distribuciones marginales de una cópula de supervivencia, ya sea la Gaussiana o la Clayton, a traves del paquete de R smoothSurv. Más adelante en la Sección 3.2, se mostrara que las distribuciones marginales de la cópula Gaussiana siguen un modelo tiempo de falla acelerado, por lo que es necesario mostrar algunos aspectos teóricos de este modelo.
Siguiendo la notation en [7] el modelo de tiempo de falla acelerado (AFT) está dado por:
con T el tiempo de supervivencia, X un vector de covariables, β el vector de parámetros de regresion y e una variable aleatoria del error. Sean h0 y S0 la funcion de riesgo y supervivencia base, respectivamente, de la variable aleatoria T0 = exp(ε). Para un sujeto con vector de covariables X , se asume que la función de riesgo y supervivencia son:
Por tanto,
es decir, el efecto de una covariable implica una aceleración o desaceleración en comparación con el tiempo de evento base.
En [7] enfatizan que en la práctica se utiliza con frecuencia una forma totalmente paramétrica del modelo AFT, es decir, se supone que el término de error e tiene una densidad específica g(e). Los supuestos mas comunes para g(e) son la densidad normal, la densidad logística y la densidad de Gumbel (valor extremo). Por lo tanto, el modelo AFT paramétrico asume una forma paramétrica para los efectos de las variables explicativas y también asume una forma paramétrica para la función de supervivencia subyacente. Luego, la estimación se realiza mediante una maximización estándar del log de la verosimilitud.
Cuando sólo se utiliza una covariable categórica en el modelo, la curva de supervivencia de Kaplan-Meier se puede calcular para los sujetos de cada categoría por separado. Las curvas de supervivencia de Kaplan-Meier se pueden superponer con las curvas de supervivencia paramétrica ajustadas para los grupos específicos. Cuando se usan covariables continuas o muchas covariables, los sujetos podrían dividirse en un cierto número de grupos (por ejemplo, 3, referidos a pacientes de riesgo bajo, medio y alto) según la puntuación de riesgo X’ β . La comparación de las curvas de supervivencia de Kaplan-Meier con las curvas de supervivencia ajustadas en cada grupo proporciona nuevamente una indication de bondad de ajuste.
De las ecuaciones (15) y (18) se puede ver que el modelo AFT es de hecho un modelo de regresión lineal estandar con un tiempo de supervivencia logarítmico transformado.
3. Métodos de estimación del т de Kendall para datos bivariados con censura a intervalo
En esta Sección se presentan los dos métodos de estimación, que se usan en este trabajo, para estimar la medida de asociación т de Kendall.
3.1. Estimación bajo el supuesto de normalidad bivariada
El enfoque de estimación del coeficiente т de Kendall que se va a describir a continuation, fue propuesto por [4].
Sean (X, Y) el par de tiempos censurados que se encuentran en el rectangulo ⌊l 1 ,u 1 ⌋×⌊l 2 ,u 2 ⌋ con 0 ≤ l j < uj ≤ ∞,, para j = 1,2. Se asume que (X, Y) son independientes de las variables de censura (L 1 , U 1 ,L 2 , U 2 ), pero (L 1 , U 1 ) y (L 2 , U 2 ) pueden ser dependientes.
Además, suponga que las variables aleatorias (X, Y) siguen una distribución normal bivariada, con vector de medias μ = (μ X, μ Y)' y matriz de varianzas y covarianzas
con σXY =ρ σ X σ Y
Bajo estas condiciones, la estimación de máxima verosimilitud del vector de parámetros θ = (μ X, μ Y, σX, σY, ρ ) se basa en el log de verosimilitud dado por:
donde,
G i = log[F(u1i, u2i)] si X, Y estan censurados a izquierda.
G i = log[F(u1i, u2i) - Fu2i)] si X esta censurado a intervalo y Y a izquierda.
G i = log[FY(u2i) - Fu2;)] si X esta censurado a derecha y Y a izquierda.
G i = log[F(ul1;, u2i) - F(u1i, l 2i)] si X esta censurado a izquierda y Y a intervalo.
G i = log[F(u1i, u2i) - F(l1i,u2i) - F(u1i, l 2i) + F(l 1i, l 2i)] si X,Y están censurados a intervalo.
G i = log[F Y (u2i) - F (l li u 2i ) - F Y (l 2i)+ F (l li, l 2i)] si X está censurado a derecha y Y a intervalo.
G i = log[FX(u1;) - F(u1;, l 2i)] si X esta censurado a izquierda y Y a derecha.
G i = log[Fx (uli; ) - F X (l li) - F(u1i, l li) + F(l li, l 2i)] si X está censurado a intervalo y Y a derecha.
G i = log[1 - FX (l 1i) - FY (l 2i)+ F l 2i)] si X, Y estan censurados a derecha.
donde, F es la funcion de distribution conjunta acumulada de (X, Y), F X es la funcion de distribution marginal acumulada de la variable aletoria X y F Y es la funcion de distribution marginal acumulada de la variable aletoria Y.
Siguiendo a [4], maximizar esta verosimilitud con respecto a los 5 parámetros es difícil, por lo que se sugiere estimar los parámetros μ X, μ Y, σX, σY por separado para cada una de las distribuciones marginales, las cuales presentan censura a derecha, a izquierda y a intervalo, bajo los supuestos X ~ N(μ X, σ2 X) y Y ~ N(μ Y, σ2 Y). Cuando se tienen las estimaciones para μ X, μ Y, oX, oY con la verosimilitud en (19) se estima p, y luego, usando la relation de Greiner dada en [17], т = (2/ϖ) arcsin(ρ), se estima el т de Kendall.
3.2. Método cópula
El método cópula consiste en seleccionar una cópula de supervivencia, ya sea la cópula Gaussiana o Clayton, luego se ajustan las distribuciones marginales, las cuales se modelan con el modelo de tiempo de falla acelerado con un término de error flexible, como se describe en la Sección 2.6. Con las distribuciones marginales ajustadas se procede a estimar el parámetro de la cópula, el cual está relacionado con el т de Kendall.
En esta parte de la estimación se describe el enfoque empleado en [5] que permite que el parámetro de dependencia a de la respectiva cópula dependa de las covariables. Para la cópula Clayton el parámetro de dependencia θL se modela en la escala logarítmica, es decir, log(αi) = yx
i, con y = (y1,..., yp) un vector p-dimensional de parametros de la regresión desconocidos y con x; = (γ
1,..., γ
p
) un vector p-dimensional de covariables asociadas sobre el esimo sujeto. Para la cópula Gaussiana, la dependencia se modela con la transformation de Fisher, es decir, log[(1 + αi)/(1 - αi)] = y'x
i. Las distribuciones marginales también pueden depender de las covariables, que pueden ser diferentes al parametro de la cópula. El vector de dimension m, zi = (z1,í,..., z
m,i)’ representa los valores de las covariables asociadas con el ;-ésimo sujeto.
Usando la notation en [5] en una muestra aleatoria de ta-mano n y bajo el modelo (5) el log de la verosimilitud esta dado por:
donde Y , X, Z representan las matrices de los vectores y i , x i y z i respectivamente. Cada contribution de la verosimilitud individual puede escribirse como una suma de nueve términos diferentes dependiendo de si la observación tiene censura a izquierda, a intervalo o a derecha en ambas dimensiones, es decir,
variables de error aleatorias independientes e idénticamente distribuidas con densidad gek (ek), la cual se expresa utilizando la mezcla normal penalizada, es decir,
donde,
Para estimar el parámetro α de la cópula y si las funciones de supervivencia S1 y S2 son conocidas, un estimador natural está dado por el estimador de máxima verosimilitud en (20). La estimación de la máxima verosimilitud completa puede resultar en cálculos bastante largos, sin embargo, en [7] se propone un procedimiento de dos etapas basado en la pseudo verosimilitud en forma paramétrica, en [5] siguen este procedimiento, en el que se estiman S1 y S2 y se reemplazan b Ŝ1 y b Ŝ2 en (20). Luego, se estima γ maximizando la pseudo verosimilitud l(γ, Ŝ1, b Ŝ2), obtenida de la ecuación (21) conectando las estimaciones Ŝ 1 y Ŝ 2.
Como en [5] se propone modelar las distribuciones marginales de supervivencia con un modelo de tiempo de falla acelerado con un término de error flexible propuesto por [6], este enfoque permite la incorporación de covariables en las distribuciones marginales. Formalmente, se estiman S k, para k = 1,2 de la siguiente expresión:
donde βk = (βk,1, . . . ,β k,m )′ es un vector m-dimensional de parámetros de la regresión desconocidos y εk,1, . . . , ε k,n son variables de error aleatorias independientes e idénticamente distribuidas con densidad gεk (εk), la cual se expresa utilizando la mezcla normal penalizada, es decir,
donde μk,1, . . . ,μ k,K k es un conjunto de knots equidistantes fijos, σk,0 es una base fija de desviación estándar, ηk es un intercepto desconocido, ζk es un parámetro de escala desconocido y φ(・|μ,σ2) una densidad normal con media μ y desviación estándar σ. Finalmente, sea ak = (ak,1, . . . ,ak,Kk )′ un vector de parámetros y definiendo los pesos de la mezcla desconocidos ck, j(ak) usando la siguiente ecuación:
Al introducir αk, el problema de máxima verosimilitud restringido cambia a uno de verosimilitud no restringido. Para facilitar la notación, los autores en [5] asumen que ak,[Kk/2]=0, donde [.] es la función techo de un número real. Los parámetros βk y αk se estiman con máxima verosimilitud penalizada, en donde la penalización se aproxima por el método de diferencias finitas cuadradas de orden s para los parámetros αk.
Siguiendo a [5], dado un parámetro de suavizado λ, la verosimilitud penalizada está representada de la siguiente manera:
donde l n representa la verosimilitud ordinaria de las n observaciones y Δs es el operador de diferencia de orden s. El parámetro de suavizado óptimo se elige minimizando el criterio de información de Akaike (AIC) a partir de un conjunto de diferentes valores de λ.
La estimación de la varianza para los parámetros de la cópula estimados es difícil, por lo que en [18] proponen un procedimiento a través de bootstrap. Para M fijo, se producen M estimadores
m; m = 1, . . . ,M de γ. La varianza de
puede ser estimada por la varianza muestral de los
m’s. Al usar el método Delta, se obtiene la varianza para la estimación de otros parámetros como α que es el parámetro de una determinada cópula o para la medida de asociación.
4. Estudio de simulación
Para realizar la estimación del τ de Kendall con el método de ajuste individual de las marginales, se utilizó el paquete censcor del software estadístico R.
Para la simulación del método cópula se utiliza el enfoque descrito en [5], en el que implementa la función fit. Cópula, que está disponible en el paquete icensBKL de R. En este método para modelar las distribuciones marginales con un modelo de falla acelerado con término de error flexible [6], se utilizó el paquete smoothSurv de R, utilizando la ecuación (22).
4.1. Medidas de calidad de los estimadores
Para evaluar si las estimaciones asociadas a un parámetro de interés a partir de una muestra aleatoria resultan adecuadas, se pueden utilizar medidas de calidad, tales como el error cuadrático medio y la mediana de la desviación absoluta. Al calcular estas medidas a diferentes estimadores, se puede establecer cuál de ellos es el mejor.
4.1.1. Error cuadrático medio (ECM)
Sea T un estimador de un parámetro desconocido 0. En [19] se define el ECM como el valor esperado del cuadrado de la diferencia entre T y θ , es decir
donde B(T) y V(T) son el sesgo y la varianza del estimador puntual T, respectivamente.
4.1.2. Mediana de la desviación absoluta (MDA)
La MDA es una medida robusta para la variabilidad de un estimador. Sea θ un parámetro de interés y sea T es estimador puntual de θ, la MDA se define como la mediana del valor absoluto de la diferencia entre la estimación y el valor real [4]:
4.2. Esquema de simulación
En el esquema del estudio de simulación se generaron los datos de una cópula Gumbel con la funcion BiCopsim del paquete VineCópula de R, con la finalidad de generar datos bivariados de una distribución Weibull, la cual es una de las distribuciones que más se utiliza en confiabilidad. Teniendo en cuenta que las marginales de una cópula son distribuciones uniformes, se emplea el teorema de la transformación inversa para generar marginales de una distribución exponencal con media 1, la cual es un caso particular de la distribución Weibull.
El porcentaje de censura que se utilizó en la generación de los datos es el siguiente: para garantizar el 30 % de censura a izquierda se trabaja con el quantil 0,3, para el 30% de censura a derecha se toma el cuantil 0,7 y el restante son censuras a intervalo. La relación que tiene el coeficiente de concordancia т de Kendall con el parámetro de la cópula Gumbel es т = 1 - α. Se creó una base de datos bivariados con los tres tipos de censura en las marginales. Se usó esta base para estimar el т de Kendall con el método para datos suponiendo normalidad en las marginales y ajustándolas individualmente. La misma base de datos se usó para estimar el т de Kendall usando el método cópula para las familias Gaussiana y Clayton.
Para la generación de las visitas se tiene en cuenta lo siguiente: la primera visita se genera aleatoriamente de una distribución uniforme entre (0,1) y para las siguientes se suma la constante 1, representando una visita cada año para el evento de interés, con máximo 10 visitas.
En el esquema de simulación se tuvo en cuenta lo siguiente:
1. Se consideraron 9 escenarios de simulación determinados por:
2. Se calcula el ECM y la MDA para la estimación del т de Kendall en cada conjunto de datos bivariados, aplicando los métodos de estimación antes descritos: M1. Ajuste individual de las marginales, M2G. Método cópula Gaussiana, y M2C. Método cópula Clayton.
Para el cálculo del ECM y la MDA en cada escenario de simulación, se generaron 500 replicas de la base de datos bivariada.
4.3. Resultados
Tabla 2: ECM de las estimaciones usando el Método de ajuste individual de las marginales (M1), el Método cópula Gaussiana (M2G) y el Método cópula Clayton (M2C)
n | т | ECM | ||
---|---|---|---|---|
M1 | M2G | M2C | ||
50 | 0.2 | 0.0201 | 0.0239 | 0.0144 |
0.5 | 0.1027 | 0.0416 | 0.0696 | |
0.8 | 0.1848 | * | 0.0880 | |
100 | 0.2 | 0.0172 | 0.0141 | 0.0188 |
0.5 | 0.0860 | 0.0497 | 0.0705 | |
0.8 | 0.1746 | * | 0.0953 | |
200 | 0.2 | 0.0160 | 0.0087 | 0.0247 |
0.5 | 0.0873 | 0.0601 | 0.0604 | |
0.8 | 0.1675 | * | 0.0943 |
* : no reportado por problema de estimación en este escenario.
Tabla 3: MDA de las estimaciones usando el Método de ajuste individual de las marginales (M1), el Método cópula Gaussiana (M2G) y el Método cópula Clayton (M2C)
n | т | MDA | ||
---|---|---|---|---|
M1 | M2G | M2C | ||
0.2 | 0.1210 | 0.1019 | 0.1048 | |
50 | 0.5 | 0.3140 | 0.1536 | 0.2357 |
0.8 | 0.4350 | * | 0.2947 | |
0.2 | 0.1219 | 0.0706 | 0.1362 | |
100 | 0.5 | 0.2857 | 0.1602 | 0.2426 |
0.8 | 0.4065 | * | 0.3069 | |
0.2 | 0.1234 | 0.0666 | 0.1603 | |
200 | 0.5 | 0.2947 | 0.2133 | 0.2339 |
0.8 | 0.3985 | * | 0.3048 |
*: no reportado por problema de estimación en este escenario.
Las Tablas 2 y 3 dan los valores del ECM y de la MDA, respectivamente, para los dos métodos bajo estudio: método del ajuste individual de las marginales (M1) y el método cópula (M2G y M2C), para cada combinación de los parámetros n y т. Observe que para el valor de т = 0,8, en la estimación del ECM y de la MDA por medio de la cópula Gaussiana (M2G), el proceso de estimación de т fallo, por lo cual no se reportaron tales valores.
A partir de los resultados mostrados en las Tablas 1 y 2, se construyen las gráficas que se presentan a continuación en donde se puede apreciar mejor el comportamiento de las medidas de calidad de los estimadores (ECM y MDA) en los escenarios analizados.

Figura 1: Relación entre el ECM y el т de Kendall, para los métodos de estimación y tamaños de muestra bajo estudio
En la Figura 1, se puede observar que bajo una baja dependencia (т = 0,2) los métodos estudiados tienen valores de ECM muy similares, pero a medida que la dependencia aumenta a valores moderados (т = 0,5) o fuertes (т = 0,8), el método cópula (M2G y M2C) presento valores menores con respecto al método de ajuste individual de las marginales (M1). Note también que los valores de ECM aumentan a medida que también lo hace el т de Kendall.

Figura 2: Relación entre la MDA y el т de Kendall, para los métodos de estimación y tamaños de muestra bajo estudio
En la Figura 2, se puede observar que bajo una alta dependencia (т = 0,8) el método cópula Clayton (M2C) presento valores menores en la MDA que el método de ajuste individual de las marginales (M1), pero bajo valores de dependencia moderada (т = 0,5) o baja (т = 0,2), el método cópula Normal (M2G) presentó valores menores con respecto a los otros dos métodos (Ml y M2C). De nuevo note que los valores de MDA aumentan a medida que también lo hace el т de Kendall.
5. Conclusiones
De acuerdo a los métodos descritos en secciones anteriores y al proceso de simulación se llega a las siguientes conclusiones:
■ Para escenarios de simulación con dependencia alta (т = 0,8) el proceso de estimación del т de Kendall usando el método cópula Gaussiana (M2G) fallo, por lo cual no se reportaron valores del ECM y de la MDA. En este escenario, el método cópula Clayton produce mejores valores de las medidas de calidad de la estimación con respecto al método de ajuste individual de las marginales.
■ La estimación del т de Kendall por medio del método cópula usando las cópulas Normal (M2G) y Clayton (M2C), es en general mejor que la estimación del т de Kendall con el método de ajuste individual de las marginales (M1), ya que proporciona valores de MDA y ECM más bajos.
■ En los métodos de estimación bajo estudio, se observó que a medida que el coeficiente т de Kendall aumenta, los valores de MDA y ECM también lo hacen, lo que indica que los estimadores pierden precision, cuando los datos son dependientes.
Una explicación sobre el porqué, en el estudio de simulación, el método basado en cópulas tiene un mejor desempeño que el método de ajuste individual de las marginales, es que este último impone que la distribución conjunta de los datos sigue una distribución normal bivariada, mientras que en el método cópula el ajuste de las marginales se hace a traves de un modelo de tiempo de falla acelerado con un término de error flexible, que es menos restrictivo.