<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0120-386X</journal-id>
<journal-title><![CDATA[Revista Facultad Nacional de Salud Pública]]></journal-title>
<abbrev-journal-title><![CDATA[Rev. Fac. Nac. Salud Pública]]></abbrev-journal-title>
<issn>0120-386X</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Antioquia]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0120-386X2011000300009</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[La separación en regresión logística, una solución y aplicación]]></article-title>
<article-title xml:lang="en"><![CDATA[The problem of separation in logistic regression, a solution and an application]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Correa M]]></surname>
<given-names><![CDATA[Juan C]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Valencia C]]></surname>
<given-names><![CDATA[Marisol]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Colombia  ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Pontifica Bolivariana Universidad Nacional de Colombia ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>09</month>
<year>2011</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>09</month>
<year>2011</year>
</pub-date>
<volume>29</volume>
<numero>3</numero>
<fpage>281</fpage>
<lpage>288</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0120-386X2011000300009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0120-386X2011000300009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0120-386X2011000300009&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La regresión logística es una de las técnicas estadísticas más aplicadas cuando se busca explicar el comportamiento probabilístico de algún fenómeno. Un problema que aparece con frecuencia en estos modelos es la separación en los datos, mostrando los grupos de éxitos separados de los fracasos, lo que impide hallar los estimadores de máxima verosimilitud. OBJETIVO: Presentar una revisión y solución del problema, comparando con otras existentes. METODOLOGIA: Simulación del modelo logístico y estimación del sesgo de los parámetros, usando la solución propuesta con el método clásico. Bayesiano y observaciones ficticias y con el método de Firth. RESULTADOS: Los sesgos encontrados son menores al generar el par de observaciones ficticias con el método Bayesiano. Se muestra un ejemplo sobre la edad de la menarquia. DISCUSION: Se aporta una solución adecuada al problema de la separación usando simulación en un esquema de modelo logístico sencillo. Conclusiones: la generación de observaciones ficticias se recomienda dentro de la región de separación y el mejor método de solución está basado en la teoría bayesiana, donde se logra una convergencia en los parámetros del modelo logístico.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Logistic regression is one of the most used statistical techniques for explaining the probabilistic behavior of a given phenomenon. Data separation is a frequent problem in this model, as successes appear separated from failures and make it impossible to find the maximum likelihood estimators. Objective: to present a revision and a solution to the problem, and to compare it with other solutions. METHODOLOGY: a simulation of the logistic model and an estimation of the parameters' bias using the proposed classical and Bayesian solution with fictitious observations, as well as the Firth method. Results: the bias found is lower when the pair of fictitious observations are generated using the Bayesian method. An example about the age at which menarche occurs is presented. DISCUSSION: an appropriate solution to the problem of separation is provided using a simulation in a simple logistic model. CONCLUSIONS: the generation of fictitious observations within the separation region is recommended, and the best solution method is based on Bayesian theory, which achieves convergence of the parameters of the logistic model.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[modelo logístico]]></kwd>
<kwd lng="es"><![CDATA[estimación de máxima verosimilitud]]></kwd>
<kwd lng="es"><![CDATA[menarquia]]></kwd>
<kwd lng="en"><![CDATA[logistic model]]></kwd>
<kwd lng="en"><![CDATA[maximum likelihood estimation]]></kwd>
<kwd lng="en"><![CDATA[menarche]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[   <font face="verdana">  <font size="2">     <p align="right"><b>INVESTIGACIONES</b></p></font>  <font size="4">     <p align="center"><b>La separaci&oacute;n en regresi&oacute;n log&iacute;stica, una soluci&oacute;n y aplicaci&oacute;n</b></p></font>   <font size="3">     <p align="center"><b>The problem of separation in logistic regression, a solution and an application</b></p></font>  <br /> <br />  <font size="2">     <p align="center"><b>Juan C. Correa M<sup>1</sup>; Marisol Valencia C<sup>2</sup>.</b></p>      <p><sup>1</sup> PhD. en Estad&iacute;stica, University of Kentucky. Docente, Universidad Nacional de Colombia, Medell&iacute;n, Colombia. Correo electr&oacute;nico: <a href="mailto:jccorrea@ unal.edu.co">jccorrea&#64;unal.edu.co</a>, <a href="mailto:jccorreamorales@gmail.com">jccorreamorales&#64;gmail.com</a></p>      <p><sup>2</sup> Msc en Estad&iacute;stica, Universidad Nacional de Colombia, docente, Universidad Pontifica Bolivariana, Medell&iacute;n, Colombia. Correo electr&oacute;nico: <a href="mailto:solmarival@hotmail.com">solmarival&#64;hotmail.com</a></p>  <br /> <br />      <p><hr />Correa JC, Valencia M. La separaci&oacute;n en regresi&oacute;n log&iacute;stica, una soluci&oacute;n y aplicaci&oacute;n. Rev. Fac Nac. Salud P&uacute;blica 2011; 29&#40;3&#41;: 281&#45;288<hr /></p>      <p><b>RESUMEN</b></p>     <p>La regresi&oacute;n log&iacute;stica es una de las t&eacute;cnicas estad&iacute;sticas m&aacute;s aplicadas cuando se busca explicar el comportamiento probabil&iacute;stico de alg&uacute;n fen&oacute;meno. Un problema que aparece con frecuencia en estos modelos es la separaci&oacute;n en los datos, mostrando los grupos de &eacute;xitos separados de los fracasos, lo que impide hallar los estimadores de m&aacute;xima verosimilitud.<br /> <b>OBJETIVO:</b> Presentar una revisi&oacute;n y soluci&oacute;n del problema, comparando con otras existentes.<br /> <b>METODOLOGIA:</b> Simulaci&oacute;n del modelo log&iacute;stico y estimaci&oacute;n del sesgo de los par&aacute;metros, usando la soluci&oacute;n propuesta con el m&eacute;todo cl&aacute;sico. Bayesiano y observaciones ficticias y con el m&eacute;todo de Firth.<br /> <b>RESULTADOS:</b> Los sesgos encontrados son menores al generar el par de observaciones ficticias con el m&eacute;todo Bayesiano. Se muestra un ejemplo sobre la edad de la menarquia.<br /> <b>DISCUSION:</b> Se aporta una soluci&oacute;n adecuada al problema de la separaci&oacute;n usando simulaci&oacute;n en un esquema de modelo log&iacute;stico sencillo. Conclusiones: la generaci&oacute;n de observaciones ficticias se recomienda dentro de la regi&oacute;n de separaci&oacute;n y el mejor m&eacute;todo de soluci&oacute;n est&aacute; basado en la teor&iacute;a bayesiana, donde se logra una convergencia en los par&aacute;metros del modelo log&iacute;stico.</p>      ]]></body>
<body><![CDATA[<p><b>Palabras Clave:</b> modelo log&iacute;stico, estimaci&oacute;n de m&aacute;xima verosimilitud, menarquia.</p>  <br />      <p><b>ABSTRACT</b></p>     <p>Logistic regression is one of the most used statistical techniques for explaining the probabilistic behavior of a given phenomenon. Data separation is a frequent problem in this model, as successes appear separated from failures and make it impossible to find the maximum likelihood estimators. Objective: to present a revision and a solution to the problem, and to compare it with other solutions.<br /> <b>METHODOLOGY:</b> a simulation of the logistic model and an estimation of the parameters' bias using the proposed classical and Bayesian solution with fictitious observations, as well as the Firth method. Results: the bias found is lower when the pair of fictitious observations are generated using the Bayesian method. An example about the age at which menarche occurs is presented.<br /> <b>DISCUSSION:</b> an appropriate solution to the problem of separation is provided using a simulation in a simple logistic model.<br /> <b>CONCLUSIONS:</b> the generation of fictitious observations within the separation region is recommended, and the best solution method is based on Bayesian theory, which achieves convergence of the parameters of the logistic model.</p>      <p><b>Key words:</b> logistic model, maximum likelihood estimation, menarche.</p></font><br />  <font size="3">     <p><b>Introducci&oacute;n</b></p></font> <font size="2">     <p>La regresi&oacute;n log&iacute;stica es una de las t&eacute;cnicas que se ha convertido en una herramienta de uso permanente entre investigadores de la salud. Un problema que aparece con frecuencia en los datos usados para estos modelos, es el de la separaci&oacute;n que trae como consecuencia la no existencia de los estimadores de m&aacute;xima verosimilitud. Muchas veces los investigadores no son conscientes de la existencia de este problema, ya que no todo software estad&iacute;stico advierte sobre la presencia de separaci&oacute;n en el conjunto de datos y entregan informaci&oacute;n parcial sobre el proceso de convergencia y presentan resultados no adecuados de los estimadores.</p>      <p>Este problema es generado por una estructura en los datos que se conoce como separaci&oacute;n completa &#91;1&#45;3, 4, 8&#93;. Aun as&iacute;, hay autores &#91;6&#93; que sostienen que cuando los par&aacute;metros no convergen, la predicci&oacute;n es perfecta. La separaci&oacute;n se puede definir como una divisi&oacute;n completa de los dos "grupos" de puntos asociados a los valores que toma la variable respuesta &#40;en estos conjuntos de datos, la codificaci&oacute;n general es 0 y 1&#41;. La principal consecuencia de la separaci&oacute;n es la no existencia de los estimadores de m&aacute;xima verosimilitud, por lo tanto, cuando los usuarios se enfrentan a este problema, no logran una soluci&oacute;n y no pueden realizar inferencias, o las hacen incorrectamente &#91;1&#93;.</p>      <p>Al respecto existen propuestas, como la de Christmann y Rousseeuw, que consiste en dar una soluci&oacute;n basada en un modelo de regresi&oacute;n log&iacute;stico oculto, donde las respuestas no observadas se consideran como latentes &#91;2&#93;. King y Ryan han comparado el m&eacute;todo de regresi&oacute;n log&iacute;stica exacto y el m&eacute;todo de m&aacute;xima verosimilitud cuando se enfrentan al problema de la separaci&oacute;n, analizando los estimadores de m&aacute;xima verosimilitud encontrados con sobreposici&oacute;n &#40;a diferentes niveles&#41;, calculan los valores p y los intervalos de confianza, y analizan la funci&oacute;n de log&#45; verosimilitud, encontrando resultados m&aacute;s pobres para este m&eacute;todo cuando hay un acercamiento a la separaci&oacute;n &#91;4&#93;.</p>      <p>Asimismo, Heinze y Shemper desarrollaron un procedimiento basado en una modificaci&oacute;n de la funci&oacute;n score en el procedimiento de estimaci&oacute;n de la regresi&oacute;n log&iacute;stica &#91;10&#93;, originalmente propuesta por Firth para reducir el sesgo de los estimadores de m&aacute;xima verosimilitud &#91;11&#93;. Heinze y Shemper afirman que la separaci&oacute;n depende del tama&#241;o de muestra, el n&uacute;mero de factores dicot&oacute;micos, el total de &eacute;xitos y fracasos &#91;10&#93;.</p>      <p>Se presentan dos posibles soluciones al problema de la separaci&oacute;n, con las que se aproximan los estimadores de m&aacute;xima verosimilitud, mediante el uso de seudo&#45;observaciones ficticias, comparando con la soluci&oacute;n dada por Firth &#91;11&#93;.</p></font><br />  <font size="3">     ]]></body>
<body><![CDATA[<p><b>El Problema de la separaci&oacute;n</b></p></font> <font size="2">     <p>Suponga que el conjunto de datos corresponde a n puntos p&#45;dimensionales, y cada punto es de la forma: &#40;x<sub>i1</sub>, ... , x<sub>i&#40;p</sub> &#45; 1&#41;, y<sub>i</sub>&#41; con i&#61;1,...n donde yi es el valor de la variable respuesta de inter&eacute;s &#40;codificada como 0 &oacute; 1&#41;, y x<sub>i1</sub>, ... , x<sub>i</sub>&#40;p &#45; 1&#41; es el conjunto de las p&#45;1 variables explicatorias. En el caso m&aacute;s simple, <i>p</i> &#61; 2, los n puntos corresponden al sistema de coordenadas XY: &#40;x<sub>i1</sub>, y<sub>i</sub>&#41;.</p>      <p>La existencia de los estimadores de m&aacute;xima verosimilitud est&aacute; condicionada por el comportamiento de la variable dic&oacute;toma en el grupo de datos. En &#91;8&#93; se presentan las condiciones para la existencia de los estimadores de m&aacute;xima verosimilitud. Algunos autores &#91;1&#93; examinan la maximizaci&oacute;n de la funci&oacute;n de log&#45;verosimilitud considerando las posibles configuraciones de los n puntos muestrales en el espacio de observaciones Rp. Las posibles configuraciones caen esencialmente en 3 categor&iacute;as mutuamente exclusivas y exhaustivas.</p></font><br />  <font size="3">     <p><b>Separaci&oacute;n completa, separaci&oacute;n cuasicompleta, sobreposici&oacute;n &#40;Overlap&#41;</b></p></font> <font size="2">     <p>Existe separaci&oacute;n cuando se presenta la divisi&oacute;n completa de los dos "grupos" de puntos asociados a los valores que toma la variable respuesta &#40;adoptando una codificaci&oacute;n general de 0 y 1&#41;, uno de los grupos corresponde a todos los puntos de la forma &#40;xi, 0&#41;, puntos de la muestra donde no ocurre el evento de inter&eacute;s y el otro corresponde a los puntos muestrales donde ocurre dicho evento, de la forma &#40;xi, 1&#41; &#91;1&#93;. En el caso de una sola variable explicatoria x, la separaci&oacute;n se presenta cuando ocurren todos los fracasos en la primera parte del rango de la variable x &#40;R1&#41;, y todos los &eacute;xitos en la segunda parte de este rango &#40;o viceversa&#41; &#40;R2&#41;, sin dar lugar a una sobreposici&oacute;n de ambos rangos, o mezcla de &eacute;xitos y fracasos. Sin embargo, existe un tercer rango de x, donde no hay realizaciones de la variable Y, este representa la "regi&oacute;n de separaci&oacute;n", ya que separa totalmente los &eacute;xitos de los fracasos &#40;Rs&#41; &#40;<a href="#fig1">figura 1</a>&#41;.</p>  <a name="fig1"></a>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09fig1.jpg" /></p>     <p align="center"><b>Figura 1.</b> Regi&oacute;n de separaci&oacute;n en el caso bivariado</p><br />      <p>En el caso en que ocurren primero &eacute;xitos y despu&eacute;s fracasos &#40;al tener 1 variable explicatoria&#41;, la separaci&oacute;n se detecta cuando la sumatoria de los &eacute;xitos de todo el rango de X, es igual a la sumatoria de los valores de y en uno de los lados de la regi&oacute;n de separaci&oacute;n.</p>      <p>La separaci&oacute;n cuasicompleta ocurre cuando es posible definir un plano que pasa por la regi&oacute;n de separaci&oacute;n con &eacute;xitos a un lado o sobre este y fracasos al otro o sobre este, sin presentarse convergencia de los estimadores de m&aacute;xima verosimilitud.</p>       <p>Se dice que un grupo de datos tiene Sobreposici&oacute;n &#40;u Overlap&#41; si no hay una completa separaci&oacute;n y no cuasicompleta separaci&oacute;n. En este caso s&iacute; se presenta convergencia de los estimadores de m&aacute;xima verosimilitud.</p>      ]]></body>
<body><![CDATA[<p>Para el modelo log&iacute;stico algunos autores &#91;1, 8&#93; muestran que la estimaci&oacute;n de m&aacute;xima verosimilitud del vector de par&aacute;metros &#946; existe s&iacute; y s&oacute;lo si los datos presentan sobreposici&oacute;n, esto significa que no existe ninguna recta, plano o regi&oacute;n de separaci&oacute;n, ya que los 2 valores que toma la variable respuesta &#40;y<sub>i</sub> &#61; 0, y<sub>i</sub> &#61; 1&#41; se encuentran mezclados o sobrepuestos en todo el rango de valores de x.</p> </font> <font size="3">     <p><b>Separaci&oacute;n completa</b></p></font> <font size="2">     <p>Se utiliz&oacute; un conjunto de datos sobre 907 j&oacute;venes de la ciudad de Medell&iacute;n, tomados en el a&#241;o 2004, con edades entre 5,1 y 19,5 a&#241;os, ejemplo tomado con fin ilustrativo del problema. A las j&oacute;venes se les pregunt&oacute; si ya hab&iacute;an presentado o no menarquia, siendo este el primer episodio menstrual de la mujer, encontrando los resultados que se ven en la <a href="#tb1">tabla 1</a>.</p>  <a name="tb1"></a>     <p align="center"><b>Tabla 1.</b> Datos de la edad de la menarquia</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb1.jpg" /></p><br />       <p>En la <a href="#tb1">tabla 1</a> se observa que hasta los 10,3 a&#241;os ninguna joven hab&iacute;a presentado menarquia; entre las edades 10,3 a 14,4 a&#241;os no hay datos, y despu&eacute;s de los 14,5 a&#241;os, todas hab&iacute;an presentado ya la menarquia. Luego, los datos presentan separaci&oacute;n completa y la regi&oacute;n de separaci&oacute;n va de 10,3 a 14,5 a&#241;os.</p>      <p>La no convergencia es mostrada por programas estad&iacute;sticos como el programa R &#91;7&#93;, para este conjunto de datos con separaci&oacute;n completa como se ve a continuaci&oacute;n:</p>      <p>model&#61;glm&#40;MENARQUIA~EDADCAL,family&#61;'bi nomial'&#41;<br /> Mensajes de aviso perdidos<br /> In glm.fit&#40;x &#61; X, y &#61; Y, weights &#61; weights, start &#61; start, etastart &#61; etastart:<br /> algorithm did not converge</p>      <p>Sin embargo, el programa entrega un conjunto de par&aacute;metros aproximados, pero incorrectos, como se ve en la <a href="#tb2">tabla 2</a>.</p>  <a name="tb2"></a>     <p align="center"><b>Tabla 2.</b> Resultado aproximado para los par&aacute;metros</p>     ]]></body>
<body><![CDATA[<p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb2.jpg" /></p><br />       <p><b>Causas de la separaci&oacute;n completa</b></p>     <p><i>Problemas de dise&#241;o</i></p>     <p>Los problemas de dise&#241;o est&aacute;n asociados a una mala planeaci&oacute;n del experimento cuando se desconoce el posible comportamiento de la respuesta a analizar. Sin embargo, a&uacute;n con una buena planeaci&oacute;n puede ocurrir el problema. Para ilustrar consideremos el modelo:</p>      <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula1.jpg" /></p><br />      <p>Para valores de x &#61; &#40;&#45;2,&#45;1,1,2&#41; y diferentes valores de b. En cada uno de estos valores de b se fijaron 10 r&eacute;plicas. Los resultados de una simulaci&oacute;n donde se realizaron 1000 repeticiones del dise&#241;o anterior, se presentan en la <a href="#tb3">tabla 3</a>.</p>  <a name="tb3"></a>     <p align="center"><b>Tabla 3.</b> Proporci&oacute;n de muestras con separaci&oacute;n completa</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb3.jpg" /></p><br />       <p>A medida que aumenta el valor de b, aumenta el porcentaje de casos con separaci&oacute;n. Cuando la probabilidad que representa el modelo log&iacute;stico crece con mayor rapidez, es m&aacute;s f&aacute;cil encontrar el problema de la separaci&oacute;n, ya que el cambio de menor a mayor probabilidad es m&aacute;s notorio.</p>      <p>Rindskopf afirma que la separaci&oacute;n no es un problema, ya que cuando &eacute;ste se presenta en muestras grandes significa que la probabilidad es en un 100&#37; certera, esto es, que con toda seguridad habr&aacute; dos grupos discriminados para cualquier otra muestra de esta poblaci&oacute;n, uno de &eacute;xitos y otro de fracasos &#91;6&#93;. Sin embargo, si consideramos que el problema se encuentra mal dise&#241;ado, y los resultados no tienen en cuenta un rango de la matriz de dise&#241;o que en otra muestra puede ocurrir, esta afirmaci&oacute;n carece de validez.</p>      ]]></body>
<body><![CDATA[<p><i>Escasez de datos</i></p>     <p>La escasez de datos se relaciona con tama&#241;os de muestra peque&#241;os, lo cual es frecuente en muchos dise&#241;os de datos y si este tama&#241;o de muestra es tan peque&#241;o, que conduce al problema de la separaci&oacute;n, no es posible inferir a partir de este conjunto de datos. Es ideal contar con la mayor cantidad de informaci&oacute;n acerca del problema, por ello es preciso tener una muestra de datos grande.</p>      <p><b>Soluciones al presentarse separaci&oacute;n completa</b></p>     <p>El comportamiento de los conjuntos de datos en presencia de separaci&oacute;n est&aacute; caracterizado por algunos factores que no siempre son iguales. El n&uacute;mero de &eacute;xitos puede ser mayor que el de los fracasos, el rango de la matriz de dise&#241;o, el de los &eacute;xitos y los fracasos, varia en tama&#241;o o longitud. Al existir separaci&oacute;n, es posible encontrar mayor incertidumbre al no observar adecuadamente estas caracter&iacute;sticas en los datos, decimos entonces que la separaci&oacute;n es grave.</p>      <p>Se pueden construir muchos &iacute;ndices de separaci&oacute;n, pero la idea b&aacute;sica detr&aacute;s de cada uno de ellos es dar un indicativo de la gravedad de este problema. A continuaci&oacute;n se muestran un indicador propuesto para medir la gravedad de la separaci&oacute;n, asumiendo el modelo log&iacute;stico con una sola variable predictora, as&iacute;:</p>      <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula2.jpg" /></p><br />      <p><i>&Iacute;ndice de longitud I<sub>l</sub></i></p>     <p>Este relaciona el rango de la regi&oacute;n de separaci&oacute;n &#40;R<sub>s</sub>&#41;, y el rango completo de la variable predictora x &#40;R&#41;.</p>      <p>Este indicador compara la longitud del &aacute;rea donde no hay observaciones con el &aacute;rea completa, o rango completo de la variable explicatoria X. Adem&aacute;s se encuentra normalizado, la cercan&iacute;a a cero indicar&iacute;a que la separaci&oacute;n puede no ser tan grave. La separaci&oacute;n es severa cuando I<sub>l</sub> &#8594; 1, ya que Rs &#8594; R, debido a que no es f&aacute;cil encontrar el verdadero signo de &#946;1, la probabilidad del modelo verdadero puede ser creciente o decreciente, lo cual amerita considerar el total de &eacute;xitos y de fracasos, adem&aacute;s de la naturaleza del problema.</p></font><br />  <font size="3">     <p><b>Metodolog&iacute;a</b></p></font> <font size="2">     ]]></body>
<body><![CDATA[<p>Dos aproximaciones sencillas a la soluci&oacute;n de este problema, se describen a continuaci&oacute;n.</p>      <p><b>Simulaci&oacute;n de la muestra</b></p>     <p>Para realizar este proceso se considera el siguiente modelo log&iacute;stico con una sola variable predictora, mostrado previamente, donde X es la matriz de dise&#241;o que contiene los valores de la variable explicativa x, y los yi son los valores de respuesta.</p>  <ul>     <li>Se fija una ecuaci&oacute;n del modelo log&iacute;stico, asignando valores a los dos par&aacute;metros del modelo: &#946;0 y &#946;1;</li>      <li>la matriz de dise&#241;o X se fija considerando una regi&oacute;n donde se debe presentar el punto de inflexi&oacute;n del modelo log&iacute;stico. Se fija la regi&oacute;n de separaci&oacute;n a partir de dos valores de x, cercanos a este punto;</li>      <li>se generan los valores de la variable Y, con distribuci&oacute;n Bernoulli &#40;pi&#41;, donde pi es la probabilidad del modelo de regresi&oacute;n log&iacute;stica dado inicialmente.</li>    </ul>      <p><i>Detecci&oacute;n de separaci&oacute;n</i></p>     <p>Sea M el n&uacute;mero de muestras con separaci&oacute;n se realizan N repeticiones de una muestra aleatoria de la variable respuesta Y. De estas N muestras, M casos tendr&aacute;n separaci&oacute;n completa &#40;M &#60;&#61; N&#41;.</p>      <p>A partir de este resultado, es posible determinar la proporci&oacute;n de veces que al simular un conjunto de datos, se presenta separaci&oacute;n completa, usando el modelo log&iacute;stico y la distribuci&oacute;n Bernoulli para la variable respuesta Y.</p>      ]]></body>
<body><![CDATA[<p><i>Generaci&oacute;n de observaciones ficticias</i></p>     <p>En un caso donde se presenta separaci&oacute;n, de las N muestras generadas, se generan pares de observaciones ficticias en la regi&oacute;n de separaci&oacute;n. A partir de estos nuevos conjuntos de datos, se calculan los estimadores de m&aacute;xima verosimilitud &#40;<a href="#fig2">figura 2</a>&#41;.</p>  <a name="fig2"></a>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09fig2.jpg" /></p>     <p align="center"><b>Figura 2.</b> Generaci&oacute;n de un par de observaciones ficticias en un conjunto de datos con separaci&oacute;n</p><br />        <p>Dichas observaciones se generaron de dos formas: a&#41; en los extremos de la regi&oacute;n de separaci&oacute;n; b&#41; dentro de la regi&oacute;n de separaci&oacute;n, a una distancia de los extremos. En este proceso, se suman a los extremos de la Rs una distancia que equivale a un porcentaje del rango de la regi&oacute;n de separaci&oacute;n.</p>      <p>En todos los casos, se calculan sesgos relativos absolutos, restando el valor estimado del real y dividiendo por el real.</p>      <p><b>An&aacute;lisis Bayesiano</b></p>      <p>Utilizando t&eacute;cnicas de estad&iacute;stica bayesiana, se muestra una soluci&oacute;n y se compara con respecto al anterior m&eacute;todo propuesto, analizando ventajas y desventajas de ambos procedimientos.</p>      <p><i>Funci&oacute;n de verosimilitud</i></p>     <p>Para estimar el modelo log&iacute;stico, se requieren datos con distribuci&oacute;n binomial, as&iacute; que la verosimilitud tendr&aacute; la siguiente naturaleza:</p>      ]]></body>
<body><![CDATA[<p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula3.jpg" /></p><br />      <p>Donde &#960;&#40;x<sub>i</sub>&#41; es la probabilidad estimada por medio del modelo log&iacute;stico dado por:</p>      <p>Luego, la funci&oacute;n de verosimilitud quedar&aacute; as&iacute;:</p>      <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula4.jpg" /></p><br />  Lo cual lleva a:      <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula5.jpg" /></p><br />      <p><i>Funci&oacute;n a Priori para los par&aacute;metros del modelo log&iacute;stico a estimar:</i></p>       <p>Distribuci&oacute;n normal bivariada: &#946; &#8764; MN &#40;&#946;<sub>0</sub>, &#931;&#41; donde se usar&aacute; la matriz de precisi&oacute;n T&#61;&#931;<sup>&#45;1</sup></p>      <p>Luego, la funci&oacute;n a posteriori ser&aacute;</p>      <p>&#958;&#40;&#946;&#124;datos&#41; &#592; <i>MN</i> &#40;&#946;<sub>0</sub>, &#931;&#41; &#42; <i>L</i> &#40;&#946;&#124;<i>Y, X</i>&#41;</p>      <p>As&iacute;:</p>      ]]></body>
<body><![CDATA[<p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula6.jpg" /></p><br />      <p>Para su desarrollo, se utiliza el algoritmo Metropolis que est&aacute; programado dentro de la librer&iacute;a MCMCpack, en la funci&oacute;n MCMClogit.</p>      <p>Esta funci&oacute;n supone una distribuci&oacute;n Bernoulli para la variable respuesta y<sub>i</sub>, y asume por defecto una distribuci&oacute;n normal multivariada a priori para los par&aacute;metros a estimar en el modelo &#40;&#946;&#41;, donde B<sub>0</sub> es la precisi&oacute;n. Y extrae una muestra de valores de par&aacute;metros estimados de &#40;&#946;&#41;.</p>      <p>La distribuci&oacute;n normal es una distribuci&oacute;n a priori propia, lo cual facilita disminuir el impacto sobre la distribuci&oacute;n posterior del par&aacute;metro de inter&eacute;s y que sea relativamente plana con relaci&oacute;n a la verosimilitud. Esto conduce a que los datos tengan dominio en la distribuci&oacute;n posterior, y por lo tanto, en todas las inferencias que de ellas se obtengan.</p>      <p>En este trabajo se analizar&aacute; el escenario bayesiano usando necesario generar sobreposici&oacute;n en el conjunto de datos, y as&iacute;, esta metodolog&iacute;a permite estimar coeficientes y posteriormente el sesgo.</p>      <p><b>Resultados de la simulaci&oacute;n</b></p>     <p><i>Simulaci&oacute;n de la muestra</i></p>     <p>Fue fijado el siguiente modelo log&iacute;stico.</p>      <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09formula7.jpg" /></p><br />      <p>Con este modelo se establece una regi&oacute;n de separaci&oacute;n seg&uacute;n la curva de inflexi&oacute;n, y se eligen los niveles de x que se observan en la <a href="#tb4">tabla 4</a>.</p>  <a name="tb4"></a>     ]]></body>
<body><![CDATA[<p align="center"><b>Tabla 4.</b> Matriz de dise&#241;o para el conjunto de datos con separaci&oacute;n</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb4.jpg" /></p><br />       <p><i>Detecci&oacute;n de Separaci&oacute;n</i></p>      <p>Se generaron 1000 repeticiones de una muestra aleatoria de Y, considerando que Y es una variable aleatoria con distribuci&oacute;n Bernoulli &#40;p<sub>i</sub>&#41;, la probabilidad pi es la probabilidad del modelo dado, usando en el conjunto de valores de x mostrado.</p>      <p>Las frecuencias de casos con separaci&oacute;n encontrados se muestran en la <a href="#tb5">tabla 5.</a> Para la simulaci&oacute;n de probabilidades del modelo log&iacute;stico, se fij&oacute; el mismo valor de &#946;0 &#40;0.1&#41; y se variaron los de &#946;1 como aparece en dicha tabla, estas se usaron para generar los datos de respuesta dic&oacute;tomos. El tama&#241;o de muestra &#40;el total de datos&#41; tambi&eacute;n fue variado, y se generan 1000 muestras en cada caso, contando las frecuencias donde hubo separaci&oacute;n completa.</p>  <a name="tb5"></a>     <p align="center"><b>Tabla 5.</b> Frecuencias de casos con separaci&oacute;n</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb5.jpg" /></p><br />       <p>Antes de generar los pares de observaciones ficticias, se fijaron otros valores de b<sub>1</sub> cercanos al modelo previamente establecido, encontrando que la frecuencia de muestras con separaci&oacute;n aumenta cuando el valor fijado para b<sub>1</sub> aumenta, cuando la R<sub>s</sub> es fija. Adicionalmente, la proporci&oacute;n de casos con separaci&oacute;n es menor al aumentar el tama&#241;o muestral de los datos &#40;con b<sub>1</sub>&#62;0&#41; &#40;<a href="#tb5">tabla 5</a>&#41;.</p>       <p>La <a href="#tb6">tabla 6</a> presenta las estimaciones de par&aacute;metros: <img src="img/revistas/rfnsp/v29n3/v29n3a09formula8.jpg" /> usando los 3 m&eacute;todos: el de Firth, con el paquete logistf de R, el m&eacute;todo bayesiano usando la funci&oacute;n MCMClogit, agregando datos ficticios a un 28&#37; de la regi&oacute;n de separaci&oacute;n y el cl&aacute;sico usando glm, con el mismo par de ficticias mostrando el sesgo encontrado en cada caso.</p>      <p>Para todas las soluciones probadas, la simulaci&oacute;n de variable respuesta parte de los valores: &#946;<sub>o</sub> &#61;0,1 y &#946;<sub>1</sub> &#61;0,2.</p>  <a name="tb6"></a>     ]]></body>
<body><![CDATA[<p align="center"><b>Tabla 6.</b> Estimaciones de par&aacute;metros</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb6.jpg" /></p><br />      <p>Lo anterior sugiere que con pocas observaciones ficticias es posible generar la soluci&oacute;n al modelo planteado, pero dentro de la regi&oacute;n de separaci&oacute;n, no en los extremos.</p>      <p><b>Aplicaci&oacute;n a datos de la edad de la menarquia</b></p>      <p>El rango de datos es 14,4, y el de la regi&oacute;n de separaci&oacute;n es 4,2, lo cual es un 30&#37; del total, mostrando que no hay mucha gravedad en la separaci&oacute;n y se podr&iacute;a decir que la naturaleza de la probabilidad es creciente, pues a medida que aumenta la edad, hay mayor frecuencia de ni&#241;as que han tenido menarquia. Seguido a este an&aacute;lisis, se gener&oacute; un par de seudo&#45;observaciones ficticias a un par de edades a una distancia de 1.26 &#40;30&#37; de la Rs&#41;, as&iacute;: &#40;10.3,1&#41; y &#40;14.5,0&#41;, encontrando la estimaci&oacute;n de par&aacute;metros &#40;<a href="#tb7">tabla 7</a>&#41;.</p>  <a name="tb7"></a>     <p align="center"><b>Tabla 7.</b> Par&aacute;metros estimados del modelo log&iacute;stico para la edad de la menarquia</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb7.jpg" /></p><br />      <p>La edad es una variable significativa sobre la probabilidad de tener menarquia &#40;Valor <i>p</i> &#61; 1,6&#42;10<sup>&#45;6</sup>&#41;. En la <a href="#tb8">tabla 8</a> se ve la soluci&oacute;n de Firth, usando la funci&oacute;n logistf de R.</p>  <a name="tb8"></a>     <p align="center"><b>Tabla 8.</b> Soluci&oacute;n con m&eacute;todo de Firth</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb8.jpg" /></p><br />      ]]></body>
<body><![CDATA[<p>En la <a href="#tb9">tabla 9</a> se ve la soluci&oacute;n bayesiana, usando la funci&oacute;n MCMClogit de R:</p>  <a name="tb9"></a>     <p align="center"><b>Tabla 9.</b> Soluci&oacute;n con m&eacute;todo Bayesiano</p>     <p align="center"><img src="img/revistas/rfnsp/v29n3/v29n3a09tb9.jpg" /></p><br />      <p>En los 3 casos el coeficiente que acompa&#241;a a la edad es positivo y significativo al 95&#37; de confianza, lo cual indica un acierto en la estimaci&oacute;n, as&iacute; mismo, es significativo el t&eacute;rmino independiente. Sin embargo, puede decirse que el de Firth presenta m&aacute;s diferencias en relaci&oacute;n al par&aacute;metro de la edad en comparaci&oacute;n con los otros dos.</p></font><br />  <font size="3">     <p><b>Discusi&oacute;n</b></p></font> <font size="2">     <p>La consecuencia m&aacute;s grave del problema de la separaci&oacute;n en los modelos de regresi&oacute;n log&iacute;stica es el hecho de no permitir la estimaci&oacute;n de m&aacute;xima verosimilitud con el fin de realizar inferencias sobre la probabilidad de inter&eacute;s. Este trabajo aporta una soluci&oacute;n adecuada al problema, probada v&iacute;a simulaci&oacute;n y aplicada a un caso donde se logra de forma clara y significativa una convergencia en los par&aacute;metros del modelo log&iacute;stico.</p>      <p>Se observ&oacute; que es mejor generar la sobreposici&oacute;n dentro de la regi&oacute;n de separaci&oacute;n y no en los extremos y con un bajo n&uacute;mero de observaciones ficticias. Otra posible soluci&oacute;n podr&iacute;a surgir al evaluar el movimiento de varias observaciones del mismo conjunto de datos hasta encontrar sobreposici&oacute;n, soluci&oacute;n que debe validarse v&iacute;a simulaci&oacute;n. No siempre que la dispersi&oacute;n total de los datos sea grande, es grave la separaci&oacute;n, en estos casos debe observarse la descompensaci&oacute;n en el n&uacute;mero de &eacute;xitos y de fracasos. Si existe mayor n&uacute;mero de fracasos que &eacute;xitos, el modelo puede tener un crecimiento lento de la probabilidad, pero si es al contrario, puede crecer con mayor rapidez. Por ello, se recomienda en estos casos la soluci&oacute;n propuesta, agregar un par de observaciones ficticias en un par de puntos dentro de la regi&oacute;n de separaci&oacute;n para conseguir la estimaci&oacute;n del modelo buscado.</p></font><br />  <font size="3">     <p><b>Referencias</b></p></font> <font size="2">     <!-- ref --><p>1 Albert A, Anderson JA. On the existence of maximum likelihood estimates in logistic regression models. Biometrika 1984;71: 1&#45;10.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000131&pid=S0120-386X201100030000900001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>2 Christmann A, Rousseeuw PJ. Measuring overlap in binary regression. Computational Statistics and Data Analysis 2001; 37: 65&#45;75.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000132&pid=S0120-386X201100030000900002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>3 Christmann A, Rousseeuw PJ. Robustness against separation and outliers in logistic regression, Computational Statistics and Data Analysis 2003;43: 315&#45;332.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000133&pid=S0120-386X201100030000900003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>4 King E, Ryan TP. A preliminary investigation of maximum likelihood logistic regression versus Exact logisic Regression. American Statistical Association 2002; 56 &#40;3&#41;: 163&#45;170.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000134&pid=S0120-386X201100030000900004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>5 Lesaffre E, Albert A. Partial Separation in Logistic Discrimination. Journal of the Royal Statistical Society. Series B &#40;Methodological&#41; 1989; 51&#40;1&#41;: 109&#45;116.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000135&pid=S0120-386X201100030000900005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>6 Rindskopf D. Infinite parameter estimates in logistic regression: Opportunities, not problems. Journal of Educational and Behavioral Statistics 2002; 27&#40;2&#41;: 147&#45;161.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000136&pid=S0120-386X201100030000900006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>7 Gentleman R, Ihaka R. R: A Language and Environment for Statistical Computing. R Development Core Team &#91;internet&#93; R Foundation for Statistical Computing: Vienna; 2009 &#91;acceso 07 de noviembre de 2010&#93;. Disponible en: <a href="www.R-project.org" target="_blank">www.R&#45;project.org</a>.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000137&pid=S0120-386X201100030000900007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>8 Santner TJ, Duffy DE. A note on A. Albert and J. A. Anderson's conditions for the existence of maximum likelihood estimates in logistic regression models. Biometrika 1986; 73&#40;3&#41;: 755&#45;758.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000138&pid=S0120-386X201100030000900008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>9 Ying So. A Tutorial on Logistic Regression &#91;revista en internet&#93;. Journal Of Marriage And The Family 1995; 57&#40;4&#41;: 1&#45;6. Disponible en: <a href="http://www.mendeley.com/research/a-tutorial-on-logisticregression/" target="_blank">http:&#47;&#47;www.mendeley.com&#47;research&#47;a&#45;tutorial&#45;on&#45;logisticregression/</a>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000139&pid=S0120-386X201100030000900009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>10 Heinze G, Shemper M. A solution to the problem of separation in logistic regression. Statist. Med 2002; 21:2409&#45;2419.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000140&pid=S0120-386X201100030000900010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p>11 Firth D. Bias reduction, the Je_reys prior and glim. En: Fahrmeir L, Francis B, Gilchrist R, Tutz G, editores. Advances in glim and Statistical Modelling. New York: Springer&#45;Verlag; 1992. p. 91&#45; 100.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000141&pid=S0120-386X201100030000900011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><p>Recibido: 16 de mayo de 2011.<br />  Aprobado: 20 de agosto de 2011</p> </font> </font> </font>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Albert]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Anderson]]></surname>
<given-names><![CDATA[JA]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[On the existence of maximum likelihood estimates in logistic regression models]]></article-title>
<source><![CDATA[Biometrika]]></source>
<year>1984</year>
<numero>71</numero>
<issue>71</issue>
<page-range>1-10</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Christmann]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Rousseeuw]]></surname>
<given-names><![CDATA[PJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Measuring overlap in binary regression]]></article-title>
<source><![CDATA[Computational Statistics and Data Analysis]]></source>
<year>2001</year>
<numero>37</numero>
<issue>37</issue>
<page-range>65-75</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Christmann]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Rousseeuw]]></surname>
<given-names><![CDATA[PJ]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robustness against separation and outliers in logistic regression]]></article-title>
<source><![CDATA[Computational Statistics and Data Analysis]]></source>
<year>2003</year>
<numero>43</numero>
<issue>43</issue>
<page-range>315-332</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[King]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Ryan]]></surname>
<given-names><![CDATA[TP]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A preliminary investigation of maximum likelihood logistic regression versus Exact logisic Regression]]></article-title>
<source><![CDATA[American Statistical Association]]></source>
<year>2002</year>
<volume>56</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>163-170</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lesaffre]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Albert]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Partial Separation in Logistic Discrimination]]></article-title>
<source><![CDATA[Journal of the Royal Statistical Society Series B (Methodological)]]></source>
<year>1989</year>
<volume>51</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>109-116</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rindskopf]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Infinite parameter estimates in logistic regression: Opportunities, not problems]]></article-title>
<source><![CDATA[Journal of Educational and Behavioral Statistics]]></source>
<year>2002</year>
<volume>27</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>147-161</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gentleman]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Ihaka]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[A Language and Environment for Statistical Computing]]></source>
<year>2009</year>
<publisher-loc><![CDATA[Vienna ]]></publisher-loc>
<publisher-name><![CDATA[R Foundation for Statistical Computing]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Santner]]></surname>
<given-names><![CDATA[TJ]]></given-names>
</name>
<name>
<surname><![CDATA[Duffy]]></surname>
<given-names><![CDATA[DE]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A note on A Albert and J A Anderson's conditions for the existence of maximum likelihood estimates in logistic regression models]]></article-title>
<source><![CDATA[Biometrika]]></source>
<year>1986</year>
<volume>73</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>755-758</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ying]]></surname>
<given-names><![CDATA[So]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Tutorial on Logistic Regression]]></article-title>
<source><![CDATA[Journal Of Marriage And The Family]]></source>
<year>1995</year>
<volume>57</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>1-6</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Heinze]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Shemper]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A solution to the problem of separation in logistic regression]]></article-title>
<source><![CDATA[Statist Med]]></source>
<year>2002</year>
<numero>21</numero>
<issue>21</issue>
<page-range>2409-2419</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Firth]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Bias reduction, the Je_reys prior and glim]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Fahrmeir]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Francis]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Gilchrist]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Tutz]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Advances in glim and Statistical Modelling]]></source>
<year>1992</year>
<page-range>91- 100</page-range><publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[Springer-Verlag]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
