<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0121-0793</journal-id>
<journal-title><![CDATA[Iatreia]]></journal-title>
<abbrev-journal-title><![CDATA[Iatreia]]></abbrev-journal-title>
<issn>0121-0793</issn>
<publisher>
<publisher-name><![CDATA[Universidad de Antioquia]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0121-07932015000300008</article-id>
<article-id pub-id-type="doi">10.17533/udea.iatreia.v28n3a08</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Evaluación de conocimientos con exámenes de selección múltiple: ¿tres o cuatro opciones de respuesta? Experiencia con el examen de admisión a posgrados médico-quirúrgicos en la Universidad de Antioquia]]></article-title>
<article-title xml:lang="en"><![CDATA[Evaluation of knowledge with multiple-choice tests: three of four options? Experience with admission examinations to medical and surgical postgraduate studies at University of Antioquia (Medellín, Colombia)]]></article-title>
<article-title xml:lang="pt"><![CDATA[Avaliação de conhecimentos com exames de seleção múltipla: três ou quatro opções de resposta? Experiência com o exame de admissão a pósgraduações médico-cirúrgicos na Universidade de Antioquia]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Salazar Blanco]]></surname>
<given-names><![CDATA[Olga Francisca]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Vélez]]></surname>
<given-names><![CDATA[Claudia Marcela]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Zuleta Tobón]]></surname>
<given-names><![CDATA[John Jairo]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad de Antioquia Facultad de Medicina ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de Antioquia Facultad de Medicina ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Universidad de Antioquia  ]]></institution>
<addr-line><![CDATA[Medellín ]]></addr-line>
<country>Colombia</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>08</month>
<year>2015</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>08</month>
<year>2015</year>
</pub-date>
<volume>28</volume>
<numero>3</numero>
<fpage>300</fpage>
<lpage>311</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_arttext&amp;pid=S0121-07932015000300008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_abstract&amp;pid=S0121-07932015000300008&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.co/scielo.php?script=sci_pdf&amp;pid=S0121-07932015000300008&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Introducción: el objetivo de este estudio fue evaluar el efecto de la reducción del número de opciones de respuesta por pregunta sobre los indicadores sicométricos de un examen de ingreso a estudios médicos de posgrado. Metodología: aplicación de índices de evaluación sicométrica desde la perspectiva de dos teorías: la clásica de la medición y la de respuesta al ítem, a una prueba de 70 preguntas hecha a 2.539 aspirantes a ingresar a los posgrados médico-quirúrgicos de la Universidad de Antioquia en el año 2014. Se eliminó la opción de respuesta elegida con menor frecuencia y se la reemplazó por azar de entre las tres restantes. Resultados: solo 52,9% de las preguntas tuvieron tres opciones funcionales de respuesta. No se encontró diferencia en la dificultad, la discriminación, el error estándar de la medición, el alfa de Cronbach ni el coeficiente de correlación biserial (teoría clásica de la medición); tampoco en la medida de dificultad de los ítems o de habilidad de las personas (teoría de respuesta al ítem) entre las pruebas con tres y cuatro opciones de respuesta. La prueba con tres opciones conservó un buen ajuste. Conclusión: una prueba con tres opciones de respuesta se comportó tan bien como su contraparte de cuatro opciones.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Introduction: The aim of this study was to evaluate the effect of reducing the number of response options per question on the psychometric indicators of an exam for admission to postgraduate medical studies, at University of Antioquia, in Medellín, Colombia. Methodology: Application of psychometric assessment indexes from the perspective or two theories: the classical of measurement and the item response, to a test of 70 questions, applied in 2014 to 2.539 candidates. The least frequently chosen distractor was eliminated and randomly replaced by one of the three remaining ones. Results: Only 52.9% of the questions had three functional distractors. No difference was found in the difficulty, discrimination, standard error of measurement, Cronbach's alpha and the coefficient of biserial correlation (classical measurement theory). Also, there was no difference in the extent of item difficulty or ability of people (item response theory). The test with three options retained a good fit. Conclusion: Multiple choice tests with three response options performed as well as their four options counterparts.]]></p></abstract>
<abstract abstract-type="short" xml:lang="pt"><p><![CDATA[Introdução: o objetivo deste estudo foi avaliar o efeito da redução do número de opções de resposta por pergunta sobre os indicadores psicométricos de um exame de rendimento a estudos médicos de pós-graduação. Metodologia: aplicação de índices de avaliação psicométrica desde a perspectiva de duas teorias: a clássica da medição e a de resposta ao item, a uma prova de 70 perguntas feita a 2.539 aspirantes a ingressar às pós-graduações médico-cirúrgicos da Universidade de Antioquia no ano de 2014. Eliminou-se a opção de resposta eleita com menor frequência e se a substituiu por casualidade de entre as três restantes. Resultados: só 52,9% das perguntas tiveram três opções funcionais de resposta. Não se encontrou diferença na dificuldade, a discriminação, o erro regular da medição, o alfa de Cronbach nem o coeficiente de correlação bisserial (teoria clássica da medição); também não na medida de dificuldade dos itens ou de habilidade das pessoas (teoria de resposta ao item) entre as provas com três e quatro opções de resposta. A prova com três opções conservou um bom ajuste. Conclusão: uma prova com três opções de resposta se comportou tão bem como sua contraparte de quatro opções.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Análisis de Ítem]]></kwd>
<kwd lng="es"><![CDATA[Evaluación Educacional]]></kwd>
<kwd lng="es"><![CDATA[Pruebas de Selección Múltiple]]></kwd>
<kwd lng="en"><![CDATA[Educational Measurement]]></kwd>
<kwd lng="en"><![CDATA[Item Analysis]]></kwd>
<kwd lng="en"><![CDATA[Multiple Choice Questions]]></kwd>
<kwd lng="pt"><![CDATA[Análises de Item]]></kwd>
<kwd lng="pt"><![CDATA[Avaliação Educacional]]></kwd>
<kwd lng="pt"><![CDATA[Provas de Seleção Múltipla]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>EDUCACI&Oacute;N M&Eacute;DICA</b></font></p>     <p align="right">&nbsp;</p>     <p align="right"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">DOI <a href="http://dx.doi.org/10.17533/udea.iatreia.v28n3a08" target="_blank">10.17533/udea.iatreia.v28n3a08</a></font></p>      <p align="center"><font size="4" face="Verdana, Arial, Helvetica, sans-serif"><b>Evaluaci&oacute;n de conocimientos con ex&aacute;menes de selecci&oacute;n   m&uacute;ltiple: &#191;tres o cuatro opciones de respuesta&#63; Experiencia con el   examen de admisi&oacute;n a posgrados m&eacute;dico-quir&uacute;rgicos en la Universidad de Antioquia</b></font></p>      <p align="center"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>Evaluation of knowledge with multiple-choice   tests: three of four options&#63; Experience with admission   examinations to medical and surgical   postgraduate studies at University of Antioquia (Medell&iacute;n, Colombia)</b></font></p>      <p align="center"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>Avalia&ccedil;&atilde;o de conhecimentos com exames de sele&ccedil;&atilde;o   m&uacute;ltipla: tr&ecirc;s ou quatro op&ccedil;&otilde;es de resposta&#63;   Experi&ecirc;ncia com o exame de admiss&atilde;o a p&oacute;sgradua&ccedil;&otilde;es   m&eacute;dico-cir&uacute;rgicos na Universidade de Antioquia</b></font></p>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Olga Francisca Salazar Blanco<sup>1</sup>; Claudia Marcela V&eacute;lez<sup>2</sup>; John Jairo Zuleta Tob&oacute;n<sup>3</sup></b></font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">1 Profesora, Departamento de Pediatr&iacute;a y Puericultura. Coordinadora Acad&eacute;mica, Grupo de Investigaci&oacute;n EDUSALUD, Facultad de Medicina, Universidad de Antioquia, Medell&iacute;n, Colombia.</font></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">2 M&eacute;dica, especialista en Salud P&uacute;blica, estudiante de Maestr&iacute;a en Ciencias Cl&iacute;nicas, Grupo Acad&eacute;mico de Epidemiolog&iacute;a Cl&iacute;nica (GRAEPIC). Profesora de la Facultad de Medicina,   de la Universidad de Antioquia, Medell&iacute;n, Colombia.</font></p>       <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">3 Profesor de Ginecolog&iacute;a y Obstetricia, Mag&iacute;ster en Epidemiolog&iacute;a Cl&iacute;nica. Universidad de Antioquia, Medell&iacute;n, Colombia.<a href="mailto:jjzuleta@une.net.co"> jjzuleta@une.net.co</a></font></p>         ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Recibido: febrero 5 de 2015    <br>     Aceptado: marzo 20 de 2015</font></p>   <hr noshade size="1">     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>   Introducci&oacute;n:</b> el objetivo de este estudio fue evaluar el efecto de la reducci&oacute;n del n&uacute;mero   de opciones de respuesta por pregunta sobre los indicadores sicom&eacute;tricos de un examen de   ingreso a estudios m&eacute;dicos de posgrado.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Metodolog&iacute;a:</b> aplicaci&oacute;n de &iacute;ndices de evaluaci&oacute;n sicom&eacute;trica desde la perspectiva de dos   teor&iacute;as: la cl&aacute;sica de la medici&oacute;n y la de respuesta al &iacute;tem, a una prueba de 70 preguntas hecha   a 2.539 aspirantes a ingresar a los posgrados m&eacute;dico-quir&uacute;rgicos de la Universidad de Antioquia   en el a&ntilde;o 2014. Se elimin&oacute; la opci&oacute;n de respuesta elegida con menor frecuencia y se la reemplaz&oacute; por azar de entre las tres restantes.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Resultados:</b> solo 52,9% de las preguntas tuvieron tres opciones funcionales de respuesta. No   se encontr&oacute; diferencia en la dificultad, la discriminaci&oacute;n, el error est&aacute;ndar de la medici&oacute;n,   el alfa de Cronbach ni el coeficiente de correlaci&oacute;n biserial (teor&iacute;a cl&aacute;sica de la medici&oacute;n);   tampoco en la medida de dificultad de los &iacute;tems o de habilidad de las personas (teor&iacute;a de respuesta   al &iacute;tem) entre las pruebas con tres y cuatro opciones de respuesta. La prueba con tres opciones conserv&oacute; un buen ajuste.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Conclusi&oacute;n:</b> una prueba con tres opciones de respuesta se comport&oacute; tan bien como su contraparte   de cuatro opciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>PALABRAS CLAVE</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><i>  An&aacute;lisis de &Iacute;tem, Evaluaci&oacute;n Educacional, Pruebas de Selecci&oacute;n M&uacute;ltiple</i></font></p> <hr noshade size="1">     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <b>SUMMARY</b></font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Introduction:</b> The aim of this study was to evaluate   the effect of reducing the number of response options   per question on the psychometric indicators of an   exam for admission to postgraduate medical studies,   at University of Antioquia, in Medell&iacute;n, Colombia.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Methodology:</b> Application of psychometric assessment   indexes from the perspective or two theories:   the classical of measurement and the item response,   to a test of 70 questions, applied in 2014 to   2.539 candidates. The least frequently chosen distractor   was eliminated and randomly replaced by one of   the three remaining ones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Results:</b> Only 52.9% of the questions had three   functional distractors. No difference was found in the   difficulty, discrimination, standard error of measurement,   Cronbach's alpha and the coefficient of biserial   correlation (classical measurement theory). Also, there   was no difference in the extent of item difficulty or   ability of people (item response theory). The test with   three options retained a good fit.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Conclusion:</b> Multiple choice tests with three response   options performed as well as their four options   counterparts.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> <b>KEY WORDS</b>   </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><i>Educational Measurement, Item Analysis, Multiple   Choice Questions</i></font></p> <hr noshade size="1">     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMO</b> </font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Introdu&ccedil;&atilde;o:</b> o objetivo deste estudo foi avaliar o efeito   da redu&ccedil;&atilde;o do n&uacute;mero de op&ccedil;&otilde;es de resposta por   pergunta sobre os indicadores psicom&eacute;tricos de um exame de rendimento a estudos m&eacute;dicos de p&oacute;s-gradua&ccedil;&atilde;o.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Metodologia:</b> aplica&ccedil;&atilde;o de &iacute;ndices de avalia&ccedil;&atilde;o psicom&eacute;trica   desde a perspectiva de duas teorias: a cl&aacute;ssica   da medi&ccedil;&atilde;o e a de resposta ao item, a uma prova   de 70 perguntas feita a 2.539 aspirantes a ingressar &agrave;s   p&oacute;s-gradua&ccedil;&otilde;es m&eacute;dico-cir&uacute;rgicos da Universidade   de Antioquia no ano de 2014. Eliminou-se a op&ccedil;&atilde;o de   resposta eleita com menor frequ&ecirc;ncia e se a substituiu por casualidade de entre as tr&ecirc;s restantes.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Resultados:</b> s&oacute; 52,9% das perguntas tiveram tr&ecirc;s   op&ccedil;&otilde;es funcionais de resposta. N&atilde;o se encontrou diferen&ccedil;a   na dificuldade, a discrimina&ccedil;&atilde;o, o erro regular   da medi&ccedil;&atilde;o, o alfa de Cronbach nem o coeficiente   de correla&ccedil;&atilde;o bisserial (teoria cl&aacute;ssica da medi&ccedil;&atilde;o);   tamb&eacute;m n&atilde;o na medida de dificuldade dos itens ou   de habilidade das pessoas (teoria de resposta ao item)   entre as provas com tr&ecirc;s e quatro op&ccedil;&otilde;es de resposta. A prova com tr&ecirc;s op&ccedil;&otilde;es conservou um bom ajuste.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Conclus&atilde;o:</b> uma prova com tr&ecirc;s op&ccedil;&otilde;es de resposta   se comportou t&atilde;o bem como sua contraparte de quatro op&ccedil;&otilde;es.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>PALAVRAS CHAVE</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><i>An&aacute;lises de Item, Avalia&ccedil;&atilde;o Educacional, Provas de   Sele&ccedil;&atilde;o M&uacute;ltipla</i></font></p>        <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>C&oacute;mo citar:</b> Salazar Blanco OF, V&eacute;lez CM, Zuleta Tob&oacute;n JJ. Evaluaci&oacute;n de conocimientos con ex&aacute;menes de selecci&oacute;n m&uacute;ltiple: &iquest;tres o cuatro opciones de respuesta? Experiencia con el examen de admisi&oacute;n a posgrados m&eacute;dico-quir&uacute;rgicos en la Universidad de Antioquia. Iatreia. 2015 Jul-Sep;28(3): 300-311. DOI <a href="http://dx.doi.org/10.17533/udea.iatreia.v28n3a08" target="_blank">10.17533/udea.iatreia.v28n3a08</a>.</font></p> <hr noshade size="1">       <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>INTRODUCCI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La evaluaci&oacute;n, en su acepci&oacute;n pedag&oacute;gica, es amplia   porque est&aacute; en relaci&oacute;n con cualquier proceso por   medio del cual se analizan una o varias caracter&iacute;sticas   de un estudiante, de un grupo de ellos o de un ambiente   educativo para valorarlos de acuerdo con unos   criterios o puntos de referencia con el fin de emitir un   juicio (1). La selecci&oacute;n es uno de los fundamentos de   la evaluaci&oacute;n educativa, presente desde las pr&aacute;cticas   chinas de selecci&oacute;n extraescolar y posteriormente en la Edad Media, para evitar las presiones burocr&aacute;ticas (1). En la actualidad es com&uacute;n que se hagan pruebas de selecci&oacute;n de aspirantes a programas de pregrado y posgrado en las instituciones de educaci&oacute;n superior, algunas orientadas exclusivamente a los conocimientos, y otras, que pretenden evaluar m&aacute;s integralmente al aspirante, incluyen tambi&eacute;n las habilidades y actitudes, de acuerdo con el programa. Las pruebas de evaluaci&oacute;n de selecci&oacute;n m&uacute;ltiple son los instrumentos m&aacute;s estudiados y m&aacute;s usados, y se ha demostrado que ofrecen buen poder discriminativo, buena confiabilidad o fiabilidad, caracter&iacute;sticas de la validez de una prueba de gran importancia para se&ntilde;alarla como objetiva, con la ventaja log&iacute;stica y de costos para aplicarla a un n&uacute;mero grande de evaluados (2-4).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los elementos m&aacute;s discutidos en la elaboraci&oacute;n   de las pruebas de selecci&oacute;n m&uacute;ltiple es el n&uacute;mero   de opciones de respuesta adecuado para medir de   manera confiable el conocimiento sin que se alteren   la complejidad ni el poder discriminativo (5). Es frecuente   que en las pruebas con cuatro o cinco opciones   de respuesta se incluyan una o dos alternativas   muy obvias o poco razonables por el simple hecho   de cumplir con la directriz general del n&uacute;mero de   opciones (6). Estas opciones aumentan el tiempo de   elaboraci&oacute;n de la prueba por parte del docente y el de   lectura para el evaluado. Las pruebas con tres opciones   de respuesta ofrecen la ventaja de ser m&aacute;s f&aacute;ciles   de construir para los docentes, con menor riesgo de   incluir alternativas inadecuadas y menor tiempo de   lectura, lo cual posibilita el aumento del n&uacute;mero de   preguntas con lo que se logra una mayor cobertura de   contenidos y mayor confiabilidad o reproducibilidad   de la prueba (7). M&aacute;s por tradici&oacute;n que por demostraciones   objetivas, algunos siguen recomendando   el uso de cuatro opciones, con el argumento de que   tienen mayor complejidad y mejor poder discriminativo   y con este concepto se construyen las pruebas de   selecci&oacute;n m&uacute;ltiple de los ex&aacute;menes del Estado, como   ICFES y ECAES, y las de las universidades, incluido el   examen de admisi&oacute;n a los posgrados m&eacute;dico-quir&uacute;rgicos   de la Facultad de Medicina de la Universidad de   Antioquia.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El n&uacute;mero de opciones de respuesta de un examen   de selecci&oacute;n m&uacute;ltiple puede variar dependiendo del   escenario educativo y del tipo de evaluaci&oacute;n que se   pretenda hacer. Algunos autores han demostrado   que las preguntas con tres opciones tienen un adecuado   poder de discriminaci&oacute;n (6), sin embargo, la   evaluaci&oacute;n de la pertinencia de tres, cuatro o cinco   opciones de respuesta para las preguntas de selecci&oacute;n   m&uacute;ltiple se ha hecho predominantemente en ex&aacute;menes   no m&eacute;dicos (8). En Colombia, seg&uacute;n el conocimiento   de los autores, no existen publicaciones sobre   este tema en &aacute;reas de la salud; por lo tanto, el objetivo   de este estudio fue evaluar los cambios en las caracter&iacute;sticas   de la prueba, los resultados y las decisiones   al pasar de un instrumento de selecci&oacute;n m&uacute;ltiple con   cuatro a uno con tres opciones de respuesta en un   proceso de evaluaci&oacute;n de m&eacute;dicos generales. Esta   ser&iacute;a una buena opci&oacute;n para pr&oacute;ximos ex&aacute;menes de   admisi&oacute;n, generalizable a otras pruebas en la Facultad   y a otras facultades y universidades del &aacute;rea de la   salud del pa&iacute;s.</font></p>        <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>METODOLOG&Iacute;A</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Estudio descriptivo para el cual se utilizaron dos enfoques   te&oacute;ricos de la medici&oacute;n: la teor&iacute;a cl&aacute;sica y la   teor&iacute;a de respuesta al &iacute;tem. Se tuvieron en cuenta los   ex&aacute;menes de 2.539 aspirantes a ingresar a 21 programas   de posgrado cl&iacute;nico-quir&uacute;rgicos de la Facultad   de Medicina de la Universidad de Antioquia, Medell&iacute;n,   Colombia, en el a&ntilde;o 2014. Los datos se utilizaron   de manera an&oacute;nima, identificados por un c&oacute;digo y   la &uacute;nica informaci&oacute;n que se tom&oacute; fue la universidad   donde cada candidato termin&oacute; el pregrado, y el posgrado   al cual aspiraba; por lo tanto, esta investigaci&oacute;n   no requiri&oacute; evaluaci&oacute;n de un Comit&eacute; de &Eacute;tica.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La prueba consta de 70 preguntas de selecci&oacute;n m&uacute;ltiple   constituidas por un tallo con la descripci&oacute;n de   un caso cl&iacute;nico de cualquiera de las especialidades a   las cuales aspiran los evaluados y cuatro alternativas   de respuesta, que pueden ser de dos tipos: el primero   con una sola respuesta verdadera, y el segundo, con   todas las opciones de respuesta verdaderas, pero con   una de ellas m&aacute;s adecuada que el resto para la situaci&oacute;n   cl&iacute;nica espec&iacute;fica (9).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las preguntas las elaboran los profesores de las diferentes   especialidades siguiendo unas directrices: incluir   temas pertinentes para el perfil epidemiol&oacute;gico   de Colombia y para las condiciones cl&iacute;nicas que con mayor frecuencia encuentran los m&eacute;dicos generales   que ejercen en cualquiera de los servicios institucionales:   urgencias, consulta externa, hospitalizaci&oacute;n de   bajo nivel de complejidad, programas de promoci&oacute;n   y prevenci&oacute;n o atenci&oacute;n primaria. Una comisi&oacute;n de   cuatro profesores con experiencia en elaboraci&oacute;n de   pruebas eval&uacute;a una a una las preguntas con el fin de   garantizar su validez. Se intenta que estos casos cl&iacute;nicos   exijan la integraci&oacute;n de diferentes dominios del   aprendizaje, se requiere la memoria o recuerdo, pero   tambi&eacute;n la comprensi&oacute;n de los conceptos, su aplicaci&oacute;n   y an&aacute;lisis, es decir, cuatro de los seis objetivos del   dominio cognoscitivo del aprendizaje humano de la   teor&iacute;a de Bloom susceptibles de evaluaci&oacute;n con este   tipo de preguntas (10,11). En este proceso, se dejan   en el tallo de la pregunta los elementos estrictamente   necesarios para entender la situaci&oacute;n problem&aacute;tica   que se presenta; en caso necesario se mejora la redacci&oacute;n   para que quede bien desde los puntos de vista   gramatical y ortogr&aacute;fico, adem&aacute;s de clara y concisa;   se privilegian las preguntas positivas y se dejan como   negativas solo aquellas en las que realmente tiene   utilidad cl&iacute;nica que el aspirante conozca un aspecto   negativo; se evita que haya trucos o aspectos diferenciadores   para la respuesta correcta que no sean los   verdaderamente importantes desde el punto de vista   cl&iacute;nico. Con respecto a las opciones de respuesta, se   busca que sean alternativas incorrectas, pero que parezcan   admisibles, es decir, que no sean descartadas   de manera obvia, sino que tengan la posibilidad de   atraer a los aspirantes que tienen menos, pero no a los   que tienen m&aacute;s conocimiento del tema; que sean de   igual extensi&oacute;n y con forma y estilo gramatical similares,   concordantes con la pregunta, que no den claves   de respuesta para esa o para otra pregunta; ordenadas   de manera aleatoria o en un orden l&oacute;gico cuando la   pregunta lo amerite (num&eacute;rico, por pasos); sin doble   negaci&oacute;n y sin alternativas como <i>ninguna</i> o <i>todas las   anteriores</i> o con combinaci&oacute;n de opciones (ejemplo:   ''a y c'') (2). Como opciones de respuestas incorrectas   se privilegian alternativas de las que se sabe que existe   evidencia en contra, pero no es infrecuente que en la   pr&aacute;ctica diaria las aplique un m&eacute;dico con conductas   inadecuadas o desactualizadas, es decir, se sigue la recomendaci&oacute;n   de expertos para la elaboraci&oacute;n de las   opciones de respuesta: ''para redactar los <i>distractores</i>   use los errores t&iacute;picos de los estudiantes''(2), cada   <i>distractor</i> debe utilizar las ideas err&oacute;neas comunes   con respecto a la respuesta correcta (3,4,6).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>An&aacute;lisis seg&uacute;n la teor&iacute;a cl&aacute;sica de medici&oacute;n</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se calcul&oacute; la dificultad de cada pregunta mediante la   proporci&oacute;n de aspirantes que la respondieron de manera   correcta, seg&uacute;n la respuesta asignada por el especialista   que la elabor&oacute; y corroborada por el comit&eacute;   de preguntas. Algunos autores cuestionan el nombre   de ''dificultad'' y proponen en su reemplazo el de ''facilidad'',   porque a mayor valor del &iacute;ndice de dificultad,   m&aacute;s f&aacute;cil es la pregunta. Se calcul&oacute; la proporci&oacute;n   de aspirantes que opt&oacute; por cada una de las opciones   incorrectas y se tom&oacute; el umbral que con m&aacute;s frecuencia   se propone en la literatura para considerar una   opci&oacute;n de respuesta como no funcional: que sea elegida   por menos de cinco por ciento de los evaluados   (8,12). Se evalu&oacute; la discriminaci&oacute;n mediante el &iacute;ndice   y el coeficiente de discriminaci&oacute;n. El &iacute;ndice de discriminaci&oacute;n   de cada pregunta se calcul&oacute; como el n&uacute;mero   de respuestas correctas dadas por el 27% de aspirantes   con mejor resultado global de la prueba menos   el n&uacute;mero de respuestas correctas dadas por el 27%   de aspirantes con los resultados inferiores, dividido   por el mayor n&uacute;mero de aspirantes en uno de estos   grupos, en este caso 686 del grupo de rendimiento   inferior (en el 27% superior quedaron 685 aspirantes)   (13). Este &iacute;ndice fluct&uacute;a entre &#45;1 y &#43;1 y cuanto mayor   sea su valor, mayor es su capacidad para diferenciar   entre los evaluados con calificaciones altas y bajas. Se   categoriz&oacute; seg&uacute;n la recomendaci&oacute;n frecuentemente   asignada en la literatura a Ebel: menor de cero, p&eacute;sima;   de cero a 0,2, pobre; de 0,2 a 0,29, regular; de 0,3   a 0,39, buena; y mayor de 0,39 excelente (14,15). Para   el cociente de discriminaci&oacute;n se utiliz&oacute; el coeficiente   de correlaci&oacute;n de punto biserial que representa la correlaci&oacute;n   entre cada pregunta y el resultado total de   la prueba, que adem&aacute;s de tener en cuenta los resultados   de todos los evaluados excluye la pregunta que se   est&aacute; evaluando del puntaje global del evaluado. Este   coeficiente eval&uacute;a qu&eacute; tanto una pregunta predice el   resultado global de la prueba o, lo que es lo mismo, si   los mejor evaluados son los que contestan de manera   correcta las preguntas (13). Se calcul&oacute; la confiabilidad   del examen mediante el alfa de Cronbach, que es una   medida de la reproducibilidad, en este caso utilizada   para evaluar la consistencia interna de la prueba, cuyo valor fluct&uacute;a entre 0 y 1. Un valor alto significa   que si se repitiera la misma prueba a los mismos evaluados   sin que cambiaran las condiciones (entre ellas   que los evaluados no aprendieran u olvidaran nada   en el per&iacute;odo entre las evaluaciones), obtendr&iacute;an resultados   similares (16). Una interpretaci&oacute;n alternativa   es la probabilidad de que dos personas con el mismo   nivel de habilidad o conocimiento obtengan la misma   calificaci&oacute;n en la prueba.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En evaluaciones para la toma de la decisi&oacute;n de pasar   o no un umbral, la consecuencia de resultados falsos   positivos o falsos negativos es m&aacute;s importante que el   valor absoluto del coeficiente de confiabilidad; por lo   tanto, se ha propuesto el &iacute;ndice de reproducibilidad   paso/falla (<i>Pass/failure reproducibility index</i>), que estima   el grado de confianza que se tiene en la decisi&oacute;n   tomada con los resultados de la evaluaci&oacute;n (16).   Este &iacute;ndice fluct&uacute;a entre 0 y 1 y eval&uacute;a la probabilidad   de tomar la misma decisi&oacute;n si se repitiera la prueba.   Cada programa tiene su propio punto de corte, pero   para hacer este an&aacute;lisis se tomaron los primeros 108   puntajes (n&uacute;mero total de cupos en esta convocatoria)   para evaluar la concordancia de la decisi&oacute;n entre   la prueba con tres o con cuatro opciones de respuesta   y para ello se utilizaron las tablas de Subkoviak (17).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Teor&iacute;a de respuesta al &iacute;tem</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El an&aacute;lisis de las pruebas con la teor&iacute;a de respuesta   al &iacute;tem, y espec&iacute;ficamente con la metodolog&iacute;a Rasch,   tiene como ventaja sobre el an&aacute;lisis con la teor&iacute;a cl&aacute;sica   de medici&oacute;n que tiene en cuenta de manera simult&aacute;nea   el nivel de conocimiento de quienes toman   la prueba y el nivel de dificultad de las preguntas, con   lo cual se logra que los resultados sean independientes   de la habilidad de la poblaci&oacute;n estudiada, situaci&oacute;n   que no sucede con los resultados de los an&aacute;lisis   de teor&iacute;a cl&aacute;sica, en los que no se puede diferenciar   ni separar la habilidad de las personas de la dificultad   de los &iacute;tems. Los &iacute;ndices y estad&iacute;sticos utilizados tanto   para personas como para &iacute;tems fueron: ra&iacute;z cuadrada   del error medio (MNSQ); estad&iacute;sticos de ajuste pr&oacute;ximo   (<i>infit</i>) y lejano (<i>outfit</i>); separaci&oacute;n y confiabilidad;   &iacute;ndice de dificultad de los &iacute;tems y de habilidad de las   personas y confiablidad general de la prueba.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los &iacute;ndices de dificultad de los &iacute;tems y de la habilidad   de las personas para contestar correctamente la   pregunta se dan en una medida logar&iacute;tmica (<i>measure</i>,   por lo general entre &#45;3 y &#43;3). En el caso de los &iacute;tems, a   mayor negatividad de la medida m&aacute;s f&aacute;cil es el &iacute;tem, y   a mayor positividad, mayor es la dificultad. En el caso   de la medici&oacute;n de las personas, a mayor negatividad   de la medida menor es la habilidad del aspirante para   contestar las preguntas, y a mayor positividad mayor   es la habilidad del aspirante para contestar correctamente.   Resultados cercanos a 0, en ambos casos, significan   que el &iacute;tem tiene una dificultad media y que el   aspirante tiene una habilidad promedio. El mapa de   Wright permite identificar gr&aacute;ficamente esta relaci&oacute;n   entre &iacute;tems y personas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La medida de ajuste lejano (<i>outfit</i>) de la persona eval&uacute;a   el comportamiento inesperado del evaluado en   las preguntas alejadas de su nivel de conocimiento,   mientras que la medida de ajuste lejano (<i>outfit</i>) del   &iacute;tem mide el comportamiento inesperado de la pregunta   en los evaluados alejados del nivel de dificultad   de esa pregunta. Esto quiere decir que el modelo   Rasch detecta cu&aacute;ntos aspirantes con baja habilidad   responden preguntas de alta dificultad y viceversa, y   cu&aacute;ntos &iacute;tems de baja dificultad son fallados por aspirantes   con alta habilidad y viceversa, situaciones que   reflejan adivinanza o descuido al contestar. La diferencia   entre el <i>outfit</i> y el <i>infit</i> radica en que el primero   eval&uacute;a valores extremos, mientras que el segundo   tiene su foco centrado en respuestas inesperadas alrededor   del promedio. Unos <i>infit</i> aceptables indican   que las preguntas se ajustan bien al grupo de evaluados   para quienes se dirigieron las preguntas y unos   <i>outfit</i> aceptables indican que la prueba est&aacute; libre de   preguntas redundantes, irrelevantes o dependientes   entre ellas. El an&aacute;lisis del ajuste pr&oacute;ximo y lejano se   hace con base en los residuales del modelo y se presenta   con la media cuadr&aacute;tica (<i>Mean Square</i> MNSQ)   y los &iacute;ndices estandarizados (ZSTD). MNSQ eval&uacute;a la   precisi&oacute;n de la estimaci&oacute;n tanto para personas como   para &iacute;tems y refleja el ''ruido no modelado'' u otras   fuentes de variabilidad en los datos, para lo cual se   acepta que valores entre 0,7 y 1,3 reflejan un buen   ajuste. ZSTD muestra la significaci&oacute;n estad&iacute;stica de las   respuestas inesperadas observadas, y se espera que   sus valores est&eacute;n entre -2 y 2.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La separaci&oacute;n de personas e &iacute;tems permite evaluar   el poder de la medici&oacute;n para discriminar entre aspirantes   con diferentes niveles de habilidad, y entre   preguntas con diferentes niveles de dificultad. Esto quiere decir que si la escala separa adecuadamente, es   posible diferenciar los aspirantes con baja habilidad,   habilidad promedio y alta habilidad, de tal manera   que la prueba permita seleccionar efectivamente a los   de mayor habilidad, y separar adecuadamente entre   &iacute;tems de baja dificultad, dificultad promedio y alta dificultad,   de tal modo que se excluyan de la prueba las   preguntas extremadamente f&aacute;ciles y extremadamente   dif&iacute;ciles. Para ser adecuada, la separaci&oacute;n de &iacute;tems y   personas debe ser de al menos 3 errores est&aacute;ndar, y   esta medida se correlaciona con la confiabilidad, medida   con el alfa de Cronbach, la cual debe ser mayor   de 0,7.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para identificar diferencias entre una prueba con   cuatro y una con tres opciones de respuesta, de cada   pregunta se elimin&oacute; la opci&oacute;n menos elegida por los   evaluados y de manera aleatoria se asign&oacute; una nueva   respuesta de las tres restantes. Diferentes autores   han utilizado esta estrategia (5), la cual asume que el   evaluado que no conoce la respuesta correcta elige   al azar entre las diferentes opciones (8). Se presentan   las medidas de an&aacute;lisis de &iacute;tem para cada versi&oacute;n de   la prueba y se hizo comparaci&oacute;n de la dificultad y la   discriminaci&oacute;n mediante los l&iacute;mites de acuerdo de   Bland-Altman, m&eacute;todo gr&aacute;fico en el que el cero en el   eje Y representa un acuerdo perfecto y en el cual para   considerar que las mediciones con los dos m&eacute;todos   son bastante similares, y posiblemente intercambiables,   m&aacute;s del 95% de las diferencias entre las mediciones   por los dos m&eacute;todos en estudio se deben ubicar   entre m&aacute;s y menos dos desviaciones est&aacute;ndar alrededor   de la media de la diferencia (l&iacute;mites de acuerdo)   (18).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para los an&aacute;lisis estad&iacute;sticos se utilizaron los programas   Excel, SPSS 21.0, Winsteps 3.70.0 y Epidat 4.0.</font></p>        <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>RESULTADOS</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El examen const&oacute; de 70 preguntas, cada una con cuatro   opciones de respuesta y fue respondido por 2.539   aspirantes. En 33 preguntas (47,1%) las tres opciones   incorrectas fueron funcionales, 29 (41,4%) tuvieron   dos opciones incorrectas funcionales, 7 (10%) tuvieron   solo una opci&oacute;n incorrecta funcional y una pregunta   (1,4%) no tuvo opciones incorrectas funcionales, es   decir, el 52,9% de las preguntas tuvieron al menos una   opci&oacute;n incorrecta que fue atractiva para menos del   5% de los aspirantes. En la <a href="img/revistas/iat/v28n3/v28n3a08t1.jpg" target="_blank">tabla 1</a> se presenta el an&aacute;lisis   de la prueba con cuatro y con tres opciones de   respuesta desde la teor&iacute;a cl&aacute;sica de la medici&oacute;n; la diferencia   m&aacute;s importante es el aumento de preguntas   con opciones de respuesta funcionales con la prueba   de tres opciones, mientras que los diferentes &iacute;ndices y   dem&aacute;s par&aacute;metros de evaluaci&oacute;n son bastante similares   entre ellas.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los &iacute;ndices m&aacute;s importantes para evaluar las pruebas   desde esta teor&iacute;a son la dificultad y la discriminaci&oacute;n.   Las <a href="#f1">figuras 1</a> y <a href="#f2">2</a> presentan la evaluaci&oacute;n del acuerdo   entre las dos modalidades de la prueba mediante los   gr&aacute;ficos de Bland Altman; en ambos casos se observa   que menos del 5% de las preguntas est&aacute;n por fuera de   los l&iacute;mites de acuerdo y que la diferencia para estos   dos &iacute;ndices entre las dos pruebas es num&eacute;ricamente   peque&ntilde;a (eje Y).</font></p>       <p align="center"><a name="f1"></a><img src="/img/revistas/iat/v28n3/v28n3a08f1.jpg"></p>       <p align="center"><a name="f2"></a><img src="/img/revistas/iat/v28n3/v28n3a08f2.jpg"></p>      <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Cada programa recibe un n&uacute;mero m&aacute;ximo preestablecido   de aspirantes, elegido en orden descendente   de calificaci&oacute;n entre los aspirantes a &eacute;l, independientemente   de la calificaci&oacute;n obtenida con respecto al   total de aspirantes. La <a href="#t2">tabla 2</a> muestra que si el examen   hubiera tenido preguntas con tres opciones de   respuesta, en vez de cuatro, la coincidencia en la decisi&oacute;n   hubiera sido del 95,4% y solo en 5 casos de los   2.539 (0,2%) se habr&iacute;a tomado una decisi&oacute;n diferente.</font></p>       <p align="center"><a name="t2"></a><img src="/img/revistas/iat/v28n3/v28n3a08t2.jpg"></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="img/revistas/iat/v28n3/v28n3a08t3.jpg" target="_blank">tabla 3</a> presenta el an&aacute;lisis de las dos modalidades   de la prueba desde la teor&iacute;a de respuesta al &iacute;tem con   el modelo de Rasch. Aunque no es el objetivo del estudio,   se observa que hubo un ajuste adecuado de los   datos obtenidos con los modelos, sustentado con los   rangos de valores de los &iacute;ndices de ajuste pr&oacute;ximo y   lejano y, lo importante para el objetivo del estudio,   se observa bastante similitud entre las medidas evaluadas.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El mapa de Wright representa la habilidad de las personas   y la dificultad de los &iacute;tems; se observa que los   &iacute;tems 13 y 20 fueron los m&aacute;s sencillos y los &iacute;tems 47 y   39, los m&aacute;s dif&iacute;ciles (<a href="img/revistas/iat/v28n3/v28n3a08f3.jpg" target="_blank">figura 3</a>).</font></p>            <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El n&uacute;mero de personas que desajustan en el modelo   es diferente, siendo mejor para la prueba con tres   opciones. La separaci&oacute;n es mejor con la prueba de   cuatro opciones, pero la diferencia es muy peque&ntilde;a.   Seg&uacute;n esto, tener una opci&oacute;n de respuesta m&aacute;s no le   agrega valor a la prueba. La medici&oacute;n de la dificultad   de las preguntas es bastante similar, como lo muestra   el gr&aacute;fico de Bland Altman (<a href="#f4">figura 4</a>).</font></p>       <p align="center"><a name="f4"></a><img src="/img/revistas/iat/v28n3/v28n3a08f4.jpg"></p>        <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>DISCUSI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El presente estudio, realizado con una muestra grande   y representativa de m&eacute;dicos de diferentes universidades   y sitios del pa&iacute;s, confirma lo encontrado por otros   autores en estudiantes o graduados de otras profesiones:   una prueba con tres opciones de respuesta no es   inferior en dificultad y capacidad de discriminar a los   evaluados a una prueba con cuatro opciones.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La propuesta de disminuir el n&uacute;mero de opciones de   respuesta en las pruebas de evaluaci&oacute;n de conocimientos   parte del hecho reconocido que con mucha   frecuencia una o m&aacute;s de esas opciones no aporta a   la dificultad o al poder de discriminaci&oacute;n de la prueba.   Un estudio que evalu&oacute; el funcionamiento de las   opciones de respuesta en siete ex&aacute;menes para estudiantes   de enfermer&iacute;a encontr&oacute; que solo la mitad de   las opciones incorrectas de respuesta fueron funcionales   y solo en el 13,8% de las 514 preguntas todas las   opciones de respuesta incorrectas fueron clasificadas   como funcionales (6). En este estudio evaluaron el   efecto de disminuir el n&uacute;mero de opciones de respuesta   incorrecta de tres (en las preguntas con cuatro   opciones) a dos (en las que solo tienen tres opciones),   y encontraron poca diferencia en la dificultad de las   preguntas. Estos hallazgos se reproducen en nuestro   estudio, en el que la mitad de las preguntas tuvieron   al menos una opci&oacute;n incorrecta que fue elegida por   menos del 5% de los aspirantes y no se encontraron   diferencias entre los distintos &iacute;ndices y resultados de   la prueba con tres o cuatro opciones. La inclusi&oacute;n en   un examen de opciones de respuesta no funcionales   no mejora la discriminaci&oacute;n o el poder de evaluaci&oacute;n   del conocimiento y en cambio s&iacute; aumenta el tiempo   de lectura o de an&aacute;lisis y en ocasiones dan claves a   los evaluados, con lo que se incrementa la posibilidad   de responder correctamente una pregunta sin tener   conocimiento del tema (19).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un metaan&aacute;lisis con 27 estudios que incluy&oacute; pruebas   de varias disciplinas y ciencias, realizados con diferentes   objetivos y en diversos contextos, mostr&oacute; que   disminuir de cuatro a tres las opciones de respuesta   en los ex&aacute;menes reduce el nivel de dificultad de los   &iacute;tems solo en 0,04, incrementa el poder de discriminaci&oacute;n   en 0,03 y la confiabilidad en 0,02 (5). Igualmente,   en los estudios que limitaron la comparaci&oacute;n a pruebas   con cinco o cuatro opciones, recomiendan las de   cuatro. El autor concluye que las pruebas con tres opciones   son &oacute;ptimas para la mayor&iacute;a de los escenarios   (5). Incluso con enfoques te&oacute;ricos con demostraciones   matem&aacute;ticas, diferentes autores coinciden en que   tres es el n&uacute;mero &oacute;ptimo de opciones de respuesta   para un examen de selecci&oacute;n m&uacute;ltiple (19).</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los enfoques emp&iacute;ricos para el an&aacute;lisis del n&uacute;mero   adecuado de opciones de respuesta han eliminado el   &iacute;tem incorrecto con menor discriminaci&oacute;n, el menos   seleccionado o simplemente por azar e igualmente   esta opci&oacute;n se ha reemplazado de diferentes maneras,   por azar o por asignaci&oacute;n. En general, los autores   concluyen que no se presentan cambios en la discriminaci&oacute;n   o en la confiabilidad o son insignificantes   desde el punto de vista pr&aacute;ctico (19). Nuestro estudio,   llevado a cabo en un campo educativo donde se ha   explorado muy poco este aspecto, la medicina, est&aacute;   en la misma direcci&oacute;n de estos resultados, con corroboraci&oacute;n   de los hallazgos con dos enfoques te&oacute;ricos   diferentes de la medici&oacute;n.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Existen argumentos pr&aacute;cticos para respaldar pruebas   con menos opciones de respuesta, algunos de los cuales   no se han evaluado objetivamente, pero parecen   plausibles. Los profesores generalmente le invierten   mucho tiempo al tallo y descuidan la calidad de las   opciones de respuesta con lo cual, muy posiblemente,   a mayor n&uacute;mero de dichas opciones, m&aacute;s probabilidad   hay de cometer errores en la elaboraci&oacute;n de   las mismos; por lo tanto, al disminuirlas se aumentan   la calidad y la validez de la pregunta; las pruebas con   menos opciones de respuesta pueden incluir mayor   n&uacute;mero de preguntas en el mismo tiempo que aquellas   m&aacute;s cortas con m&aacute;s opciones, con lo cual autom&aacute;ticamente   se incrementa la confiabilidad de la   prueba (20), se pueden abarcar m&aacute;s temas en la evaluaci&oacute;n,   se disminuyen los costos de impresi&oacute;n si no   se va a aumentar el n&uacute;mero de preguntas, hay menos   distracci&oacute;n para los evaluados y se van a sentir menos presionados o van a tener m&aacute;s tiempo y habr&aacute; menos   oportunidad de aportar claves para algunas respuestas   (19).La reducci&oacute;n del n&uacute;mero de opciones de respuesta   mejora la eficiencia en el uso del tiempo tanto   para el profesor como para el evaluado.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aun con estos resultados, hay cierta resistencia de las   instituciones y de los docentes a usar preguntas con   solo tres opciones de respuesta y contin&uacute;an con las   de cuatro o incluso cinco, posiblemente por el peso   que tiene la tradici&oacute;n en el proceso evaluativo (6).   Por otro lado, como llaman la atenci&oacute;n algunos autores,   posiblemente m&aacute;s importante que el n&uacute;mero   sea la calidad de las opciones de respuesta y reconocen   que no existe respaldo psicom&eacute;trico para obligar   a que todas las preguntas tengan el mismo n&uacute;mero   de opciones de respuesta, porque de manera natural   una puede tener m&aacute;s o menos opciones que parezcan   l&oacute;gicas (6,21), lo cual puede depender tambi&eacute;n del   prop&oacute;sito de la prueba (20). En este sentido, una recomendaci&oacute;n   es escribir de entrada tantas opciones   de respuesta que suenen razonables como sea posible   y en un segundo paso un comit&eacute; evaluador elige las   opciones m&aacute;s apropiadas (8,22). Las pruebas bien elaboradas,   con buenas opciones de respuesta, son las   mejores, independientemente del n&uacute;mero de tales   opciones. Para lograr esto, se deben buscar opciones   de respuesta bien elaboradas, centradas en temas relevantes   y revisadas por expertos.</font></p>     ]]></body>
<body><![CDATA[<p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Aunque no fue objetivo de este estudio evaluar la   prueba en s&iacute;, los valores alfa de Cronbach obtenidos   ameritan al menos un comentario. Este &iacute;ndice   no mide una propiedad inherente de la prueba, sino   una propiedad conjunta entre la prueba y los evaluados   y su valor es menor cuanto m&aacute;s homog&eacute;nea   sea la poblaci&oacute;n estudiada. Adicionalmente, aunque   se trata de una prueba de medicina, en ella se eval&uacute;an   m&uacute;ltiples especialidades y se incluyen diferentes   competencias de la misma, como el diagn&oacute;stico,   el tratamiento, la rehabilitaci&oacute;n y algunos aspectos   te&oacute;ricos no aplicados, lo cual puede explicar que no   se obtuvieran los valores altos esperados tradicionalmente.   De todas maneras, el objetivo de esta prueba   era la evaluaci&oacute;n del cambio, y aunque hubo una disminuci&oacute;n   con la prueba de tres opciones, este cambio   fue poco significativo.</font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El presente estudio tiene varias fortalezas: el tama&ntilde;o   grande de la muestra, la representatividad amplia de   los evaluados, la utilizaci&oacute;n de dos enfoques te&oacute;ricos   de medici&oacute;n y la concordancia con estudios similares   en otras &aacute;reas. Una posible debilidad es la forma en   que se obtuvo la prueba con tres opciones de respuesta,   mediante un criterio estad&iacute;stico para eliminar la   opci&oacute;n menos elegida, y la asignaci&oacute;n por azar de la   posible respuesta del evaluado a esta pregunta. Este   es uno de los m&eacute;todos utilizados en la literatura, pero   asume que el evaluado est&aacute; eligiendo sus respuestas   por azar; sin embargo, se sabe que ante el desconocimiento   de una de ellas, los evaluados tienen mecanismos   alternativos de elegir la mejor respuesta, buscando   claves en el contenido o en la estructura de la   pregunta. Dado que para la elaboraci&oacute;n final de estas   preguntas se tienen en cuenta todas las recomendaciones   para evitar que esta misma situaci&oacute;n suceda,   es poco probable que en la vida real el evaluado pudiera   encontrar claves en esa estructura. No es viable   aplicar la misma prueba a los mismos evaluados con   tres y cuatro opciones, porque para la segunda oportunidad   ya las condiciones no ser&iacute;an las mismas; por   lo tanto, se considera que esta metodolog&iacute;a es v&aacute;lida   para la pregunta.</font></p>        <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>CONCLUSI&Oacute;N</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Con esta demostraci&oacute;n objetiva, se recomienda que   se pase a preguntas con solo tres opciones de respuesta,   que se utilicen las de cuatro opciones solo   cuando por consenso se acuerde que todas parecen   razonables y que incluso se baje a dos cuando se considere   que un concepto requiere evaluaci&oacute;n, pero no   es posible redactar m&aacute;s opciones de respuesta que   parezcan l&oacute;gicas. Igualmente, se recomienda que se   replantee la directriz r&iacute;gida de tener un n&uacute;mero fijo   de opciones de respuesta en los ex&aacute;menes y que estos   dependan de las particularidades de cada pregunta.</font></p>        <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>CONFLICTO DE INTER&Eacute;S</b></font></p>     <p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ninguno que declarar.</font></p>      <p><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>REFERENCIAS BIBLIOGR&Aacute;FICAS</b></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif"> 1. Gimeno Sacrist&aacute;n J. La evaluaci&oacute;n en la ense&ntilde;anza.   En: Sacrist&aacute;n Gimeno J, G&oacute;mez P&eacute;rez AI, editores. Comprender y transformar la ense&ntilde;anza. 5&#170; ed. Madrid:   Morata; 1996. p. 334-97.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000080&pid=S0121-0793201500030000800001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">2. Haladyna TM, Downing SM, Rodriguez MC. A Review   of multiple-choice item-writing guidelines   for classroom assessment. Appl Meas Educ. 2002   Jul;15(3):309-33.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000082&pid=S0121-0793201500030000800002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">3. Garc&iacute;a-Garro AJ, Ramos-Ortega G, D&iacute;az de Le&oacute;n-   Ponce MA, Olvera-Ch&aacute;vez A. Instrumentos de evaluaci&oacute;n.   Rev Mex Anestesiol. 2007;30(3):158-64.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000084&pid=S0121-0793201500030000800003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">4. Moreno R, Mart&iacute;nez RJ, Mu&ntilde;iz J. Directrices para la   construcci&oacute;n de &iacute;tems de elecci&oacute;n m&uacute;ltiple. Psicothema.   2004;16(3):490-7.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000086&pid=S0121-0793201500030000800004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">5. Rodriguez MC. Three options are optimal for multiple-   choice items: a meta-analysis of 80 years of research.   Educ Meas Issues Pract. 2005 Jun;24(2):3-13.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000088&pid=S0121-0793201500030000800005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">6. Tarrant M, Ware J, Mohammed AM. An assessment of   functioning and non-functioning distractors in multiple-   choice questions: a descriptive analysis. BMC   Med Educ. 2009 Jul;9:40.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000090&pid=S0121-0793201500030000800006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">7. Vyas R, Supe A. Multiple choice questions: a literature   review on the optimal number of options. Natl   Med J India. 2008;21(3):130-3.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000092&pid=S0121-0793201500030000800007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">8. Rogausch A, Hofer R, Krebs R. Rarely selected distractors   in high stakes medical multiple-choice examinations   and their recognition by item authors: a simulation   and survey. BMC Med Educ. 2010 Jan;10(1):85.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000094&pid=S0121-0793201500030000800008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">9. Kasule OH. Overview of medical student assessment:   Why, what, who, and how. J Taibah Univ Med Sci.   2013 Aug;8(2):72-9.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000096&pid=S0121-0793201500030000800009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">10. Morrison S, Free KW. Writing multiple-choice test   items that promote and measure critical thinking. J   Nurs Educ. 2001 Jan;40(1):17-24.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000098&pid=S0121-0793201500030000800010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">11. Brady AM. Assessment of learning with multiple-choice   questions. Nurse Educ Pract. 2005 Jul;5(4):238-42.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000100&pid=S0121-0793201500030000800011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">12. McMahan CA, Pinckard RN, Prihoda TJ, Hendricson   WD, Jones AC. Improving multiple-choice questions   to better assess dental student knowledge: distractor   utilization in oral and maxillofacial pathology course   examinations. J Dent Educ. 2013 Dec;77(12):1593-609.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000102&pid=S0121-0793201500030000800012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">13. Matlock-Hetzel S. Basic Concepts in Item and Test   Analysis &#91;Internet&#93;. En: Annual meeting of the   Southwest Educational Research Association; Austin,   January, 1997. Texas: Texas A&amp;M University; 1997   &#91;consultado 2014 Abr 15&#93;. Disponible en: <a href="http://ericae.net/ft/tamu/Espy.htm" target="_blank">http://ericae.net/ft/tamu/Espy.htm</a></font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000104&pid=S0121-0793201500030000800013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">14. Backhoff Escudero E, Larrazolo Reyna N, Rosas Morales   M. Nivel de dificultad y poder de discriminaci&oacute;n   del Examen de Habilidades y Conocimientos B&aacute;sicos   (EXHCOBA). REDIE. 2000;2(1):12-29.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000105&pid=S0121-0793201500030000800014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">15. Mitra NK, Nagaraja HS, Ponnudurai G, Judson JP.   The levels of difficulty and discrimination indices in   type a multiple choice questions of pre-clinical semester   1, multidisciplinary summative tests. IeJSME.   2009;3(1):2-7.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000107&pid=S0121-0793201500030000800015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">16. Downing SM. Reliability: on the reproducibility of assessment   data. Med Educ. 2004 Sep;38(9):1006-12.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000109&pid=S0121-0793201500030000800016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">17. Subkoviak MJ. A Practitioner's Guide to computation   and interpretation of reliability indices for mastery   tests. J Educ Meas. 1988 Mar;25(1):47-55.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000111&pid=S0121-0793201500030000800017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">18. Altman DG, Bland JM. Measurement in Medicine : the   analysis of method comparison studies. Statistician.   1983 Sep;32(3):307-17.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000113&pid=S0121-0793201500030000800018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">19. Shizuka T, Takeuchi O, Yashima T, Yoshizawa K. A   comparison of three-and four-option English tests   for university entrance selection purposes in Japan.   Lang Test. 2006 Jan;23(1):35-57.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000115&pid=S0121-0793201500030000800019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">20. Baghaei P, Amrahi N. The effects of the number of   options on the psychometric characteristics of   multiple choice items. Psychol Test Assess Model.   2011;53(2):192-211.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000117&pid=S0121-0793201500030000800020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">21. Frary RB. More multiple-choice item writing do's   and dont's. Pract Assess Res Eval. 1995;4(11):1-6.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000119&pid=S0121-0793201500030000800021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p><font size="2" face="Verdana, Arial, Helvetica, sans-serif">22. Swanson DB, Holtzman KZ, Allbee K. Measurement   characteristics of content-parallel single-best-answer   and extended-matching questions in relation to number   and source of options. Acad Med. 2008 Oct;83(10   Suppl):S21-4.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=000121&pid=S0121-0793201500030000800022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gimeno Sacristán]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La evaluación en la enseñanza]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Sacristán Gimeno]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Gómez Pérez]]></surname>
<given-names><![CDATA[AI]]></given-names>
</name>
</person-group>
<source><![CDATA[Comprender y transformar la enseñanza]]></source>
<year>1996</year>
<page-range>334-97</page-range><publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Morata]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Haladyna]]></surname>
<given-names><![CDATA[TM]]></given-names>
</name>
<name>
<surname><![CDATA[Downing]]></surname>
<given-names><![CDATA[SM]]></given-names>
</name>
<name>
<surname><![CDATA[Rodriguez]]></surname>
<given-names><![CDATA[MC.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Review of multiple-choice item-writing guidelines for classroom assessment]]></article-title>
<source><![CDATA[Appl Meas Educ]]></source>
<year>2002</year>
<month> J</month>
<day>ul</day>
<volume>15</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>309-33</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[García-Garro]]></surname>
<given-names><![CDATA[AJ]]></given-names>
</name>
<name>
<surname><![CDATA[Ramos-Ortega]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Díaz de León- Ponce]]></surname>
<given-names><![CDATA[MA]]></given-names>
</name>
<name>
<surname><![CDATA[Olvera-Chávez]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Instrumentos de evaluación]]></article-title>
<source><![CDATA[Rev Mex Anestesiol]]></source>
<year>2007</year>
<volume>30</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>158-64</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Moreno]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Martínez]]></surname>
<given-names><![CDATA[RJ]]></given-names>
</name>
<name>
<surname><![CDATA[Muñiz]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Directrices para la construcción de ítems de elección múltiple]]></article-title>
<source><![CDATA[Psicothema]]></source>
<year>2004</year>
<volume>16</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>490-7</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rodriguez]]></surname>
<given-names><![CDATA[MC.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Three options are optimal for multiple- choice items: a meta-analysis of 80 years of research]]></article-title>
<source><![CDATA[Educ Meas Issues Pract]]></source>
<year>2005</year>
<month> J</month>
<day>un</day>
<volume>24</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>3-13</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Tarrant]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Ware]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Mohammed]]></surname>
<given-names><![CDATA[AM.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An assessment of functioning and non-functioning distractors in multiple- choice questions: a descriptive analysis]]></article-title>
<source><![CDATA[BMC Med Educ]]></source>
<year>2009</year>
<month> J</month>
<day>ul</day>
<volume>9</volume>
<page-range>40</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Vyas]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Supe]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Multiple choice questions: a literature review on the optimal number of options]]></article-title>
<source><![CDATA[Natl Med J India]]></source>
<year>2008</year>
<volume>21</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>130-3</page-range></nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rogausch]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Hofer]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Krebs]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Rarely selected distractors in high stakes medical multiple-choice examinations and their recognition by item authors: a simulation and survey]]></article-title>
<source><![CDATA[BMC Med Educ]]></source>
<year>2010</year>
<month> J</month>
<day>an</day>
<volume>10</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>85</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kasule]]></surname>
<given-names><![CDATA[OH.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Overview of medical student assessment: Why, what, who, and how]]></article-title>
<source><![CDATA[J Taibah Univ Med Sci]]></source>
<year>2013</year>
<month> A</month>
<day>ug</day>
<volume>8</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>72-9</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Morrison]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Free]]></surname>
<given-names><![CDATA[KW.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Writing multiple-choice test items that promote and measure critical thinking]]></article-title>
<source><![CDATA[J Nurs Educ]]></source>
<year>2001</year>
<month> J</month>
<day>an</day>
<volume>40</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>17-24</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Brady]]></surname>
<given-names><![CDATA[AM.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessment of learning with multiple-choice questions]]></article-title>
<source><![CDATA[Nurse Educ Pract]]></source>
<year>2005</year>
<month> J</month>
<day>ul</day>
<volume>5</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>238-42</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[McMahan]]></surname>
<given-names><![CDATA[CA]]></given-names>
</name>
<name>
<surname><![CDATA[Pinckard]]></surname>
<given-names><![CDATA[RN]]></given-names>
</name>
<name>
<surname><![CDATA[Prihoda]]></surname>
<given-names><![CDATA[TJ]]></given-names>
</name>
<name>
<surname><![CDATA[Hendricson]]></surname>
<given-names><![CDATA[WD]]></given-names>
</name>
<name>
<surname><![CDATA[Jones]]></surname>
<given-names><![CDATA[AC.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Improving multiple-choice questions to better assess dental student knowledge: distractor utilization in oral and maxillofacial pathology course examinations]]></article-title>
<source><![CDATA[J Dent Educ]]></source>
<year>2013</year>
<month> D</month>
<day>ec</day>
<volume>77</volume>
<numero>12</numero>
<issue>12</issue>
<page-range>1593-609</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Matlock-Hetzel]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Basic Concepts in Item and Test Analysis]]></article-title>
<source><![CDATA[Annual meeting of the Southwest Educational Research Association]]></source>
<year>1997</year>
<publisher-loc><![CDATA[Texas ]]></publisher-loc>
<publisher-name><![CDATA[Texas A &-amp; M University]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Backhoff Escudero]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Larrazolo Reyna]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Rosas Morales]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Nivel de dificultad y poder de discriminación del Examen de Habilidades y Conocimientos Básicos (EXHCOBA)]]></article-title>
<source><![CDATA[REDIE]]></source>
<year>2000</year>
<volume>2</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>12-29</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mitra]]></surname>
<given-names><![CDATA[NK]]></given-names>
</name>
<name>
<surname><![CDATA[Nagaraja]]></surname>
<given-names><![CDATA[HS]]></given-names>
</name>
<name>
<surname><![CDATA[Ponnudurai]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Judson]]></surname>
<given-names><![CDATA[JP.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The levels of difficulty and discrimination indices in type a multiple choice questions of pre-clinical semester 1, multidisciplinary summative tests]]></article-title>
<source><![CDATA[IeJSME]]></source>
<year>2009</year>
<volume>3</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>2-7</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Downing]]></surname>
<given-names><![CDATA[SM.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Reliability: on the reproducibility of assessment data]]></article-title>
<source><![CDATA[Med Educ]]></source>
<year>2004</year>
<month> S</month>
<day>ep</day>
<volume>38</volume>
<numero>9</numero>
<issue>9</issue>
<page-range>1006-12</page-range></nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Subkoviak]]></surname>
<given-names><![CDATA[MJ.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Practitioner's Guide to computation and interpretation of reliability indices for mastery tests]]></article-title>
<source><![CDATA[J Educ Meas]]></source>
<year>1988</year>
<month> M</month>
<day>ar</day>
<volume>25</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>47-55</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Altman]]></surname>
<given-names><![CDATA[DG]]></given-names>
</name>
<name>
<surname><![CDATA[Bland]]></surname>
<given-names><![CDATA[JM.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Measurement in Medicine: the analysis of method comparison studies]]></article-title>
<source><![CDATA[Statistician]]></source>
<year>1983</year>
<month> S</month>
<day>ep</day>
<volume>32</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>307-17</page-range></nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shizuka]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Takeuchi]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
<name>
<surname><![CDATA[Yashima]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Yoshizawa]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A comparison of three-and four-option English tests for university entrance selection purposes in Japan]]></article-title>
<source><![CDATA[Lang Test]]></source>
<year>2006</year>
<month> J</month>
<day>an</day>
<volume>23</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>35-57</page-range></nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Baghaei]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Amrahi]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The effects of the number of options on the psychometric characteristics of multiple choice items]]></article-title>
<source><![CDATA[Psychol Test Assess Model]]></source>
<year>2011</year>
<volume>53</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>192-211</page-range></nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Frary]]></surname>
<given-names><![CDATA[RB.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[More multiple-choice item writing do's and dont's]]></article-title>
<source><![CDATA[Pract Assess Res Eval]]></source>
<year>1995</year>
<volume>4</volume>
<numero>11</numero>
<issue>11</issue>
<page-range>1-6</page-range></nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Swanson]]></surname>
<given-names><![CDATA[DB]]></given-names>
</name>
<name>
<surname><![CDATA[Holtzman]]></surname>
<given-names><![CDATA[KZ]]></given-names>
</name>
<name>
<surname><![CDATA[Allbee]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Measurement characteristics of content-parallel single-best-answer and extended-matching questions in relation to number and source of options]]></article-title>
<source><![CDATA[Acad Med]]></source>
<year>2008</year>
<month> O</month>
<day>ct</day>
<volume>83</volume>
<numero>10 Suppl</numero>
<issue>10 Suppl</issue>
<page-range>S21-4</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
