Responsabilidad 101: las pruebas son instrumentos contundentes

Por Nancy Kober

Las pruebas a gran escala como las que se utilizan para NCLB tienen ventajas sobre formas de medición menos estandarizadas. Pueden proporcionar resultados que sean más consistentes y útiles para las comparaciones que los de las evaluaciones basadas en el juicio individual. También pueden producir información extensa sobre el rendimiento de los estudiantes a costos más bajos y con menos tiempo de prueba que muchas otras formas de evaluación. Debido a que las pruebas a gran escala se desarrollan de manera científica e informan los resultados en números, muchas personas suponen que son muy precisos. Pero incluso las pruebas bien diseñadas tienen limitaciones que deben ser consideradas por los usuarios de AYP y otros datos basados en pruebas.

Como a menudo señalan los expertos en pruebas, la puntuación de una prueba es más una estimación que una medición exacta. Si un estudiante realizó la misma prueba en días consecutivos sin estudiar entre ellos, los puntajes del estudiante aún pueden variar debido a factores no relacionados con el aprendizaje, como la muestra de preguntas en la versión de prueba en particular, la condición física o el estado mental del estudiante, afortunado conjeturas o errores en el registro de respuestas. Los puntajes agregados para un grupo de estudiantes, ya sea una escuela, un aula o un subgrupo definido por la NCLB, también pueden fluctuar debido a factores no relacionados con la enseñanza y el aprendizaje, como los cambios anuales en la población que realiza el examen.

Estos son algunos aspectos de las pruebas que podrían producir este tipo de fluctuaciones en la puntuación de las pruebas:

a. Una prueba es una muestra de todas las posibles preguntas que se podrían hacer sobre un tema. Las preguntas en un examen son simplemente una muestra de la gran cantidad de conocimientos y habilidades en un tema como las matemáticas. Una prueba que dura unas pocas horas no puede abordar todos los temas, conceptos o habilidades matemáticas importantes que se espera que los estudiantes aprendan durante el año escolar.

Los desarrolladores de pruebas intentan minimizar el impacto de esta forma de variación de muestreo seleccionando preguntas que cubren una muestra representativa de conocimientos y habilidades importantes en el tema que se está evaluando. También intentan asegurarse de que las diferentes versiones de la misma prueba (desarrolladas por razones de seguridad y para limitar la enseñanza a la prueba) sean paralelas en contenido y dificultad. Aún así, siempre habrá estudiantes que habrían obtenido una calificación más alta si una versión de prueba en particular hubiera incluido una muestra diferente de preguntas que ellos sabían bien.

si. Una administración de prueba es una muestra del comportamiento de un estudiante en un solo punto en el tiempo. En un día cualquiera, una variedad de factores externos (un dolor de cabeza, una discusión con un padre esa mañana, un martillo neumático o un perro ladrando fuera de la escuela) podrían afectar negativamente el rendimiento de un estudiante. Si la prueba se hubiera realizado en otro momento, el estudiante podría haber obtenido una puntuación más alta.

Cuando los puntajes de los estudiantes se combinan en un grupo lo suficientemente grande, las fluctuaciones en los puntajes de los exámenes individuales debido a las variaciones de muestreo en las preguntas del examen y las condiciones externas tienden a compensarse entre sí. Por ejemplo, el rendimiento inusualmente bajo de un estudiante con dolor de cabeza el día del examen podría compensarse con la puntuación inesperadamente alta de otro estudiante que se sintió descansado y confiado e hizo algunas conjeturas afortunadas. Dado que el AYP se calcula observando los porcentajes de estudiantes que obtienen puntajes en el nivel "competente" establecido por el estado en las pruebas estatales, los puntajes de algunos estudiantes pueden significar la diferencia entre hacer o no AYP, especialmente cuando se trata de subgrupos, que incluye menos estudiantes.

C. Los cambios anuales en la población que toma el examen pueden producir fluctuaciones en los puntajes agregados del examen. Como puede atestiguar cualquier maestro, el grupo de estudiantes de cada año representa una combinación única de antecedentes económicos, lingüísticos y raciales / étnicos y diferentes capacidades, personalidades y comportamiento. Innumerables factores pueden cambiar la composición de los examinados de un año a otro en formas que afectan los puntajes agregados. El ingreso familiar, por ejemplo, es un fuerte predictor de los puntajes de las pruebas de los estudiantes, por lo que la pérdida de un fabricante importante podría aumentar la pobreza y conducir a puntajes de prueba agregados más bajos para una escuela en esa comunidad.

O una escuela podría experimentar una afluencia de inmigrantes, agregando más estudiantes del idioma inglés a la población que toma el examen. El tercer grado de este año (un grado evaluado en muchos estados) podría tener una mayor proporción de estudiantes con discapacidades severas que el tercer grado del año pasado. Un grupo de estudiantes con problemas de comportamiento podría crear un ambiente de clase inusualmente disruptivo. Un éxodo de estudiantes de alto rendimiento de las escuelas del vecindario a escuelas privadas o chárter o la construcción de un desarrollo de viviendas de lujo en el vecindario podría cambiar el grupo de exámenes de manera significativa.

Si el número de examinados es grande, este tipo de cambios anuales puede tener poco efecto. Pero en un grupo relativamente pequeño (menos de estudiantes de 100, según Haney, 2002), los cambios anuales en la composición del grupo pueden producir fluctuaciones más amplias porque el puntaje de cada estudiante tiene un mayor impacto en el agregado. Con la escuela primaria promedio que contiene solo estudiantes 68 por grado, la inestabilidad de puntaje no es inusual. También es común entre las escuelas con alta movilidad o matrículas muy diversas.

Estas fluctuaciones son importantes porque bajo NCLB, los puntajes agregados de estudiantes en grados y subgrupos evaluados se utilizan para emitir juicios sobre la efectividad de toda la escuela. Cuando una escuela no logra alcanzar el AYP, la gente generalmente no considera si los estudiantes evaluados ese año son realmente representativos del universo más amplio de estudiantes atendidos por esa escuela a lo largo de los años, y como resultado, no cuestionan cuál es la prueba los puntajes realmente dicen sobre la efectividad de la escuela.

re. La mayoría de los estados, aunque no todos, utilizan intervalos de confianza para compensar las variaciones en el puntaje de la prueba. Reconociendo que las pruebas no son instrumentos precisos, algunos estados están utilizando una herramienta estadística llamada "intervalos de confianza" para tener en cuenta las fluctuaciones de puntaje no relacionadas con los cambios en el rendimiento. Algo similar al margen de error en una encuesta de opinión pública, un intervalo de confianza crea una ventana alrededor del objetivo AYP estatal de más o menos algunos puntos. Los resultados de las pruebas que caen ligeramente por debajo del objetivo pero dentro de la ventana se cuentan como haber alcanzado el objetivo, por lo que los intervalos de confianza hacen que sea menos probable que una escuela o subgrupo no logre AYP debido a las fluctuaciones del azar. El tamaño de la ventana está determinado por dos factores: el número de estudiantes evaluados y el grado de confianza que los administradores de los exámenes desean tener en la precisión de los resultados. Cuanto más pequeño sea el grupo de estudiantes evaluados, mayor será la ventana.

Imagine que el 40 por ciento de los estudiantes en una escuela puntúa al nivel competente en matemáticas. Utilizando un intervalo de confianza de porcentaje 95, los administradores de prueba pueden estar seguros de que el rendimiento real de la escuela está dentro de un rango de porcentaje de 95 a 35 por ciento. Si el objetivo de AYP es un porcentaje 45 competente, entonces la escuela obtiene AYP porque su puntaje cae dentro de la ventana. Si los administradores de la prueba desean tener un 42 por ciento de confianza de que el verdadero logro cae dentro de la ventana, entonces la ventana tendría que ser mucho más amplia.

La mayoría de los estados actualmente usan intervalos de confianza para varias decisiones de AYP, más que en años anteriores (Center on Education Policy, 2005). En los estados que no utilizan intervalos de confianza, una escuela podría etiquetarse como de bajo rendimiento, mientras que otra se considera adecuada, aunque no haya una diferencia significativa entre sus puntajes agregados.

* * *

La variación de muestreo en las preguntas del examen y las condiciones externas y los cambios en la composición del grupo pueden producir fluctuaciones anuales en los puntajes de los exámenes no relacionados con la efectividad educativa. Las tendencias de puntaje de los exámenes de una escuela a lo largo de varios años pueden proporcionar un indicador confiable del rendimiento de los estudiantes, pero los puntajes de un solo año pueden o no ser un buen indicador de la calidad de la enseñanza y el aprendizaje en una escuela.

Nancy Kober es consultora del Centro de Política Educativa y coautora y editora de los informes anuales del Centro sobre NCLB. Esta barra lateral es una adaptación de la edición 2002 de octubre de Test Talk para líderes publicado por el Centro de Política Educativa. El original está disponible en el sitio web de CEP en www.cep-dc.org.

Referencias

Centro de Política Educativa. (2005) De la capital al aula: Año 3 de la Ley No Child Left Behind. Washington, DC: autor.

Haney, W. (julio 10, 2002). "Asegurar el fracaso: cómo se puede diseñar la prueba de rendimiento de un estado para hacer precisamente eso". Semana de la educación.

Responsabilidad 101: las pruebas son instrumentos contundentes

Referencias

Artículos Relacionados