Inicio Contacto Directorio Revista Articulos Numeros Anteriores  

Colaborador Invitado

 

¿Por qué los investigadores que realizan evaluación de programas
y acciones educativas eligen no usar experimentos aleatorizados?

 
Dr. Thomas D. Cook
Profesor de Sociología, Educación y Política
Instituto de Investigación en Ciencias Políticas y Sociales
Northwestern University
t-cook@northwestern.edu

 

Introducción
Hoy es frecuente saber de propuestas para mejorar lo que sucede en las escuelas a través de innovaciones tan diversas como pueden ser: establecer la
gerencia a nivel escolar, crear escuelas a la carta, buscar el desempeño a través de bonos escolares, promover prácticas docentes más efectivas, marcar estándares más altos, incrementar la cuantificación de los logros, gestionar escuelas más pequeñas, grupos más reducidos, introducir nuevas tecnologías y lograr maestros mejor entrenados en éstas.Muchas de estas reformas corresponden, en los Estados Unidos, a reformas “de marca” como: Slavin’s Success for All, Levin’s Accelerated Schools, Comer’s School Development Program, Sizer’s Coalition of Essential Schools, Lezotte’s Effective Schools and Total Quality Management Schools.

También hay afirmaciones sobre otras estrategias educativas como revisiones a la educación especial y programas bilingües,más fonética en grados tempranos, aprendizaje constructivista que concibe a los estudiantes como aprendentes activos, poner fin a las promociones de tipo social y mejorar la interacción entre el sistema escolar y el pre-escolar, así como hacia las familias y las actividades post-escolares en términos de educación continua. Esto es sólo una pequeña muestra de las propuestas más recientes más novedosas.

Sin embargo,vemos que la mayoría de estas ideas no han sido evaluadas seriamente respecto a cómo afectan en realidad el desempeño del estudiante.Esto es sorpresivo, ya que existe la figura profesional del evaluador educativo y suponemos que quienes se dedican a esta labor estarían interesados en identificar “verdaderamente qué funciona” en las escuelas.

Cómo saber qué es lo que verdaderamente funciona en las escuelas La mayoría de estos evaluadores trabajan con investigadores de la educación que quieren aprender qué incrementa el rendimiento de los estudiantes y construir mejores teorías e impactar en la práctica académica. Algunos académicos fuera de las escuelas de pedagogía también hacen evaluación en medios educativos, así como los investigadores de firmas privadas en contacto con autoridades educativas tanto a nivel federal, estatal y local.

Todos estos investigadores tienen acceso a los métodos de aprendizaje generalmente preferidos porque funcionan. El éxito que pueda documentarse con dichos métodos depende fundamentalmente de la calidad del diseño de investigación y de los procedimientos de medida. Medir el cambio con estudiantes individuales en el salón de clases ha sido, tradicionalmente, el punto fuerte de la investigación educativa.

El diseño de experimentos aleatorios es ampliamente conocido como la mejor herramienta para atribuir, a los estudiantes observados, el cambio a cualquier opción de escuela o modalidad didáctica considerada como la causa posible de la mejora en su aprendizaje.

La asignación aleatoria o al azar es el equivalente a arrojar una moneda para diferenciar dos o más grupos inicialmente equivalentes. La opción bajo consideración (el tratamiento) es entonces asignado a un grupo, mientras el otro grupo está expuesto a lo regular y muchas veces no a un tratamiento explícito o a uno cualitativamente diferente. Si un experimento es controlado de principio a fin, cualquier diferencia de grupo observada al término del estudio puede ser razonablemente atribuida a la intervención del tratamiento que fue aplicado y no a que sea por causa de la selección de los sujetos, ya que es poco probable que las características en la persona promedio en cada grupo asignado fuese la causa de estas diferencias. Los grupos control generados a través de la asignación aleatoria proveen la mejor evidencia para describir qué habría pasado a los estudiantes del grupo de tratamiento, si no hubieran sido sometidos a él. (Rubin, 1974; Holland, 1986).

Esta racionalización por asignación aleatoria es complementada por una justificación empírica. En el pasado, los resultados de una experimentación individual habían sido contrastados con los resultados de un diseño mayor y con pruebas estadísticas adecuadas para dichos experimentos. Efectos de diferentes dimensiones fueron encontrados por investigaciones experimentales vs. investigaciones no-experimentales (Mosteller, Gilbert & McPeak, 1980; Lalonde, 1986; Fraker & Maynard, 1987).

Estos descubrimientos también se sostienen en trabajos más recientes que usaron estadística aún mas sofisticada y diseños alternativos, incluyendo comparación superior de grupos que fueron construidos no de datos de una evaluación nacional sino de grupos no equivalentes físicamente cercanos a los grupos de tratamiento (e.g., Agpodini & Dynarski, 2002; Bloom, Michaelopoulos, Hill & Lei, 2002; Friedlander & Robins, 1995; Heckman, Ichimura & Todd, 1997; Wills & Hollister, 2002). La única excepción en este descubrimiento sobre la invalidez de resultados de no-experimentos que vienen de Dehejia & Wahba (1999), pero Smith & Todd (2002) han mostrado que esta excepción tiene poco potencial para ser generalizada, así que podemos concluir satisfactoriamente que las alternativas a la asignación aleatoria considerada a la fecha no reproduce fielmente los resultados de los experimentos.

Estos diseños todavía no han incluido la discontinuidad de la regresión, el tiempo-series interrumpido y los diseños emparejados de la cohorte que Shadish, Cook & Campbell (2002) tratan como las alternativas más fuertes al experimento seleccionado al azar. Así pues, puesto que la lógica apoya una autorización causal más fuerte para la asignación al azar que para sus alternativas, tenemos que concluir que los no-experimentos individuales tienden a proporcionar conclusiones causales más en polarización negativa que los experimentos individuales.

Sin embargo, ahora existen dos instancias donde una serie de experimentos en un tema ha sido contrastada con una serie de no-experimentos en el mismo tema (Lipsey & Wilson, 1993; Bloom et al, 2002) En cada caso, el mismo efecto promedio fue encontrado a través de los experimentos y de los no-experimentos, implicando que las parcialidades de los no-experimentos se han cancelado mutuamente. Los académicos que crean que la unidad usual de progreso en ciencia es la réplica de los estudios y no las investigaciones aisladas sólo pondrán más peso en la correspondencia de promedio de descubrimientos entre experimentos y no-experimentos, y no en la no-correspondencia de descubrimientos entre experimentos únicos y no-experimentos.

Pero advertimos que sólo son dos revisiones empíricas de parcialidad que existen a la fecha y, dada la ausencia de teoría fuerte acerca de las condiciones bajo las cuales dichas tendencias se reducen a cero, no podemos garantizar en ninguna instancia, que la parcialidad negativa o positiva se equilibren exactamente en contrabalanceo.

Es sorprendente en las dos revisiones que la desviación estándar a través de los efectos no-experimentales es considerablemente más grande que la desviación estándar a través de los efectos experimentales. Esto sugiere que los experimentos son más eficientes que los no experimentos. Dan las mismas respuestas más rápido, esto los hace particularmente importante en campos donde pocos experimentos ya existen y como sabemos, la educación es uno de esos campos. Así pues la investigación empírica en los resultados de los experimentos y sus alternativas sugieren, primero, que los experimentos individuales son menos parciales y segundo que como estudios de un tema acumulativo, los experimentos son mas eficientes que sus alternativas. Esto implica una justificación pragmática para los experimentos sobre y por encima de las justificaciones lógicas y empíricas detalladas arriba. Los experimentos son probablemente menos caros a la larga, ya que al ser más eficientes acerca de reducir la incertidumbre causal, menos de ellos son necesitados por el mismo grado de consistencia en la conclusión causal obtenida. Esto puede ser verdad aún si los experimentos individuales resultaran ser, en promedio, más caros que sus contrapartes no experimentales.

Una segunda justificación pragmática es aún menos especulativa. ¿Qué ocurriría si las élites políticas concluyeran incorrectamente que las escuelas católicas son superiores a las laicas, e hicieran algo al respecto basándose en esto para las normas que ellos crean? ¿Qué tal si ellos erróneamente concluyeran que los bonos escolares estimulan logros académicos e hicieren algo sobre esto en términos de prioridades? ¿Qué tal si ellos falsamente concluyan que la disgregación escolar no afecta los logros de las minorías? Conclusiones causales incorrectas tienen costos en términos de pesos, logros y sueños.

La superioridad de asignaciones aleatorias para dibujar interferencias acerca de las consecuencias de intentos de cambio planeado es plenamente reconocida en medicina, salud pública, agricultura, estadística, micro-economía, psicología, criminología, investigaciones de prevención, estimulación temprana, publicidad y aquellas partes de ciencia política y sociología interesadas en mejorar las encuestas de opinión. También es reconocida en todos los textos de métodos de enseñanza para la educación elemental que hemos consultado. Sin embargo, el uso de las asignaciones aleatorias es relativamente raro en la investigación educativa, especialmente para evaluar el impacto de intervenciones educativas de obvia relevancia política.

La educación no es el único campo en el que existe una escasa confianza en el resultado de experimentos, la asignación aleatoria también es rara en sociología, ciencia política, macro-economía y administración. Aún así, en estos campos no es extraño encontrar declaraciones causales de manera rutinaria, usualmente por un proceso que une teoría sustantiva con varias prácticas no experimentales ya sean cuantitativas o cualitativas. Este trabajo no pretende demostrar que las conclusiones causales vienen sólo en forma de experimentos. Lo que sí pretende demostrar es que los experimentos provén una mejor garantía para dichas conclusiones que cualquier otro método. De modo que si es posible conducir experimentos en escuelas, esto debería hacerse.No usarlos requiere una justificación muy fuerte.

En los últimos treinta años, autodenominados evaluadores educativos como Alkin, Cronbach, Eisner, Fetterman, Fullan, Guba, House, Hubermann, Lincoln, Miles, Provus, Sanders, Schwandt, Stake, Stufflebeam y Worthen, han propuesto muchas justificaciones para no hacer experimentos. Estos teóricos quieren evaluación educativa que persiga metas y no que describa qué funciona en las escuelas. La mayoría de ellos quiere que la evaluación mejore la organización y manejo de distritos particulares o escuelas, asumiendo que esto mejorará consecuentemente el desempeño estudiantil.

Estos evaluadores examinan maneras de proveer a escuelas individuales o personal distrital con retroalimentación continua sobre planeación estratégica,
implementación de programas y monitoreo del desempeño de alumnos o maestros. La expectativa es que los funcionarios locales usarán inmediatamente
esta retroalimentación en sus escuelas y que el desempeño estudiantil se desarrollará consecuentemente. Este modelo de investigación y esta conexión para el cambio organizacional es mucho más parecido a lo que encontramos en consulta gerencial en el sector privado.

Otros evaluadores educativos quieren que la evaluación contribuya a desarrollar teorías generales, especialmente aquéllos que especifican la generalmente complicada constelación de fuerzas que causan importantes efectos escolares. El tiempo comprometido para el trabajo es un proceso tan generativo y, sobre una red amplia de circunstancias, realza los logros académicos. Puede ser institucionalizado de muchas maneras, más días de escuela por año, jornadas más largas, más tiempo dedicado al “currículo básico”, textos que se complementen, exposición de maestros que sepan motivar estudiantes etc. Identificar los mecanismos causales se vuelve la importancia capital de dichas evaluaciones.

Desgraciadamente, ni los consultores en administración, ni el modelo de mecanismo causal ponen la atención dónde si lo hace la experimentación: en la observación directa del cambio del estudiante y atribuirlo sin ambigüedad a una sola causa o tratamiento. Este trabajo prueba la validez de los argumentos intelectuales que los evaluadores educativos han aducido para no hacer experimentos y para tomar decisiones en otras direcciones que no sean la identificación de efectos de circunscritos agentes causantes de relevancia para la política educativa. El recuento que yo ofrezco pone poco énfasis en los factores políticos y organizativos dentro del sistema federal de apoyo a la investigación educativa, factores que Vinoskis(2002) acentúa en su explicación de la insuficiencia de los experimentos.

Argumentos contra la investigación educativa experimental
El énfasis aquí está en examinar las justificaciones ofrecidas por los autodenominados evaluadores educativos. A tal punto que éstos se solapan con las razones ofrecidas por sus más sustantivamente orientados colegas. También incluimos las objeciones más recientes que llevan a no hacer experimentos. Aunque las razones específicas para subestimar experimentos puede variar a través de los evaluadores educativos, el total de argumentos se puede dividir en cinco tipos.

1. Argumentos filosóficos diseñados para mostrar que los experimentos: a) no pueden proveer pruebas imparciales de hipótesis causales y b) son hechos en una teoría descriptiva de la causalidad, la cual es menos útil que las teorías explicativas de la causa.

2. Argumentos prácticos afirman que los experimentos: a) raramente pueden ser puestos en práctica en las escuelas; y b) cuando se ponen en práctica, son realizados generalmente de manera no totalmente perfecta respecto de los contrastes previstos del tratamiento y a la calidad de la puesta en práctica individual del mismo.

3. Argumentos sobre los intercambios indeseables por causa de los experimentos: a) sacrificar la validez externa por la interna; y b) evaluar las conclusiones causales tan alto que una tendencia conservadora da como resultado útil lo que ignora un criterio más liberal.

4. Argumentos acerca de que las escuelas no usarán resultados experimentales porque: a) los experimentos chocan con los intereses de políticos estatales o federales que no son los principales actores en política educativa y b) la lógica de los experimentos recrea un modelo racional de toma de decisiones que no descubre cómo los estudiantes realmente toman decisiones.

5. Argumentos acerca de que los experimentos no son necesarios porque existen mejores alternativas. Estas alternativas incluyen: a) los estudios de caso intensivos cualitativos que los evaluadores de estilo propio prefieren; b) los cuasi experimentos que los investigadores sustantivos prefieren porque valoran el control de los diseños sobre el control estadístico y, c) los estudios de modelo causal que los investigadores sustantivos prefieren al hacer estudios longitudinales en educación.

Cualquiera de los puntos arriba descritos muestran duda en la sabiduría o practicidad de experimentar en la escuela y todas estas objeciones han sido subrayadas en un momento u otro por alguien en la comunidad de especialistas en evaluación educativa que opera fuera de las instituciones formadoras de pedagogos. Así pues, dado que el número y variedad de argumentos confiere una integridad intelectual genuina, se hace importante el enfrentarse a cada argumento por turno.Tanto para examinar su validez como para crear una teoría práctica de la experimentación basada en la escuela.

El problema más grande es la ausencia de una evidencia válida que nos informe sobre qué habría pasado a maestros y estudiantes de no haber sido sometido al tratamiento seleccionado. De este modo, es imposible decidir si los datos observados son resultado de la intervención o hubieran ocurrido de cualquier manera. Una forma de saberlo es ponernos en guardia contra “causas firmadas” (Scriven, 1976). Un mejor escudo es tener por lo menos un grupo de comparación, y el mejor grupo de comparación es uno seleccionado al azar. Estamos de nuevo en la asignación aleatoria y con la propuesta de que las evaluaciones basadas en teoría son útiles complementos para los experimentos aleatoriezados,pero no una alternativa para ellos.

 
   
Copyright © 2008 Paedagogium.com. Reservados todos los derechos.