Dr. Thomas D. Cook
Profesor de Sociología, Educación y Política
Instituto de Investigación en Ciencias Políticas y Sociales
Northwestern University
t-cook@northwestern.edu |
Introducción
Hoy es frecuente saber de propuestas para mejorar lo que sucede en las
escuelas a través de innovaciones tan diversas como pueden ser: establecer la
gerencia a nivel escolar, crear escuelas a la carta, buscar el desempeño a través
de bonos escolares, promover prácticas docentes más efectivas, marcar estándares
más altos, incrementar la cuantificación de los logros, gestionar escuelas
más pequeñas, grupos más reducidos, introducir nuevas tecnologías y lograr
maestros mejor entrenados en éstas.Muchas de estas reformas corresponden,
en los Estados Unidos, a reformas “de marca” como: Slavin’s Success for All,
Levin’s Accelerated Schools, Comer’s School Development Program, Sizer’s
Coalition of Essential Schools, Lezotte’s Effective Schools and Total Quality
Management Schools.
También hay afirmaciones sobre otras estrategias educativas como revisiones
a la educación especial y programas bilingües,más fonética en grados tempranos,
aprendizaje constructivista que concibe a los estudiantes como aprendentes
activos, poner fin a las promociones de tipo social y mejorar la interacción
entre el sistema escolar y el pre-escolar, así como hacia las familias y las
actividades post-escolares en términos de educación continua. Esto es sólo
una pequeña muestra de las propuestas más recientes más novedosas.
Sin embargo,vemos que la mayoría de estas ideas no han sido evaluadas seriamente
respecto a cómo afectan en realidad el desempeño del estudiante.Esto
es sorpresivo, ya que existe la figura profesional del evaluador educativo y
suponemos que quienes se dedican a esta labor estarían interesados en identificar
“verdaderamente qué funciona” en las escuelas.
Cómo saber qué es lo que verdaderamente
funciona en las escuelas
La mayoría de estos evaluadores trabajan
con investigadores de la educación
que quieren aprender qué incrementa
el rendimiento de los estudiantes
y construir mejores teorías e
impactar en la práctica académica.
Algunos académicos fuera de las
escuelas de pedagogía también
hacen evaluación en medios educativos,
así como los investigadores de
firmas privadas en contacto con autoridades
educativas tanto a nivel federal,
estatal y local.
Todos estos investigadores tienen
acceso a los métodos de aprendizaje
generalmente preferidos porque funcionan.
El éxito que pueda documentarse
con dichos métodos depende
fundamentalmente de la calidad del
diseño de investigación y de los procedimientos
de medida. Medir el
cambio con estudiantes individuales
en el salón de clases ha sido, tradicionalmente,
el punto fuerte de la investigación
educativa.
El diseño de experimentos aleatorios
es ampliamente conocido como la
mejor herramienta para atribuir, a los
estudiantes observados, el cambio a
cualquier opción de escuela o modalidad
didáctica considerada como la
causa posible de la mejora en su
aprendizaje.
La asignación aleatoria o al azar es el
equivalente a arrojar una moneda
para diferenciar dos o más grupos inicialmente
equivalentes. La opción
bajo consideración (el tratamiento)
es entonces asignado a un grupo,
mientras el otro grupo está expuesto
a lo regular y muchas veces no a un
tratamiento explícito o a uno cualitativamente
diferente. Si un experimento
es controlado de principio a fin,
cualquier diferencia de grupo observada
al término del estudio puede ser
razonablemente atribuida a la intervención
del tratamiento que fue aplicado
y no a que sea por causa de la
selección de los sujetos, ya que es
poco probable que las características
en la persona promedio en cada
grupo asignado fuese la causa de
estas diferencias. Los grupos control
generados a través de la asignación
aleatoria proveen la mejor evidencia
para describir qué habría pasado a los
estudiantes del grupo de tratamiento,
si no hubieran sido sometidos a él.
(Rubin, 1974; Holland, 1986).
Esta racionalización por asignación
aleatoria es complementada por una
justificación empírica. En el pasado,
los resultados de una experimentación
individual habían sido contrastados
con los resultados de un diseño
mayor y con pruebas estadísticas
adecuadas para dichos experimentos.
Efectos de diferentes dimensiones
fueron encontrados por investigaciones
experimentales vs. investigaciones
no-experimentales
(Mosteller, Gilbert & McPeak, 1980;
Lalonde, 1986; Fraker & Maynard,
1987).
Estos descubrimientos también se
sostienen en trabajos más recientes
que usaron estadística aún mas sofisticada
y diseños alternativos,
incluyendo comparación superior de
grupos que fueron construidos no de
datos de una evaluación nacional
sino de grupos no equivalentes físicamente
cercanos a los grupos de tratamiento
(e.g., Agpodini & Dynarski,
2002; Bloom, Michaelopoulos, Hill &
Lei, 2002; Friedlander & Robins, 1995;
Heckman, Ichimura & Todd, 1997;
Wills & Hollister, 2002). La única
excepción en este descubrimiento
sobre la invalidez de resultados de
no-experimentos que vienen de
Dehejia & Wahba (1999), pero Smith &
Todd (2002) han mostrado que esta
excepción tiene poco potencial para
ser generalizada, así que podemos
concluir satisfactoriamente que las
alternativas a la asignación aleatoria
considerada a la fecha no reproduce
fielmente los resultados de los experimentos.
Estos diseños todavía no han incluido
la discontinuidad de la regresión, el
tiempo-series interrumpido y los
diseños emparejados de la cohorte
que Shadish, Cook & Campbell (2002)
tratan como las alternativas más fuertes
al experimento seleccionado al
azar. Así pues, puesto que la lógica
apoya una autorización causal más
fuerte para la asignación al azar que
para sus alternativas, tenemos que
concluir que los no-experimentos
individuales tienden a proporcionar
conclusiones causales más en polarización
negativa que los experimentos
individuales.
Sin embargo, ahora existen dos
instancias donde una serie de experimentos
en un tema ha sido contrastada
con una serie de no-experimentos
en el mismo tema (Lipsey & Wilson,
1993; Bloom et al, 2002) En cada caso,
el mismo efecto promedio fue encontrado
a través de los experimentos y
de los no-experimentos, implicando
que las parcialidades de los no-experimentos
se han cancelado mutuamente.
Los académicos que crean
que la unidad usual de progreso en
ciencia es la réplica de los estudios y
no las investigaciones aisladas sólo
pondrán más peso en la correspondencia de promedio de descubrimientos
entre experimentos y no-experimentos,
y no en la no-correspondencia
de descubrimientos entre
experimentos únicos y no-experimentos.
Pero advertimos que sólo son dos
revisiones empíricas de parcialidad
que existen a la fecha y, dada la ausencia de teoría fuerte acerca de
las condiciones bajo las cuales dichas
tendencias se reducen a cero, no
podemos garantizar en ninguna
instancia, que la parcialidad negativa
o positiva se equilibren exactamente
en contrabalanceo.
Es sorprendente en las dos revisiones
que la desviación estándar a través
de los efectos no-experimentales es
considerablemente más grande que
la desviación estándar a través de los
efectos experimentales. Esto sugiere
que los experimentos son más eficientes
que los no experimentos. Dan
las mismas respuestas más rápido,
esto los hace particularmente importante
en campos donde pocos experimentos
ya existen y como sabemos,
la educación es uno de esos campos.
Así pues la investigación empírica en
los resultados de los experimentos y
sus alternativas sugieren, primero,
que los experimentos individuales
son menos parciales y segundo que
como estudios de un tema acumulativo,
los experimentos son mas eficientes
que sus alternativas. Esto
implica una justificación pragmática
para los experimentos sobre y por
encima de las justificaciones lógicas y
empíricas detalladas arriba. Los experimentos
son probablemente menos
caros a la larga, ya que al ser más eficientes
acerca de reducir la incertidumbre
causal, menos de ellos son
necesitados por el mismo grado de
consistencia en la conclusión causal
obtenida. Esto puede ser verdad aún
si los experimentos individuales
resultaran ser, en promedio, más
caros que sus contrapartes no experimentales.
Una segunda justificación pragmática
es aún menos especulativa. ¿Qué
ocurriría si las élites políticas concluyeran incorrectamente que las
escuelas católicas son superiores a las
laicas, e hicieran algo al respecto
basándose en esto para las normas que ellos crean? ¿Qué tal si ellos erróneamente
concluyeran que los bonos
escolares estimulan logros académicos
e hicieren algo sobre esto en términos
de prioridades? ¿Qué tal si
ellos falsamente concluyan que la
disgregación escolar no afecta los
logros de las minorías? Conclusiones
causales incorrectas tienen costos en
términos de pesos, logros y sueños.
La superioridad de asignaciones aleatorias
para dibujar interferencias
acerca de las consecuencias de intentos
de cambio planeado es plenamente
reconocida en medicina,
salud pública, agricultura, estadística,
micro-economía, psicología, criminología,
investigaciones de prevención,
estimulación temprana, publicidad y
aquellas partes de ciencia política y
sociología interesadas en mejorar las
encuestas de opinión. También es
reconocida en todos los textos de
métodos de enseñanza para la educación
elemental que hemos consultado.
Sin embargo, el uso de las asignaciones
aleatorias es relativamente
raro en la investigación educativa,
especialmente para evaluar el
impacto de intervenciones educativas
de obvia relevancia política.
La educación no es el único campo
en el que existe una escasa confianza
en el resultado de experimentos,
la asignación aleatoria también es
rara en sociología, ciencia política,
macro-economía y administración.
Aún así, en estos campos no es
extraño encontrar declaraciones
causales de manera rutinaria, usualmente
por un proceso que une teoría
sustantiva con varias prácticas no
experimentales ya sean cuantitativas
o cualitativas. Este trabajo no
pretende demostrar que las conclusiones
causales vienen sólo en
forma de experimentos. Lo que sí
pretende demostrar es que los
experimentos provén una mejor
garantía para dichas conclusiones
que cualquier otro método. De
modo que si es posible conducir
experimentos en escuelas, esto
debería hacerse.No usarlos requiere
una justificación muy fuerte.
En los últimos treinta años, autodenominados
evaluadores educativos
como Alkin, Cronbach, Eisner,
Fetterman, Fullan, Guba, House,
Hubermann, Lincoln, Miles, Provus,
Sanders, Schwandt, Stake,
Stufflebeam y Worthen, han propuesto
muchas justificaciones para no
hacer experimentos. Estos teóricos
quieren evaluación educativa que
persiga metas y no que describa qué
funciona en las escuelas. La mayoría
de ellos quiere que la evaluación
mejore la organización y manejo de
distritos particulares o escuelas, asumiendo
que esto mejorará consecuentemente
el desempeño estudiantil.
Estos evaluadores examinan maneras
de proveer a escuelas individuales o
personal distrital con retroalimentación
continua sobre planeación estratégica,
implementación de programas
y monitoreo del desempeño de alumnos
o maestros. La expectativa es que
los funcionarios locales usarán inmediatamente
esta retroalimentación en
sus escuelas y que el desempeño estudiantil
se desarrollará consecuentemente.
Este modelo de investigación y
esta conexión para el cambio organizacional
es mucho más parecido a lo
que encontramos en consulta gerencial
en el sector privado.
Otros evaluadores educativos quieren
que la evaluación contribuya a
desarrollar teorías generales, especialmente
aquéllos que especifican la
generalmente complicada constelación
de fuerzas que causan importantes
efectos escolares. El tiempo comprometido
para el trabajo es un proceso
tan generativo y, sobre una red
amplia de circunstancias, realza los
logros académicos. Puede ser institucionalizado
de muchas maneras, más
días de escuela por año, jornadas más
largas, más tiempo dedicado al “currículo
básico”, textos que se complementen,
exposición de maestros que
sepan motivar estudiantes etc.
Identificar los mecanismos causales
se vuelve la importancia capital de
dichas evaluaciones.
Desgraciadamente, ni los consultores
en administración, ni el modelo de
mecanismo causal ponen la atención
dónde si lo hace la experimentación:
en la observación directa del cambio
del estudiante y atribuirlo sin ambigüedad
a una sola causa o tratamiento.
Este trabajo prueba la validez de
los argumentos intelectuales que los
evaluadores educativos han aducido
para no hacer experimentos y para
tomar decisiones en otras direcciones
que no sean la identificación de efectos
de circunscritos agentes causantes
de relevancia para la política educativa.
El recuento que yo ofrezco
pone poco énfasis en los factores
políticos y organizativos dentro del
sistema federal de apoyo a la investigación
educativa, factores que
Vinoskis(2002) acentúa en su explicación
de la insuficiencia de los experimentos.
Argumentos contra la investigación
educativa experimental
El énfasis aquí está en examinar las
justificaciones ofrecidas por los autodenominados
evaluadores educativos.
A tal punto que éstos se solapan
con las razones ofrecidas por sus más
sustantivamente orientados colegas.
También incluimos las objeciones
más recientes que llevan a no hacer
experimentos. Aunque las razones
específicas para subestimar experimentos
puede variar a través de los
evaluadores educativos, el total de
argumentos se puede dividir en cinco
tipos.
1. Argumentos filosóficos diseñados
para mostrar que los experimentos: a)
no pueden proveer pruebas imparciales
de hipótesis causales y b) son
hechos en una teoría descriptiva de la
causalidad, la cual es menos útil que
las teorías explicativas de la causa.
2. Argumentos prácticos afirman que
los experimentos: a) raramente pueden
ser puestos en práctica en las escuelas;
y b) cuando se ponen en práctica, son
realizados generalmente de manera no
totalmente perfecta respecto de los
contrastes previstos del tratamiento y a
la calidad de la puesta en práctica individual
del mismo.
3. Argumentos sobre los intercambios
indeseables por causa de los
experimentos: a) sacrificar la validez
externa por la interna; y b) evaluar las
conclusiones causales tan alto que
una tendencia conservadora da
como resultado útil lo que ignora un
criterio más liberal.
4. Argumentos acerca de que las
escuelas no usarán resultados experimentales
porque: a) los experimentos
chocan con los intereses de políticos
estatales o federales que no son los
principales actores en política educativa
y b) la lógica de los experimentos
recrea un modelo racional de toma
de decisiones que no descubre cómo
los estudiantes realmente toman
decisiones.
5. Argumentos acerca de que los
experimentos no son necesarios porque
existen mejores alternativas.
Estas alternativas incluyen: a) los
estudios de caso intensivos cualitativos
que los evaluadores de estilo propio
prefieren; b) los cuasi experimentos
que los investigadores sustantivos
prefieren porque valoran el control
de los diseños sobre el control
estadístico y, c) los estudios de modelo
causal que los investigadores
sustantivos prefieren al hacer estudios
longitudinales en educación.
Cualquiera de los puntos arriba
descritos muestran duda en la sabiduría
o practicidad de experimentar
en la escuela y todas estas objeciones
han sido subrayadas en un momento
u otro por alguien en la comunidad
de especialistas en evaluación educativa
que opera fuera de las instituciones
formadoras de pedagogos. Así
pues, dado que el número y variedad
de argumentos confiere una integridad
intelectual genuina, se hace
importante el enfrentarse a cada
argumento por turno.Tanto para examinar
su validez como para crear una
teoría práctica de la experimentación
basada en la escuela.
El problema más grande es la ausencia
de una evidencia válida que nos
informe sobre qué habría pasado a
maestros y estudiantes de no haber sido sometido al tratamiento seleccionado.
De este modo, es imposible
decidir si los datos observados son
resultado de la intervención o hubieran
ocurrido de cualquier manera.
Una forma de saberlo es ponernos en
guardia contra “causas firmadas”
(Scriven, 1976). Un mejor escudo es
tener por lo menos un grupo de comparación,
y el mejor grupo de comparación
es uno seleccionado al azar.
Estamos de nuevo en la asignación
aleatoria y con la propuesta de que
las evaluaciones basadas en teoría
son útiles complementos para los
experimentos aleatoriezados,pero no
una alternativa para ellos.
|