2  Una breve introducción al diseño de investigación

“A menudo consultar al estadístico una vez finalizado un experimento no es más que pedirle que realice un examen post mortem. Quizás pueda decir de qué murió el experimento”.
– Sir Ronald Fisher1

En este capítulo, vamos a empezar a reflexionar sobre las ideas básicas que intervienen en el diseño de un estudio, la recogida de datos, la comprobación de si la recogida de datos funciona, etc. No te dará suficiente información para permitirte diseñar tus propios estudios, pero sí muchas de las herramientas básicas que necesitas para evaluar los estudios realizados por otras personas. Sin embargo, como este libro se centra mucho más en el análisis de datos que en su recogida, solo voy a dar una breve visión general. Ten en cuenta que este capítulo es “especial” en dos sentidos. En primer lugar, es mucho más específico de psicología que los capítulos posteriores. En segundo lugar, se centra mucho más en el problema científico de la metodología de la investigación y mucho menos en el problema estadístico del análisis de datos. Sin embargo, los dos problemas están relacionados entre sí, por lo que es tradicional que los libros de texto de estadística analicen el problema con un poco de detalle. Este capítulo se basa en gran medida en Campbell & Stanley (1963) y Stevens (1946) para la discusión de las escalas de medida.

2.1 Introducción a la medición psicológica

Lo primero que hay que entender es que la recogida de datos se puede considerar un tipo de medida. Es decir, lo que estamos tratando de hacer aquí es medir algo sobre el comportamiento humano o la mente humana. ¿Qué quiero decir con “medida”?

2.1.1 Algunas reflexiones sobre la medición psicológica

La medición en sí es un concepto sutil, pero básicamente se reduce a encontrar alguna forma de asignar números, etiquetas o algún otro tipo de descripciones bien definidas a las “cosas”. Por tanto, cualquiera de los siguientes elementos podría considerarse una medida psicológica:

  • Mi edad es 33 años.
  • No me gustan las anchoas.
  • Mi género cromosómico es masculino.
  • Mi género autoidentificado es femenino.

En la breve lista anterior, la parte en negrita es “lo que se va a medir”, y la parte en cursiva es “la medida en sí”. De hecho, podemos ampliarlo un poco más, pensando en el conjunto de posibles medidas que podrían haber surgido en cada caso:

  • Mi edad (en años) podría haber sido 0, 1, 2, 3 …, etc. El límite superior de lo que podría ser mi edad es un poco difuso, pero en la práctica se puede decir que la mayor edad posible es 150, ya que ningún ser humano ha vivido tanto tiempo.
  • A la pregunta de si me gustan las anchoas, podría haber respondido que me gustan, o no, o no tengo opinión, o a veces me gustan.
  • Es casi seguro que mi género cromosómico será masculino (\(XY\)) o femenino (\(XX\)), pero existen otras posibilidades. También podría tener síndrome de Klinfelter (\(XXY\)), que es más parecido al masculino que al femenino. E imagino que también hay otras posibilidades.
  • También es muy probable que mi género autoidentificado sea masculino o femenino, pero no tiene por qué coincidir con mi género cromosómico. También puedo elegir identificarme con ninguno, o llamarme explícitamente transgénero.

Como puedes ver, para algunas cosas (como la edad) parece bastante obvio cuál debería ser el conjunto de medidas posibles, mientras que para otras cosas la cosa se complica un poco. Pero quiero señalar que incluso en el caso de la edad de alguien es mucho más sutil que esto. Por ejemplo, en el ejemplo anterior asumí que estaba bien medir la edad en años. Pero si eres un psicólogo del desarrollo, eso es demasiado burdo, por lo que a menudo se mide la edad en años y meses (si un niño tiene 2 años y 11 meses, se suele escribir como “2;11”). Si te interesan los recién nacidos, quizás prefieras medir la edad en días desde el nacimiento, o incluso en horas desde el nacimiento. En otras palabras, la forma de especificar los valores de medición permitidos es importante.

Si lo analizamos un poco más detenidamente, nos daremos cuenta de que el concepto de “edad” no es tan preciso. En general, cuando decimos “edad” implícitamente queremos decir “el tiempo transcurrido desde el nacimiento”. Pero no siempre es así. Supongamos que nos interesa saber cómo los bebés recién nacidos controlan sus movimientos oculares. Si te interesan los niños tan pequeños, es posible que también empieces a preocuparte de que el “nacimiento” no sea el único momento significativo del que preocuparse. Si Alice nace 3 semanas prematura y Bianca nace 1 semana tarde, ¿tendría sentido decir que tienen “la misma edad” si las encontramos “2 horas después de nacer”? En cierto sentido, sí. Por convención social, usamos el nacimiento como punto de referencia para hablar de la edad en la vida cotidiana, ya que define el tiempo que la persona lleva funcionando como una entidad independiente en el mundo. Pero desde una perspectiva científica no es lo único que nos importa. Cuando pensamos en la biología de los seres humanos, suele ser útil considerarnos organismos que han estado creciendo y madurando desde su concepción, y desde esa perspectiva, Alice y Bianca no tienen la misma edad en absoluto. Por lo tanto, es posible que queramos definir el concepto de “edad” de dos maneras diferentes: el tiempo transcurrido desde la concepción y el tiempo transcurrido desde el nacimiento. Cuando se trata de adultos no hay mucha diferencia, pero cuando se trata de recién nacidos sí.

Más allá de estas cuestiones, está la cuestión de la metodología. ¿Qué “método de medición” específico vas a usar para averiguar la edad de alguien? Como antes, hay muchas posibilidades:

  • Podrías preguntarle a la gente “¿cuántos años tienes?” El método de autoinforme es rápido, barato y fácil. Pero solo funciona con personas de edad suficiente para entender la pregunta, y algunas mienten sobre su edad.
  • Podrías preguntarle a una autoridad (p. ej., un padre) “¿cuántos años tiene su hijo?” Este método es rápido y cuando se trata de niños no es tan difícil ya que los padres casi siempre están presentes. No funciona tan bien si quieres saber la “edad desde la concepción”, ya que muchos padres no pueden decir con certeza cuándo tuvo lugar la concepción. Para eso, es posible que necesites una autoridad diferente (por ejemplo, un obstetra).
  • Puedes buscar registros oficiales, por ejemplo, certificados de nacimiento o defunción. Es una tarea larga y frustrante, pero tiene su utilidad (por ejemplo, si la persona ya ha fallecido).

2.1.2 Operativización: definiendo la medida

Todas las ideas expuestas en la sección anterior se relacionan con el concepto de operativización. Para precisar un poco más la idea, la operativización es el proceso mediante el cual tomamos un concepto significativo pero algo vago y lo convertimos en una medida precisa. El proceso de operativización puede implicar varias cosas diferentes:

  • Ser preciso sobre lo que se intenta medir. Por ejemplo, ¿“edad” significa “tiempo desde el nacimiento” o “tiempo desde la concepción” en el contexto de tu investigación?

  • Determinar qué método usarás para medirlo. ¿Utilizarás el autoinforme para medir la edad, preguntarás a uno de los padres o buscarás un registro oficial? Si utilizas autoinforme, ¿cómo formularás la pregunta?

  • Definir el conjunto de valores admisibles que puede tomar la medida. Ten en cuenta que estos valores no siempre tienen que ser numéricos, aunque a menudo lo son. Cuando se mide la edad, los valores son numéricos, pero aún así debemos pensar cuidadosamente qué números están permitidos. ¿Queremos la edad en años, años y meses, días u horas? Para otros tipos de medidas (p. ej., sexo), los valores no son numéricos. Pero, al igual que antes, debemos pensar qué valores están permitidos. Si pedimos a los encuestados que indiquen su sexo, ¿entre qué opciones les permitimos elegir? ¿Es suficiente permitir solo “hombre” o “mujer”? ¿Es necesaria la opción “otro”? ¿O no deberíamos dar a la gente opciones específicas y dejar que respondan con sus propias palabras? Y si abrimos el conjunto de valores posibles para incluir todas las respuestas verbales, ¿cómo interpretamos sus respuestas?

La operativización es un asunto complicado, y no hay una “única y verdadera manera” de hacerlo. La forma de operativizar el concepto informal de “edad” o “sexo” para convertirlo en una medida formal depende del uso que se le quiera dar. A menudo la comunidad científica que trabaja en tu área tiene ideas bastante consolidadas sobre cómo hacerlo. En otras palabras, la operativización debe estudiarse caso por caso. Sin embargo, aunque hay muchas cuestiones que son específicas de cada proyecto de investigación, hay algunos aspectos que son bastante generales.

Antes de continuar, quiero aclarar la terminología y, de paso, introducir un término más. He aquí cuatro cosas diferentes que están estrechamente relacionadas entre sí:

  • Un constructo teórico. Es aquello que se intenta medir, como “edad”, “sexo” o una “opinión”. Un constructo teórico no se puede observar directamente y, a menudo, son un poco vagos.
  • Una medida. La medida se refiere al método o la herramienta que se utiliza para realizar las observaciones. Una pregunta en una encuesta, una observación del comportamiento o un escáner cerebral pueden considerarse medidas.
  • Una operativización. El término “operativización” se refiere a la conexión lógica entre la medida y el constructo teórico, o al proceso mediante el cual intentamos derivar una medida a partir de un constructo teórico.
  • Una variable. Finalmente, un nuevo término. Una variable es lo que obtenemos cuando aplicamos nuestra medida a algo del mundo. Es decir, las variables son los “datos” reales con los que terminamos en nuestros conjuntos de datos.

En la práctica, incluso los científicos tienden a difuminar la distinción entre estas cosas, pero es muy útil intentar comprender las diferencias.

2.2 Escalas de medida

Como se indica en el apartado anterior, el resultado de una medición psicológica se denomina variable. Pero no todas las variables son del mismo tipo, por lo que es útil entender qué tipos hay. Un concepto muy útil para distinguir entre diferentes tipos de variables es lo que se conoce como escalas de medida.

2.2.1 Escala nominal

Una variable de escala nominal (también conocida como variable categórica) es aquella en la que no existe una relación particular entre las diferentes posibilidades. Para este tipo de variables no tiene ningún sentido decir que una de ellas es “mayor” o “mejor” que otra, y no tiene absolutamente ningún sentido promediarlas. El ejemplo clásico es el “color de ojos”. Los ojos pueden ser azules, verdes o marrones, entre otras posibilidades, pero ninguna de ellas es “más grande” que otra. Por tanto, sería muy extraño hablar de un “color de ojos promedio”. Del mismo modo, el género también es nominal: el hombre no es mejor ni peor que la mujer. Tampoco tiene sentido hablar de un “género medio”. En resumen, las variables de escala nominal son aquellas para las que lo único que se puede decir sobre las diferentes posibilidades es que son diferentes. Eso es todo.

Veámoslo con un poco más de detalle. Supongamos que estoy investigando cómo se desplaza la gente hacia y desde el trabajo. Una variable que tendría que medir sería qué tipo de transporte usa la gente para ir a trabajar. Esta variable “tipo de transporte” podría tener bastantes valores posibles, entre ellos: “tren”, “autobús”, “coche”, “bicicleta”. De momento, supongamos que estas cuatro son las únicas posibilidades. Imaginemos entonces que le pregunto a 100 personas cómo han llegado hoy al trabajo, con este resultado (Table 2.1).

Table 2.1:

¿Cómo llegaron 100 personas al trabajo hoy?

TransportationNumber of people
(1) Train12
(2) Bus30
(3) Car48
(4) Bicycle10

Entonces, ¿cuál es el tipo de transporte promedio? Obviamente, la respuesta es que no hay ninguno. Es una pregunta tonta. Se puede decir que viajar en coche es el método más popular y viajar en tren es el menos popular, pero eso es todo. Del mismo modo, fíjate que el orden en que enumero las opciones no es muy interesante. Podría haber elegido mostrar los datos como en Table 2.2.

Table 2.2:

Cómo llegaron 100 personas al trabajo hoy, una vista diferente

TransportationNumber of people
(3) Car48
(1) Train12
(4) Bicycle10
(2) Bus30

… y nada cambia realmente.

2.2.2 Escala ordinal

Las variables de escala ordinal tienen un poco más de estructura que las variables de escala nominal, pero no mucho. Una variable de escala ordinal es aquella en la que existe una forma natural y significativa de ordenar las diferentes posibilidades, pero no se puede hacer nada más. El ejemplo habitual de una variable ordinal es “posición final en una carrera”. Puedes decir que la persona que terminó primera fue más rápida que la que terminó segunda, pero no sabes cuánto más rápida. En consecuencia, sabemos que 1º \(>\) 2º, y sabemos que 2º \(>\) 3º, pero la diferencia entre el 1º y el 2º podría ser mucho mayor que la diferencia entre el 2º y el 3º.

He aquí un ejemplo psicológicamente más interesante. Supongamos que me interesan las actitudes de las personas hacia el cambio climático. Entonces pido a algunas personas que elijan la afirmación (de las cuatro enumeradas) que más se acerque a sus creencias:

  1. Las temperaturas están aumentando debido a la actividad humana
  2. Las temperaturas están aumentando pero no sabemos por qué
  3. Las temperaturas están aumentando pero no a causa de la actividad humana
  4. Las temperaturas no están aumentando

Observa que estas cuatro afirmaciones tienen un orden natural, en términos de “hasta qué punto coinciden con la ciencia actual”. La afirmación 1 es muy parecida, la afirmación 2 es razonable, la afirmación 3 no es muy parecida y la afirmación 4 se opone rotundamente a la ciencia actual. Así que, en términos de lo que me interesa (hasta qué punto la gente está de acuerdo con la ciencia), puedo ordenar las opciones como 1 \(>\) 2 \(>\) 3 \(>\) 4. Dado que existe este orden, sería muy raro enumerar las opciones así…

  1. Las temperaturas están aumentando pero no a causa de la actividad humana
  2. Las temperaturas están aumentando debido a la actividad humana
  3. Las temperaturas no están aumentando
  4. Las temperaturas están aumentando pero no sabemos por qué

… porque parece violar la “estructura” natural de la pregunta.

Entonces, supongamos que hago estas preguntas a 100 personas y obtengo las respuestas que se muestran en Table 2.3.

Table 2.3:

Actitudes ante el cambio climático

ResponseNumber
(1) Temperatures are rising because of human activity51
(2) Temperatures are rising but we don’t know why20
(3) Temperatures are rising but not because of humans10
(4) Temperatures are not rising19

Al analizar estos datos, parece bastante razonable tratar de agrupar (1), (2) y (3) y decir que 81 de cada 100 personas estaban dispuestas a respaldar al menos parcialmente la ciencia. Y también es bastante razonable agrupar (2), (3) y (4) y decir que 49 de cada 100 personas marcaron al menos algún desacuerdo con la opinión científica dominante. Sin embargo, sería totalmente extraño intentar agrupar (1), (2) y (4) y decir que 90 de cada 100 personas dijeron… ¿qué? No hay nada sensato que permita agrupar esas respuestas.

Dicho esto, observa que si bien podemos usar el orden natural de estos elementos para construir agrupaciones razonables, lo que no podemos hacer es promediarlos. Por ejemplo, en mi sencillo ejemplo, la respuesta “promedio” a la pregunta es 1.97. Si me puedes decir qué significa eso, me encantaría saberlo, ¡porque me parece un galimatías!

2.2.3 Escala de intervalo

A diferencia de las variables de escala nominal y ordinal, las variables de escala de intervalo y de escala de razón son variables para las que el valor numérico es realmente significativo. En el caso de las variables de escala de intervalo, las diferencias entre los números son interpretables, pero la variable no tiene un valor cero “natural”. Un buen ejemplo de una variable de escala de intervalo es medir la temperatura en grados centígrados. Por ejemplo, si ayer hacía 15\(^{\circ}\) y hoy 18\(^{\circ}\), la diferencia de 3\(^{\circ}\) entre ambas es realmente significativa. Además, esa diferencia de 3\(^{\circ}\) es exactamente la misma que la diferencia de 3\(^{\circ}\) entre 7\(^{\circ}\) y 10\(^{\circ}\). En resumen, la suma y la resta tienen sentido para las variables de escala de intervalo.2

Sin embargo, fíjate que 0\(^{\circ}\) no significa “ninguna temperatura”. En realidad significa “la temperatura a la que se congela el agua”, lo cual es bastante arbitrario. En consecuencia, no tiene sentido intentar multiplicar y dividir las temperaturas. Es incorrecto decir que 20\(^{\circ}\) es el doble de caliente que 10\(^{\circ}\), del mismo modo que es extraño y carece de sentido intentar afirmar que 20\(^{\circ}\) es dos veces más caliente que -10\(^{\circ}\).

Veamos de nuevo un ejemplo más psicológico. Supongamos que me interesa analizar cómo han cambiado las actitudes de los estudiantes universitarios de primer año con el tiempo. Obviamente, voy a querer registrar el año en el que empezó cada estudiante. Se trata de una variable de escala de intervalo. Un estudiante que empezó en 2003 llegó 5 años antes que un estudiante que empezó en 2008. Sin embargo, sería completamente absurdo dividir 2008 entre 2003 y decir que el segundo estudiante empezó “1,0024 veces más tarde” que el primero. Eso no tiene ningún sentido.

2.2.4 Escala de razón

El cuarto y último tipo de variable a considerar es una variable de escala de razón, en la que cero significa realmente cero, y está bien multiplicar y dividir. Un buen ejemplo psicológico de una variable de escala de razón es el tiempo de respuesta (TR). En muchas tareas es muy común registrar la cantidad de tiempo que alguien tarda en resolver un problema o responder una pregunta, porque es un indicador de lo difícil que es la tarea. Supongamos que Alan tarda 2,3 segundos en responder a una pregunta, mientras que Ben tarda 3,1 segundos. Al igual que con una variable de escala de intervalo, la suma y la resta tienen sentido en este caso. Ben realmente tardó 3,1 - 2,3 = 0,8 segundos más que Alan. Sin embargo, fíjate que la multiplicación y la división también tienen sentido aquí: Ben tardó 3,1/2,3 = 1,35 veces más que Alan en responder la pregunta. Y la razón por la que puedes hacer esto es que para una variable de escala de razón como TR, “cero segundos” realmente significa “nada de tiempo”.

2.2.5 Variables continuas versus discretas

Hay un segundo tipo de distinción que debes conocer, con respecto a los tipos de variables con las que puedes encontrarte. Se trata de la distinción entre variables continuas y variables discretas (Table 2.4). La diferencia entre ellas es la siguiente:

  • Una variable continua es aquella en la que, para dos valores cualesquiera que se te ocurran, siempre es lógicamente posible tener otro valor en medio.
  • Una variable discreta es, en efecto, una variable que no es continua. En el caso de una variable discreta, a veces no hay nada en medio.
Table 2.4:

La relación entre las escalas de medida y la distinción discreta/continua. Las celdas con una marca de verificación corresponden a cosas que son posibles

continuousdiscrete
nominal\( \checkmark \)
ordinal\( \checkmark \)
interval\( \checkmark \)\( \checkmark \)
ratio\( \checkmark \)\( \checkmark \)

Probablemente estas definiciones parezcan un poco abstractas, pero son bastante sencillas si vemos algunos ejemplos. Por ejemplo, el tiempo de respuesta es continuo. Si Alan tarda 3,1 segundos y Ben tarda 2,3 segundos en responder a una pregunta, el tiempo de respuesta de Cameron estará en el medio si tarda 3,0 segundos. Y, por supuesto, también sería posible que David tardara 3,031 segundos en responder, lo que significa que su TR estaría entre el de Cameron y el de Alan. Y aunque en la práctica sea imposible medir TR con tanta precisión, en principio es posible. Dado que siempre podemos encontrar un nuevo valor de TR entre dos valores cualesquiera, consideramos que el TR es una medida continua.

Las variables discretas ocurren cuando se infringe esta regla. Por ejemplo, las variables de escala nominal siempre son discretas. No hay un tipo de transporte que se encuentre “entre” los trenes y las bicicletas, no de la forma matemática estricta en que 2,3 se encuentra entre 2 y 3. Por lo tanto, el tipo de transporte es discreto. Del mismo modo, las variables de escala ordinal siempre son discretas. Aunque el “segundo lugar” se encuentra entre el “primer lugar” y el “tercer lugar”, no hay nada que pueda estar lógicamente entre el “primer lugar” y el “segundo lugar”. Las variables de escala de intervalo y escala de razón pueden ir en cualquier dirección. Como vimos anteriormente, el tiempo de respuesta (una variable de escala de razón) es continuo. La temperatura en grados centígrados (una variable de escala de intervalo) también es continua. Sin embargo, el año en que fuiste a la escuela (una variable de escala de intervalo) es discreto. No hay ningún año entre 2002 y 2003. El número de preguntas que aciertas en una prueba de verdadero o falso (una variable de escala de razón) también es discreto. Dado que una pregunta de verdadero o falso no permite ser “parcialmente correcta”, no hay nada entre 5/10 y 6/10. Table 2.4 resume la relación entre las escalas de medida y la distinción discreta/continua. Las celdas con una marca de verificación corresponden a cosas que son posibles. Intento insistir en este punto porque (a) algunos libros de texto se equivocan y (b) la gente suele decir “variable discreta” cuando quiere decir “variable de escala nominal”. Es una lástima.

2.2.6 Algunos aspectos complejos

Sé que te va a sorprender oír esto, pero el mundo real es mucho más complicado de lo que sugiere este pequeño esquema de clasificación. Muy pocas variables de la vida real encajan en estas bonitas categorías, por lo que hay que tener cuidado de no tratar las escalas de medida como si fueran reglas rígidas. No funcionan así. Son directrices que te ayudan a pensar en las situaciones en las que debes tratar diferentes variables de manera diferente. Nada mas.

Miremos un ejemplo clásico, tal vez el ejemplo clásico, de una herramienta de medición psicológica: la escala Likert. La humilde escala Likert es el pan de cada día en el diseño de encuestas. Tú misma has completado cientos, tal vez miles, de ellas y lo más probable es que incluso hayas usado una. Supongamos que tenemos una pregunta de encuesta parecida a esta:

¿Cuál de las siguientes opciones describe mejor su opinión sobre la afirmación de que “todos los piratas son increíbles”?

y luego las opciones que se le presentan al participante son estas:

  1. Totalmente en desacuerdo
  2. En desacuerdo
  3. Ni de acuerdo ni en desacuerdo
  4. De acuerdo
  5. Totalmente de acuerdo

Este conjunto de ítems es un ejemplo de una escala Likert de 5 puntos, en la que se pide a las personas que elijan entre varias (en este caso 5) posibilidades claramente ordenadas, generalmente con un descriptor verbal dado en cada caso. Sin embargo, no es necesario que todos los elementos se describan explícitamente. Este es un buen ejemplo de una escala Likert de 5 puntos también:

  1. Totalmente en desacuerdo
  2. Totalmente de acuerdo

Las escalas Likert son herramientas muy útiles, aunque algo limitadas. La pregunta es ¿qué tipo de variable son? Obviamente son discretas, ya que no se puede dar una respuesta de 2.5. Obviamente no son de escala nominal, ya que los ítems están ordenados; y tampoco son escalas de razón, ya que no hay un cero natural.

¿Pero son escala ordinal o escala de intervalo? Uno de los argumentos dice que no podemos demostrar que la diferencia entre “totalmente de acuerdo” y “de acuerdo” sea del mismo tamaño que la diferencia entre “de acuerdo” y “ni de acuerdo ni en desacuerdo”. De hecho, en la vida cotidiana es bastante obvio que no son lo mismo. Esto sugiere que deberíamos tratar las escalas Likert como variables ordinales. Por otro lado, en la práctica, la mayoría de los participantes parecen tomarse bastante en serio la parte “en una escala del 1 al 5”, y tienden a actuar como si las diferencias entre las cinco opciones de respuesta fueran bastante similares entre sí. Como consecuencia, muchos investigadores tratan los datos de la escala Likert como una escala de intervalo.3 No es una escala de intervalo, pero en la práctica se acerca lo suficiente como para pensar en ella como si fuera una escala de cuasi-intervalo.

2.3 Evaluación de la fiabilidad de una medida

En este punto, hemos pensado un poco sobre cómo operativizar un constructo teórico y, por lo tanto, crear una medida psicológica. Y hemos visto que al aplicar medidas psicológicas terminamos con variables, que pueden ser de muchos tipos diferentes. En este punto, deberíamos comenzar a discutir la pregunta obvia: ¿es buena la medición? Haremos esto en términos de dos ideas relacionadas: fiabilidad y validez. En pocas palabras, la fiabilidad de una medida te dice con qué precisión está midiendo algo, mientras que la validez de una medida te dice qué tan precisa es la medida. En esta sección hablaré sobre fiabilidad; hablaremos sobre la validez en la sección [Evaluación de la validez de un estudio].

La fiabilidad es en realidad un concepto muy simple. Se refiere a la repetibilidad o consistencia de tu medición. La medida de mi peso por medio de una “balanza de baño” es muy fiable. Si subo y bajo de la balanza una y otra vez, me seguirá dando la misma respuesta. Medir mi inteligencia por medio de “preguntarle a mi mamá” es muy poco fiable. Algunos días me dice que soy un poco torpe y otros días me dice que soy un completo idiota. Ten en cuenta que este concepto de fiabilidad es diferente a la cuestión de si las medidas son correctas (la corrección de una medida se relaciona con su validez). Si estoy sosteniendo un saco de patatas cuando subo y bajo de la báscula del baño, la medición seguirá siendo fiable: siempre me dará la misma respuesta. Sin embargo, esta respuesta altamente fiable no coincide en absoluto con mi peso real, por lo tanto, es incorrecta. En términos técnicos, esta es una medida fiable pero inválida. Del mismo modo, aunque la estimación de mi madre sobre mi inteligencia es poco fiable, puede que tenga razón. Tal vez simplemente no soy demasiado brillante, y aunque su estimación de mi inteligencia fluctúa bastante de un día para otro, básicamente es correcta. Esa sería una medida poco fiable pero válida. Por supuesto, si las estimaciones de mi madre son demasiado poco fiables, será muy difícil averiguar cuál de sus muchas afirmaciones sobre mi inteligencia es realmente la correcta. En cierta medida, pues, una medida muy poco fiable tiende a resultar inválida a efectos prácticos; tanto es así que mucha gente diría que la fiabilidad es necesaria (pero no suficiente) para asegurar la validez.

Bien, ahora que tenemos clara la distinción entre fiabilidad y validez, pensemos en las diferentes formas en que podríamos medir la fiabilidad:

  • Fiabilidad test-retest. Esto se relaciona con la consistencia en el tiempo. Si repetimos la medición en una fecha posterior, ¿obtenemos la misma respuesta?
  • Fiabilidad entre evaluadores. Esto se relaciona con la consistencia entre las personas. Si alguien más repite la medición (p. ej., alguien más califica mi inteligencia), ¿producirá la misma respuesta?
  • Fiabilidad de formas paralelas. Esto se relaciona con la consistencia entre mediciones teóricamente equivalentes. Si uso un juego diferente de básculas de baño para medir mi peso, ¿da la misma respuesta?
  • fiabilidad de consistencia interna. Si una medida se construye a partir de muchas partes diferentes que realizan funciones similares (p. ej., el resultado de un cuestionario de personalidad se suma a varias preguntas), ¿las partes individuales tienden a dar respuestas similares? Veremos esta forma particular de fiabilidad más adelante en el libro, en la sección sobre [Análisis de fiabilidad de consistencia interna].

No todas las mediciones necesitan poseer todas las formas de fiabilidad. Por ejemplo, la evaluación educativa puede considerarse como una forma de medición. Una de las materias que enseño, Ciencia Cognitiva Computacional, tiene una estructura de evaluación que tiene un componente de investigación y un componente de examen (además de otras cosas). El componente del examen está destinado a medir algo diferente del componente de investigación, por lo que la evaluación en su conjunto tiene una consistencia interna baja. Sin embargo, dentro del examen hay varias preguntas que pretenden (aproximadamente) medir las mismas cosas, y tienden a producir resultados similares. Entonces, el examen por sí solo tiene una consistencia interna bastante alta. Lo que es como debería ser. ¡Solo debes exigir fiabilidad en aquellas situaciones en las que deseas medir lo mismo!

2.4 El “rol” de las variables: predictores y resultados

Tengo una última terminología que explicarte antes de pasar a las variables. Normalmente, cuando investigamos, acabamos teniendo muchas variables diferentes. Después, cuando analizamos los datos, solemos intentar explicar algunas de las variables en función de otras variables. Es importante distinguir entre “lo que explica” y “lo que se explica”. Así que seamos claros al respecto. En primer lugar, es mejor que nos acostumbremos a la idea de usar símbolos matemáticos para describir variables, ya que sucederá una y otra vez. Denotemos la variable “a ser explicada” \(Y\), y las variables “que explican” como \(X_1, X_2\), etc.

Cuando realizamos un análisis, tenemos diferentes nombres para \(X\) y \(Y\), ya que desempeñan diferentes roles en el análisis. Los nombres clásicos para estos roles son variable independiente (VI) y variable dependiente (VD). La VI es la variable que se utiliza para hacer la explicación (es decir, \(X\)) y la VD es la variable que se explica (es decir, \(Y\)). La lógica detrás de estos nombres es la siguiente: si realmente existe una relación entre \(X\) y \(Y\), entonces podemos decir que \(Y\) depende de \(X\), y si hemos diseñado nuestro estudio “adecuadamente”, entonces $X $ no depende de nada más. Sin embargo, personalmente encuentro esos nombres horribles. Son difíciles de recordar y muy engañosos porque (a) la VI nunca es realmente “independiente de todo lo demás”, y (b) si no hay relación, entonces la VD en realidad no depende de la VI. Y, de hecho, como no soy la única persona que piensa que VI y VD son nombres horribles, hay una serie de alternativas que me parecen más atractivas. Los términos que usaré en este libro son predictores y resultados. La idea es que lo que se intenta es usar \(X\) (los predictores) para hacer conjeturas sobre \(Y\) (los resultados).4 Esto se resume en Table 2.5.

Table 2.5:

Distinciones de variables

role of the variableclassical namemodern name
"to be explained"dependent variable (DV)outcome
"to do the explaining"independent variable (IV)predictor

2.5 Investigación experimental y no experimental

Una de las grandes distinciones que debes conocer es la que existe entre “investigación experimental” e “investigación no experimental”. Cuando hacemos esta distinción, de lo que realmente estamos hablando es del grado de control que el investigador ejerce sobre las personas y los acontecimientos del estudio.

2.5.1 Investigación experimental

La característica clave de la investigación experimental es que el investigador controla todos los aspectos del estudio, especialmente lo que experimentan los participantes durante el mismo. En particular, el investigador manipula o varía las variables predictoras (VI) pero deja que la variable de resultado (VD) varíe de forma natural. La idea es variar deliberadamente los predictores (VI) para ver si tienen algún efecto causal sobre los resultados. Además, para garantizar que no haya ninguna posibilidad de que algo distinto de las variables predictoras esté causando los resultados, todo lo demás se mantiene constante o se “equilibra” de alguna otra forma, para garantizar que no tengan ningún efecto en los resultados. En la práctica, es casi imposible pensar en todo lo demás que pueda influir en el resultado de un experimento, y mucho menos mantenerlo constante. La solución estándar es la aleatorización. Es decir, asignamos aleatoriamente a las personas a diferentes grupos y luego le damos a cada grupo un tratamiento diferente (es decir, les asignamos diferentes valores de las variables predictoras). Hablaremos más sobre la aleatorización más adelante, pero por ahora basta con decir que lo que hace la aleatorización es minimizar (pero no eliminar) la posibilidad de que haya diferencias sistemáticas entre los grupos.

Veamos un ejemplo muy sencillo, completamente irreal y muy poco ético. Supongamos que queremos averiguar si fumar provoca cáncer de pulmón. Una forma de hacerlo sería buscar personas que fumen y personas que no fumen y ver si los fumadores tienen una tasa más alta de cáncer de pulmón. Esto no es un experimento propiamente dicho, ya que el investigador no tiene mucho control sobre quién es fumador y quién no. Y esto es realmente importante. Por ejemplo, podría ser que las personas que eligen fumar cigarrillos también tiendan a tener una dieta pobre, o tal vez tiendan a trabajar en minas de amianto, o lo que sea. La cuestión es que los grupos (fumadores y no fumadores) difieren en muchas cosas, no solo en el hábito de fumar. Por lo tanto, es posible que la mayor incidencia de cáncer de pulmón entre los fumadores se deba a otra cosa, y no al tabaquismo per se. En términos técnicos, estos otros factores (por ejemplo, la dieta) se denominan “factores de confusión”, y hablaremos de ellos en un momento.

Mientras tanto, veamos cómo sería un experimento adecuado. Recordemos que nuestra preocupación era que los fumadores y los no fumadores podrían diferir en muchos aspectos. La solución, siempre que no tengas ética, es controlar quién fuma y quién no. En concreto, si dividimos aleatoriamente a los jóvenes no fumadores en dos grupos y obligamos a la mitad de ellos a convertirse en fumadores, es muy poco probable que los grupos difieran en algún aspecto que no sea el hecho de que la mitad fuma. De esa manera, si nuestro grupo de fumadores contrae cáncer en mayor proporción que el grupo de no fumadores, podemos estar bastante seguras de que (a) fumar sí causa cáncer y (b) somos asesinos.

2.5.2 Investigación no experimental

Investigación no experimental es un término amplio que abarca “cualquier estudio en el que el investigador no tiene tanto control como en un experimento”. Obviamente, el control es algo que a los científicos les gusta tener, pero como ilustra el ejemplo anterior, hay muchas situaciones en las que no se puede o no se debe intentar obtener ese control. Dado que es muy poco ético (y casi con toda seguridad criminal) obligar a la gente a fumar para averiguar si contraen cáncer, este es un buen ejemplo de una situación en la que realmente no se debería intentar obtener un control experimental. Pero también hay otras razones. Incluso dejando de lado las cuestiones éticas, nuestro “experimento de fumar” tiene algunos otros problemas. Por ejemplo, cuando sugerí que “obliguemos” a la mitad de las personas a convertirse en fumadores, me refería a comenzar con una muestra de no fumadores y luego obligarlos a convertirse en fumadores. Aunque esto suena como el tipo de diseño experimental sólido y malvado que le encantaría a un científico loco, podría no ser una forma muy sólida de investigar el efecto en el mundo real. Por ejemplo, supongamos que fumar solo causa cáncer de pulmón cuando las personas tienen dietas deficientes, y supongamos también que las personas que normalmente fuman tienden a tener dietas deficientes. Sin embargo, dado que los “fumadores” en nuestro experimento no son fumadores “naturales” (es decir, obligamos a los no fumadores a convertirse en fumadores, pero no adoptaron todas las demás características normales de la vida real que los fumadores tienden a tener) probablemente tengan mejores dietas. Como tal, en este ejemplo tonto no tendrían cáncer de pulmón y nuestro experimento fallaría, porque viola la estructura del mundo “natural” (el nombre técnico para esto es un “artefacto”).

Una distinción que vale la pena hacer entre dos tipos de investigación no experimental es la diferencia entre investigación cuasi-experimental y estudios de casos. El ejemplo que mencioné anteriormente, en el que queríamos examinar la incidencia de cáncer de pulmón entre fumadores y no fumadores sin intentar controlar quién fuma y quién no, es un diseño cuasi-experimental. Es decir, es lo mismo que un experimento pero no controlamos los predictores (VIs). Podemos seguir utilizando la estadística para analizar los resultados, pero tenemos que ser mucho más cuidadosos y circunspectos.

El enfoque alternativo, los estudios de casos, pretende ofrecer una descripción muy detallada de uno o unos pocos casos. En general, no se puede usar la estadística para analizar los resultados de los estudios de casos y suele ser muy difícil sacar conclusiones generales sobre “la gente en general” a partir de unos pocos ejemplos aislados. Sin embargo, los estudios de casos son muy útiles en algunas situaciones. En primer lugar, hay situaciones en las que no se tiene otra alternativa. La neuropsicología se enfrenta mucho a este problema. A veces, simplemente no se puede encontrar a mucha gente con daño cerebral en un área específica del cerebro, así que lo único que se puede hacer es describir los casos que sí se tienen con tanto detalle y cuidado como sea posible. Sin embargo, los estudios de casos también tienen sus ventajas. Al no tener que estudiar a tanta gente, se puede invertir mucho tiempo y esfuerzo en comprender los factores específicos de cada caso. Esto es algo muy valioso. En consecuencia, los estudios de casos pueden complementar los enfoques más orientados a la estadística que se ven en los diseños experimentales y cuasi-experimentales. En este libro no hablaremos mucho de los estudios de casos, pero sin embargo son herramientas muy valiosas.

2.6 Evaluar la validez de un estudio

Más que cualquier otra cosa, un científico quiere que su investigación sea “válida”. La idea conceptual detrás de validez es muy simple. ¿Puedes confiar en los resultados de tu estudio? Si no, el estudio no es válido. Sin embargo, si bien es fácil de establecer, en la práctica es mucho más difícil verificar la validez que verificar la fiabilidad. Y con toda honestidad, no existe una noción precisa y claramente acordada de lo que realmente es la validez. De hecho, hay muchos tipos diferentes de validez, cada uno de los cuales plantea sus propios problemas. Y no todas las formas de validez son relevantes para todos los estudios. Voy a hablar de cinco tipos diferentes de validez:

  • Validez interna
  • Validez externa
  • Validez de constructo
  • Validez aparente
  • Validez ecológica

Primero, una guía rápida sobre lo que importa aquí. (1) La validez interna y externa son las más importantes, ya que se relacionan directamente con la pregunta fundamental de si tu estudio realmente funciona. (2) La validez de constructo pregunta si estás midiendo lo que crees que estás midiendo. (3) La validez aparente no es demasiado importante, excepto en la medida en que te preocupes por las “apariencias”. (4) La validez ecológica es un caso especial de validez aparente que corresponde a un tipo de apariencia que podría interesarte mucho.

2.6.1 Validez interna

Validez interna se refiere a la medida en que puedes sacar las conclusiones correctas sobre las relaciones causales entre las variables. Se llama “interna” porque se refiere a las relaciones entre las cosas “dentro” del estudio. Ilustremos el concepto con un ejemplo sencillo. Imagina que estás interesada en averiguar si una educación universitaria te permite escribir mejor. Para hacerlo, reúnes a un grupo de estudiantes de primer año, les pides que escriban un ensayo de 1000 palabras y cuentas la cantidad de errores ortográficos y gramaticales que cometen. Luego encuentras algunos estudiantes de tercer año, que obviamente han tenido más educación universitaria que los de primer año, y repites el ejercicio. Y supongamos que resulta que los estudiantes de tercer año cometen menos errores. Y entonces concluyes que una educación universitaria mejora las habilidades de escritura. ¿Correcto? Excepto que el gran problema de este experimento es que los estudiantes de tercer año son mayores y tienen más experiencia escribiendo cosas. Así que es difícil saber con certeza cuál es la relación causal. ¿Las personas mayores escriben mejor? ¿O personas que han tenido más experiencia escribiendo? ¿O personas que han tenido más educación? ¿Cuál de las anteriores es la verdadera causa del desempeño superior de los de tercer año? ¿Edad? ¿Experiencia? ¿Educación? No puedes saberlo. Este es un ejemplo de un fallo de validez interna, porque tu estudio no separa adecuadamente las relaciones causales entre las diferentes variables.

2.6.2 Validez externa

La validez externa se relaciona con la generalizabilidad o la aplicabilidad de tus hallazgos. Es decir, en qué medida esperas ver en la “vida real” el mismo patrón de resultados que viste en tu estudio. Para decirlo con un poco más de precisión, cualquier estudio que realices en psicología implicará un conjunto bastante específico de preguntas o tareas, ocurrirá en un entorno específico e involucrará a participantes que provienen de un subgrupo particular (lamentablemente, a menudo es alumnado universitario). Entonces, si resulta que los resultados en realidad no se generalizan ni se aplican a personas y situaciones más allá de las que estudiaste, lo que tienes es una falta de validez externa.

El ejemplo clásico de este problema es el hecho de que una gran proporción de los estudios de psicología utilizarán como participantes a estudiantes universitarios de psicología. Obviamente, sin embargo, los investigadores no se preocupan solo por el estudiantado de psicología. Se preocupan por la gente en general. Por ello, un estudio que utiliza como participantes únicamente a estudiantes de psicología siempre conlleva el riesgo de carecer de validez externa. Es decir, si hay algo “especial” en los estudiantes de psicología que los diferencia de la población general en algún aspecto relevante, entonces podemos comenzar a preocuparnos por la falta de validez externa.

Dicho esto, es absolutamente crítico darse cuenta de que un estudio que utiliza solo estudiantes de psicología no necesariamente tiene un problema con la validez externa. Volveré a hablar de esto más adelante, pero es un error tan común que lo mencionaré aquí. La validez externa de un estudio se ve amenazada por la elección de la población si (a) la población de la que tomas muestras de sus participantes es muy reducida (por ejemplo, estudiantes de psicología), y (b) la población reducida de la que tomas muestras es sistemáticamente diferente de la población general en algún aspecto que sea relevante para el fenómeno psicológico que pretendes estudiar. La parte en cursiva es la parte que mucha gente olvida. Es cierto que el alumnado de psicología difiere de la población general en muchos aspectos, por lo que un estudio que utilice solo estudiantes de psicología puede tener problemas con la validez externa. Sin embargo, si esas diferencias no son muy relevantes para el fenómeno que estás estudiando, entonces no hay de qué preocuparse. Para hacer esto un poco más concreto, aquí hay dos ejemplos extremos:

  • Quieres medir las “actitudes del público en general hacia la psicoterapia”, pero todos tus participantes son estudiantes de psicología. Es casi seguro que este estudio tendrá un problema con la validez externa.
  • Quieres medir la efectividad de una ilusión visual y tus participantes son todos estudiantes de psicología. Es poco probable que este estudio tenga un problema con la validez externa.

Habiendo pasado los últimos dos párrafos centrándonos en la elección de los participantes, dado que es un tema importante que tiende a preocupar más a todos, vale la pena recordar que la validez externa es un concepto más amplio. Los siguientes también son ejemplos de cosas que podrían representar una amenaza para la validez externa, según el tipo de estudio que estés realizando:

  • Las personas pueden responder un “cuestionario de psicología” de una manera que no refleja lo que harían en la vida real.
  • Tu experimento de laboratorio sobre (digamos) “aprendizaje humano” tiene una estructura diferente a los problemas de aprendizaje que afrontan las personas en la vida real.

2.6.3 Validez de constructo

La validez de constructo es básicamente una cuestión de si estás midiendo lo que quieres medir. Una medida tiene una buena validez de constructo si en realidad mide el constructo teórico correcto y una mala validez de constructo si no lo hace. Para dar un ejemplo muy simple (aunque ridículo), supongamos que estoy tratando de investigar las tasas con las que el alumnado universitario hacen trampa en sus exámenes. Y la forma en que intento medirlo es pidiendo al alumnado que hace trampa que se ponga de pie en la sala de conferencias para que pueda contarlos. Cuando hago esto con una clase de 300 estudiantes, 0 personas afirman ser tramposos. Por lo tanto, concluyo que la proporción de tramposos en mi clase es del 0%. Claramente esto es un poco ridículo. Pero lo importante aquí no es que este sea un ejemplo metodológico muy profundo, sino más bien explicar qué es la validez de constructo. El problema con mi medida es que mientras trato de medir “la proporción de personas que hacen trampa”, lo que en realidad estoy midiendo es “la proporción de personas lo suficientemente estúpidas como para reconocer que hacen trampa, o lo suficientemente estúpidas como para fingir que las hacen”. ¡Obviamente, no es lo mismo! Así que mi estudio salió mal, porque mi medida tiene una validez de constructo muy pobre.

2.6.4 Validez aparente

Validez aparente simplemente se refiere a si una medida “parece” que está haciendo lo que se supone que debe hacer, nada más. Si diseño una prueba de inteligencia, y la gente la mira y dice “no, esa prueba no mide la inteligencia”, entonces la medida carece de validez aparente. Es tan simple como eso. Obviamente, la validez aparente no es muy importante desde una perspectiva puramente científica. Después de todo, lo que nos importa es si la medida realmente hace o no lo que se supone que debe hacer, no si parece que hace lo que se supone que debe hacer. Como consecuencia, generalmente no nos importa mucho la validez aparente. Dicho esto, el concepto de validez aparente tiene tres propósitos pragmáticos útiles:

  • A veces, un científico experimentado tendrá la “corazonada” de que una medida en particular no funcionará. Si bien este tipo de corazonadas no tienen un valor probatorio estricto, a menudo vale la pena prestarles atención. Porque muchas veces las personas tienen conocimientos que no pueden verbalizar, por lo que puede haber algo de qué preocuparse, incluso si no puedes decir por qué. En otras palabras, cuando alguien de tu confianza critica la validez aparente de tu estudio, vale la pena tomarse el tiempo para pensar más detenidamente en tu diseño para ver si puedes pensar en las razones por las que podría salir mal. Eso sí, si no encuentras ningún motivo de preocupación, entonces probablemente no deberías preocuparte. Después de todo, la validez aparente realmente no importa mucho.
  • A menudo (muy a menudo), las personas completamente desinformadas también tendrán la “corazonada” de que tu investigación es una porquería. Y lo criticarán en Internet o algo así. Si lo examinas detenidamente, puedes notar que estas críticas en realidad se centran por completo en cómo “se ve” el estudio, pero no en nada más profundo. El concepto de validez aparente es útil para explicar con delicadeza a las personas que necesitan fundamentar más sus argumentos.
  • Ampliando el último punto, si las creencias de las personas no capacitadas son críticas (p. ej., este suele ser el caso de la investigación aplicada en la que realmente se quiere convencer a los responsables políticos de una cosa u otra), entonces hay que preocuparse por la validez aparente. Simplemente porque, te guste o no, mucha gente usará la validez aparente como un indicador de la validez real. Si quieres que el gobierno cambie una ley por razones psicológicas científicas, entonces no importará cuán buenos sean “realmente” tus estudios. Si carecen de validez aparente, encontrarás que los políticos lo ignoran. Por supuesto, es algo injusto que la política a menudo dependa más de la apariencia que de los hechos, pero así es como funcionan las cosas.

2.6.5 Validez ecológica

Validez ecológica es una noción diferente de validez, que es similar a la validez externa, pero menos importante. La idea es que, para que sea ecológicamente válido, toda la configuración del estudio debe aproximarse mucho al escenario del mundo real que se está investigando. En cierto sentido, la validez ecológica es una especie de validez aparente. Se relaciona principalmente con si el estudio “parece” correcto, pero con un poco más de rigor. Para ser ecológicamente válido, el estudio tiene que verse bien de una manera bastante específica. La idea detrás de esto es la intuición de que un estudio que es ecológicamente válido tiene más probabilidades de ser válido externamente. No es una garantía, por supuesto. Pero lo bueno de la validez ecológica es que es mucho más fácil verificar si un estudio es ecológicamente válido que verificar si un estudio es válido externamente. Un ejemplo simple serían los estudios de identificación de testigos presenciales. La mayoría de estos estudios tienden a realizarse en un entorno universitario, a menudo con una serie bastante simple de caras para mirar, en lugar de una fila. El tiempo que transcurre entre ver al “criminal” y pedirle que identifique al sospechoso en la “fila” suele ser más corto. El “crimen” no es real, por lo que no hay posibilidad de que el testigo se asuste, y no hay policías presentes, por lo que no hay tanta posibilidad de sentirse presionado. Todas estas cosas significan que el estudio carece de validez ecológica. Podría (o no) significar que también carece de validez externa.

2.7 Factores de confusión, artefactos y otras amenazas a la validez

Si analizamos el tema de la validez en general, las dos mayores preocupaciones que tenemos son los factores de confusión y los artefactos. Estos dos términos se definen de la siguiente manera:

  • Factor de confusión: Un confusor es una variable adicional, a menudo no medida5 que resulta estar relacionada tanto con los predictores como con el resultado. La existencia de factores de confusión amenaza la validez interna del estudio porque no se puede saber si el predictor causa el resultado o si la variable de confusión lo causa.
  • Artefacto: Se dice que un resultado es “artefacto” si solo se mantiene en la situación especial que probaste en tu estudio. La probabilidad de que tu resultado sea un artefacto describe una amenaza a su validez externa, porque plantea la posibilidad de que no puedas generalizar o aplicar tus resultados a la población real que te interesa.

Como regla general, los factores de confusión son una gran preocupación para los estudios no experimentales, precisamente porque no son experimentos adecuados. Por definición, se dejan muchas cosas sin controlar, por lo que hay mucha probabilidad de que los factores de confusión estén presentes en tu estudio. La investigación experimental tiende a ser mucho menos vulnerable a los factores de confusión. Cuanto más control tengas sobre lo que sucede durante el estudio, más podrás evitar que los factores de confusión afecten los resultados. Con la asignación aleatoria, por ejemplo, los factores de confusión se distribuyen de manera aleatoria y uniforme entre diferentes grupos.

Sin embargo, siempre hay ventajas y desventajas y cuando comenzamos a pensar en artefactos en lugar de factores de confusión, la situación es la contraria. En su mayor parte, los resultados de artefactos son una preocupación para los estudios experimentales más que para los estudios no experimentales. Para ver esto, es útil darse cuenta de que la razón por la que muchos estudios no son experimentales es precisamente porque lo que el investigador intenta hacer es examinar el comportamiento humano en un contexto más naturalista. Al trabajar en un contexto más real, pierde el control experimental (haciéndose vulnerable a los factores de confusión), pero debido a que estudia psicología humana “en el contexto natural”, reduce la probabilidad de obtener un artefacto. O, para decirlo de otra manera, cuando sacas la psicología del contexto natural y la llevas al laboratorio (lo que generalmente tenemos que hacer para obtener nuestro control experimental), siempre corres el riesgo de estudiar accidentalmente algo diferente a lo que querías estudiar.

Sin embargo, ten cuidado. Lo anterior es solo una guía aproximada. Es absolutamente posible tener factores de confusión en un experimento y obtener resultados artefactos con estudios no experimentales. Esto puede ocurrir por varias razones, una de las cuales es un error del experimentador o del investigador. En la práctica, es realmente difícil pensar en todo antes de tiempo e incluso los mejores investigadores cometen errores.

Aunque hay un sentido en el que casi cualquier amenaza a la validez puede caracterizarse como un factor de confusión o un artefacto, son conceptos bastante vagos. Así que echemos un vistazo a algunos de los ejemplos más comunes.

2.7.1 Efectos de la historia

Los efectos de la historia se refieren a la posibilidad de que ocurran eventos específicos durante el estudio que puedan influir en la medida del resultado. Por ejemplo, algo podría suceder entre una prueba previa y una prueba posterior. O entre las pruebas del participante 23 y el participante 24. Alternativamente, podría ser que estés viendo un artículo de un estudio anterior que era perfectamente válido para su época, pero el mundo ha cambiado lo suficiente desde entonces y las conclusiones ya no son fiables. Ejemplos de cosas que contarían como efectos de historia son:

  • Te interesa cómo piensa la gente sobre el riesgo y la incertidumbre. Empezaste la recopilación de datos en diciembre de 2010. Pero encontrar participantes y recopilar datos lleva tiempo, por lo que todavía estás encontrando nuevas personas en febrero de 2011. Desafortunadamente para ti (y aún más lamentablemente para otros), las inundaciones de Queensland ocurrieron en enero de 2011 y causaron miles de millones de dólares en daños y mataron a muchas personas. No es sorprendente que las personas evaluadas en febrero de 2011 expresen creencias bastante diferentes sobre el manejo del riesgo que las personas evaluadas en diciembre de 2010. ¿Cuál (si alguna) de estas refleja las creencias “verdaderas” de los participantes? Creo que la respuesta es probablemente ambas. Las inundaciones de Queensland cambiaron genuinamente las creencias del público australiano, aunque posiblemente solo temporalmente. La clave aquí es que la “historia” de las personas evaluadas en febrero es bastante diferente a la de las personas evaluadas en diciembre.

  • Estás probando los efectos psicológicos de un nuevo medicamento contra la ansiedad. Entonces lo que haces es medir la ansiedad antes de administrar el fármaco (por ejemplo, por autoinforme y tomando medidas fisiológicas). Luego administras la droga y luego tomas las mismas medidas. Sin embargo, en el medio, debido a que tu laboratorio está en Los Ángeles, hay un terremoto que aumenta la ansiedad de los participantes.

2.7.2 Efectos de maduración

Al igual que con los efectos de la historia, los efectos de maduración tienen que ver fundamentalmente con el cambio a lo largo del tiempo. Sin embargo, los efectos de maduración no responden a eventos específicos. Más bien, se relacionan con cómo las personas cambian por sí mismas con el tiempo. Nos hacemos mayores, nos cansamos, nos aburrimos, etc. Algunos ejemplos de efectos de maduración son:

  • Al realizar una investigación de psicología del desarrollo, debes tener en cuenta que los niños crecen con bastante rapidez. Entonces, supongamos que deseas averiguar si algún truco educativo ayuda con el tamaño del vocabulario entre los niños de 3 años. Una cosa que debes tener en cuenta es que el tamaño del vocabulario de los niños de esa edad está creciendo a un ritmo increíble (varias palabras por día) por sí solo. Si diseñas tu estudio sin tener en cuenta este efecto de maduración, entonces no podrás saber si tu truco educativo funciona.
  • Cuando se ejecuta un experimento muy largo en el laboratorio (por ejemplo, algo que dure 3 horas), es muy probable que las personas comiencen a aburrirse y cansarse, y que este efecto madurativo provoque una disminución del rendimiento independientemente de cualquier otra cosa que suceda en el experimento

2.7.3 Efectos de las pruebas repetidas

Un tipo importante de efecto de la historia es el efecto de las pruebas repetidas. Supongamos que quiero tomar dos medidas de algún constructo psicológico (p. ej., ansiedad). Una cosa que podría preocuparme es si la primera medición tiene un efecto en la segunda medición. En otras palabras, ¡este es un efecto histórico en el que el “evento” que influye en la segunda medición es la primera medición en sí misma! Esto no es nada raro. Ejemplos de esto incluyen:

  • Aprendizaje y práctica: por ejemplo, la “inteligencia” en el tiempo 2 podría parecer que aumenta en relación con el tiempo 1 porque los participantes aprendieron las reglas generales de cómo resolver preguntas del tipo “test de inteligencia” durante la primera sesión de pruebas.
  • Familiaridad con la situación de la prueba: por ejemplo, si las personas están nerviosas en el momento 1, esto podría hacer que el rendimiento baje. Pero después de pasar por la primera situación de prueba, es posible que se calmen mucho precisamente porque han visto cómo es la prueba.
  • Cambios auxiliares causados por las pruebas: por ejemplo, si un cuestionario que evalúa el estado de ánimo es aburrido, es más probable que la calificación del estado de ánimo en el tiempo de medición 2 sea “aburrida” precisamente por la medición aburrida realizada en el tiempo 1.

2.7.4 Sesgo de selección

Sesgo de selección es un término bastante amplio. Imagina que estás realizando un experimento con dos grupos de participantes en el que cada grupo recibe un “tratamiento” diferente y deseas ver si los diferentes tratamientos conducen a resultados diferentes. Sin embargo, supongamos que, a pesar de tus mejores esfuerzos, has terminado con un desequilibrio de género entre los grupos (por ejemplo, el grupo A tiene un 80 % de mujeres y el grupo B tiene un 50 % de mujeres). Puede parecer que esto nunca podría suceder, pero créeme, puede suceder. Este es un ejemplo de un sesgo de selección, en el que las personas “seleccionadas en” los dos grupos tienen características diferentes. Si alguna de esas características resulta ser relevante (por ejemplo, tu tratamiento funciona mejor en mujeres que en hombres), entonces tienes un gran problema.

2.7.5 Abandono diferencial

Al pensar en los efectos del abandono, a veces es útil distinguir entre dos tipos diferentes. El primero es el abandono homogéneo, en el que el efecto del abandono es el mismo para todos los grupos, tratamientos o condiciones. En el ejemplo que di arriba, el abandono sería homogéneo si (y solo si) los participantes que se aburren fácilmente abandonan todas las condiciones de mi experimento aproximadamente al mismo ritmo. En general, es probable que el principal efecto del abandono homogéneo sea que hace que tu muestra no sea representativa. Como tal, la mayor preocupación que tendrás es que la generalización de los resultados disminuya. En otras palabras, pierde validez externa.

El segundo tipo de abandono es el abandono heterogéneo, en el que el efecto de abandono es diferente para diferentes grupos. Más a menudo llamado abandono diferencial, este es un tipo de sesgo de selección causado por el propio estudio. Supongamos que, por primera vez en la historia de la psicología, consigo encontrar la muestra de personas perfectamente equilibrada y representativa. Comienzo a ejecutar el “experimento increíblemente largo y tedioso de Dani” en mi muestra perfecta, pero luego, debido a que mi estudio es increíblemente largo y tedioso, muchas personas comienzan a abandonar. No puedo detener esto. Los participantes tienen absolutamente el derecho de dejar de hacer cualquier experimento, en cualquier momento, por cualquier motivo que deseen, y como investigadores estamos moralmente (y profesionalmente) obligados a recordar a las personas que tienen este derecho. Entonces, supongamos que el “experimento increíblemente largo y tedioso de Dani” tiene una tasa de abandono muy alta. ¿Cuáles crees que son las probabilidades de que este abandono sea aleatorio? Respuesta: cero. Es casi seguro que las personas que se quedan son más concienzudas, más tolerantes con el aburrimiento, etc., que las que se van. En la medida en que (digamos) la escrupulosidad sea relevante para el fenómeno psicológico que me importa, este abandono puede disminuir la validez de mis resultados.

Aquí hay otro ejemplo. Supongamos que diseño mi experimento con dos condiciones. En la condición de “tratamiento”, el experimentador insulta al participante y luego le entrega un cuestionario diseñado para medir la obediencia. En la condición de “control”, el experimentador se involucra en una charla sin sentido y luego les entrega el cuestionario. Dejando de lado los méritos científicos cuestionables y la ética dudosa de tal estudio, pensemos qué podría salir mal aquí. Como regla general, cuando alguien me insulta en la cara tiendo a cooperar mucho menos. Por lo tanto, hay muchas posibilidades de que muchas más personas abandonen la condición de tratamiento que la condición de control. Y este abandono no va a ser aleatorio. Las personas con más probabilidades de abandonar probablemente serían las personas a las que no les importa demasiado la importancia de permanecer obedientemente durante el experimento. Dado que las personas más malintencionadas y desobedientes abandonaron el grupo de tratamiento pero no el grupo de control, hemos introducido una confusión: las personas que realmente respondieron el cuestionario en el grupo de tratamiento ya eran más obedientes y cumplidoras que las personas en el grupo de control. En resumen, en este estudio insultar a las personas no las hace más obedientes. ¡Hace que las personas más desobedientes abandonen el experimento! La validez interna de este experimento está completamente descartada.

2.7.6 Sesgo de no respuesta

El sesgo por falta de respuesta está estrechamente relacionado con el sesgo de selección y con el abandono diferencial. La versión más simple del problema es así. Envías una encuesta a 1000 personas, pero solo 300 de ellas responden. Es casi seguro que las 300 personas que respondieron no son una submuestra aleatoria. Las personas que responden a las encuestas son sistemáticamente diferentes a las personas que no lo hacen. Esto presenta un problema al tratar de generalizar a partir de esas 300 personas que respondieron a la población general, ya que ahora tienes una muestra no aleatoria. Sin embargo, el problema del sesgo por falta de respuesta es más general que esto. Entre las (digamos) 300 personas que respondieron a la encuesta, es posible que no todos respondan todas las preguntas. Si (digamos) 80 personas optaron por no responder a una de tus preguntas, ¿presenta esto problemas? Como siempre, la respuesta es quizás. Si la pregunta que no se contestó estaba en la última página del cuestionario y esas 80 encuestas se devolvieron sin la última página, es muy probable que los datos que faltan no sean un gran problema; probablemente las páginas simplemente se cayeron. Sin embargo, si la pregunta que 80 personas no respondieron fue la pregunta personal más conflictiva o invasiva del cuestionario, es casi seguro que tienes un problema. En esencia, se trata de lo que se denomina el problema de datos faltantes. Si los datos que faltan se “perdieron” al azar, entonces no es un gran problema. Si falta sistemáticamente, puede ser un gran problema.

2.7.7 Regresión a la media

La regresión a la media hace referencia a cualquier situación en la que selecciones datos en función de un valor extremo en alguna medida. Debido a que la variable tiene una variación natural, es casi seguro que significa que cuando tomas una medición posterior, la última medición será menos extrema que la primera, puramente por casualidad.

Aquí hay un ejemplo. Supongamos que me interesa saber si la educación en psicología tiene un efecto adverso en los chicos y chicas muy inteligentes. Para ello, busco a los 20 estudiantes de psicología I con las mejores notas de bachillerato y observo qué tal les va en la universidad. Resulta que les está yendo mucho mejor que el promedio, pero no son los mejores de la clase en la universidad a pesar de que sí fueron los mejores en bachillerato. ¿Que esta pasando? El primer pensamiento natural es que esto debe significar que las clases de psicología deben tener un efecto adverso en esos estudiantes. Sin embargo, si bien esa podría ser la explicación, es más probable que lo que estás viendo sea un ejemplo de “regresión a la media”. Para ver cómo funciona, pensemos por un momento qué se requiere para obtener la mejor calificación en una clase, sin importar si esa clase es en bachillerato o en la universidad. Cuando tienes una clase grande, habrá muchas personas muy inteligentes inscritas. Para sacar la mejor nota tienes que ser muy inteligente, trabajar muy duro y tener un poco de suerte. El examen tiene que hacer las preguntas correctas para tus habilidades idiosincrásicas, y tienes que evitar cometer errores tontos (todos lo hacemos a veces) al responderlas. Y esa es la cuestión, mientras que la inteligencia y el trabajo duro son transferibles de una clase a otra, la suerte no lo es. Las personas que tuvieron suerte en la escuela secundaria no serán las mismas que las que tuvieron suerte en la universidad. Esa es la definición misma de “suerte”. La consecuencia de esto es que cuando seleccionas personas en los valores extremos de una medición (los 20 mejores estudiantes), estás seleccionando por trabajo duro, habilidad y suerte. Pero debido a que la suerte no se transfiere a la segunda medición (solo la habilidad y el trabajo), se espera que todas estas personas bajen un poco cuando las midas por segunda vez (en la universidad). Entonces sus puntuaciones retroceden un poco, hacia todos los demás. Esta es la regresión a la media.

La regresión a la media es sorprendentemente común. Por ejemplo, si dos personas muy altas tienen hijos, sus hijos tenderán a ser más altos que el promedio pero no tan altos como los padres. Lo contrario sucede con los padres muy bajos. Dos padres muy bajos tenderán a tener hijos pequeños, pero sin embargo esos niños tenderán a ser más altos que los padres. También puede ser extremadamente sutil. Por ejemplo, se han realizado estudios que sugieren que las personas aprenden mejor con comentarios negativos que con comentarios positivos. Sin embargo, la forma en que las personas intentaron mostrar esto fue dándoles un refuerzo positivo cada vez que lo hacían bien y un refuerzo negativo cuando lo hacían mal. Y lo que se ve es que después del refuerzo positivo la gente tendía a hacerlo peor, pero después del refuerzo negativo tendía a hacerlo mejor. ¡Pero fíjate que aquí hay un sesgo de selección! Cuando a las personas les va muy bien, estás seleccionando valores “altos”, por lo que debes esperar, debido a la regresión a la media, que el rendimiento en la siguiente prueba sea peor, independientemente de si se da refuerzo. De manera similar, después de una mala prueba, las personas tenderán a mejorar por sí mismas. La aparente superioridad de la retroalimentación negativa es un artefacto causado por la regresión a la media (ver Kahneman & Tversky (1973), para discusión).

2.7.8 Sesgo del experimentador

El sesgo del experimentador puede presentarse de múltiples formas. La idea básica es que el experimentador, a pesar de sus mejores intenciones, puede terminar influenciando accidentalmente los resultados del experimento al comunicar sutilmente la “respuesta correcta” o el “comportamiento deseado” a los participantes. Por lo general, esto ocurre porque el experimentador tiene un conocimiento especial que el participante no tiene, por ejemplo, la respuesta correcta a las preguntas que se le hacen o el conocimiento del patrón de desempeño esperado para la condición en la que se encuentra el participante. El ejemplo clásico de esto es el caso de estudio de “Clever Hans”, que data de 1907 (Pfungst, 1911). Clever Hans era un caballo que aparentemente podía leer y contar y realizar otras hazañas de inteligencia similares a las de los humanos. Después de que Clever Hans se hiciera famoso, los psicólogos comenzaron a examinar su comportamiento más de cerca. Resultó que, como era de esperar, Hans no sabía hacer matemáticas. Más bien, Hans estaba respondiendo a los observadores humanos que lo rodeaban, porque los humanos sí sabían contar y el caballo había aprendido a cambiar su comportamiento cuando la gente cambiaba el suyo.

La solución general al problema del sesgo del experimentador es participar en estudios doble ciego, en los que ni el experimentador ni el participante saben en qué condición se encuentra el participante ni cuál es el comportamiento deseado. Esto proporciona una muy buena solución al problema, pero es importante reconocer que no es del todo ideal y difícil de lograr a la perfección. Por ejemplo, la forma obvia en la que podría intentar construir un estudio doble ciego es tener uno de mis estudiantes de doctorado (uno que no sabe nada sobre el experimento) dirigiendo el estudio. Eso parece que debería ser suficiente. La única persona (yo) que conoce todos los detalles (p. ej., las respuestas correctas a las preguntas, las asignaciones de los participantes a las condiciones) no interactúa con los participantes, y la persona que habla con la gente (el estudiante de doctorado) no sabe nada. Excepto por la realidad de que es muy poco probable que la última parte sea cierta. Para que el estudiante de doctorado pueda llevar a cabo el estudio de manera efectiva, deben haber sido informados por mí, el investigador. Y, como sucede, el estudiante también me conoce y sabe un poco acerca de mis creencias generales sobre las personas y la psicología (p. ej., tiendo a pensar que los humanos son mucho más inteligentes de lo que los psicólogos piensan). Como resultado de todo esto, es casi imposible que el experimentador deje de saber un poco sobre las expectativas que tengo. E incluso un poco de conocimiento puede tener un efecto. Supongamos que el experimentador transmite accidentalmente el hecho de que se espera que los participantes lo hagan bien en esta tarea. Bueno, hay una cosa llamada “efecto Pigmalión”, donde si esperas grandes cosas de las personas, tenderán a estar a la altura de las circunstancias. Pero si esperas que fracasen, también lo harán. En otras palabras, las expectativas se convierten en una profecía autocumplida.

2.7.9 Efectos de la demanda y reactividad

Cuando se habla del sesgo del experimentador, la preocupación es que el conocimiento o los deseos del experimentador para el experimento se comuniquen a los participantes, y que estos puedan cambiar el comportamiento de las personas (Rosenthal, 1966). Sin embargo, incluso si logras evitar que esto suceda, es casi imposible evitar que las personas sepan que son parte de un estudio psicológico. Y el mero hecho de saber que alguien te está mirando o estudiando puede tener un efecto bastante grande en el comportamiento. Esto generalmente se conoce como reactividad o efectos de demanda. La idea básica se recoge en el efecto Hawthorne: las personas alteran su rendimiento debido a la atención que les presta el estudio. El efecto toma su nombre de un estudio que tuvo lugar en la fábrica “Hawthorne Works” en las afueras de Chicago (ver Adair (1984)). Este estudio, de la década de 1920, analizó los efectos de la iluminación de las fábricas en la productividad de los trabajadores. Pero, lo que es más importante, el cambio en el comportamiento de los trabajadores ocurrió porque los trabajadores sabían que estaban siendo estudiados, en lugar de cualquier efecto de la iluminación de la fábrica.

Para concretar un poco más algunas de las formas en que el mero hecho de estar en un estudio puede cambiar el comportamiento de las personas, ayuda pensar como un psicólogo social y observar algunos de los roles que las personas pueden adoptar durante un experimento, pero podría no adoptar si los eventos correspondientes estuvieran ocurriendo en el mundo real:

  • El buen participante trata de ser demasiado útil para el investigador. Él o ella busca descifrar las hipótesis del experimentador y confirmarlas.
  • El participante negativo hace exactamente lo contrario del buen participante. Él o ella busca romper o destruir el estudio o la hipótesis de alguna manera.
  • El participante fiel es anormalmente obediente. Él o ella busca seguir las instrucciones a la perfección, independientemente de lo que podría haber sucedido en un entorno más realista.
  • El participante aprensivo se pone nervioso acerca de ser evaluado o estudiado, tanto que su comportamiento se vuelve muy antinatural o demasiado socialmente deseable.

2.7.10 Efectos placebo

El efecto placebo es un tipo específico de efecto de demanda que nos preocupa mucho. Se refiere a la situación en la que el mero hecho de ser tratado provoca una mejora en los resultados. El ejemplo clásico proviene de los ensayos clínicos. Si le das a la gente un medicamento completamente inerte químicamente y les dices que es una cura para una enfermedad, tenderán a mejorar más rápido que las personas que no reciben ningún tratamiento. En otras palabras, es la creencia de las personas de que están siendo tratadas lo que produce mejores resultados, no el medicamento.

Sin embargo, el consenso actual en medicina es que los verdaderos efectos placebo son bastante raros y que la mayor parte de lo que antes se consideraba efecto placebo es, de hecho, una combinación de curación natural (algunas personas simplemente mejoran por sí solas), regresión a la media y otras peculiaridades de diseño de estudio. De interés para la psicología es que la evidencia más sólida de al menos algún efecto placebo se encuentra en los resultados autoinformados, sobre todo en el tratamiento del dolor (Hróbjartsson & Gøtzsche, 2010).

2.7.11 Efectos de situación, medición y subpoblación

En algunos aspectos, estos términos son un término general para “todas las demás amenazas a la validez externa”. Se refieren al hecho de que la elección de la subpoblación de la que extraes a tus participantes, la ubicación, el momento y la forma en que llevas a cabo tu estudio (incluido quién recopila los datos) y las herramientas que utilizas para realizar tus mediciones pueden estar influyendo en los resultados. Específicamente, la preocupación es que estas cosas puedan influir en los resultados de tal manera que los resultados no se generalicen a una gama más amplia de personas, lugares y medidas.

2.7.12 Fraude, engaño y autoengaño

Es difícil lograr que un hombre entienda algo, cuando su salario depende de que no lo entienda.
- Upton Sinclair

Hay una última cosa que siento que debo mencionar. Mientras leía lo que los libros de texto a menudo tienen que decir sobre la evaluación de la validez de un estudio, no pude evitar notar que parecen asumir que el investigador es honesto. Me parece divertidísimo. Si bien la gran mayoría de los científicos son honestos, al menos según mi experiencia, algunos no lo son.6 No solo eso, como mencioné anteriormente, los científicos no son inmunes al sesgo de creencias. Es fácil para un investigador terminar engañándose a sí mismo creyendo algo incorrecto, y esto puede llevarlos a realizar una investigación sutilmente defectuosa y luego ocultar esos defectos cuando la escriben. Por lo tanto, debes considerar no solo la posibilidad (probablemente poco probable) de un fraude absoluto, sino también la posibilidad (probablemente bastante común) de que la investigación esté “sesgada” sin querer. Abrí algunos libros de texto estándar y no encontré mucha discusión sobre este problema, así que aquí está mi propio intento de enumerar algunas formas en que pueden surgir estos problemas:

  • Fabricación de datos. A veces, las personas simplemente inventan los datos. Esto se hace ocasionalmente con “buenas” intenciones. Por ejemplo, el investigador cree que los datos fabricados reflejan la verdad y, de hecho, pueden reflejar versiones “ligeramente limpias” de los datos reales. En otras ocasiones, el fraude es deliberado y malicioso. Algunos ejemplos destacados de presunta o demostrada falsificación de datos incluyen a Cyril Burt (un psicólogo que se cree que fabricó algunos de sus datos), Andrew Wakefield (a quien se acusó de fabricar sus datos conectando la vacuna MMR con el autismo) y Hwang Woo-suk (quien falsificó muchos de sus datos sobre la investigación con células madre).
  • Bulos. Los bulos comparten muchas similitudes con la fabricación de datos, pero difieren en el propósito que persiguen. Un bulo es a menudo una broma, y muchos de ellos están destinados a ser (eventualmente) descubiertos. A menudo, el objetivo de un engaño es desacreditar a alguien o algún campo. A lo largo de los años se han producido bastantes bulos científicos (p. ej., el hombre de Piltdown) y algunos fueron intentos deliberados de desacreditar determinados campos de investigación (p. ej., el caso Sokal).
  • Tergiversación de datos. Si bien el fraude ocupa la mayoría de los titulares, en mi experiencia es mucho más común ver datos tergiversados. Cuando digo esto no me refiero a que los periódicos se equivoquen (cosa que hacen, casi siempre). Me refiero al hecho de que a menudo los datos en realidad no dicen lo que los investigadores creen que dicen. Supongo que, casi siempre, esto no es el resultado de una deshonestidad deliberada, sino que se debe a una falta de sofisticación en los análisis de datos. Por ejemplo, piensa en el ejemplo de la paradoja de Simpson que analicé al principio de este libro. Es muy común ver a las personas presentar datos “agregados” de algún tipo y, a veces, cuando profundizas y encuentras los datos sin procesar, descubres que los datos agregados cuentan una historia diferente a los datos desagregados. Alternativamente, puede encontrar que algún aspecto de los datos está oculto, porque cuenta una historia inconveniente (p. ej., el investigador puede optar por no referirse a una variable en particular). Hay muchas variantes de esto, muchas de las cuales son muy difíciles de detectar.
  • Estudiar el “diseño erróneo”. Vale, este es sutil. Básicamente, el problema aquí es que un investigador diseña un estudio que tiene fallos incorporadas y esos fallos nunca se informan en el artículo. Los datos que se reportan son completamente reales y están correctamente analizados, pero son producto de un estudio que en realidad está bastante mal elaborado. El investigador realmente quiere encontrar un efecto particular y, por lo tanto, el estudio se configura de tal manera que sea “fácil” observar (artefactualmente) ese efecto. Una forma astuta de hacer esto, en caso de que te apetezca hacer un poco de fraude, es diseñar un experimento en el que sea obvio para los participantes lo que “se supone” que deben hacer, y luego dejar que la reactividad haga su magia. Si lo deseas, puedes agregar todas las trampas de la experimentación doble ciego, pero no supondrá ninguna diferencia, ya que los propios materiales del estudio le están diciendo sutilmente a la gente lo que tú quieres que hagan. Cuando escribas los resultados, el fraude no será evidente para el lector. Lo que es obvio para el participante cuando está en el contexto experimental no siempre lo es para la persona que lee el artículo. Por supuesto, la forma en que lo he descrito hace que parezca que siempre es un fraude. Probablemente hay casos en los que esto se hace deliberadamente, pero en mi experiencia, la mayor preocupación ha sido el diseño erróneo no intencionado. El investigador cree y, por tanto, el estudio acaba teniendo un fallo incorporado, y ese fallo se borra mágicamente cuando el estudio se redacta para su publicación.
  • Minería de datos y elaboración de hipótesis post hoc. Otra forma en que los autores de un estudio pueden tergiversar más o menos los datos es participar en lo que se conoce como “minería de datos” (ver Gelman y Loken 2014, para una discusión más amplia de esto como parte del “jardín de caminos que se bifurcan” en el análisis estadístico). Como veremos más adelante, si sigues tratando de analizar los datos de muchas maneras diferentes, eventualmente encontrarás algo que “parece” un efecto real pero no lo es. Esto se conoce como “minería de datos”. Antes era muy poco frecuente porque el análisis de datos solía llevar semanas, pero ahora que todo el mundo dispone de programas estadísticos potentes en sus ordenadores, se está convirtiendo en algo muy común. La minería de datos en sí no es “incorrecta”, pero cuanto más se hace, mayor es el riesgo que se corre. Lo que está mal, y sospecho que es muy común, es la minería de datos no reconocida. Es decir, el investigador ejecuta todos los análisis posibles conocidos por la humanidad, encuentra el que funciona y luego finge que este fue el único análisis que realizó. Peor aún, a menudo “inventan” una hipótesis después de mirar los datos para encubrir la extracción de datos. Para que quede claro. No está mal cambiar de opinión después de analizar los datos y volver a analizar los datos con las nuevas hipótesis “post hoc”. Lo que está mal (y sospecho que es común) es no reconocer lo que has hecho. Si reconoces que lo has hecho, otros investigadores podrán tener en cuenta tu comportamiento. Si no lo haces, no podrán hacerlo. Y eso convierte tu comportamiento en engañoso. Malo
  • Sesgo de publicación y autocensura. Finalmente, un sesgo generalizado es la “no notificación” de los resultados negativos. Esto es casi imposible de prevenir. Las revistas no publican todos los artículos que se les envían. Prefieren publicar artículos que encuentran “algo”. Así, si 20 personas realizan un experimento para ver si leer Finnegans Wake causa locura en los humanos, y 19 de ellos descubren que no es así, ¿cuál crees que se publicará? Obviamente, el único estudio que encontró que Finnegans Wake causa locura.7 Este es un ejemplo de un sesgo de publicación. Dado que nadie publicó los 19 estudios que no encontraron un efecto, un lector ingenuo nunca sabría que existieron. Peor aún, la mayoría de los investigadores “internalizan” este sesgo y terminan autocensurándose en su investigación. Sabiendo que los resultados negativos no serán aceptados para su publicación, ni siquiera intentan informarlos. Como dice una amiga mí “por cada experimento que te publican, también tienes 10 fracasos”. Y tiene razón. El problema es que, si bien algunos (quizás la mayoría) de esos estudios son fracasos por razones aburridas (por ejemplo, porque has metido la pata en algo), otros pueden ser auténticos resultados “nulos” que debes reconocer cuando escribes el experimento “bueno”. Y a menudo es difícil saber cuál es cuál. Un buen punto de partida es un artículo de Ioannidis (2005) con el deprimente título “Por qué la mayoría de los hallazgos de investigación publicados son falsos”. También sugeriría echar un vistazo al trabajo de Kühberger et al. (2014) que presenta evidencia estadística de que esto realmente sucede en psicología.

Probablemente haya muchos más problemas como este en los que pensar, pero eso servirá para empezar. Lo que realmente quiero señalar es la verdad cegadoramente obvia de que la ciencia del mundo real la realizan humanos reales, y solo las personas más crédulas asumen automáticamente que todos los demás son honestos e imparciales. Los científicos reales no suelen ser tan ingenuos, pero por alguna razón al mundo le gusta fingir que lo somos, y los libros de texto que solemos escribir parecen reforzar ese estereotipo.

2.8 Resumen

En realidad, este capítulo no pretende proporcionar una discusión exhaustiva de los métodos de investigación psicológica. Se necesitaría otro volumen tan largo como este para hacer justicia al tema. Sin embargo, en la vida real, la estadística y el diseño de estudios están tan estrechamente entrelazados que es muy útil discutir algunos de los temas clave. En este capítulo, he discutido brevemente los siguientes temas:

  • Introducción a la medición psicológica. ¿Qué significa operativizar un constructo teórico? ¿Qué significa tener variables y tomar medidas?
  • Escalas de medida y tipos de variables. Recuerda que hay dos distinciones diferentes aquí. Existe la diferencia entre datos discretos y continuos, y existe la diferencia entre los cuatro tipos de escala diferentes (nominal, ordinal, de intervalo y de razón).
  • Evaluación de la fiabilidad de una medida. Si mido “lo mismo” dos veces, ¿debería esperar ver el mismo resultado? Sólo si mi medida es fiable. Pero, ¿qué significa hablar de hacer “lo mismo”? Bueno, es por eso que tenemos diferentes tipos de fiabilidad. Asegúrate de recordar cuáles son.
  • El “rol” de las variables: predictores y resultados. ¿Qué papel juegan las variables en un análisis? ¿Puedes recordar la diferencia entre predictores y resultados? ¿Variables dependientes e independientes? Etc.
  • Diseños [de investigación experimental y no experimental]. ¿Qué hace que un experimento sea un experimento? ¿Es una bonita bata blanca de laboratorio o tiene algo que ver con el control del investigador sobre las variables?
  • Evaluar la validez de un estudio. ¿Tu estudio mide lo que tú quieres? ¿Cómo podrían salir mal las cosas? ¿Y es mi imaginación, o fue una lista muy larga de posibles formas en que las cosas pueden salir mal?

Todo esto debería dejarte claro que el diseño del estudio es una parte fundamental de la metodología de la investigación. Construí este capítulo a partir del librito clásico de Campbell & Stanley (1963), pero, por supuesto, hay una gran cantidad de libros de texto sobre diseños de investigación. Dedica unos minutos a tu motor de búsqueda favorito y encontrarás docenas.


  1. Discurso presidencial ante el Primer Congreso de Estadística de la India, 1938. Fuente: http://en.wikiquote.org/wiki/Ronald Fisher↩︎

  2. En realidad, lectores con más conocimientos de física que yo me han informado de que la temperatura no es estrictamente una escala de intervalo, en el sentido de que la cantidad de energía necesaria para calentar algo 3° depende de su temperatura actual. Por tanto, en el sentido que interesa a los físicos, la temperatura no es en realidad una escala de intervalo. Pero sigue siendo un buen ejemplo, así que voy a ignorar esta pequeña verdad incómoda.↩︎

  3. Ah, la psicología… ¡nunca hay una respuesta fácil para nada!↩︎

  4. Sin embargo, hay muchos nombres diferentes que se utilizan. No voy a enumerarlos todos (no tendría sentido hacerlo), salvo señalar que a veces se usa “variable de respuesta” donde he usado “resultado”. Este tipo de confusión terminológica es muy común, me temo.↩︎

  5. la razón por la que digo que no se mide es que si lo has medido, puedes usar algunos trucos estadísticos sofisticados para lidiar con el factor de confusión. Debido a la existencia de estas soluciones estadísticas al problema de los factores de confusión, a menudo nos referimos a un factor de confusión que hemos medido y tratado como una covariable. Tratar con covariables es un tema más avanzado, pero pensé en mencionarlo de pasada ya que es un poco reconfortante saber al menos que esto existe.↩︎

  6. Algunas personas podrían argumentar que si no eres honesto, entonces no eres un verdadero científico. Supongo que tiene algo de verdad, pero eso es falso (busque la falacia “No hay verdadero escocés”). El hecho es que hay muchas personas que están empleadas ostensiblemente como científicos, y cuyo trabajo tiene todas las trampas de la ciencia, pero que son totalmente fraudulentas. Pretender que no existen diciendo que no son científicos es solo un pensamiento confuso.↩︎

  7. Claramente, el efecto real es que solo las personas locas intentarían leer Finnegans Wake↩︎