9 Prueba de hipótesis
El proceso de inducción consiste en asumir la ley más simple que se pueda armonizar con nuestra experiencia. Este proceso, sin embargo, no tiene fundamento lógico sino sólo psicológico. Está claro que no hay motivos para creer que el curso más simple de los acontecimientos vaya a suceder realmente. Es una hipótesis que el sol saldrá mañana, lo que significa que no sabemos si saldrá. – Ludwig Wittgenstein 1
En el último capítulo discutí las ideas en las que se basa la estimación, que es una de las dos “grandes ideas” de la estadística inferencial. Ahora es el momento de centrar nuestra atención en la otra gran idea, que es la prueba de hipótesis. En su forma más abstracta, la prueba de hipótesis es realmente una idea muy simple. El investigador tiene una teoría sobre el mundo y quiere determinar si los datos apoyan o no esa teoría. Sin embargo, los detalles son complicados y la mayoría de la gente considera que la teoría de la prueba de hipótesis es la parte más frustrante de la estadística. La estructura del capítulo es la siguiente. En primer lugar, describiré cómo funcionan las prueba de hipótesis con bastante detalle, utilizando un ejemplo sencillo para mostrar cómo se “construye” una prueba de hipótesis. Intentaré no ser demasiado dogmática centrarme en la lógica subyacente del procedimiento de prueba.2 Luego, dedicaré un poco de tiempo a hablar sobre los diversos dogmas, reglas y herejías que rodean la teoría de la prueba de hipótesis.
9.1 Una colección de hipótesis
Al final todos sucumbimos a la locura. Para mí, ese día llegará cuando por fin me asciendan a catedrática. Instalada en mi torre de marfil, felizmente protegida por la cátedra, podré por fin despedirme de mis sentidos (por así decirlo) y dedicarme a esa línea de investigación psicológica más improductiva, la búsqueda de la percepción extrasensorial (PES).3
Supongamos que este glorioso día ha llegado. Mi primer estudio es sencillo y consiste en probar si existe la clarividencia. Cada participante se sienta en una mesa y un experimentador le muestra una tarjeta. La tarjeta es negra por un lado y blanca por el otro. El experimentador retira la tarjeta y la coloca sobre una mesa en una habitación contigua. La tarjeta se coloca con el lado negro hacia arriba o el lado blanco hacia arriba de forma totalmente aleatoria, y la aleatorización se produce después de que el experimentador haya salido de la habitación con el participante. Entra un segundo experimentador y le pregunta al participante qué lado de la tarjeta está ahora hacia arriba. Es un experimento de una sola vez. Cada persona ve solo una tarjeta y da solo una respuesta, y en ningún momento el participante está en contacto con alguien que sepa la respuesta correcta. Mi conjunto de datos, por lo tanto, es muy sencillo. He hecho la pregunta a N personas y un número
9.1.1 Hipótesis de investigación versus hipótesis estadísticas
La primera distinción que debes tener clara es entre hipótesis de investigación e hipótesis estadísticas. En mi estudio sobre la PES, mi objetivo científico general es demostrar que existe la clarividencia. En esta situación, tengo un objetivo de investigación claro: espero descubrir pruebas de la PES. En otras situaciones, podría ser mucho más neutral que eso, por lo que podría decir que mi objetivo de investigación es determinar si existe o no la clarividencia. Independientemente de cómo me presente, lo que quiero decir es que una hipótesis de investigación implica hacer una afirmación científica sustantiva y comprobable. Si eres psicóloga, tus hipótesis de investigación se refieren fundamentalmente a constructos psicológicos. Cualquiera de las siguientes contaría como hipótesis de investigación:
- Escuchar música reduce la capacidad de prestar atención a otras cosas. Se trata de una afirmación sobre la relación causal entre dos conceptos psicológicamente significativos (escuchar música y prestar atención a las cosas), por lo que es una hipótesis de investigación perfectamente razonable.
- La inteligencia está relacionada con la personalidad. Al igual que la anterior, se trata de una afirmación relacional sobre dos constructos psicológicos (inteligencia y personalidad), pero la afirmación es más débil: correlacional, no causal.
- La inteligencia es la velocidad de procesamiento de la información. Esta hipótesis tiene un carácter bastante diferente. En realidad, no es una afirmación relacional en absoluto. Es una afirmación ontológica sobre el carácter fundamental de la inteligencia (y estoy bastante segura de que en realidad es ésta). Normalmente es más fácil pensar en cómo construir experimentos para probar hipótesis de investigación del tipo “¿afecta
a ?” que abordar afirmaciones como “¿qué es ?” Y en la práctica, lo que suele ocurrir es que se encuentran formas de probar las afirmaciones relacionales que se derivan de las ontológicas. Por ejemplo, si creo que la inteligencia es la velocidad de procesamiento de la información en el cerebro, mis experimentos consistirán a menudo en buscar relaciones entre medidas de inteligencia y medidas de velocidad. En consecuencia, la mayoría de las preguntas de investigación cotidianas tienden a ser de naturaleza relacional, pero casi siempre están motivadas por preguntas ontológicas más profundas sobre el estado de naturaleza.
Ten en cuenta que en la práctica, mis hipótesis de investigación podrían solaparse mucho. Mi objetivo final en el experimento de PES podría ser probar una afirmación ontológica como “la PES existe”, pero podría restringirme operativamente a una hipótesis más limitada como “algunas personas pueden ‘ver’ objetos de manera clarividente”. Dicho esto, hay algunas cosas que realmente no cuentan como hipótesis de investigación adecuadas en ningún sentido significativo:
- El amor es un campo de batalla. Esto es demasiado vago para ser comprobable. Aunque está bien que una hipótesis de investigación tenga cierto grado de vaguedad, tiene que ser posible operacionalizar tus ideas teóricas. Tal vez no soy lo bastante creativa para verlo, pero no veo cómo se puede convertir esto en un diseño de investigación concreto. Si eso es cierto, entonces esta no es una hipótesis de investigación científica, es una canción pop. Eso no significa que no sea interesante. Muchas preguntas profundas que se hacen los humanos entran en esta categoría. Quizá algún día la ciencia sea capaz de construir teorías comprobables sobre el amor, o comprobar si Dios existe, etcétera. Pero ahora mismo no podemos, y yo no apostaría por ver nunca una aproximación científica satisfactoria a ninguna de las dos cosas.
- La primera regla del club de la tautología es la primera regla del club de la tautología. No es una afirmación sustantiva de ningún tipo. Es cierta por definición. Ningún estado de la naturaleza concebible podría ser incompatible con esta afirmación. Decimos que se trata de una hipótesis infalsable, y como tal está fuera del dominio de la ciencia. Independientemente de lo que se haga en ciencia, tus afirmaciones deben tener la posibilidad de ser erróneas.
- En mi experimento más gente dirá “sí” que “no”. Esto falla como hipótesis de investigación porque es una afirmación sobre el conjunto de datos, no sobre la psicología (a menos, por supuesto, que tu pregunta de investigación real sea si las personas tienen algún tipo de sesgo hacia el “sí”). En realidad, esta hipótesis empieza a parecer más una hipótesis estadística que una hipótesis de investigación.
Como puedes ver, las hipótesis de investigación pueden ser algo complicadas a veces y, en última instancia, son afirmaciones científicas. Las hipótesis estadísticas no son ninguna de estas dos cosas. Las hipótesis estadísticas deben ser precisas y deben corresponder a afirmaciones concretas sobre las características del mecanismo de generación de datos (es decir, la “población”). Aun así, la intención es que las hipótesis estadísticas guarden una relación clara con las hipótesis de investigación sustantivas que te interesan. Por ejemplo, en mi estudio sobre PES, mi hipótesis de investigación es que algunas personas son capaces de ver a través de las paredes o lo que sea. Lo que quiero hacer es “mapear” esto en una afirmación sobre cómo se generaron los datos. Así que vamos a pensar en lo que sería esa afirmación. La cantidad que me interesa dentro del experimento es
- Si la PES no existe y si mi experimento está bien diseñado, entonces mis participantes solo están adivinando. Así que debería esperar que acierten la mitad de las veces, y entonces mi hipótesis estadística es que la verdadera probabilidad de elegir correctamente es
. - Alternativamente, supongamos que la PES existe y que los participantes pueden ver la tarjeta. Si eso es cierto, la gente obtendrá mejores resultados que el azar y la hipótesis estadística es que
. - Una tercera posibilidad es que la PES exista, pero los colores estén todos invertidos y la gente no se dé cuenta (vale, es una locura, pero nunca se sabe). Si es así, es de esperar que los resultados sean inferiores al azar. Esto correspondería a una hipótesis estadística de que
. - Por último, supongamos que la PES existe pero no tengo idea si la gente ve el color correcto o el incorrecto. En ese caso, la única afirmación que podría hacer sobre los datos sería que la probabilidad de acertar la respuesta correcta no es igual a 0,5. Esto corresponde a la hipótesis estadística de que
.
Todos estos son ejemplos legítimos de una hipótesis estadística porque son afirmaciones sobre un parámetro de la población y están relacionados de forma significativa con mi experimento.
Lo que esta discusión deja claro, espero, es que cuando se intenta construir una prueba de hipótesis estadística, el investigador tiene que tener en cuenta dos hipótesis muy distintas. En primer lugar, tiene una hipótesis de investigación (una afirmación sobre la psicología), que corresponde a una hipótesis estadística (una afirmación sobre la población que genera los datos). En mi ejemplo de PES, podrían ser las que se muestran en Table 9.1.
Y una cosa clave que hay que reconocer es lo siguiente. Una prueba de hipótesis estadística es una prueba de la hipótesis estadística, no de la hipótesis de investigación. Si el estudio está mal diseñado, se rompe el vínculo entre la hipótesis de investigación y la hipótesis estadística. Para poner un ejemplo tonto, supongamos que mi estudio de PES se realizara en una situación en la que el participante pudiera ver realmente la tarjeta reflejada en una ventana. Si eso sucede, podrías encontrar pruebas muy sólidas de que
9.1.2 Hipótesis nulas e hipótesis alternativas
Hasta aquí, todo bien. Tengo una hipótesis de investigación que corresponde a lo que quiero creer sobre el mundo, y puedo mapearla en una hipótesis estadística que corresponde a lo que quiero creer sobre cómo se generaron los datos. Es en este punto donde las cosas se vuelven contraintuitivas para mucha gente. Porque lo que estoy a punto de hacer es inventar una nueva hipótesis estadística (la hipótesis “nula”,
según mi experiencia, la mejor manera de pensar en ello es imaginar que una prueba de hipótesis es un juicio penal4, el juicio de la hipótesis nula. La hipótesis nula es el acusado, el investigador es el fiscal y la prueba estadística es el juez. Al igual que en un juicio penal, existe la presunción de inocencia. La hipótesis nula se considera cierta a menos que tú, la investigadora, puedas probar más allá de toda duda razonable que es falsa. Eres libre de diseñar tu experimento como quieras (dentro de lo razonable, obviamente) y tu objetivo al hacerlo es maximizar la probabilidad de que los datos generen una condena por el delito de ser falsos. El truco está en que la prueba estadística establece las reglas del juicio y esas reglas están diseñadas para proteger la hipótesis nula, concretamente para garantizar que, si la hipótesis nula es realmente cierta, las posibilidades de una condena falsa están garantizadas para ser bajas. Esto es muy importante. Después de todo, la hipótesis nula no tiene abogado, y dado que el investigador está intentando desesperadamente demostrar que es falsa, alguien tiene que protegerla.
9.2 Dos tipos de errores
Antes de entrar en detalles sobre cómo se construye una prueba estadística, es útil entender la filosofía que hay detrás. Lo he insinuado al señalar la similitud entre una prueba de hipótesis nula y un juicio penal, pero ahora debo ser explícita. Idealmente, nos gustaría construir nuestra prueba de forma que nunca cometiéramos errores. Por desgracia, dado que el mundo está desordenado, esto nunca es posible. A veces simplemente tienes mala suerte. Por ejemplo, supongamos que lanzamos una moneda 10 veces seguidas y sale cara las 10 veces. Eso parece una prueba muy sólida para llegar a la conclusión de que la moneda está sesgada, pero, por supuesto, hay una probabilidad de 1 entre 1024 de que esto ocurriera incluso si la moneda fuera totalmente justa. En otras palabras, en la vida real siempre tenemos que aceptar que existe la posibilidad de que nos hayamos equivocado. En consecuencia, el objetivo de las pruebas de hipótesis estadística no es eliminar los errores, sino minimizarlos.
Llegados a este punto, debemos ser un poco más precisas sobre lo que entendemos por “errores”. En primer lugar, digamos lo obvio. O bien la hipótesis nula es verdadera, o bien es falsa, y nuestra prueba mantendrá la hipótesis nula o la rechazará.5 Así que, como ilustra Table 9.2, después de ejecutar la prueba y hacer nuestra elección, podría haber ocurrido una de cuatro cosas:
Por consiguiente, en realidad hay dos tipos de error. Si rechazamos una hipótesis nula que en realidad es cierta, cometemos un error de tipo I. Por otro lado, si mantenemos la hipótesis nula cuando en realidad es falsa, cometemos un error de tipo II.
¿Recuerdas que dije que las pruebas estadísticas eran como un juicio penal? Pues lo decía en serio. Un juicio penal requiere que se demuestre “más allá de toda duda razonable” que el acusado lo hizo. Todas las normas probatorias están (al menos en teoría) diseñadas para garantizar que no haya (casi) ninguna probabilidad de condenar injustamente a un acusado inocente. El juicio está diseñado para proteger los derechos de un acusado, como dijo el famoso jurista inglés William Blackstone, es “mejor que escapen diez culpables a que sufra un inocente”. En otras palabras, un juicio penal no trata de la misma manera los dos tipos de error. Castigar al inocente se considera mucho peor que dejar libre al culpable. Una prueba estadística es más o menos lo mismo. El principio de diseño más importante de la prueba es controlar la probabilidad de un error de tipo I, para mantenerla por debajo de una probabilidad fija. Esta probabilidad, que se denota
¿Y qué pasa con la tasa de error tipo II? Bueno, también nos gustaría tenerla bajo control, y denotamos esta probabilidad por
Una prueba de hipótesis “potente” es aquella que tiene un valor pequeño de
9.3 Pruebas estadísticas y distribuciones muestrales
Llegados a este punto, tenemos que empezar a hablar en concreto de cómo se construye una prueba de hipótesis. Para ello, volvamos al ejemplo de la PES. Ignoremos los datos reales que obtuvimos, por el momento, y pensemos en la estructura del experimento. Independientemente de cuáles sean los números reales, la forma de los datos es que
Una vez elegida la prueba estadística, el siguiente paso es establecer con precisión qué valores de la prueba estadística harían que se rechazara la hipótesis nula y qué valores harían que la mantuviéramos. Para ello, debemos determinar cuál sería la distribución muestral de la prueba estadística si la hipótesis nula fuera realmente cierta (ya hemos hablado de las distribuciones muestrales en Section 8.3.1 ¿Por qué necesitamos esto? Porque esta distribución nos dice exactamente qué valores de X nos llevaría a esperar nuestra hipótesis nula. Y, por tanto, podemos usar esta distribución como una herramienta para evaluar hasta qué punto la hipótesis nula concuerda con nuestros datos.
¿Cómo determinamos realmente la distribución muestral de la prueba estadística? Para muchas pruebas de hipótesis, este paso es bastante complicado, y más adelante en el libro verás que soy un poco evasiva al respecto para algunas de las pruebas (algunas ni yo misma las entiendo). Sin embargo, a veces es muy fácil. Y, afortunadamente para nosotras, nuestro ejemplo PES nos proporciona uno de los casos más fáciles. Nuestro parámetro poblacional
Dado que la hipótesis nula establece que
9.4 Tomando decisiones
Bien, estamos muy cerca de terminar. Hemos construido una prueba estadística
9.4.1 Regiones críticas y valores críticos
Para responder a esta pregunta necesitamos introducir el concepto de región crítica para la prueba estadística X. La región crítica de la prueba corresponde a aquellos valores de X que nos llevarían a rechazar la hipótesis nula (razón por la cual la región crítica también se denomina a veces región de rechazo). ¿Cómo encontramos esta región crítica? Consideremos lo que sabemos:
debe ser muy grande o muy pequeña para rechazar la hipótesis nula- Si la hipótesis nula es verdadera, la distribución muestral de
es - Si
, la región crítica debe cubrir el 5% de esta distribución muestral.
Es importante que comprendas este último punto. La región crítica corresponde a aquellos valores de
Resulta que esas tres cosas resuelven el problema de forma única. Nuestra región crítica consiste en los valores más extremos, conocidos como las colas de la distribución. Esto se ilustra en Figure 9.2. Si queremos
En este punto, nuestra prueba de hipótesis está prácticamente completa:
- Elegimos un nivel α (por ejemplo,
); - Obtenemos alguna prueba estadística (por ejemplo,
) que haga un buen trabajo (en algún sentido significativo) al comparar con ; - Calculamos la distribución muestral de la prueba estadística suponiendo que la hipótesis nula es verdadera (en este caso, binomial); y entonces
- Calculamos la región crítica que produce un nivel α apropiado (0-40 y 60-100).
Todo lo que tenemos que hacer ahora es calcular el valor de la prueba estadística para los datos reales (por ejemplo, X = 62) y luego compararlo con los valores críticos para tomar nuestra decisión. Dado que 62 es mayor que el valor crítico de 60, rechazaríamos la hipótesis nula. O, dicho de otro modo, decimos que la prueba produjo un resultado estadísticamente significativo.
9.4.2 Una nota sobre la “significación” estadística
Al igual que otras técnicas ocultas de adivinación, el método estadístico tiene una jerga privada deliberadamente concebida para ocultar sus métodos a los no practicantes.
– Atribuido a GO Ashley 7
Llegados a este punto, conviene hacer una breve digresión sobre la palabra “significativo”. El concepto de significación estadística es en realidad muy sencillo, pero tiene un nombre muy desafortunado. Si los datos nos permiten rechazar la hipótesis nula, decimos que “el resultado es estadísticamente significativo”, que a menudo se abrevia como “el resultado es significativo”. Esta terminología es bastante antigua y se remonta a una época en la que “significativo” solo significaba algo así como “indicado”, en lugar de su significado moderno, que es mucho más cercano a “importante”. Como resultado, muchos lectores modernos se confunden mucho cuando comienzan a aprender estadística porque piensan que un “resultado significativo” debe ser importante. No significa eso en absoluto. Lo único que significa “estadísticamente significativo” es que los datos nos han permitido rechazar una hipótesis nula. Si el resultado es realmente importante o no en el mundo real es una cuestión muy diferente, y depende de muchas otras cosas.
9.4.3 La diferencia entre pruebas unilaterales y bilaterales
Hay una cosa más que quiero señalar sobre la prueba de hipótesis que acabo de construir. Si nos tomamos un momento para pensar en las hipótesis estadísticas que he estado usando,
9.5 El valor p de una prueba
En cierto sentido, nuestra prueba de hipótesis está completa. Hemos construido una prueba estadística, calculado su distribución muestral si la hipótesis nula es verdadera y a continuación construido la región crítica para la prueba. Sin embargo, en realidad he omitido el número más importante de todos, el valor p. A este tema nos referimos ahora. Hay dos formas algo diferentes de interpretar el valor p, una propuesta por Sir Ronald Fisher y la otra por Jerzy Neyman. Ambas versiones son legítimas, aunque reflejan formas muy diferentes de pensar sobre las pruebas de hipótesis. La mayoría de los libros de texto introductorios tienden a dar solo la versión de Fisher, pero creo que es una lástima. En mi opinión, la versión de Neyman es más limpia y en realidad refleja mejor la lógica de la prueba de hipótesis nula. Sin embargo, puede que no estés de acuerdo, así que he incluido ambas. Empezaré con la versión de Neyman.
9.5.1 Una visión más suave de la toma de decisiones
Un problema con el procedimiento de prueba de hipótesis que he descrito es que no distingue entre un resultado que es “apenas significativo” y los que son “altamente significativos”. Por ejemplo, en mi estudio de PES, los datos que obtuve apenas cayeron dentro de la región crítica, por lo que obtuve un efecto significativo, pero por muy poco. Por el contrario, supongamos que hubiera realizado un estudio en el que
Aquí es donde el valor p resulta útil. Para entender cómo funciona, supongamos que realizamos muchas pruebas de hipótesis en el mismo conjunto de datos, pero con un valor diferente de α en cada caso. Cuando hacemos eso para mis datos de PES originales, lo que obtendríamos es algo como Table 9.4.
Cuando probamos los datos PES (
Si resulta que p describe una tasa de error que te parece intolerable, entonces debes mantener la hipótesis nula. Si te sientes cómoda con una tasa de error igual a
En efecto,
9.5.2 La probabilidad de datos extremos
La segunda definición del valor p proviene de Sir Ronald Fisher, y en realidad es esta la que suele aparecer en la mayoría de los libros de texto de introducción a la estadística. ¿Te das cuenta de que, cuando construí la región crítica, correspondía a las colas (es decir, valores extremos) de la distribución muestral? Eso no es una coincidencia, casi todas las pruebas “buenas” tienen esta característica (buenas en el sentido de minimizar nuestra tasa de error tipo II,
9.5.3 Un error común
De acuerdo, puedes ver que hay dos formas bastante diferentes pero legítimas de interpretar el valor
9.6 Informar los resultados de una prueba de hipótesis
Cuando se escriben los resultados de una prueba de hipótesis, suele haber varios elementos que hay que informar, pero varían bastante de una prueba a otra. A lo largo del resto del libro, dedicaré algo de tiempo a hablar sobre cómo informar de los resultados de diferentes pruebas (consulta Section 10.1.9 para ver un ejemplo especialmente detallado, para que puedas hacerte una idea de cómo se hace normalmente). Sin embargo, independientemente de la prueba que estés haciendo, lo único que siempre tienes que hacer es decir algo sobre el valor de
El hecho de tener que hacer esto no es sorprendente, es el objetivo de la prueba. Lo que puede sorprender es que haya cierta controversia sobre cómo hacerlo exactamente. Dejando a un lado a las personas que están completamente en desacuerdo con todo el marco en el que se basa la prueba de hipótesis nula, existe cierta tensión sobre si se debe informar o no el valor exacto de
9.6.1 La cuestión
Para ver por qué esto es un problema, la clave es reconocer que los valores p son terriblemente convenientes. En la práctica, el hecho de que podamos calcular el valor p significa que en realidad no tenemos que especificar ningún nivel
Esta flexibilidad es a la vez una ventaja y un inconveniente del valor
En otras palabras, lo que me preocupa es que aunque tenga las mejores intenciones y sea la persona más honesta, la tentación de “matizar” las cosas aquí y allá es muy, muy fuerte. Como puede atestiguar cualquiera que haya realizado un experimento alguna vez, es un proceso largo y difícil y, a menudo, te apegas mucho a tus hipótesis. Es difícil dejarlo ir y admitir que el experimento no encontró lo que querías que encontrara. Y ese es el peligro. Si usamos el valor p “en bruto”, la gente empezará a interpretar los datos en términos de lo que quieren creer, no de lo que los datos dicen en realidad y, si permitimos eso, ¿por qué nos molestamos en hacer ciencia? ? ¿Por qué no dejar que todo el mundo crea lo que quiera sobre cualquier cosa, independientemente de los hechos? Vale, eso es un poco extremo, pero de ahí viene la preocupación. Según este punto de vista, realmente hay que especificar el valor
Usual notation | Signif. stars | English translation | The null is... |
---|---|---|---|
p > .05 | The test wasn't significant | Retained | |
p < .05 | * | The test was significant at | Rejected |
p < .01 | ** | The test was significant at | Rejected |
p < .001 | *** | The test was significant at all levels | Rejected |
9.6.2 Dos soluciones propuestas
En la práctica, es bastante raro que un investigador especifique un único nivel α de antemano. En su lugar, la convención es que los científicos se basen en tres niveles de significación estándar:
Sin embargo, mucha gente todavía prefiere comunicar valores de p exactos. Para muchas personas, la ventaja de permitir que el lector tome sus propias decisiones sobre cómo interpretar p = 0,06 supera cualquier desventaja. Sin embargo, en la práctica, incluso entre aquellos investigadores que prefieren valores de p exactos, es bastante común escribir
A la luz de todo esto, es posible que te preguntes qué debes hacer exactamente. Hay bastantes consejos contradictorios sobre el tema, con algunas personas que sostienen que debes informar el valor p exacto y otras que debes usar el enfoque escalonado ilustrado en Table 9.1. Como resultado, el mejor consejo que puedo dar es sugerir que mires los artículos/informes escritos en tu campo y veas cuál parece ser la convención. Si no parece haber ningún patrón coherente, utiliza el método que prefieras.
9.7 Ejecutando la prueba de hipótesis en la práctica
Llegados a este punto, algunas os estaréis preguntando si se trata de una prueba de hipótesis “real” o solo de un ejemplo de juguete que me he inventado. Es real. En la discusión anterior construí la prueba a partir de los primeros principios, pensando que era el problema más simple que podrías encontrarte en la vida real. Sin embargo, esta prueba ya existe. Se llama prueba binomial, y jamovi la implementa como uno de los análisis estadísticos disponibles cuando pulsas el botón ‘Frecuencias’. Para probar la hipótesis nula de que la probabilidad de respuesta es la mitad de
En este momento, esta salida te parece bastante desconocida, pero puedes ver que te está diciendo más o menos las cosas correctas. En concreto, el valor p de
9.8 Tamaño del efecto, tamaño de la muestra y potencia
En secciones anteriores, he hecho hincapié en el hecho de que el principal principio de diseño que subyace a las pruebas de hipótesis estadísticas es que intentamos controlar nuestra tasa de error Tipo I. Cuando fijamos
9.8.1 La función de potencia
Pensemos un momento en qué es realmente un error de tipo II. Un error de tipo II se produce cuando la hipótesis alternativa es verdadera, pero sin embargo no somos capaces de rechazar la hipótesis nula. Lo ideal sería poder calcular un único número
Lo que todo esto significa es que la potencia de una prueba (es decir,
9.8.2 La función de potencia
Dado que todos los modelos son erróneos, el científico debe estar alerta a lo que es erróneo de manera importante. No es apropiado preocuparse por los ratones cuando hay tigres en el exterior
- Caja de George (Box 1976, p. 792)
El gráfico que se muestra en Figure 9.7 refleja un aspecto básico de las pruebas de hipótesis. Si el estado real del mundo es muy diferente de lo que predice la hipótesis nula, la potencia será muy alta, pero si el estado real del mundo es similar a la hipótesis nula (pero no idéntico), la potencia de la prueba será muy baja. Por lo tanto, es útil poder tener alguna forma de cuantificar lo “similar” que es el verdadero estado del mundo a la hipótesis nula. Un estadístico que hace esto se llama medida del tamaño del efecto (p. ej., Cohen (1988); Ellis (2010)). El tamaño del efecto se define de forma ligeramente diferente en diferentes contextos (por lo que esta sección solo habla en términos generales), pero la idea cualitativa que intenta captar es siempre la misma (ver, por ejemplo, Table 9.6). ¿Cuán grande es la diferencia entre los parámetros poblacionales verdaderos y los valores de los parámetros asumidos por la hipótesis nula? En nuestro ejemplo PES, si dejamos que
big effect size | small effect size | |
---|---|---|
significant result | difference is real, and of practical importance | difference is real, but might not be interesting |
non-significant result | no effect observed | no effect observed |
¿Por qué calcular el tamaño del efecto? Supongamos que has realizado el experimento, has recogido los datos y has obtenido un efecto significativo al realizar la prueba de hipótesis. ¿No basta con decir que se ha obtenido un efecto significativo? ¿Seguro que ese es el objetivo de las pruebas de hipótesis? Bueno, más o menos. Sí, el objetivo de hacer una prueba de hipótesis es intentar demostrar que la hipótesis nula es errónea, pero eso no es lo único que nos interesa. Si la hipótesis nula afirmaba que
9.8.3 Aumentando la potencia de tu estudio
No es de extrañar que los científicos estén obsesionados con maximizar la potencia de sus experimentos. Queremos que nuestros experimentos funcionen y, por tanto, maximizar la probabilidad de rechazar la hipótesis nula si es falsa (y por supuesto, por lo general, queremos creer que es falsa). Como hemos visto, un factor que influye en la potencia es el tamaño del efecto. Así que lo primero que puedes hacer para aumentar tu potencia es aumentar el tamaño del efecto. En la práctica, esto significa que hay que diseñar el estudio de forma que aumente el tamaño del efecto. Por ejemplo, en mi estudio sobre la percepción extrasensorial podría creer que los poderes psíquicos funcionan mejor en una habitación tranquila y oscura con menos distracciones que nublen la mente. Por lo tanto, trataría de realizar mis experimentos en un entorno así. Si puedo reforzar de algún modo las capacidades de PES de las personas, entonces el valor real de
Por desgracia, a menudo ocurre que incluso con el mejor de los diseños experimentales sólo se obtiene un efecto pequeño. Tal vez, por ejemplo, la PES exista realmente , pero incluso en las mejores condiciones es muy, muy débil. En esas circunstancias, lo mejor para aumentar la potencia es aumentar el tamaño de la muestra. En general, cuantas más observaciones tengas disponibles, más probable es que puedas discriminar entre dos hipótesis. Si realizara mi experimento de PES con 10 participantes y 7 de ellos adivinaron correctamente el color de la carta oculta, no estarías muy impresionada. Pero si lo realizara con 10.000 participantes, y 7.000 de ellos acertaran la respuesta, sería mucho más probable que pensaras que había descubierto algo. En otras palabras, la potencia aumenta con el tamaño de la muestra. Esto se ilustra en Figure 9.8, que muestra la potencia de la prueba para un parámetro verdadero de
Dado que la potencia es importante, siempre que te plantees realizar un experimento, sería bastante útil saber cuánta potencia es probable que tengas. Nunca se puede saber con seguridad, ya que es imposible conocer el tamaño del efecto real. Sin embargo, a menudo (bueno, a veces) es posible adivinar cuál debería ser. Si es así, puedes adivinar qué tamaño de muestra necesitas. Esta idea se llama análisis de potencia, y si es posible hacerlo, resulta muy útil. Puede decirte algo sobre si tienes suficiente tiempo o dinero para poder llevar a cabo el experimento con éxito. Cada vez es más frecuente ver a gente que defiende que el análisis de potencia debería ser una parte obligatoria del diseño experimental, por lo que merece la pena conocerlo. Sin embargo, no hablo del análisis de potencia en este libro. Esto es en parte por una razón aburrida y en parte por una razón sustantiva. La razón aburrida es que todavía no he tenido tiempo de escribir sobre el análisis de potencia. La sustantiva es que todavía desconfío un poco del análisis de potencia. Hablando como investigadora, muy rara vez me he encontrado en situación de poder hacer uno. O bien (a) mi experimento es un poco atípico y no sé cómo definir el tamaño del efecto correctamente, o (b) literalmente tengo tan poca idea sobre cuál será el tamaño del efecto que no sabría cómo interpretar las respuestas. No solo eso, después de extensas conversaciones con alguien que se gana la vida haciendo consultoría estadística (mi esposa, por cierto), no puedo evitar darme cuenta de que en la práctica, la única vez que alguien le pide un análisis de potencia es cuando está ayudando a alguien a escribir una solicitud de subvención. En otras palabras, la única vez que un científico parece querer un análisis de potencia en la vida real es cuando se ve obligados a hacerlo por un proceso burocrático. No forma parte del trabajo diario de nadie. En resumen, siempre he sido de la opinión de que, aunque la potencia es un concepto importante, el análisis de potencia no es tan útil como la gente lo hace parecer, excepto en los raros casos en los que (a) alguien ha descubierto cómo calcular la potencia para tu diseño experimental real y (b) tienes una idea bastante buena de cuál es probable que sea el tamaño del efecto.12 Tal vez otras personas hayan tenido mejores experiencias que yo, pero personalmente nunca he estado en una situación en la que tanto (a) como (b) fueran ciertas. Puede que en el futuro me convenzan de lo contrario, y probablemente una versión futura de este libro incluya una discusión más detallada del análisis de potencia, pero por ahora esto es todo lo que puedo decir sobre el tema.
9.9 Algunas cuestiones a tener en cuenta
Lo que te he descrito en este capítulo es el marco ortodoxo de las pruebas de significación de hipótesis nula (PSHN). Comprender cómo funciona PSHN es una necesidad absoluta porque ha sido el enfoque dominante de la estadística inferencial desde que cobró importancia a principios del siglo XX. Es en lo que la gran mayoría de los científicos en activo confían para sus análisis de datos, por lo que incluso si lo odias, debes conocerlo. Sin embargo, el enfoque no está exento de problemas. Hay una serie de peculiaridades en el marco, rarezas históricas sobre cómo llegó a ser, disputas teóricas sobre si el marco es correcto o no, y muchas trampas prácticas para los incautos. No voy a entrar en muchos detalles sobre este tema, pero creo que vale la pena discutir brevemente algunas de estas cuestiones.
9.9.1 Neyman contra Fisher
Lo primero que debe tener en cuenta es que la PSHN ortodoxa es en realidad una combinación de dos enfoques bastante diferentes para las pruebas de hipótesis, uno propuesto por Sir Ronald Fisher y el otro por Jerzy Neyman (ver Lehmann (2011) para un resumen histórico). La historia es confusa porque Fisher y Neyman eran personas reales cuyas opiniones cambiaron con el tiempo, y en ningún momento ninguno de ellos ofreció “la declaración definitiva” de cómo debemos interpretar su trabajo muchas décadas después. Dicho esto, he aquí un rápido resumen de lo que considero que son estos dos enfoques.
Primero, hablemos del enfoque de Fisher. Hasta donde yo sé, Fisher suponía que solo se tenía una hipótesis (la nula) y que lo que se quería hacer era averiguar si la hipótesis nula era inconsistente con los datos. Desde su perspectiva, lo que deberías hacer es comprobar si los datos son “suficientemente improbables” según la nula. De hecho, si recuerdas nuestra discusión anterior, así es como Fisher define el valor p. Según Fisher, si la hipótesis nula proporcionara una explicación muy pobre de los datos, entonces podrías rechazarla con seguridad. Pero, como no tenemos ninguna otra hipótesis con la que compararla, no hay forma de “aceptar la alternativa” porque no tenemos necesariamente una alternativa explícita. Eso es más o menos todo.
Por el contrario, Neyman pensaba que el objetivo de las pruebas de hipótesis era servir de guía para la acción y su enfoque era algo más formal que el de Fisher. Su punto de vista era que hay varias cosas que se pueden hacer (aceptar la nula o aceptar la alternativa) y el objetivo de la prueba era decir cuál es compatible con los datos. Desde esta perspectiva, es fundamental especificar correctamente la hipótesis alternativa. Si no se sabe cuál es la hipótesis alternativa, entonces no sabe lo potente que es la prueba, ni siquiera qué acción tiene sentido. Su marco requiere realmente una competición entre diferentes hipótesis. Para Neyman, el valor
Como puedes ver, lo que tenemos hoy es una mezcla extraña de los dos. Hablamos de tener tanto una hipótesis nula como una alternativa (Neyman), pero generalmente 13 definimos el valor de
9.9.2 Bayesianos versus frecuentistas
Anteriormente en este capítulo, fui bastante enfática sobre el hecho de que no puedes interpretar el valor p como la probabilidad de que la hipótesis nula sea verdadera. PSHN es fundamentalmente una herramienta frecuentista (consulta Chapter 7) y, como tal, no permite asignar probabilidades a las hipótesis. La hipótesis nula es cierta o no lo es. El enfoque bayesiano de la estadística interpreta la probabilidad como un grado de creencia, por lo que es totalmente correcto decir que existe una probabilidad del
Lo más importante es que no se trata de una cuestión puramente ideológica. Si decides que eres bayesiana y que te parece bien hacer afirmaciones probabilísticas sobre hipótesis, tienes que seguir las reglas bayesianas para calcular esas probabilidades. Hablaré más sobre esto en Chapter 16, pero por ahora lo que quiero señalarte es que el valor p es una terrible aproximación a la probabilidad de que
9.9.3 Trampas
Como puedes ver, la teoría que subyace a las pruebas de hipótesis es un lío, e incluso ahora hay discusiones en estadística sobre cómo “debería” funcionar. Sin embargo, los desacuerdos entre los estadísticos no son nuestra verdadera preocupación aquí. Nuestra verdadera preocupación es el análisis práctico de datos. Y aunque el enfoque “ortodoxo” de la prueba de significancia de la hipótesis nula tiene muchos inconvenientes, incluso una bayesiana impenitente como yo estaría de acuerdo en que pueden ser útiles si se usan de manera responsable. La mayoría de las veces dan respuestas sensatas y se pueden utilizar para aprender cosas interesantes. Dejando a un lado las diversas ideologías y confusiones históricas que hemos discutido, el hecho es que el mayor peligro en toda la estadística es la irreflexión. No me refiero a la estupidez, sino literalmente a la irreflexión. La prisa por interpretar un resultado sin dedicar tiempo a pensar qué dice realmente cada prueba sobre los datos y comprobar si es coherente con la interpretación que se ha hecho. Ahí es donde está la mayor trampa.
Para dar un ejemplo de esto, considera el siguiente ejemplo (ver Gelman & Stern (2006)). Supongamos que estoy realizando mi estudio sobre PES y he decidido analizar los datos por separado para los participantes masculinos y femeninos. De los participantes masculinos,
El ejemplo anterior es solo eso, un ejemplo. Lo he seleccionado porque es muy común, pero lo más importante es que el análisis de datos puede ser difícil de hacer bien. Piensa qué es lo que quieres probar, por qué quieres probarlo y si las respuestas que da tu prueba podrían tener algún sentido en el mundo real.
9.10 Resumen
Las pruebas de hipótesis nulas son uno de los elementos más ubicuos de la teoría estadística. La inmensa mayoría de artículos científicos presentan los resultados de una u otra prueba de hipótesis. Como consecuencia, es casi imposible desenvolverse en el mundo de la ciencia sin tener al menos una comprensión superficial de lo que significa un valor p, lo que hace que este sea uno de los capítulos más importantes del libro. Como de costumbre, terminaré el capítulo con un resumen rápido de las ideas clave de las que hemos hablado:
- Una colección de hipótesis. Hipótesis de investigación e hipótesis estadísticas. Hipótesis nula y alternativa.
- Dos tipos de errores. Tipo I y Tipo II.
- [Estadísticas de prueba y distribuciones muestrales].
- Contraste de hipótesis para [Tomar decisiones]
- El valor p de una prueba. valores p como decisiones “suaves”
- [Comunicar los resultados de una prueba de hipótesis]
- [Ejecución de la prueba de hipótesis en la práctica]
- Tamaño del efecto, tamaño de la muestra y potencia
- [Algunos temas a considerar] con respecto a la prueba de hipótesis
Más adelante en el libro, en Chapter 16, revisaré la teoría de las pruebas de hipótesis nulas desde una perspectiva bayesiana y presentaré una serie de herramientas nuevas que puedes usar si no te gusta mucho el enfoque ortodoxo. Pero, por ahora, hemos terminado con la teoría estadística abstracta y podemos empezar a hablar de herramientas específicas de análisis de datos.
La cita proviene del texto de Wittgenstein (1922), Tractatus Logico-Philosphicus.↩︎
Nota técnica. La descripción que sigue difiere sutilmente de la descripción estándar que se da en muchos textos introductorios. La teoría ortodoxa de la prueba de hipótesis nula surgió del trabajo de Sir Ronald Fisher y Jerzy Neyman a principios del siglo XX; pero Fisher y Neymar en realidad tenían puntos de vista muy diferentes sobre cómo debería funcionar. El tratamiento estándar de las pruebas de hipótesis que utilizan la mayoría de los textos es un híbrido de los dos enfoques. El tratamiento aquí es un poco más al estilo de Neyman que la visión ortodoxa, especialmente en lo que respecta al significado del valor p.↩︎
Mis disculpas a cualquiera que realmente crea en estas cosas, pero según mi lectura de la literatura sobre PES no es razonable pensar que esto sea real. Sin embargo, para ser justos, algunos de los estudios están rigurosamente diseñados, por lo que en realidad es un área interesante para pensar sobre el diseño de la investigación psicológica. Y, por supuesto, es un país libre, así que puedes dedicar tu tiempo y esfuerzo a demostrar que me equivoco si quieres, pero no creo que sea un uso muy práctico de tu intelecto.↩︎
esta analogía solo funciona si procedes de un sistema jurídico acusatorio como Reino Unido/Estados Unidos/Australia. Según tengo entendido, el sistema inquisitorial francés es bastante diferente.↩︎
un inciso sobre el lenguaje que utilizas para hablar sobre la prueba de hipótesis. En primer lugar, hay que evitar la palabra “demostrar”. Una prueba estadística realmente no demuestra que una hipótesis sea verdadera o falsa. La prueba implica certeza y, como dice el refrán, la estadística significa nunca tener que decir que estás seguro. En eso casi todo el mundo está de acuerdo. Sin embargo, más allá de eso, hay bastante confusión. Algunas personas sostienen que solo se pueden hacer afirmaciones como “rechazó la nula”, “no rechazó la nula” o posiblemente “retuvo la nula”. Según esta línea de pensamiento, no se pueden decir cosas como “acepta la alternativa” o “acepta la nula”. Personalmente creo que esto es demasiado fuerte. En mi opinión, confunde la prueba de hipótesis nulas con la visión falsacionista del proceso científico de Karl Popper. Aunque hay similitudes entre el falsacionismo y la prueba de hipótesis nula, no son equivalentes. Sin embargo, aunque personalmente creo que está bien hablar de aceptar una hipótesis (con la condición de que “aceptar” no significa que sea necesariamente cierta, especialmente en el caso de la hipótesis nula), mucha gente no estará de acuerdo. Y lo que es más, deberías ser consciente de que esta rareza particular existe para que no te pille desprevenida cuando escribas tus propios resultados.↩︎
Estrictamente hablando, la prueba que acabo de construir tiene
, que es un poco demasiado generosa. Sin embargo, si hubiera elegido 39 y 61 como límites de la región crítica, ésta solo cubriría de la distribución. Pensé que tiene más sentido usar y como mis valores críticos, y estar dispuesta a tolerar una tasa de error tipo I de , ya que eso es lo más cerca que puedo llegar a un valor de .↩︎Internet parece bastante convencido de que Ashley dijo esto, aunque no puedo encontrar a nadie dispuesto a dar una fuente para la afirmación.↩︎
¡Eso es
para las personas a las que no les gusta la notación científica!↩︎Ten en cuenta que la p aquí no tiene nada que ver con un valor de
. El argumento en la prueba binomial de jamovi corresponde a la probabilidad de dar una respuesta correcta, según la hipótesis nula. En otras palabras, es el valor .↩︎Ten en cuenta que la p aquí no tiene nada que ver con un valor de
. El argumento en la prueba binomial de jamovi corresponde a la probabilidad de dar una respuesta correcta, según la hipótesis nula. En otras palabras, es el valor .↩︎Observa que el verdadero parámetro poblacional
no corresponde necesariamente a un hecho inmutable de la naturaleza. En este contexto, no es más que la probabilidad real de que la gente adivine correctamente el color de la carta de la otra habitación. Como tal, el parámetro poblacional puede verse influido por todo tipo de cosas. Por supuesto, todo esto suponiendo que la PES exista.↩︎Una posible excepción es cuando se estudia la efectividad de un nuevo tratamiento médico y se especifica de antemano cuál sería un tamaño de efecto importante de detectar, por ejemplo, por encima de cualquier tratamiento existente. De esta forma se puede obtener cierta información sobre el valor potencial de un nuevo tratamiento.↩︎
Aunque este libro describe la definición del valor de
tanto de Neyman como de Fisher, la mayoría no lo hace. La mayoría de los libros de texto introductorios solo le darán la versión de Fisher.↩︎En este caso, la prueba de independencia ji-cuadrado de Pearson (ver Chapter 10)↩︎