Epílogo

“Empieza por el principio”, dijo el Rey muy gravemente, “y continúa hasta que llegues al final: luego detente” – Lewis Carroll

Se siente algo extraño estar escribiendo este capítulo, y más que un poco inapropiado. Un epílogo es lo que escribes cuando terminas un libro, y este libro realmente no está terminado. Aún faltan muchas cosas en este libro. Todavía no tiene un índice. Faltan muchas referencias. No hay ejercicios de “hágalo usted mismo”. Y en general, siento que hay muchas cosas que están mal con la presentación, organización y contenido de este libro. Dado todo eso, no quiero tratar de escribir un epílogo “adecuado”. Todavía no he terminado de escribir el contenido sustantivo, por lo que no tiene sentido tratar de reunirlo todo. Pero esta versión del libro se pondrá en línea para que la usen los estudiantes, y es posible que también compre una copia impresa, por lo que quiero darle al menos una apariencia de cierre. Así que vamos a darle una oportunidad, ¿de acuerdo?

Las estadísticas no descubiertas

Primero, voy a hablar un poco sobre algunos de los contenidos que desearía haber tenido la oportunidad de incluir en esta versión del libro, solo para que puedan tener una idea de qué otras ideas existen en el mundo de las estadísticas. Creo que esto sería importante incluso si este libro se estuviera acercando a un producto final. Una cosa que los estudiantes a menudo no se dan cuenta es que sus clases de introducción a la estadística son solo eso, una introducción. Si desea salir al mundo más amplio y realizar análisis de datos reales, debe aprender muchas herramientas nuevas que amplían el contenido de sus conferencias de pregrado en todo tipo de formas diferentes. No asuma que algo no se puede hacer solo porque no se cubrió en la licenciatura. No asuma que algo es lo correcto solo porque se cubrió en una clase de pregrado. Para evitar que seas víctima de esa trampa, creo que es útil ofrecerte una descripción general de algunas de las otras ideas que existen.

Omisiones dentro de los temas tratados

Incluso dentro de los temas que he cubierto en el libro, hay muchas omisiones que me gustaría corregir en una versión futura del libro. Solo apegado a cosas que son puramente estadísticas (en lugar de cosas asociadas con jamovi), la siguiente es una lista representativa pero no exhaustiva de temas que me gustaría ampliar en algún momento:

Otros tipos de correlaciones. En [Correlación y regresión] hablé de dos tipos de correlación: Pearson y Spearman. Ambos métodos de evaluación de la correlación son aplicables al caso en el que tiene dos variables continuas y desea evaluar la relación entre ellas. ¿Qué pasa con el caso en que sus variables son ambas de escala nominal? ¿O cuando uno es de escala nominal y el otro es continuo? En realidad, existen métodos para calcular las correlaciones en tales casos (p. ej., la correlación policórica), y sería bueno que se incluyeran.
Más detalles sobre los tamaños de los efectos. En general, creo que el tratamiento de los tamaños de los efectos a lo largo del libro es un poco más superficial de lo que debería ser. En casi todos los casos, he tendido a elegir solo una medida del tamaño del efecto (generalmente la más popular) y describirla. Sin embargo, para casi todas las pruebas y modelos hay múltiples formas de pensar sobre el tamaño del efecto, y me gustaría entrar en más detalles en el futuro.
Tratar con suposiciones violadas. En varias partes del libro he hablado sobre algunas cosas que puede hacer cuando descubre que se violan las suposiciones de su prueba (o modelo), pero creo que debería para decir más sobre esto. En particular, creo que hubiera sido bueno hablar con mucho más detalle sobre cómo puedes transformar variables para solucionar problemas. Hablé un poco sobre esto [asuntos pragmáticos, pero creo que la discusión no es lo suficientemente detallada.
Términos de interacción para regresión. En [ANOVA factorial] hablé sobre el hecho de que puedes tener términos de interacción en un ANOVA, y también señalé que ANOVA puede interpretarse como una especie de modelo de regresión lineal. Sin embargo, cuando hablé de regresión en [Correlación y regresión] no mencioné interacciones en absoluto. Sin embargo, nada le impide incluir términos de interacción en un modelo de regresión. Es un poco más complicado averiguar qué significa realmente una “interacción” cuando se habla de la interacción entre dos predictores continuos, y se puede hacer de más de una manera. Aun así, me hubiera gustado hablar un poco sobre esto.
Método de comparación planificada. Como mencioné en [ANOVA factorial], no siempre es apropiado usar una corrección post hoc como el HSD de Tukey cuando se hace un ANOVA, especialmente cuando tenía una idea muy clara (y limitada) conjunto de comparaciones que le preocupaban de antemano. Me gustaría hablar más sobre esto en el futuro.
Métodos de comparación múltiple. Incluso dentro del contexto de hablar sobre pruebas post hoc y comparaciones múltiples, me hubiera gustado hablar sobre los métodos con más detalle y hablar sobre qué otros métodos existen además de las pocas opciones que mencioné.

Faltan modelos estadísticos en el libro

La estadística es un campo enorme. Las herramientas principales que he descrito en este libro (pruebas de chi-cuadrado, pruebas t, regresión y ANOVA) son herramientas básicas que se usan ampliamente en el análisis de datos cotidianos y forman el núcleo de la mayoría de los libros de introducción a las estadísticas. Sin embargo, hay muchas otras herramientas por ahí. Hay tantas situaciones de análisis de datos que estas herramientas no cubren, y sería genial darle una idea de cuánto más hay, por ejemplo:

Regresión no lineal. Cuando discutimos la regresión en el Capítulo 12, vimos que la regresión asume que la relación entre los predictores y los resultados es lineal. Por otro lado, cuando hablamos sobre el problema más simple de la correlación en el Capítulo 4, vimos que existen herramientas (p. ej., correlaciones de Spearman) que pueden evaluar relaciones no lineales entre variables. Hay una serie de herramientas en estadística que se pueden usar para hacer una regresión no lineal. Por ejemplo, algunos modelos de regresión no lineal suponen que la relación entre predictores y resultados es monotónica (p. ej., regresión isotónica), mientras que otros suponen que es suave pero no necesariamente monótona (p. ej., regresión de Lowess), mientras que otros suponen que la relación es de una forma conocida que pasa a ser no lineal (por ejemplo, regresión polinomial).
Regresión logística. Otra variación de la regresión ocurre cuando la variable de resultado es binaria, pero los predictores son continuos. Por ejemplo, suponga que está investigando las redes sociales y quiere saber si es posible predecir si alguien está en Twitter o no en función de sus ingresos, su edad y una variedad de otras variables. Este es básicamente un modelo de regresión, pero no puede usar la regresión lineal regular porque la variable de resultado es binaria (o está en Twitter o no lo está). Debido a que la variable de resultado es binaria, no hay forma de que los residuos puedan distribuirse normalmente. Hay una serie de herramientas que los estadísticos pueden aplicar a esta situación, la más destacada de las cuales es la regresión logística.
El modelo lineal general (GLM). El GLM es en realidad una familia de modelos que incluye regresión logística, regresión lineal, (algunas) regresiones no lineales, ANOVA y muchos otros. La idea básica en el GLM es esencialmente la misma idea que sustenta los modelos lineales, pero permite la idea de que sus datos podrían no estar distribuidos normalmente y permite relaciones no lineales entre los predictores y los resultados. Hay muchos análisis muy útiles que puede ejecutar que se encuentran dentro del GLM, por lo que es muy útil conocerlos.
Análisis de supervivencia. En [Una breve introducción al diseño de investigación] hablé sobre la “deserción diferencial”, la tendencia de las personas a abandonar el estudio de manera no aleatoria. En aquel entonces, estaba hablando de ello como una posible preocupación metodológica, pero hay muchas situaciones en las que el desgaste diferencial es realmente lo que le interesa. Suponga, por ejemplo, que le interesa saber cuánto tiempo la gente jugar diferentes tipos de juegos de computadora en una sola sesión. ¿La gente tiende a jugar juegos RTS (estrategia en tiempo real) durante períodos más largos que juegos FPS (disparos en primera persona)? Puede diseñar su estudio de esta manera. Las personas entran al laboratorio y pueden jugar durante el tiempo que deseen. Una vez que terminan, registras el tiempo que pasaron jugando. Sin embargo, debido a restricciones éticas, supongamos que no puedes permitir que sigan jugando más de dos horas. Muchas personas dejarán de jugar antes del límite de dos horas, por lo que sabrás exactamente cuánto tiempo jugaron. Pero algunas personas se toparán con el límite de dos horas, por lo que no sabes cuánto tiempo habrían seguido jugando si hubieras podido continuar con el estudio. Como consecuencia, sus datos se censuran sistemáticamente: se pierde todos los tiempos muy largos. ¿Cómo analiza estos datos con sensatez? Este es el problema que resuelve el análisis de supervivencia. Está diseñado específicamente para manejar esta situación, en la que se pierde sistemáticamente un “lado” de los datos porque el estudio finalizó. Se usa mucho en la investigación de la salud y, en ese contexto, a menudo se usa literalmente para analizar la supervivencia. Por ejemplo, puede estar rastreando a personas con un tipo particular de cáncer, algunas que han recibido el tratamiento A y otras que han recibido el tratamiento B, pero solo tiene fondos para rastrearlas durante 5 años. Al final del período de estudio, algunas personas están vivas, otras no. En este contexto, el análisis de supervivencia es útil para determinar qué tratamiento es más efectivo e informarle sobre el riesgo de muerte que enfrentan las personas con el tiempo.
Modelos mixtos. El ANOVA de medidas repetidas se usa a menudo en situaciones en las que tiene observaciones agrupadas dentro de unidades experimentales. Un buen ejemplo de esto es cuando realiza un seguimiento de personas individuales en múltiples puntos de tiempo. Digamos que estás rastreando la felicidad a lo largo del tiempo, para dos personas. La felicidad de Aaron comienza en 10, luego baja a 8 y luego a 6. La felicidad de Belinda comienza en 6, luego sube a 8 y luego a 10. Estas dos personas tienen el mismo nivel “general” de felicidad (el promedio en todo el grupo). tres puntos de tiempo es 8), por lo que un análisis ANOVA de medidas repetidas trataría a Aaron y Belinda de la misma manera. Pero eso está claramente mal. La felicidad de Aaron disminuye, mientras que la de Belinda aumenta. Si desea analizar de manera óptima los datos de un experimento en el que las personas pueden cambiar con el tiempo, entonces necesita una herramienta más poderosa que ANOVA de medidas repetidas. Las herramientas que la gente usa para resolver este problema se denominan modelos “mixtos”, porque están diseñados para aprender sobre unidades experimentales individuales (por ejemplo, la felicidad de personas individuales a lo largo del tiempo), así como efectos generales (por ejemplo, el efecto del dinero en la felicidad a lo largo del tiempo). ). ANOVA de medidas repetidas es quizás el ejemplo más simple de un modelo mixto, pero hay mucho que puede hacer con modelos mixtos que no puede hacer con ANOVA de medidas repetidas.
Escalamiento multidimensional. El análisis factorial es un ejemplo de un modelo de “aprendizaje no supervisado”. Lo que esto significa es que, a diferencia de la mayoría de las herramientas de “aprendizaje supervisado” que he mencionado, no puede dividir sus variables en predictores y resultados. La regresión es aprendizaje supervisado, mientras que el análisis factorial es aprendizaje no supervisado. Sin embargo, no es el único tipo de modelo de aprendizaje no supervisado. Por ejemplo, en el análisis factorial uno se ocupa del análisis de correlaciones entre variables. Sin embargo, hay muchas situaciones en las que realmente te interesa analizar las similitudes o diferencias entre objetos, elementos o personas. Hay una serie de herramientas que puede utilizar en esta situación, la más conocida de las cuales es el escalado multidimensional (MDS). En MDS, la idea es encontrar una representación “geométrica” de sus elementos. Cada elemento se “traza” como un punto en algún espacio, y la distancia entre dos puntos es una medida de cuán diferentes son esos elementos.
Clustering. Otro ejemplo de un modelo de aprendizaje no supervisado es el agrupamiento (también conocido como clasificación), en el que desea organizar todos sus elementos en grupos significativos, de modo que los elementos similares se asignen a los mismos grupos. Gran parte de la agrupación no está supervisada, lo que significa que no sabe nada sobre cuáles son los grupos, solo tiene que adivinar. Existen otras situaciones de “agrupamiento supervisado” en las que es necesario predecir la pertenencia a grupos en función de otras variables, y esas pertenencias a grupos son en realidad observables. La regresión logística es un buen ejemplo de una herramienta que funciona de esta manera. Sin embargo, cuando en realidad no conoce las membresías del grupo, debe usar diferentes herramientas (p. ej., agrupación en clústeres k-means). Incluso hay situaciones en las que desea hacer algo llamado “agrupamiento en clústeres semisupervisado”, en el que conoce la membresía del grupo para algunos elementos pero no para otros. Como probablemente pueda adivinar, la agrupación en clústeres es un tema bastante amplio y algo bastante útil para conocer.
Modelos causales. Una cosa de la que no he hablado mucho en este libro es cómo puede usar modelos estadísticos para aprender sobre las relaciones causales entre variables. Por ejemplo, considere las siguientes tres variables que podrían ser de interés al pensar en cómo murió alguien en un pelotón de fusilamiento. Podríamos querer medir si se dio o no una orden de ejecución (variable A), si un tirador disparó o no su arma (variable B) y si la persona recibió o no una bala (variable C). Estas tres variables están todas correlacionadas entre sí (por ejemplo, existe una correlación entre las armas que se disparan y las personas que reciben balas), pero en realidad queremos hacer afirmaciones más sólidas sobre ellas que simplemente hablar de correlaciones. Queremos hablar de causalidad. Queremos poder decir que la orden de ejecución (A) hace que el tirador dispare (B) lo que hace que alguien reciba un disparo (C). Podemos expresar esto mediante una notación de flecha dirigida: lo escribimos como $A \rightarrow B \rightarrow C$. Esta “cadena causal” es una explicación fundamentalmente diferente para los eventos que aquella en la que el tirador dispara primero, lo que provoca el disparo $B \rightarrow C$, y luego hace que el verdugo emita “retroactivamente” la orden de ejecución, $B $. Este modelo de “efecto común” dice que tanto A como C son causados por B. Puede ver por qué son diferentes. En el primer modelo causal, si hubiésemos conseguido que el verdugo no diera la orden (interviniendo para cambiar A), entonces no se habría producido ningún disparo. En el segundo modelo, el tiro habría ocurrido de cualquier manera porque el tirador no estaba siguiendo la orden de ejecución. Existe una gran literatura en estadística sobre cómo tratar de comprender las relaciones causales entre las variables, y existen varias herramientas diferentes para ayudarlo a probar diferentes historias causales sobre sus datos. La más utilizada de estas herramientas (al menos en psicología) es el modelo de ecuaciones estructurales (SEM), y en algún momento me gustaría ampliar el libro para hablar de ello.

Por supuesto, incluso esta lista está incompleta. No he mencionado el análisis de series de tiempo, la teoría de la respuesta al ítem, el análisis de la cesta de la compra, los árboles de clasificación y regresión, o cualquiera de una amplia gama de otros temas. Sin embargo, la lista que he dado anteriormente es esencialmente mi lista de deseos para este libro. Claro, duplicaría la longitud del libro, pero significaría que el alcance se ha vuelto lo suficientemente amplio como para cubrir la mayoría de las cosas que los investigadores de psicología aplicada necesitarían usar.

Otras formas de hacer inferencias

Un sentido diferente en el que este libro está incompleto es que se centra bastante en una visión muy estrecha y anticuada de cómo se debe hacer la estadística inferencial. En [Estimación de cantidades desconocidas de una muestra] hablé un poco sobre la idea de estimadores imparciales, distribuciones de muestreo, etc. En [Prueba de hipótesis] hablé sobre la teoría de la prueba de significancia de la hipótesis nula y los valores p. Estas ideas existen desde principios del siglo XX, y las herramientas de las que he hablado en el libro se basan en gran medida en las ideas teóricas de esa época. Me he sentido obligado a ceñirme a esos temas porque la gran mayoría del análisis de datos en la ciencia también depende de esas ideas. Sin embargo, la teoría de la estadística no se limita a esos temas y, aunque todo el mundo debería conocerlos debido a su importancia práctica, en muchos aspectos esas ideas no representan las mejores prácticas para el análisis de datos contemporáneo. Una de las cosas con las que estoy especialmente contento es que he podido ir un poco más allá. [Estadísticas bayesianas] ahora presenta la perspectiva bayesiana con una cantidad razonable de detalles, pero el libro en general todavía está muy inclinado hacia la ortodoxia frecuentista. Además, hay una serie de otros enfoques de la inferencia que vale la pena mencionar:

Arranque. A lo largo del libro, cada vez que introduje una prueba de hipótesis, tuve una fuerte tendencia a hacer afirmaciones como “la distribución de muestreo para BLAH es una distribución t” o algo así. En algunos casos, en realidad he intentado justificar esta afirmación. Por ejemplo, cuando hablé de las pruebas $\chi^2$ en [Análisis de datos categóricos] hice referencia a la relación conocida entre las distribuciones normales y las distribuciones $\chi^2$ (ver [Introducción a la probabilidad) para explicar cómo terminamos suponiendo que la distribución muestral del estadístico de bondad de ajuste es $\chi^2$ . Sin embargo, también es cierto que muchas de estas distribuciones de muestreo son, bueno, incorrectas. La prueba $\chi^2$ es un buen ejemplo. Se basa en una suposición sobre la distribución de sus datos, ¡una suposición que se sabe que es incorrecta para tamaños de muestra pequeños! A principios del siglo XX, no había mucho que pudieras hacer sobre esta situación. Los estadísticos habían desarrollado resultados matemáticos que decían que “bajo suposiciones BLAH sobre los datos, la distribución de muestreo es aproximadamente BLAH”, y eso era lo mejor que podía hacer. Muchas veces ni siquiera tenían eso. Hay muchas situaciones de análisis de datos para las que nadie ha encontrado una solución matemática para las distribuciones de muestreo que necesita. Y así hasta finales del siglo XX, las pruebas correspondientes no existían o no funcionaban. Sin embargo, las computadoras han cambiado todo eso ahora. Hay muchos trucos sofisticados y algunos no tan sofisticados que puedes usar para evitarlo. El más simple de estos es el arranque, y en su forma más simple es increíblemente simple. Lo que hace es simular los resultados de su experimento muchas veces, bajo las suposiciones gemelas de que (a) la hipótesis nula es verdadera y (b) la distribución de la población desconocida en realidad se ve bastante similar a sus datos sin procesar. En otras palabras, en lugar de suponer que los datos están (por ejemplo) distribuidos normalmente, simplemente suponga que la población tiene el mismo aspecto que su muestra y luego use computadoras para simular la distribución de muestreo para su estadística de prueba si esa suposición se cumple. A pesar de basarse en una suposición un tanto dudosa (es decir, ¡la distribución de la población es la misma que la muestra!), el bootstrapping es un método rápido y fácil que funciona notablemente bien en la práctica para muchos problemas de análisis de datos.
Validación cruzada. Una pregunta que aparece en mis clases de estadística de vez en cuando, generalmente por parte de un estudiante que intenta ser provocativo, es “¿Por qué nos preocupamos por las estadísticas inferenciales? ¿Por qué no simplemente describir su muestra?” La respuesta a la pregunta suele ser algo como esto: “Debido a que nuestro verdadero interés como científicos no es la muestra específica que hemos observado en el pasado, queremos hacer predicciones sobre los datos que podríamos observar en el futuro”. Muchos de los problemas en la inferencia estadística surgen debido al hecho de que siempre esperamos que el futuro sea similar pero un poco diferente al pasado. O, de manera más general, los datos nuevos no serán exactamente iguales a los datos antiguos. Lo que hacemos, en muchas situaciones, es tratar de derivar reglas matemáticas que nos ayuden a sacar las inferencias que tienen más probabilidades de ser correctas para los datos nuevos, en lugar de elegir las declaraciones que mejor describen los datos antiguos. Por ejemplo, dados dos modelos A y B, y un conjunto de datos $X$ que recopilaste hoy, trata de elegir el modelo que describa mejor un nuevo conjunto de datos $Y$ que recopilarás mañana. A veces conviene simular el proceso, y eso es lo que hace la validación cruzada. Lo que hace es dividir su conjunto de datos en dos subconjuntos, $X1$ y $X2$. Utilice el subconjunto $X1$ para entrenar el modelo (por ejemplo, estime los coeficientes de regresión, digamos), pero luego evalúe el rendimiento del modelo en el otro $X2$. Esto le da una medida de qué tan bien se generaliza el modelo de un conjunto de datos antiguo a uno nuevo y, a menudo, es una mejor medida de qué tan bueno es su modelo que si simplemente lo ajusta al conjunto de datos completo $X$.
Estadísticas robustas. La vida es desordenada y nada funciona realmente como se supone que debe hacerlo. Esto es tan cierto para las estadísticas como para cualquier otra cosa, y cuando tratamos de analizar datos, a menudo nos encontramos con todo tipo de problemas en los que los datos son más confusos de lo que se supone que deben ser. Las variables que se supone que se distribuyen normalmente no se distribuyen normalmente, las relaciones que se supone que son lineales no son realmente lineales, y algunas de las observaciones en su conjunto de datos son casi con seguridad basura (es decir, no miden lo que se supone que deben medir). ). Todo este desorden se ignora en la mayor parte de la teoría estadística que desarrollé en este libro. Sin embargo, ignorar un problema no siempre lo resuelve. A veces, está bien ignorar el desorden, porque algunos tipos de herramientas estadísticas son “robustas”, es decir, si los datos no satisfacen sus suposiciones teóricas, aún así funcionan bastante bien. Otros tipos de herramientas estadísticas no son sólidas, e incluso pequeñas desviaciones de los supuestos teóricos hacen que se rompan. Las estadísticas robustas son una rama de las estadísticas que se ocupa de esta pregunta y hablan de cosas como el “punto de ruptura” de una estadística. Es decir, ¿qué tan desordenados deben ser sus datos antes de que no se pueda confiar en la estadística? Toqué esto en algunos lugares. La media no es un estimador robusto de la tendencia central de una variable, pero la mediana sí lo es. Por ejemplo, supón que te dijera que las edades de mis cinco mejores amigos son 34, 39, 31, 43 y 4003 años. ¿Qué edad crees que tienen en promedio? Es decir, ¿qué significa aquí la verdadera población? Si usa la media muestral como estimador de la media poblacional, obtiene una respuesta de 830 años. Si usa la mediana muestral como estimador de la media poblacional, obtiene una respuesta de 39 años. Tenga en cuenta que, a pesar de que “técnicamente” está haciendo lo incorrecto en el segundo caso (¡usando la mediana para estimar la media!), en realidad está obteniendo una mejor respuesta. El problema aquí es que una de las observaciones es claramente, obviamente, una mentira. No tengo un amigo de 4003 años. Probablemente sea un error tipográfico, probablemente quise escribir 43. Pero, ¿y si hubiera escrito 53 en lugar de 43 o 34 en lugar de 43? ¿Podría estar seguro de si esto fue un error tipográfico o no? A veces, los errores en los datos son sutiles, por lo que no puede detectarlos simplemente observando la muestra, pero siguen siendo errores que contaminan sus datos y aún afectan sus conclusiones. Las estadísticas sólidas se ocupan de cómo puede hacer inferencias seguras, incluso cuando se enfrenta a una contaminación de la que no tiene conocimiento. Es algo muy bueno.

Temas varios

Suponga que está realizando una encuesta y le interesa el ejercicio y el peso. Envías datos a cuatro personas. Adam dice que hace mucho ejercicio y no tiene sobrepeso. Briony dice que hace mucho ejercicio y no tiene sobrepeso. Carol dice que no hace ejercicio y tiene sobrepeso. Tim dice que no hace ejercicio y se niega a responder la pregunta sobre su peso. Elaine no devuelve la encuesta. Ahora tiene un problema de falta de datos. Falta una encuesta completa y falta una pregunta de otra, ¿Qué haces al respecto? Ignorar los datos que faltan no es, en general, algo seguro. Pensemos en la encuesta de Tim aquí. En primer lugar, observe que, sobre la base de sus otras respuestas, parece ser más similar a Carol (ninguno de nosotros hace ejercicio) que a Adam o Briony. Entonces, si te vieras obligado a adivinar su peso, dirías que está más cerca de ella que de ellos. Tal vez haría alguna corrección por el hecho de que Adam y Tim son hombres y Briony y Carol son mujeres. El nombre estadístico para este tipo de adivinanzas es “imputación”. Hacer la imputación de manera segura es difícil, pero es importante, especialmente cuando los datos que faltan se pierden de manera sistemática. Debido al hecho de que a las personas con sobrepeso a menudo se las presiona para que se sientan mal por su peso (a menudo gracias a campañas de salud pública), en realidad tenemos motivos para sospechar que las personas que no responden tienen más probabilidades de tener sobrepeso que las personas que sí lo hacen. responde Imputar un peso a Tim significa que el número de personas con sobrepeso en la muestra probablemente aumentará de 1 de 3 (si ignoramos a Tim) a 2 de 4 (si imputamos el peso de Tim). Claramente esto importa. Pero hacerlo con sensatez es más complicado de lo que parece. Anteriormente, sugerí que deberías tratar a Tim como Carol, ya que dieron la misma respuesta a la pregunta del ejercicio. Pero eso no es del todo correcto. Hay una diferencia sistemática entre ellos. Ella respondió la pregunta y Tim no. Dadas las presiones sociales que enfrentan las personas con sobrepeso, ¿no es probable que Tim tenga más sobrepeso que Carol? Y, por supuesto, esto sigue ignorando el hecho de que no es sensato imputar un peso único a Tim, como si realmente supieras su peso. En cambio, lo que debe hacer es imputar un rango de conjeturas plausibles (lo que se conoce como imputación múltiple), para capturar el hecho de que está más inseguro sobre el peso de Tim que sobre el de Carol. Y no comencemos con el problema planteado por el hecho de que Elaine no envió la encuesta. Como probablemente pueda adivinar, lidiar con los datos faltantes es un tema cada vez más importante. De hecho, me han dicho que muchas revistas en algunos campos no aceptarán estudios en los que falten datos a menos que se siga algún tipo de esquema de imputación múltiple sensato.
Análisis de potencia. En [Prueba de hipótesis] hablé del concepto de potencia (es decir, qué tan probable es que pueda detectar un efecto si realmente existe) y me refiero al análisis de potencia, una colección de herramientas que son útiles para evaluar la potencia de su estudio. posee. El análisis de potencia puede ser útil para planificar un estudio (p. ej., averiguar qué tamaño de muestra es probable que necesite), pero también cumple una función útil en el análisis de datos que ya recopiló. Por ejemplo, suponga que obtiene un resultado significativo y tiene una estimación del tamaño del efecto. Puede usar esta información para estimar cuánta potencia tenía realmente su estudio. Esto es bastante útil, especialmente si el tamaño de su efecto no es grande. Por ejemplo, suponga que rechaza la hipótesis nula en $p< .05$, pero usa el análisis de potencia para determinar que su potencia estimada fue solo .08. El resultado significativo significa que, si la hipótesis nula fuera cierta, había un 5% de posibilidades de obtener datos como este. Pero la potencia baja significa que, incluso si la hipótesis nula es falsa y el tamaño del efecto es realmente tan pequeño como parece, solo hay un 8 % de posibilidades de obtener datos como los que obtuvo usted. ¡Esto sugiere que debe ser bastante cauteloso, porque la suerte parece haber jugado un papel importante en sus resultados, de una forma u otra!
Análisis de datos utilizando modelos inspirados en la teoría. En algunas partes de este libro he mencionado los datos de tiempo de respuesta (RT), donde se registra cuánto tiempo le toma a alguien hacer algo (por ejemplo, tomar una decisión simple). He mencionado que los datos de RT son casi invariablemente no normales y positivamente sesgados. Además, existe una cosa conocida como compensación entre velocidad y precisión: si intenta tomar decisiones demasiado rápido (RT bajo), es probable que tome decisiones más pobres (menor precisión). Entonces, si mide tanto la precisión de las decisiones de un participante como su RT, probablemente encontrará que la velocidad y la precisión están relacionadas. Hay más en la historia que esto, por supuesto, porque algunas personas toman mejores decisiones que otras, independientemente de lo rápido que vayan. Además, la velocidad depende tanto de los procesos cognitivos (es decir, el tiempo dedicado a pensar) como de los fisiológicos (p. ej., qué tan rápido puede mover los músculos). Está empezando a parecer que analizar estos datos será un proceso complicado. Y de hecho lo es, pero una de las cosas que encuentras cuando profundizas en la literatura psicológica es que ya existen modelos matemáticos (llamados “modelos de muestreo secuencial”) que describen cómo las personas toman decisiones simples, y estos modelos toman en cuenta un muchos de los factores que mencioné anteriormente. No encontrará ninguno de estos modelos inspirados teóricamente en un libro de texto estándar de estadística. Los libros de texto de estadísticas estándar describen herramientas estándar, herramientas que podrían aplicarse significativamente en muchas disciplinas diferentes, no solo en psicología. ANOVA es un ejemplo de una herramienta estándar que es tan aplicable a la psicología como a la farmacología. Los modelos de muestreo secuencial no lo son, son más o menos específicos de la psicología. Esto no los convierte en herramientas menos poderosas. De hecho, si está analizando datos en los que las personas tienen que tomar decisiones rápidamente, debería usar modelos de muestreo secuencial para analizar los datos. Usar ANOVA o regresión o lo que sea no funcionará tan bien, porque los supuestos teóricos que los sustentan no coinciden bien con sus datos. Por el contrario, los modelos de muestreo secuencial se diseñaron explícitamente para analizar este tipo específico de datos, y sus suposiciones teóricas se ajustan muy bien a los datos.

Aprendiendo los conceptos básicos y aprendiéndolos en jamovi

Bueno, esa era una lista larga. E incluso esa lista está enormemente incompleta. Realmente hay muchas grandes ideas en estadística que no he cubierto en este libro. Puede parecer bastante deprimente terminar un libro de texto de casi 500 páginas solo para que te digan que esto es solo el comienzo, especialmente cuando comienzas a sospechar que la mitad de lo que te han enseñado está mal. Por ejemplo, hay mucha gente en el campo que argumentaría fuertemente en contra del uso del modelo ANOVA clásico, ¡pero le he dedicado dos capítulos completos! El ANOVA estándar puede ser atacado desde una perspectiva bayesiana, o desde una perspectiva estadística robusta, o incluso desde una perspectiva de “simplemente está mal” (la gente usa con mucha frecuencia ANOVA cuando en realidad debería estar usando modelos mixtos). Entonces, ¿por qué aprenderlo en absoluto?

Como yo lo veo, hay dos argumentos clave. En primer lugar, está el argumento del pragmatismo puro. Correcta o incorrectamente, ANOVA es ampliamente utilizado. Si desea comprender la literatura científica, debe comprender ANOVA. Y en segundo lugar, está el argumento del “conocimiento incremental”. De la misma manera que fue útil haber visto ANOVA unidireccional antes de intentar aprender ANOVA factorial, comprender ANOVA es útil para comprender herramientas más avanzadas, porque muchas de esas herramientas amplían o modifican la configuración básica de ANOVA de alguna manera. Por ejemplo, aunque los modelos mixtos son mucho más útiles que ANOVA y la regresión, nunca he oído hablar de nadie que haya aprendido cómo funcionan los modelos mixtos sin haber trabajado primero con ANOVA y la regresión. Tienes que aprender a gatear antes de poder escalar una montaña.

En realidad, quiero llevar este punto un poco más lejos. Una cosa que he hecho mucho en este libro es hablar sobre los fundamentos. Pasé mucho tiempo en la teoría de la probabilidad. Hablé sobre la teoría de la estimación y las pruebas de hipótesis con más detalle del necesario. ¿Por qué hice todo esto? Mirando hacia atrás, podría preguntarse si realmente necesitaba pasar todo ese tiempo hablando sobre qué es una distribución de probabilidad, o por qué había incluso una sección sobre densidad de probabilidad. Si el objetivo del libro era enseñarle cómo ejecutar una prueba t o un ANOVA, ¿era todo eso realmente necesario? ¿Fue todo esto una gran pérdida de tiempo para todos?

La respuesta, espero que esté de acuerdo, es no. El objetivo de una estadística introductoria no es enseñar ANOVA. No es para enseñar pruebas t, regresiones, histogramas o valores p. El objetivo es iniciarlo en el camino para convertirse en un analista de datos calificado. Y para que usted se convierta en un analista de datos capacitado, debe poder hacer más que ANOVA, más que pruebas t, regresiones e histogramas. Tienes que ser capaz de pensar correctamente acerca de los datos. Debe poder aprender los modelos estadísticos más avanzados de los que hablé en la última sección y comprender la teoría en la que se basan. Y necesita tener acceso a un software que le permita usar esas herramientas avanzadas. Y aquí es donde, al menos en mi opinión, todo el tiempo extra que he dedicado a los fundamentos vale la pena. Si comprende la teoría de la probabilidad, le resultará mucho más fácil pasar de los análisis frecuentistas a los bayesianos.

En resumen, creo que la gran recompensa por aprender estadística de esta manera es la extensibilidad. Para un libro que solo cubre los conceptos básicos del análisis de datos, este libro tiene una sobrecarga enorme en términos de aprendizaje de la teoría de la probabilidad, etc. Hay muchas otras cosas que te empujan a aprender además de los análisis específicos que cubre el libro. Entonces, si su objetivo había sido aprender a ejecutar un ANOVA en el mínimo tiempo posible, este libro no era una buena opción. Pero como digo, no creo que ese sea tu objetivo. Creo que quieres aprender a hacer análisis de datos. Y si ese es realmente su objetivo, querrá asegurarse de que las habilidades que aprenda en su clase introductoria de estadísticas sean extensibles de forma natural y limpia a los modelos más complicados que necesita en el análisis de datos del mundo real. Quiere asegurarse de aprender a usar las mismas herramientas que usan los analistas de datos reales, para que pueda aprender a hacer lo que ellos hacen. Y sí, está bien, eres un principiante en este momento (o lo eras cuando comenzaste este libro), pero eso no significa que debas contarte una historia tonta, una historia en la que no te cuente sobre densidad de probabilidad, o una historia donde no les cuento sobre la pesadilla que es el ANOVA factorial con diseños desbalanceados. Y eso no significa que deban darle juguetes para bebés en lugar de herramientas de análisis de datos adecuadas. Los principiantes no son tontos, simplemente les falta conocimiento. Lo que necesita es que no se le oculten las complejidades del análisis de datos del mundo real. Lo que necesita son las habilidades y herramientas que le permitirán manejar esas complejidades cuando inevitablemente lo embosquen en el mundo real.

Y lo que espero es que este libro, o el libro terminado en el que se convertirá algún día, pueda ayudarlo con eso.

Nota del autor: lo mencioné antes, pero lo mencionaré rápidamente de nuevo. La lista de referencias del libro es terriblemente incompleta. Por favor, no asuma que estas son las únicas fuentes en las que he confiado. La versión final de este libro tendrá muchas más referencias. Y si ve algo que suena inteligente en este libro que no parece tener una referencia, puedo prometerle absolutamente que la idea fue de otra persona. Este es un libro de texto introductorio: ninguna de las ideas es original. Me haré responsable de todos los errores, pero no puedo atribuirme nada de lo bueno. Todo lo inteligente de este libro provino de otra persona, y todos merecen la atribución adecuada por su excelente trabajo. Todavía no he tenido la oportunidad de dárselo.