Taller I. ¿Cómo analizar las propiedades psicométricas de la prueba?



Sesión de clase: 10.

Objetivo:
1. Aprender a analizar las propiedades psicométricas de la prueba instrucciones:

Instrucciones:

1. Una vez que hayan aplicado la prueba a los 30 sujetos escogidos, encuentren los puntajes totales de cada sujeto en la prueba según las indicaciones del punto 10, e integren los datos, sacando el puntaje promedio del grupo y la desviación estándar de dichos puntajes. Comparen los datos de: a) la media grupal con respecto a la puntuación máxima de la prueba; b) el resultado del sujeto con el puntaje más alto en la prueba y la puntuación máxima de la prueba; y c) la homogeneidad de la distribución de los puntajes de los sujetos al comparar la media con la desviación. En Excel ustedes pueden sacar la media del grupo seleccionado todos los datos y haciendo clic en el símbolo de Sumatoria y luego en Promedio.

Sumatoria.jpg

También pueden obtener el promedio anotando en la barra de función fx la expresión =PROMEDIO( ) colocando en el paréntesis la primera y última celda seleccionadas. La desviación estándar, puede obtenerse haciendo clic en Insertar, luego en Función y posteriormente hay que seleccionar dentro de la categoría de estadísticas, la función que dice DESVEST, seleccionado luego las celdas con los valores a los cuales se les va a sacar la desviación estándar.

b. Analicen la confiabilidad, la validez y las propiedades de cada reactivo (discriminación y dificultad). A continuación se describen los pasos para hacer el análisis de confiabilidad, validez y de las propiedades de los reactivos.

Confiabilidad

La confiabilidad es el grado de estabilidad, precisión y consistencia que tienen las mediciones de un test (Kaplan; Saccuzzo, 2006), cuando este se aplica en diferentes momentos a una población determinada. También puede definirse como la coherencia de los puntajes obtenidos por los individuos en diferentes ocasiones o con distintos conjuntos de ítems equivalentes. Existen tres formas de hallar la confiabilidad de una prueba que son (Abad; Garrido; Olea; Ponsoda, 2006): Test-retest, la cual consiste en aplicar la prueba en una misma población de sujetos pero en momentos diferentes, para luego comparar los puntajes de ambas aplicaciones. La confiabilidad obtenida por este método esta asociada a la estabilidad temporal de la prueba y se saca mediante el coeficiente de correlación (
Pearson) entre los puntajes totales de cada sujeto en la aplicación inicial y la aplicación posterior de la prueba. Por ejemplo: A una muestra de 10 estudiantes de psicología, les aplicaron una prueba de aptitudes al inicio y al final de la carrera y sus resultados se organizaron en la siguiente tabla:


Tabla_de_test_y_retest.jpg

Para sacar el coeficiente de correlación en Excel se debe buscar en la categoría de estadísticos, la función PEARSON y seleccionar en Matriz1 solo la fila de datos numéricos de Test y en Matriz2, los datos numéricos de Retest.

Finalmente, se obtiene el coeficiente haciendo clic en Aceptar. Si el coeficiente es mayor o igual a 0,70 como en este caso que dio un coeficiente de correlación r = 0,87 se puede afirmar que la prueba tiene una estabilidad en la medición adecuada, pero si esta por debajo de estos valores se puede interpretar como una confiabilidad relativamente baja y deben revisarse la prueba en su totalidad para detectar la causa del error en los patrones de medición.

Formas paralelas: en la que se diseña un formato de preguntas similar al de la prueba original (tiene el mismo número de preguntas y cada pregunta esta redactada en forma inversa a la original pero evalúa lo mismo), para aplicarlo a la misma población de sujetos a los que se les aplico la prueba original y comparar luego los resultados de las dos pruebas mediante el coeficiente de correlación (pearson) entre los puntajes de ambos formatos.

División por mitades: en la que se comparan los puntajes de los ítems pares de la prueba con los resultados de los ítems impares, mediante un coeficiente de
consistencia interna, como el que aporta la formula:


Spearman.jpg
Por ejemplo: se aplico una prueba de 10 ítems y los resultados obtenidos se consolidaron en la siguiente tabla

Items_pares_e_impares.jpg

Inicialmente se saca la correlación en Excel con la función PEARSON entre los ítems pares y los ítems impares y se obtiene un coeficiente de 0,60. Luego se busca el coeficiente de consistencia interna mediante la formula de Spearman-Brown: rxx = (2* 0,60) / (1 + 0,60) dando como resultado 0,75. A partir de este resultado se deduce que existe una buena consistencia interna entre los ítems de la prueba y que desde este punto de vista es una prueba confiable. Aparte de estos tres métodos para hallar la confiabilidad a través de los coeficientes de Pearson y Spearman-Brown, que ayudan a determinar la estabilidad y consistencia de una prueba con un sistema de calificación dicotómico, hay otro coeficiente que confiabilidad denomino el Alfa de Cronbach que ayuda a establecer la consistencia interna de una prueba que tenga un sistema policotómico de calificación. Por ejemplo, se aplica una escala de actitudes a un grupo de 10 estudiantes y se obtienen los siguientes resultados:

Alfa_1.jpg


Para sacar el Alfa de Cronbach en Excel, se halla primero la varianza de de los ítems por separado, seleccionado los valores de cada columna e insertando la función =VAR( ). Posteriormente de debe obtener el puntaje total de cada sujeto y hallar la varianza de esta columna también:

Alfa_2.jpg


Con los datos de la tabla anterior el Alfa de Cronbach es: = (6 / (6-1)) * (1( 13,4 / 26,77) = 0,59 de lo cual se puede deducir que los ítems de la escala tienen un nivel de consistencia interna adecuado, pero deben añadirse, más ítems para que la escala sea más confiable. Para mejorar la confiabilidad de una prueba se debe aplica la formula para el Índice del aumento del número de ítems: Cd* ((1 – Ci) / Ci) * (1 – Cd), donde Cd es la confiabilidad deseada y Ci la confiabilidad inicial, que en el caso anterior se puede mejorar a una confiabilidad de 0,70 desarrollando la formula así: 0,70 * ( ( 10,59) / 0,59) * (10,70) = 0,14; este valor se multiplica luego por el número de ítems inicial y luego se le resta a ese resultado el número de ítems inicial, de tal manera que queda: (0,14*6) 6 = 5.16, donde 5 es el número de ítems que deben añadírsele a la prueba para que adquiera una confiabilidad de 0,70.


Validez

La validez puede definirse como la concordancia entre la puntuación o medida de una prueba y la cualidad que pretende medir (Kaplan; Saccuzzo, 2006). Existen tres tipos de validez que son:

La validez del contenido de la prueba: que se refiere a la coherencia y veracidad descriptiva de los enunciados de los ítems con respecto al concepto que miden. Puede determinarse a partir de: la coherencia, la relevancia y buena redacción de los ítems de la prueba. En este sentido, la tabla del punto 12, de esta guía sirve para establecer la validez del contenido de la prueba. La validez del constructo o concepto de la prueba: es la precisión con la que se mide el concepto que pretende medir la prueba. Este tipo de validez se puede establecer comparando los enunciados de la prueba con los enunciados de una prueba que mida el mismo constructo, planteadas en el Thesaurus de la APA. Por ejemplo, si el concepto que mide su prueba es el de aptitud, usted puede comparar los enunciados de su prueba con los enunciados de una prueba estandarizada como el Test de Aptitudes mentales Primarias o un test de Inteligencia.

La validez referida al criterio: esta relacionada con la concordancia existente entre las medidas que usted obtuvo en su prueba y las medidas obtenidas en otra prueba que mida el mismo concepto o constructo. Hay dos formas de encontrar la validez referida al criterio, que son: la validez concurrente, que es la variabilidad en las puntuaciones de dos grupos de distintos de sujetos en un mismo test, y la validez predictiva que es el grado de precisión con que las calificaciones de la pruebapredicen las calificaciones del criterio. Una manera de hallar la validez concurrente es sacando la correlación entre los puntajes de los sujetos en la prueba que usted construyo y los puntajes que obtengan esos mismos sujetos en una prueba estandarizada que mida el mismo concepto. Por ejemplo, si usted esta construyendo una prueba que mida el concepto de ansiedad, usted puede aplicar en una primera sesión su prueba, y en otra sesión aplicar una prueba estandarizada que mida la ansiedad como el IDARE, para luego sacar la correlación de los puntajes de los sujetos en ambas pruebas. Para más información acerca de la confiabilidad de un test, consulte el artículo el artículo de Elosua, P. (2003). Sobre la validez de los tests. Psicothema, 15(2). 315-321. disponible en la pagina web:
http://redalyc.uaemex.mx/redalyc/pdf/727/72715225.pdf


Análisis de los reactivos

El análisis de los elementos se hace con la finalidad de averiguar las característicasde estos en lo que se refiere a: su dificultad y su discriminación (Kaplan; Saccuzzo, 2006). El conocimiento del índice de dificultad de un ítem es de utilidad para: a) identificar los ítems que sirven o no y el grado de dificultad de cada uno, b) para escoger sólo aquellos ítems que presentan el mismo grado de dificultad, c) para elegir una serie que nos permita ordenarlos en función de su progresiva dificultad p; el valor del índice p puede ser de 0 a 1. Los pasos para sacar la el índice de dificultad de una prueba son:
a. Sacar el puntaje bruto de cada sujeto. Esto es calificar el total de los ítems correctos en cada hoja de respuestas y anotar la puntuación en la misma.
b. Ordenar los puntajes obtenidos por los sujetos de mayor a menor o viceversa.
c. Identificar el 27% del total de sujetos que respondieron el test.
d. Separar el 27 % de los puntaje altos que se llamaran el grupo de los altos o (Up) y el otro 27 de los puntajes bajos, que se llamarán (Lp). Estos se designan como grupo de los altos (GA o Up) y grupo de los bajos (GB o Lp), respectivamente. Se trabaja con los puntajes extremos. Con el 54% de la población, que corresponde al 27 % de los puntajes mayores (grupo de los altos) y el 27% de los puntajes inferiores (grupo de los bajos). Los puntajes que se encuentran en el área normal, es decir, el 46% se desechan porque no permiten diferencias significativas.


Alfa_3.jpg

e. Encontrar en cada ítem, cuantas personas del grupo de lo altos (GA) contestaron correctamente el ítem 1. Cuantas personas del grupo de los bajos (GB) contestaron correctamente el ítem 1. Luego, continuar con todos los ítems. Cada uno visto en el grupo de los altos y de los bajos. Es posible contar sólo las respuestas correctas, pero resulta interesante saber también el número de selecciones de alternativas erróneas, por lo que generalmente se cuentan todas las respuestas.

f. Una vez que se tienen los valores de Up y Lp de cada ítem se puede identificar el análisis de dificultad así: p = (Up + Lp) / (U + L). Donde p es el nivel de dificultad, U el total de evaluados del grupo superior, Up número de personas del grupo de los altos que contestó correctamente el ítem, L el total de evaluados del grupo inferior, y Lp el número de personas del grupo de los bajos que contestó correctamente el ítem. Con el índice de dificultad se establece la proporción de examinados que contestaron correctamente el ítem según los criterios que se muestran en la siguiente tabla:


Análisis_de_reactivos.jpg


En cuanto a la
discriminación de una prueba, se define como una propiedad asociada con los test de rendimiento óptimo y permite determinar qué sujetos tienen la capacidad evaluada por la prueba y cuales no (Kaplan; Saccuzzo, 2006). La medición de la discriminación, se encuentra mediante el índice de discriminación D cuya formula es: D = (Up - Lp) / U. Donde, U es el total de evaluados del grupo superior, Up es el número de personas del grupo de los altos que contestó correctamente el ítem, L es el total de evaluados del grupo inferior, y Lp es número de personas del grupo de los bajos que contestó correctamente el ítem. Si los ítems tienen un índice de discriminación D =>0.30 entonces se dice que discriminan adecuadamente aquellos sujetos que tienen la capacidad evaluada de los que no la tienen, pero si D es inferior a 0,30 entonces esto quiere decir que el ítem está mal elaborado.

2. Con los datos obtenidos de la confiabilidad, validez y del análisis de los ítems de la prueba, completen el formato de Descripción de las propiedades psicométricas del instrumento.

Propiedades_del_instrumento.jpg


Ir a la página: Home o presentación

Ir a la página: Tema H

Ir a la página: Tema J