¡No te dejes engañar por las estadísticas!

09/06/2011

Recientemente, me encontré con un kit ELISA de diagnóstico que, según se afirmaba, proporcionaba una sensibilidad del 100% y una especificidad del 99%. Estas estadísticas se calcularon a partir de una muestra asimétrica de sueros, con sólo 5 casos positivos y más de 300 casos negativos. El cliente potencial debe ser consciente de que la confianza en estas estadísticas es muy pobre para un número tan bajo de casos positivos considerados. Permítanme apoyar mi discusión con un ejemplo simulado similar. Imaginemos que se simulan 300 lecturas negativas de un kit de diagnóstico, que representan sueros no infectados, siguiendo una distribución normal con una media de 0,5 y una desviación estándar de 0,25. Además, se simulan 5 lecturas positivas con una distribución normal con 1,5 media y 0,5 sd. Según nuestra experiencia, esto puede parecer una situación muy realista. Con estos datos simulados, el punto de corte óptimo siguiendo un criterio determinado (el índice de Youden) es 1,01, y la sensibilidad y especificidad del kit de diagnóstico (simulado) es del 100% y 97%, respectivamente. Estas son estadísticas bastante cercanas a las reportadas por la prueba. Pero la pregunta es: ¿son valores fiables para el cliente? La respuesta es no. Principalmente porque, como ya se ha comentado, cinco positivos no son suficientes. Otra consideración relevante cuando se utiliza un número reducido de muestras es que la sensibilidad y la especificidad siempre deben calcularse a partir de datos independientes de los utilizados para establecer el punto de corte. De lo contrario, obtenemos resultados muy optimistas. De hecho, cuanto menor sea el tamaño de la muestra utilizada, más optimistas serán las estadísticas. Para ilustrar esto, imagine que un cliente compra el ensayo, con un punto de corte de 1,01 y una sensibilidad y especificidad del 100 % y 97 %, respectivamente. Simulé nuevas muestras de lecturas positivas y negativas, representando los nuevos sueros analizados por el cliente con el kit, y obtuve una sensibilidad y especificidad del 84% y 98%. ¿Por qué la sensibilidad era tan baja ante estas nuevas lecturas? Porque el número de sueros positivos utilizados para calcular el punto de corte (5) fue demasiado bajo para obtener una estadística confiable. Para evitar este problema, las técnicas de remuestreo, como la validación cruzada, proporcionan estimaciones más realistas. Las estimaciones de validación cruzada de la sensibilidad y especificidad fueron del 80% y 97%, mucho más cercanas a las observadas por el cliente que a las originales. Como conclusión, la validación estadística de los kits de diagnóstico debe estar siempre respaldada por procedimientos estadísticos sólidos y datos suficientes. De lo contrario, las estadísticas de rendimiento reportadas simplemente no son confiables.

Escrito por José Camacho.

CATEGORÍA: NOTAS CIENTÍFICAS