Realidad de la inteligencia artificial: ¿Se exagera lo positivo de su aplicación en la salud?

La FDA ha suavizado los requisitos de entrada al mercado para algunas compañías de tecnología, pero eso plantea riesgos para la salud de los pacientes

Por LIZ SZABO
14 de febrero de 2020 12:33 PM Actualizado: 14 de febrero de 2020 12:33 PM

Los productos de salud impulsados por inteligencia artificial, o IA, están llegando a nuestras vidas, desde aplicaciones de médicos virtuales hasta sensores portátiles y chatbots de farmacias.

IBM se jactaba de que su IA podría «superar el cáncer«. Otros dicen que los sistemas informáticos que leen radiografías harán obsoletos a los radiólogos.

«No hay nada que haya visto en mis más de 30 años de estudio de la medicina que pueda ser tan impactante y transformador» como la IA, dijo el Dr. Eric Topol, cardiólogo y vicepresidente ejecutivo de Scripps Research en La Jolla, California. La IA puede ayudar a los médicos a interpretar resonancias magnéticas (MRI) del corazón, tomografías computarizadas de la cabeza y fotografías de la parte posterior del ojo, y podría potencialmente hacerse cargo de muchas tareas médicas rutinarias, liberando a los médicos para que pasen más tiempo hablando con los pacientes, dijo Topol.

Incluso la Administración de Alimentos y Medicamentos, que ha aprobado más de 40 productos de IA en los últimos cinco años, dice que «el potencial de la salud digital es nada menos que revolucionario«.

Sin embargo, muchos expertos de la industria de la salud temen que los productos basados en IA no sean capaces de igualar su publicidad. Muchos médicos y defensores de los consumidores temen que la industria de la tecnología, que vive del mantra «falla rápido y arréglalo después» esté poniendo en peligro a los pacientes, y que los reguladores no estén haciendo lo suficiente para mantener seguros a los consumidores.

Los primeros experimentos con IA son un motivo de precaución, dijo Mildred Cho, profesora de pediatría del Centro de Ética Biomédica de Stanford.

Los sistemas desarrollados en un hospital a menudo fallan cuando se despliegan en un lugar diferente, dijo Cho. Se ha demostrado que los programas informáticos utilizados en la atención de millones de estadounidenses discriminan a las minorías. Y los sistemas de IA a veces aprenden a hacer predicciones basadas en factores que tienen menos que ver con la enfermedad que la marca de la máquina de MRI usada, el tiempo que se toma un análisis de sangre, o si un paciente fue visitado por un asesor. En un caso, el software de IA concluyó incorrectamente que las personas con neumonía tenían menos probabilidades de morir si tenían asma, un error que podría haber llevado a los médicos a privar a los pacientes con asma del cuidado extra que necesitan.

«Es solo cuestión de tiempo antes de que algo como esto conduzca a un serio problema de salud», dijo el Dr. Steven Nissen, presidente de cardiología de la Clínica Cleveland.

La IA médica, que obtuvo 1600 millones de dólares en fondos de capital de riesgo solo en el tercer trimestre, está «casi en el pico de las expectativas infladas», concluyó un informe de julio de la compañía de investigación Gartner. «A medida que la realidad se pone a prueba, es probable que haya una fuerte caída en el abismo de la desilusión».

Ese control de la realidad podría llegar en forma de resultados decepcionantes cuando los productos de IA sean introducidos en el mundo real. Incluso Topol, autor de «Deep Medicine»: How Artificial Intelligence Can Make Healthcare Human Again», reconoce que muchos productos de IA son poco más que aire caliente. «Es una mezcla de cosas», dijo.

El Dr. Bob Kocher, experto y socio de la firma de capital de riesgo Venrock, es más contundente. «La mayoría de los productos de IA tienen poca evidencia que los respalde», dijo Kocher. Algunos riesgos no serán aparentes hasta que un sistema de IA haya sido usado por un gran número de pacientes. «Vamos a seguir descubriendo un montón de riesgos y consecuencias imprevistas del uso de IA en los datos médicos», dijo Kocher.

Ninguno de los productos de IA que se venden en Estados Unidos ha sido probado en ensayos clínicos aleatorios, la fuente más sólida de evidencia médica, dijo Topol. El primer y único ensayo aleatorio de un sistema de IA, descubrió que la colonoscopia con diagnóstico asistido por computadora encontró más pólipos pequeños que la colonoscopia estándar, y se publicó en línea en octubre.

Pocas empresas tecnológicas nuevas publican sus investigaciones en revistas revisadas por colegas, lo que permite a otros científicos examinar su trabajo, según un artículo de enero en el European Journal of Clinical Investigation. Esta «investigación sigilosa», descrita únicamente en comunicados de prensa o eventos promocionales, a menudo exagera los logros de una empresa.

Y aunque los desarrolladores de software pueden jactarse de la precisión de sus dispositivos de IA, los expertos señalan que los modelos de IA se prueban mayormente en computadoras, no en hospitales u otras instalaciones médicas. El uso de software no probado «puede convertir a los pacientes en conejillos de indias involuntarios», dijo el Dr. Ron Li, director de informática médica para la integración clínica de IA en Stanford Health Care.

Los sistemas de IA que aprenden a reconocer patrones en los datos a menudo se describen como «cajas negras» porque ni siquiera sus desarrolladores saben cómo han llegado a las conclusiones. Dado que la IA es tan nueva y se desconocen muchos de sus riesgos, el campo necesita una supervisión cuidadosa, dijo Pilar Ossorio, profesora de derecho y bioética de la Universidad de Wisconsin-Madison.

Sin embargo, la mayoría de los dispositivos de IA no requieren la aprobación de la FDA.

«Ninguna de las empresas en las que he invertido está cubierta por las regulaciones de la FDA», dijo Kocher.

La legislación aprobada por el Congreso en 2016, y defendida por la industria tecnológica, exime de la revisión federal a muchos tipos de software médico, incluidas ciertas aplicaciones para el acondicionamiento físico, registros electrónicos de salud y herramientas que ayudan a los médicos a tomar decisiones médicas.

Se han realizado pocas investigaciones sobre si las 320,000 aplicaciones médicas que se utilizan actualmente mejoran realmente la salud, según un informe sobre IA publicado el 17 de diciembre por la Academia Nacional de Medicina.

«Casi ninguna de las cosas [de IA] que se comercializan con los pacientes funciona realmente», dijo el Dr. Ezekiel Emanuel, profesor de ética médica y política de salud de la Facultad de Medicina Perelman de la Universidad de Pensilvania.

La FDA centró su atención durante mucho tiempo en los dispositivos que representan la mayor amenaza para los pacientes. Y los defensores de los consumidores reconocen que algunos dispositivos, como los que ayudan a la gente a contar sus pasos diarios, necesitan menos escrutinio que los que diagnostican o tratan enfermedades.

Algunos desarrolladores de software no se molestan en solicitar la autorización de la FDA, incluso cuando se requiere legalmente, según un estudio de 2018 en Annals of Internal Medicine.

paciente-realidad-virtual
Un paciente con unos lentes de realidad virtual después de recibir una anestesia local. HypnoVR, fundada en 2016 por dos anestesistas y un empresario, proporciona software y lentes de realidad virtual que permiten al hipnoterapeuta tratar a varios pacientes. (FREDERICK FLORIN/AFP a través de Getty Images)

Los analistas de la industria dicen que los desarrolladores de IA tienen poco interés en llevar a cabo ensayos costosos y largos. «No es la principal preocupación de estas empresas someterse a una evaluación rigurosa que se publicaría en una revista revisada por colegas», dijo Joachim Roski, director de Booz Allen Hamilton, una empresa consultora de tecnología, y coautor del informe de la Academia Nacional. «No es así como funciona la economía de Estados Unidos».

Pero Oren Etzioni, director ejecutivo del Instituto Allen para IA en Seattle, dijo que los desarrolladores de IA tienen un incentivo financiero para asegurarse de que sus productos médicos sean seguros.

«Si fallar rápido significa que un montón de gente morirá, no creo que queramos fallar rápido», dijo Etzioni. «Nadie va a estar contento, incluyendo los inversores, si la gente muere o resulta gravemente herida».

Estándares relajados en la FDA

La FDA ha sido objeto de críticas en los últimos años por permitir la venta de dispositivos médicos peligrosos que han sido vinculados por el Consorcio Internacional de Periodistas de Investigación a 80,000 muertes y 1.7 millones de lesiones en la última década.

Muchos de estos dispositivos fueron autorizados para su uso a través de un polémico proceso llamado la vía 510(k), que permite a las empresas comercializar productos de «riesgo moderado» sin necesidad de realizar pruebas clínicas, siempre y cuando se consideren similares a los dispositivos existentes.

En 2011, un comité de la Academia Nacional de Medicina concluyó que el proceso 510(k) es tan fundamentalmente defectuoso que la FDA debería desecharlo y empezar de nuevo.

En cambio, la FDA está usando este proceso para dar luz verde a los dispositivos de IA.

De los 14 productos de IA autorizados por la FDA en 2017 y 2018, 11 fueron aprobados a través del proceso 510(k), según un artículo de noviembre en JAMA. Ninguno de ellos parece haber sido sometido a nuevas pruebas clínicas, según el estudio. La FDA autorizó un dispositivo de IA diseñado para ayudar a diagnosticar el cáncer de hígado y pulmón en 2018 basándose en su similitud con el software de imágenes aprobado 20 años antes. Ese software había sido aprobado porque se consideró «sustancialmente equivalente» a los productos comercializados antes de 1976.

Los productos de IA aprobados por la FDA hoy en día están en gran medida «bloqueados», de modo que sus cálculos y resultados no cambiarán después de que entren en el mercado, dijo Bakul Patel, director de salud digital del Centro de Dispositivos y Salud Radiológica de la FDA. La FDA aún no autorizó los dispositivos de IA «desbloqueados», cuyos resultados podrían variar de un mes a otro en formas que los desarrolladores no pueden predecir.

Para hacer frente a la avalancha de productos de IA, la FDA está probando un enfoque radicalmente diferente de la regulación sobre dispositivos digitales, centrándose en la evaluación de las empresas, no de los productos.

El programa piloto de «precertificación» de la FDA, lanzado en 2017, está diseñado para «reducir el tiempo y costo de entrada al mercado para los desarrolladores de software», imponiendo un sistema «lo menos gravoso posible». Los funcionarios de la FDA dicen que quieren seguir el ritmo de los desarrolladores de software de IA, que actualizan sus productos con mucha más frecuencia que los fabricantes de dispositivos tradicionales, como las máquinas de radiografías.

Scott Gottlieb dijo en 2017, mientras era comisionado de la FDA, que los reguladores del gobierno necesitan asegurarse de que su enfoque hacia los productos innovadores «sea eficiente y que fomente, no impida, la innovación».

Según el plan, la FDA precertificaría a las empresas que «demuestren una cultura de calidad y excelencia organizativa», lo que les permitiría proporcionar menos datos iniciales sobre los dispositivos.

Las compañías precertificadas podrían entonces lanzar dispositivos con una revisión «simplificada» o sin revisión alguna por parte de la FDA. Una vez que los productos estén en el mercado, las empresas serán responsables de vigilar la seguridad de sus propios productos y de informar a la FDA. Nueve compañías han sido seleccionadas para el piloto: Apple, FitBit, Samsung, Johnson & Johnson, Pear Therapeutics, Phosphorus, Roche, Tidepool, y Verily Life Sciences.

Los productos de alto riesgo, como el software utilizado en los marcapasos, aún obtendrán una evaluación completa de la FDA. «Definitivamente no queremos que los pacientes resulten lastimados», dijo Patel, quien señaló que los dispositivos aprobados a través de la precertificación pueden ser retirados del mercado si es necesario. «Todavía hay muchas vallas de contención».

Pero la investigación muestra que incluso los dispositivos de bajo y moderado riesgo fueron retirados del mercado debido a los graves riesgos que corren los pacientes, señaló Diana Zuckerman, presidenta del Centro Nacional de Investigación de la Salud. «La gente podría resultar perjudicada porque no se exigió que algo fuera preciso o seguro antes de su uso generalizado».

Johnson & Johnson, por ejemplo, retiró los implantes de cadera y la malla quirúrgica.

En una serie de cartas a la FDA, la Asociación Médica Americana y otros, han cuestionado la sensatez de permitir a las empresas controlar su propio rendimiento y la seguridad de sus productos.

«El sistema de honor no es un régimen regulador», dijo el Dr. Jesse Ehrenfeld, quien preside el consejo de administración del grupo de médicos.

En una carta de octubre a la FDA, los senadores Elizabeth Warren (D-Mass.), Tina Smith (D-Minn.) y Patty Murray (D-Wash.) cuestionaron la capacidad de la agencia para asegurar que los reportes de seguridad de las compañías sean «precisos, oportunos y basados en toda la información disponible».

Cuando los buenos algoritmos se vuelven malos

Algunos dispositivos de IA se prueban más cuidadosamente que otros.

Un instrumento de detección de enfermedades oculares diabéticas impulsado por la IA fue estudiado en 900 pacientes y 10 consultorios de atención primaria antes de ser aprobado en 2018. El fabricante, IDx Technologies, trabajó con la FDA durante ocho años para que el producto fuera correcto, dijo el Dr. Michael Abramoff, fundador y presidente ejecutivo de la compañía.

La prueba, que se vende como IDx-DR, examina a los pacientes para detectar la retinopatía diabética, una de las principales causas de ceguera, y remite a los pacientes de alto riesgo con especialistas de la vista, que hacen un diagnóstico definitivo.

IDx-DR es el primer producto de IA «autónomo», uno que puede tomar una decisión de evaluación sin un médico. La empresa lo está instalando en clínicas de atención primaria y en tiendas de comestibles, donde puede ser operado por empleados con un certificado de preparatoria. La compañía de Abramoff ha dado el inusual paso de comprar un seguro de responsabilidad civil para cubrir las lesiones en pacientes.

Sin embargo, algunas innovaciones basadas en la IA que pretenden mejorar la atención tienen el efecto contrario.

Una compañía canadiense, por ejemplo, desarrolló un software de IA para predecir el riesgo de Alzheimer de una persona basándose en su lenguaje. Las predicciones eran más precisas para algunos pacientes que para otros. «La dificultad para encontrar la palabra correcta puede deberse a la falta de familiaridad con el inglés, más que al deterioro cognitivo», dijo el coautor Frank Rudzicz, profesor asociado de ciencias informáticas de la Universidad de Toronto.

Los médicos del Hospital Mount Sinai de Nueva York esperaban que la IA les ayudara a usar las radiografías de tórax para predecir qué pacientes estaban en alto riesgo de padecer neumonía. Aunque el sistema hacía predicciones precisas a partir de los rayos X tomados en el Mount Sinai, la tecnología fracasó cuando se probó en imágenes tomadas en otros hospitales. Con el tiempo, los investigadores se dieron cuenta de que la computadora solo había aprendido a diferenciar entre las radiografías de tórax portátiles de ese hospital, tomadas al lado de la cama del paciente, y las tomadas en el departamento de radiología. Los médicos tienden a utilizar las radiografías de tórax portátiles con los pacientes que están demasiado enfermos para salir de su habitación, por lo que no es de extrañar que estos tengan un mayor riesgo de infección pulmonar.

DeepMind, una empresa propiedad de Google, creó una aplicación móvil basada en IA que puede predecir qué pacientes hospitalizados desarrollarán una insuficiencia renal aguda con hasta 48 horas de antelación. Una entrada en el blog del sitio web de DeepMind describió el sistema, utilizado en un hospital de Londres, como un «cambio de juego». Pero el sistema de IA también produjo dos falsas alarmas por cada resultado correcto, según un estudio de julio en Nature. Eso podría explicar por qué la función renal de los pacientes no mejoró, dijo el Dr. Saurabh Jha, profesor asociado de radiología en el Hospital de la Universidad de Pensilvania. Cualquier beneficio en la detección temprana de problemas renales graves podría haberse diluido por una alta tasa de «sobrediagnóstico», en el que el sistema de IA marcó los problemas renales limítrofes que no necesitaban tratamiento, dijo Jha. Google no hizo ningún comentario en respuesta a las conclusiones de Jha.

Los falsos positivos pueden perjudicar a los pacientes al llevar a los médicos a ordenar pruebas innecesarias o a no recomendar tratamientos, dijo Jha. Por ejemplo, un médico preocupado por los riñones de un paciente podría dejar de recetar ibuprofeno, un analgésico generalmente seguro que plantea un pequeño riesgo para la función renal, en favor de un opiáceo, que conlleva un grave riesgo de adicción.

Como muestran estos estudios, los programas con resultados impresionantes en un laboratorio de computación pueden tambalearse cuando se prueban en tiempo real, dijo Cho de Stanford. Eso es porque las enfermedades son más complejas y el sistema de salud mucho más disfuncional de lo que muchos científicos informáticos anticipan.

Muchos desarrolladores de IA seleccionan los expedientes médicos electrónicos porque contienen cantidades enormes de datos detallados, dijo Cho. Pero esos reveladores a menudo no son conscientes de que están construyendo encima de un sistema profundamente averiado. Los registros de salud electrónicos fueron desarrollados para la facturación, no para el cuidado de los pacientes, y están llenos de errores o datos que faltan.

Una investigación de KHN publicada en marzo pasado encontró algunos errores que amenazaban la vida en las listas de medicamentos, pruebas de laboratorio y alergias de los pacientes.

En vista de los riesgos que implica, los médicos deben intervenir para proteger los intereses de sus pacientes, dijo el Dr. Vikas Saini, cardiólogo y presidente del Instituto Lown, una organización sin fines de lucro que aboga por un mayor acceso a la atención de la salud.

«Mientras el trabajo de los empresarios es pensar en grande y tomar riesgos», dijo Saini, «el trabajo de los médicos es proteger a sus pacientes».

Liz Szabo es una corresponsal principal que se centra en los cuidados agudos y en los temas del final de la vida para Kaiser Health News, que publicó originalmente este artículo. La cobertura de KHN de estos temas está apoyada por la Fundación John A. Hartford, la Fundación Gordon y Betty Moore y la Fundación SCAN.

*****

Descubra:

¡El viaje de un ingeniero de software hacia el éxito y la felicidad!

Cómo puede usted ayudarnos a seguir informando

¿Por qué necesitamos su ayuda para financiar nuestra cobertura informativa en Estados Unidos y en todo el mundo? Porque somos una organización de noticias independiente, libre de la influencia de cualquier gobierno, corporación o partido político. Desde el día que empezamos, hemos enfrentado presiones para silenciarnos, sobre todo del Partido Comunista Chino. Pero no nos doblegaremos. Dependemos de su generosa contribución para seguir ejerciendo un periodismo tradicional. Juntos, podemos seguir difundiendo la verdad.