Abordar el sesgo en los algoritmos clínicos para promover la equidad en salud

CLos médicos comparten el objetivo común de hacer lo mejor para nuestros pacientes, y esta obligación se extiende a la evaluación crítica de las herramientas que adoptamos en nuestra práctica. Los algoritmos clínicos, que definimos como "modelos matemáticos que facilitan la toma de decisiones",1 Son herramientas omnipresentes en la atención médica, que influyen en todo, desde el diagnóstico hasta el tratamiento. Estos algoritmos pueden optimizar la toma de decisiones al proporcionar información que supera los límites de la memoria y la cognición humanas. Actualmente, con la integración de la inteligencia artificial (IA), los algoritmos se adaptan cada vez más a cada paciente mediante la incorporación de datos con matices, como perfiles genéticos, factores sociales de la salud y métricas fisiológicas en tiempo real.

Si bien los algoritmos son fundamentales para el razonamiento clínico y pueden volverse más beneficiosos con el avance tecnológico, también pueden ser perjudiciales para nuestros pacientes. Los algoritmos diseñados de forma descuidada o aquellos diseñados explícitamente para aumentar las ganancias de las empresas de atención médica pueden exacerbar los sesgos existentes y aumentar las disparidades en salud. Los algoritmos deben estar al servicio de los pacientes, no de las ganancias. Para brindar la más alta calidad de atención, debemos exigir las mejores prácticas en el diseño de algoritmos mediante la transparencia y la rendición de cuentas, de modo que las tecnologías sanitarias funcionen al servicio de los pacientes y promuevan la equidad en salud. Este artículo explorará la evolución de los algoritmos en la atención médica, destacará ejemplos tanto de sus beneficios como de sus sesgos, y propondrá estrategias viables para garantizar su uso ético y equitativo en la práctica clínica.

Los algoritmos son fundamentales para la atención médica

El uso de lo que hoy reconoceríamos como un algoritmo en la atención médica apareció por primera vez en el siglo XIX, cuando los avances en el razonamiento probabilístico comenzaron a influir en la práctica médica.2 Durante el siglo XX, los algoritmos evolucionaron desde sistemas de puntuación sencillos (como la puntuación de Apgar para la salud infantil) hasta algoritmos informáticos basados ​​en cientos de reglas programadas para complementar la experiencia médica y facilitar la toma de decisiones clínicas. Para la década de 20, los algoritmos se habían convertido en parte integral de los historiales médicos electrónicos, lo que permitió el apoyo a la toma de decisiones en tiempo real con herramientas como las alertas automatizadas de interacción farmacológica.3 Estos algoritmos, basados ​​en sistemas basados ​​en reglas y directivas “si-entonces”, son parte de la primera época de la IA, que se centró en codificar el conocimiento humano en máquinas para mejorar la eficiencia y la precisión.4 Aunque representó un gran avance, este tipo de IA aún presentaba un “riesgo constante de errores de lógica humana en su construcción y sesgos codificados en sus reglas”.5 Además, estos sistemas eran menos adaptables a situaciones del mundo real.

Los modelos de la segunda era de la IA, que comenzó en la década del 2000, ahora podían "aprender" de los errores, lo que los hacía más precisos y adaptables. Con los avances tecnológicos en informática, la IA pudo procesar grandes conjuntos de datos para descubrir patrones en ellos, en lugar de depender de patrones preprogramados. Sin embargo, persistían limitaciones significativas; por ejemplo, el rendimiento del modelo disminuía si los datos en tiempo real diferían significativamente de los datos de entrenamiento. Además, los modelos de esta era eran específicos de cada tarea, lo que significa que solo podían realizar una función.6

La tercera época de la IA, que comenzó alrededor de 2018, marca un salto transformador con nuevos sistemas que pueden realizar una amplia variedad de funciones cuando se les dan instrucciones simples.7 Si bien estas capacidades podrían mejorar la comunicación sanitaria y reducir la carga administrativa, también presentan desafíos, como la posibilidad de generar "alucinaciones" plausibles pero incorrectas. Las alucinaciones son un subproducto del entrenamiento de estos modelos avanzados. Los expertos describen el proceso de entrenamiento como mostrarle al modelo un documento y pedirle que adivine la siguiente palabra del texto hasta que acierte. Con cada error, el modelo debe adaptar su "representación interna de cómo encajan las palabras".8 Tras mostrarle al modelo numerosos documentos, este aprende patrones lingüísticos y puede predecir la siguiente palabra de la secuencia. Las alucinaciones se producen porque el modelo está entrenado para predecir el lenguaje, no la realidad. Por lo tanto, no sorprende que esta nueva IA pueda perpetuar los sesgos históricos que subyacen a nuestro lenguaje, lo que perjudica la equidad en salud. Por ejemplo, investigadores han demostrado que los modelos lingüísticos de IA pueden perpetuar el racismo encubierto mediante prejuicios dialectales, asociando de forma desproporcionada el inglés afroamericano (AAE) con estereotipos negativos y empleos menos prestigiosos, y asignando consecuencias judiciales más severas a los hablantes de AAE que a quienes usan el inglés americano estándar.9

Ejemplos de algoritmos clínicos

Los algoritmos clínicos se pueden clasificar en cuatro categorías según su propósito: ayudar a los médicos a tomar decisiones, detectar enfermedades de alto riesgo o en etapa temprana, asignar recursos y evaluar la función fisiológica.

1. Herramientas de apoyo a la toma de decisiones clínicas (CDST): Impulsando la acción

Los CDST son algoritmos que incitan a los profesionales sanitarios a actuar. Estas herramientas utilizan datos del paciente, como signos vitales o resultados de laboratorio, para ofrecer recomendaciones en tiempo real. Entre los CDST más utilizados se encuentran la Puntuación Nacional de Alerta Temprana y el Síndrome de Respuesta Inflamatoria Sistémica. Estos algoritmos detectan cuándo la condición de un paciente podría estar empeorando. Los algoritmos calculan una puntuación, y las puntuaciones altas alertan al equipo sanitario para que tome medidas, como llamar al equipo de respuesta rápida.10 Los algoritmos de optimización de antimicrobianos son otro ejemplo de CDST. Estas herramientas identifican casos en los que los antibióticos podrían no ser apropiados o donde se requieren ajustes en la dosis o el tipo, lo que reduce la propagación de la resistencia a los antibióticos y mejora la evolución de los pacientes.11

2. Algoritmos de detección: identificación de individuos de alto riesgo y enfermedad temprana

Los algoritmos de cribado identifican a las personas con mayor riesgo de desarrollar enfermedades o tener un pronóstico desfavorable, y pueden ayudar a detectar enfermedades en sus etapas iniciales. Estas herramientas suelen utilizar datos del historial clínico de las pacientes, resultados de laboratorio o estudios de imagen. Los algoritmos avanzados, incluidos los basados ​​en IA, analizan patrones sutiles en las mamografías para detectar el cáncer de mama. Estos algoritmos ayudan a los radiólogos a reducir la probabilidad de diagnósticos erróneos e identificar los casos de forma más temprana, cuando el tratamiento puede ser más eficaz.12 Estimador de riesgo de enfermedad cardiovascular aterosclerótica Plus (go.aft.org/l9j) es un ejemplo de una herramienta de cribado ampliamente utilizada. Utilizada para predecir el riesgo de enfermedad cardiovascular a 10 años y a lo largo de la vida, el algoritmo incorpora factores sociales como el tabaquismo y la raza, junto con variables clínicas como los niveles de colesterol y la presión arterial.13

3. Algoritmos de asignación de recursos: optimización de la prestación de servicios de salud

Los algoritmos de asignación de recursos son herramientas para distribuir recursos y pueden adaptarse para priorizar diversos factores, como maximizar el beneficio general, atender las necesidades, garantizar la equidad, mejorar la eficiencia y optimizar la rentabilidad. Un ejemplo de algoritmo de asignación de recursos es la puntuación del Modelo para la Enfermedad Hepática Terminal (MELD), que se utiliza para clasificar a los pacientes en lista de espera para trasplantes de hígado. Este algoritmo calcula una puntuación basada en valores de laboratorio como la bilirrubina, la creatinina y el índice internacional normalizado (IRN) para estimar la urgencia con la que un paciente necesita un trasplante. Se prioriza a los pacientes con puntuaciones más altas, lo que garantiza que los órganos se asignen a quienes se encuentran en estado más crítico (sobre todo si se consideran los cambios en la puntuación a lo largo del tiempo).14 Otro ejemplo de asignación es la puntuación de la Evaluación Secuencial de Insuficiencia Orgánica (SOFA), que se utiliza comúnmente en las UCI para evaluar la gravedad de la enfermedad de un paciente. Este algoritmo evalúa el funcionamiento de los órganos del paciente basándose en diversas mediciones clínicas, como la presión arterial y los niveles de oxígeno. Durante crisis como la pandemia de COVID-19, la puntuación SOFA se utilizó para facilitar la asignación de recursos, como respiradores, cuando la demanda superó la oferta.15

4. Ecuaciones que estiman funciones fisiológicas

Algunos algoritmos médicos estiman el funcionamiento de diferentes partes del cuerpo, lo que proporciona mediciones rápidas y prácticas para guiar a los profesionales clínicos en el diagnóstico y tratamiento de diversas afecciones. Por ejemplo, la tasa de filtración glomerular estimada (TFGe) es un algoritmo utilizado para evaluar la función renal. Esta herramienta ayuda a diagnosticar y monitorear la enfermedad renal crónica y ha influido en las derivaciones para trasplantes de riñón y en la posición de los pacientes en la lista de espera.16 Otros ejemplos incluyen el índice de fibrosis-4,17 que estima el daño hepático en personas con enfermedad hepática crónica, y la Evaluación Cognitiva de Montreal,18 que evalúa las funciones motoras y cognitivas.

El problema: el sesgo algorítmico

Desafortunadamente, los algoritmos también pueden fallarnos. Destacamos ejemplos de algoritmos sesgados para ilustrar la magnitud del problema y luego examinamos el ciclo de vida algorítmico para comprender por qué surgen y se perpetúan los sesgos.

El eGFR, mencionado anteriormente, es un ejemplo clásico de un algoritmo que incluye la raza y que potencialmente ha perjudicado a los pacientes negros. Las calculadoras de eGFR que incluyen la raza estiman un eGFR más alto para los pacientes negros que para los pacientes blancos con el mismo nivel de creatinina sérica.19 Este ajuste se justificaba históricamente por los niveles promedio más altos de creatinina sérica en personas de raza negra, lo cual se atribuía a un aumento de la masa muscular sin evidencia que lo respaldara. Al informar valores más altos de TFGe en pacientes de raza negra, el algoritmo retrasó las derivaciones a especialistas en riñón o a trasplantes, lo que empeoró los resultados de un grupo ya desproporcionadamente afectado por la enfermedad renal terminal.20   

Las decisiones sobre el tratamiento de las intervenciones para enfermedades pulmonares se basan en valores percentiles, no en valores absolutos. Esto se debe a que la función pulmonar varía considerablemente según factores como la altura, la edad y el sexo. Históricamente, los algoritmos de las pruebas de función pulmonar (PFP) también se han normalizado según la raza debido a las diferencias observadas a nivel poblacional entre pacientes negros y pacientes de otras razas. Este ajuste, que asume erróneamente que la raza es un indicador fiable de la variación genética, conduce a evaluaciones inexactas, retrasos en el diagnóstico y peores resultados para las personas negras.21 La herramienta proporciona información errónea para decisiones clínicas importantes, como determinar la elegibilidad para la resección del cáncer de pulmón o la elección de opciones como la neumonectomía frente a la resección en cuña o los cuidados paliativos. Las PFT, y todos los algoritmos que incluyen la raza como variable, deben reevaluarse críticamente. La raza es una construcción social, no un determinante biológico. Por lo tanto, los esfuerzos para mejorar las PFT deben evitar normalizar las diferencias a nivel poblacional y, en cambio, buscar comprender cómo los factores sociales de la salud, como la contaminación ambiental, las exposiciones ocupacionales, la calidad de la vivienda y el acceso a la atención médica, contribuyen a las disparidades en la función pulmonar.

Un ejemplo sorprendente de un algoritmo de asignación de recursos sesgado que perjudicó a los pacientes negros es una de las herramientas comerciales de predicción de riesgos que influyen en la atención de casi 200 millones de personas en los Estados Unidos cada año.22 Estas herramientas, que son parte integral de los programas de gestión de atención de alto riesgo, estiman qué tan enfermo es probable que se ponga un paciente en el futuro.23 A los pacientes con pronóstico de mayor enfermedad se les asignan más recursos sanitarios para prevenir la morbilidad. Este algoritmo sesgado en particular incluyó el uso previo de la atención médica, medido a partir de los datos de reclamaciones de seguros, como indicador de la gravedad de la enfermedad para predecir las necesidades futuras de atención médica y seleccionar pacientes para su inscripción en un programa de gestión de la atención.24 Sin embargo, la utilización de la atención médica no es un indicador fiable de la gravedad de la enfermedad, ya que los pacientes negros tienen mayor probabilidad que los blancos de enfrentar barreras para acceder y utilizar la atención médica en Estados Unidos. En promedio, los pacientes negros generan menores costos en las bases de datos de reclamaciones administrativas, a pesar de tener niveles de enfermedad comparables o mayores que los pacientes blancos. Por lo tanto, los pacientes negros debían estar más enfermos que los blancos para ser seleccionados para la inscripción en el programa. Dicho cuantitativamente, los pacientes negros que cumplían los criterios de inscripción presentaban un 26.3 % más de enfermedades crónicas que los pacientes blancos.25 Esto resalta cómo un algoritmo mal diseñado puede generar y amplificar disparidades en la salud.

El ciclo de vida algorítmico

Hay cinco fases secuenciales del ciclo de vida que atraviesa un algoritmo desde su inicio hasta su desmantelamiento: (1) formulación del problema; (2) selección, evaluación y gestión de datos; (3) desarrollo, entrenamiento y validación del algoritmo; (4) implementación e integración de algoritmos en entornos previstos; y (5) monitoreo, mantenimiento, actualización o desimplementación del algoritmo.26 Otros han descrito exhaustivamente los tipos de sesgos que surgen en diferentes partes del ciclo de vida del algoritmo.27 En este artículo damos ejemplos representativos.

La primera fase (formulación del problema) es la razón principal por la que se crea el algoritmo. El propósito subyacente de los algoritmos puede variar considerablemente, desde optimizar los resultados de salud hasta maximizar las ganancias.28 Las consideraciones importantes en esta fase inicial incluyen: ¿Cuál es el problema que el algoritmo busca abordar? ¿Cuál es el resultado deseado? ¿Quiénes son los actores clave? Describir explícitamente estos aspectos es fundamental para las fases posteriores.29 Un ejemplo de sesgo en la primera fase es una herramienta de asignación de recursos diseñada para minimizar los costos por encima de otros objetivos. Al priorizar las ganancias, esta herramienta podría reducir la atención a las poblaciones desatendidas que podrían requerir más recursos (como asistencia para el transporte a centros de atención terciaria distantes), lo que arraiga desigualdades sistémicas en el sistema desde el principio.

En la segunda fase (selección, evaluación y gestión de datos), se eligen y preparan los datos para “enseñar” al algoritmo cómo realizar una tarea a través de la selección por proxy (asignación de variables mensurables para representar conceptos complejos).30 Una comparación sencilla sería que un médico experto recopilara un conjunto representativo de ejemplos de presentaciones de pacientes con apendicitis y colecistitis para enseñar a un interno a distinguir entre ambas afecciones. Los datos varían en cuanto a integridad, profundidad y relevancia, por lo que los desarrolladores deben ser conscientes y transparentes sobre las limitaciones de los datos utilizados para crear un algoritmo.31 Por ejemplo, el Modelo Gail es un algoritmo de cribado que predice el riesgo de una mujer de desarrollar cáncer de mama. Esta herramienta, ampliamente utilizada, se desarrolló principalmente con datos de mujeres blancas. Sus predicciones son menos precisas para otros grupos, sobrestimando el riesgo de cáncer de mama casi al doble en mujeres asiáticas.32

Los datos seleccionados en la fase dos se incorporan al modelo en la fase tres (desarrollo, entrenamiento y validación del algoritmo) para aprender patrones y ser "entrenado" para generar el resultado. Un ejemplo de sesgo en el desarrollo es la Escala de Riesgo de Insuficiencia Cardíaca "Get With the Guidelines" de la Asociación Americana del Corazón, una herramienta de apoyo diseñada para guiar decisiones como qué pacientes con síntomas de insuficiencia cardíaca deben ser derivados a un cardiólogo. Este algoritmo asigna puntos de riesgo adicionales, sin justificación científica, a los pacientes identificados como no afroamericanos, categorizando sistemáticamente a los pacientes afroamericanos como de menor riesgo.33 Por lo tanto, este algoritmo sesgado incitaría a los médicos a derivar a los pacientes negros a los cardiólogos, lo que es particularmente problemático dadas las disparidades significativas en las tasas de mortalidad y readmisión entre los pacientes negros con insuficiencia cardíaca.34

La validación es el proceso de probar un modelo para garantizar que funcione bien con datos nuevos y produzca resultados precisos, justos y consistentes en todos los grupos.35  Un ejemplo de sesgo en la validación es la falta de corrección de un algoritmo diseñado para predecir resultados quirúrgicos si su rendimiento es consistentemente bueno en hombres, pero deficiente en mujeres. Para mitigar este sesgo, los expertos emplean la "equidad contrafactual" como marco útil. La idea se basa en un experimento mental: si pudiéramos imaginar un mundo contrafactual donde todos los aspectos de cada individuo que influyen en los resultados quirúrgicos fueran iguales, salvo por un atributo demográfico específico, como la raza o el género, un algoritmo justo tendría la misma precisión tanto en el mundo real como en el contrafactual.36 Retomemos nuestro ejemplo de asignación de recursos: si a un paciente negro se le niega la inscripción en un programa de gestión de la atención, la equidad contrafactual plantea la pregunta: ¿cambiaría la decisión si este mismo paciente, con idénticas condiciones de salud y necesidades, fuera blanco? Si la respuesta es afirmativa, el algoritmo es injusto y debe corregirse.

Las dos últimas fases del ciclo de vida algorítmico se centran en la integración en el flujo de trabajo clínico (fase cuatro) y la monitorización continua del algoritmo en entornos reales (fase cinco). Aquí es importante considerar cómo los profesionales sanitarios interpretan y utilizan los resultados del algoritmo. Un problema crítico en la fase cuatro es el sesgo de automatización, donde los profesionales sanitarios confían excesivamente en los modelos y actúan de forma inadecuada según sus resultados, incluso cuando son menos precisos para ciertos grupos.37 La confianza acrítica en algoritmos defectuosos que sistemáticamente perjudican a ciertos grupos corre el riesgo de perpetuar el daño a través de diagnósticos erróneos, demoras en la atención y peores resultados en materia de salud.38 Las consideraciones de accesibilidad también son cruciales en estas fases finales. La implementación y la monitorización requieren recursos técnicos, capacitación y experiencia, disponibles principalmente en entornos con abundantes recursos, lo que perjudica a los entornos con recursos limitados, como los centros de salud rurales. Las herramientas que requieren sensores avanzados o aplicaciones para teléfonos inteligentes podrían no ser accesibles para los pacientes de todas las comunidades, lo que limita sus posibles beneficios.

En definitiva, mitigar el sesgo algorítmico requiere un enfoque intencional en cada etapa del ciclo de vida de un algoritmo. Debido a su naturaleza interconectada, los sesgos introducidos en una fase pueden propagarse en las fases posteriores. Además, un algoritmo implementado puede generar datos clínicos; los datos sesgados podrían entonces seleccionarse y utilizarse para entrenar futuros algoritmos, lo que amplificaría las desigualdades con el tiempo. Cuestiones éticas.* incluida la justicia y la equidad, deben discutirse y abordarse explícitamente en cada fase del ciclo de vida para garantizar que los algoritmos que se integran en nuestros flujos de trabajo clínicos cotidianos ayuden a todos.40

¿Qué pueden hacer las instituciones y los responsables de las políticas?

Abordar el sesgo algorítmico comienza con estrategias específicas y viables de todos los actores del ecosistema sanitario. Coincidimos con colegas clínicos e investigadores que abogan por un marco de responsabilidad compartida. que involucra a desarrolladores, centros de atención médica y organismos legislativos y reguladores.43 Cada uno de estos grupos desempeña un papel fundamental en la mitigación del sesgo algorítmico y la promoción de la equidad en materia de salud.

Los desarrolladores de IA tienen la responsabilidad fundamental de garantizar la transparencia para combatir los sesgos. Deben utilizar diversos conjuntos de datos durante el desarrollo, realizar pruebas rigurosas para detectar sesgos y revelar cualquier limitación. Las boletas de calificaciones para los modelos de aprendizaje automático pueden ayudar a garantizar la transparencia y la usabilidad para los usuarios finales. Algunos ejemplos incluyen TRIPOD+AI. lista de verificación, que ofrece pautas estructuradas para informar sobre modelos de predicción en atención médica, y la etiqueta “Datos del modelo”, que consolida información útil para los médicos, como casos de uso apropiados y limitaciones.44 Los desarrolladores deben proporcionar documentación clara y repositorios accesibles que detallen sus metodologías y datos de capacitación, permitiendo a los centros de atención médica evaluar y monitorear los algoritmos que implementan.45 Además, un repositorio centralizado de acceso abierto permite a investigadores de diversas disciplinas —como informática, ética, medicina, derecho y economía— investigar algoritmos de forma colaborativa, fomentando la innovación interdisciplinaria y desarrollando soluciones novedosas para optimizar los resultados y minimizar el sesgo. La transparencia del desarrollador del algoritmo fue crucial para corregir un algoritmo de asignación de recursos. Los investigadores pudieron examinar todos los aspectos del algoritmo, incluidos los datos de entrenamiento, para descubrir la raíz del problema. Posteriormente, contactaron a los desarrolladores, quienes reevaluaron su producto de forma independiente y confirmaron los resultados del equipo de investigación. Ambas partes investigaron soluciones de forma colaborativa para crear una variable proxy mejor y más matizada que combinara la predicción de la salud con la predicción de costes.46 El éxito de este tipo de investigación colaborativa para prevenir y mitigar sesgos depende de la transparencia de quienes crean y distribuyen los algoritmos.

Las instituciones sanitarias, en particular aquellas con recursos limitados, enfrentan importantes desafíos para adoptar y evaluar las tecnologías de IA. Se necesitan directrices estandarizadas y herramientas asequibles. El establecimiento de estándares federales para las pruebas de algoritmos, junto con herramientas de detección de sesgos gratuitas o de bajo costo, puede permitir que los centros con recursos limitados se beneficien de las herramientas algorítmicas sin agravar las desigualdades.47 Además, los programas de acreditación y certificación deberían ofrecer evaluaciones independientes de los algoritmos clínicos, brindando a los centros de atención médica la seguridad de que las herramientas que adoptan cumplen con estándares rigurosos de seguridad y equidad.48

Los organismos reguladores y legislativos también desempeñan un papel crucial. La Orden Ejecutiva 2023 del presidente Biden de 14110, «Desarrollo y uso seguro, protegido y confiable de la inteligencia artificial», reconoció explícitamente los riesgos que la IA supone para exacerbar la discriminación y los prejuicios, especialmente en «ámbitos críticos como la atención médica, los servicios financieros, la educación, la vivienda, el derecho y el transporte», donde los errores o el uso indebido perjudican directamente a los ciudadanos.49 La orden enfatizó el compromiso del gobierno federal de garantizar que la IA sirva al bien público promoviendo la equidad y los derechos civiles, previniendo nuevos tipos de discriminación y responsabilizando a quienes desarrollan e implementan la IA mediante regulaciones rigurosas.

Sin embargo, el presidente Trump ha revocado la Orden Ejecutiva 14110, priorizando el rápido desarrollo e implementación de la IA sobre su gobernanza responsable. La administración Trump afirma que la orden de Biden impuso un "control gubernamental oneroso e innecesario" y limitó la innovación del sector privado, ignorando los riesgos sustanciales que la IA sin control representa para los pacientes y la sociedad.50 Este cambio de política revoca las medidas de rendición de cuentas y las salvaguardas contra los prejuicios, socavando la seguridad pública y la equidad en salud en favor de un desarrollo sin restricciones.

En cambio, la Unión Europea equilibra la innovación en IA con la protección pública mediante su Ley de Inteligencia Artificial (Ley de IA). Esta legislación establece un marco regulatorio basado en el riesgo que impone normas más estrictas a los sistemas de IA de alto riesgo y prohíbe los sistemas de IA que representan un riesgo inaceptable. Por ejemplo, los riesgos inaceptables prohibidos incluyen:

  • utilizar técnicas subliminales, manipuladoras o engañosas para distorsionar el comportamiento y perjudicar la toma de decisiones informada, causando un daño significativo.
  • explotar vulnerabilidades relacionadas con la edad, la discapacidad o las circunstancias socioeconómicas para distorsionar el comportamiento y causar un daño significativo.
  • puntuación social, es decir, evaluar o clasificar a individuos o grupos en función de su comportamiento social o rasgos personales, provocando un tratamiento perjudicial o desfavorable de esas personas.51

La Ley de IA de la UE establece que un sistema de IA de alto riesgo “perfila a los individuos, es decir, procesa automáticamente sus datos personales para evaluar diversos aspectos de la vida de una persona, como su rendimiento laboral, situación económica, salud, preferencias, intereses, fiabilidad, comportamiento, ubicación o movimiento”. En el caso de los sistemas de IA considerados de alto riesgo, los desarrolladores asumen la mayor parte de las responsabilidades y deben cumplir con estrictos requisitos para garantizar el cumplimiento normativo y la seguridad. Estas responsabilidades incluyen la gestión de riesgos en las diferentes etapas del desarrollo de un sistema de IA, como garantizar que los datos sean relevantes, representativos y estén libres de errores para su propósito previsto; diseñar sistemas de IA que sean adecuadamente precisos; mantener registros detallados para que los errores sean rastreables; y permitir que los implementadores de IA implementen la supervisión humana.52 La Ley de IA de la UE proporciona un marco regulatorio que podría guiar a otras naciones en el desarrollo de una gobernanza responsable de la IA.

Algoritmos clínicos, amenazas de sesgo y consideraciones clave

Tipo de algoritmoAlgoritmo de ejemploAmenaza de sesgoConsideraciones clave
Herramienta de apoyo a la toma de decisiones clínicasSiga las pautas: puntuación de riesgo de insuficiencia cardíacaDesarrollo de un algoritmo defectuoso que incorpora la raza como determinante biológico no respaldado por evidencia científicaReevaluar los ajustes basados ​​en la raza y la transición a modelos que incorporen los factores sociales de la salud.
Algoritmo de cribadoModelo Gail para el cáncer de mamaDatos subrepresentativos: desarrollados utilizando datos de mujeres principalmente blancas en los Estados UnidosAmpliar los conjuntos de datos para incluir poblaciones diversas; validar modelos en poblaciones no blancas para garantizar predicciones precisas.
Algoritmo de asignación de recursosPrograma de gestión de atención de alto riesgoVariable proxy sesgada (costos previos medidos a partir de datos de seguros) para la gravedad de la enfermedad que fue confundida por el acceso deficiente a la atenciónLos desarrolladores deben garantizar la transparencia documentando las metodologías y proporcionando repositorios accesibles que detallen los datos de entrenamiento. La transparencia permite a los centros sanitarios y a los investigadores evaluar y supervisar los algoritmos, y fomenta la colaboración para identificar y mitigar sesgos.
Estimaciones de la función fisiológicaTasa de filtración glomerular estimada; pruebas de función pulmonarDesarrollo de un algoritmo defectuoso que incorpora la raza como determinante biológico no respaldado por evidencia científicaHacer la transición a modelos racialmente neutrales y abordar los factores sociales de la salud, como los factores ambientales y el acceso a la atención médica.

¿Qué pueden hacer los médicos, los sindicatos y los activistas?

Abordar el sesgo algorítmico requiere un enfoque multifacético que aproveche nuestros roles como profesionales clínicos, sindicalistas y activistas políticos. Cada persona tiene oportunidades únicas para mitigar el sesgo y fomentar la equidad en su contexto específico.

Los médicos deben evaluar críticamente los resultados de los algoritmos y comprender sus limitaciones.§ Como usuarios finales de algoritmos, los profesionales clínicos comparten la responsabilidad de garantizar que estas herramientas mejoren la atención y promuevan la equidad en salud. Debemos exigir transparencia sobre el motivo y el modo en que se desarrollaron las herramientas. Además, siempre debemos complementar un algoritmo con criterio humano, incluyendo la posibilidad de descartarlo por completo si nuestras preguntas revelan un desarrollo descuidado o una validez incierta. Las siguientes preguntas pueden servir de marco para que los profesionales clínicos se aseguren de utilizar herramientas éticas y equitativas para sus pacientes:

  1. ¿Qué problema aborda el algoritmo?
  2. ¿El objetivo del algoritmo es hacer que los pacientes sean más saludables?
  3. ¿Las características de los pacientes en los conjuntos de datos utilizados para el desarrollo son similares a las de los pacientes que usted atiende y a los que les está aplicando el algoritmo?
  4. ¿Se probaron y mitigaron los sesgos?
  5. ¿Cómo se supervisará, mantendrá y actualizará el algoritmo?

Los afiliados sindicales pueden mitigar el sesgo algorítmico abogando por la transparencia, la rendición de cuentas y las prácticas equitativas en sus lugares de trabajo. Pueden presionar para que los comités de supervisión evalúen los algoritmos en busca de sesgos, negociar auditorías externas de los algoritmos utilizados en sus lugares de trabajo y exigir acceso a información y capacitación sobre las limitaciones algorítmicas. Mediante la incidencia política, los afiliados sindicales pueden impulsar cambios sistémicos, influyendo tanto en las políticas laborales como en los estándares generales de la industria para priorizar la equidad y la seguridad en la implementación de algoritmos.

Mejorar la salud y el bienestar de todas las personas, incluidas las más marginadas, debería ser el objetivo de todo el personal sanitario y del sistema de salud. En un clima político cada vez más hostil a las iniciativas de diversidad, equidad e inclusión (DEI), mitigar los sesgos y promover la equidad en salud requiere una defensa constante. Ante los recientes y previstos ataques a los programas de DEI, los defensores deben garantizar que la equidad en salud y la mejora de la salud de todos sigan siendo fundamentales para las políticas públicas. La transparencia es esencial; los defensores pueden impulsar regulaciones que exijan una comunicación clara sobre el diseño de los algoritmos, los datos que utilizan y sus posibles impactos. Si queremos abordar los sesgos de forma eficaz, es crucial que involucremos a nuestras comunidades. Los defensores deben exigir la inclusión de las voces marginadas en el desarrollo, la implementación y la supervisión de los algoritmos, garantizando que sus necesidades e inquietudes se reflejen en las soluciones sanitarias. La rendición de cuentas también es vital; los defensores pueden ayudar a garantizar mecanismos de reparación para las comunidades afectadas. Sensibilizar a la opinión pública sobre las decisiones algorítmicas y promover el acceso equitativo a la tecnología también puede reducir las desigualdades sistémicas. Por último, los defensores pueden exigir una supervisión continua y la desactivación de algoritmos sesgados para garantizar la justicia, la equidad y el uso ético de los algoritmos en la atención médica.

ALos algoritmos son fundamentales para la atención médica y, ahora, con la creciente integración de la IA, se están volviendo más potentes y centrados en el paciente, ya que incorporan grandes cantidades de datos para generar recomendaciones personalizadas. Sin embargo, los algoritmos no son instrumentos inherentemente neutrales; su diseño y uso pueden perpetuar desigualdades sistémicas, exacerbando las disparidades en salud. Surgen preocupaciones éticas cuando los algoritmos reflejan suposiciones sesgadas o no consideran a las poblaciones marginadas. A medida que la tecnología avanza, tenemos la obligación ética de aprovechar estas herramientas para mejorar la atención al paciente. Al mismo tiempo, debemos garantizar la equidad evaluando críticamente su desarrollo en cada etapa. Solo mediante este doble compromiso podremos construir un sistema de atención médica equitativo, inclusivo y accesible para todos.


La Dra. Clara M. Bosco es residente de cirugía general en la Universidad de Arizona y becaria postdoctoral de ética en el Centro MacLean de Ética Médica Clínica de la Universidad de Chicago. El Dr. Marshall H. Chin, MPH, es Profesor Distinguido de Servicio Familiar Richard Parrillo de Ética en la Atención Médica en el Departamento de Medicina de la Universidad de Chicago y director asociado del Centro MacLean de Ética Médica Clínica. El Dr. William F. Parker, PhD, es profesor adjunto de Medicina y Ciencias de la Salud Pública en la Universidad de Chicago.

*Las tecnologías de IA plantean problemas de justicia ambiental y dañan desproporcionadamente la salud de las comunidades de bajos ingresos y de minorías raciales y étnicas.39 Los centros de datos de alto consumo energético, que a menudo dependen de combustibles fósiles, contribuyen a las emisiones de gases de efecto invernadero, la contaminación local y el cambio climático, todo lo cual afecta desproporcionadamente a las comunidades marginadas. Si se pretende implementar la IA de forma ética para mejorar la salud de los pacientes, también es crucial abordar su impacto ambiental.volver al artículo)

Organizaciones como la Asociación Médica Estadounidense (AMA) y la Academia Nacional de Medicina (NAM) están abordando la gobernanza de la IA en la atención médica. El borrador del Marco del Código de Conducta de la IA de la NAM enfatiza el uso ético, seguro y equitativo de la IA mediante principios y compromisos claramente definidos.41 De manera similar, la AMA aboga por la transparencia, la seguridad y la integración efectiva de la IA en los flujos de trabajo clínicos.42 (volver al artículo)

TRIPOD significa Informe Transparente de un modelo de predicción multivariable para pronóstico o diagnóstico individual.volver al artículo)

§Entendemos que los profesionales clínicos ya tienen poco tiempo. Los sindicatos deberían exigir la creación de comités de supervisión de algoritmos como parte del trabajo continuo en materia de seguridad y equidad del paciente para ayudar a los profesionales clínicos a adquirir esta información esencial sobre algoritmos, crucial para la atención al paciente.volver al artículo)

Notas finales

1. M. Chin et al., “Principios rectores para abordar el impacto del sesgo algorítmico en las disparidades raciales y étnicas en la salud y la atención médica”, Red de JAMA abierta 6, no. 12 (2023): e2345050.

2. D. Mayer, “Una breve historia de la medicina y la estadística”, en Medicina esencial basada en la evidencia, 2.ª ed. (Cambridge, Reino Unido: Cambridge University Press, 2009), 1–8; y U. Tröhler, “Desarrollo de la práctica clínica probabilística en Gran Bretaña antes de Gavarret, parte 1: El largo siglo XVIII”, Revista de la Royal Society of Medicine 113, no. 10 (octubre 2020): 403 – 6.

3. D. Bates et al., “El impacto de la entrada computarizada de órdenes médicas en la prevención de errores de medicación”, Revista de la Asociación Estadounidense de Informática Médica 6, no. 4 (Julio de 1999): 313–21.

4. M. Howell, G. Corrado y K. DeSalvo, “Tres épocas de inteligencia artificial en la atención médica”, JAMA 331, no. 3 (enero 16, 2024): 242 – 44.

5. Howell, Corrado y DeSalvo, “Tres épocas”.

6. Howell, Corrado y DeSalvo, “Tres épocas”.

7. Howell, Corrado y DeSalvo, “Tres épocas”.

8. Howell, Corrado y DeSalvo, “Tres épocas”.

9. V. Hofmann et al., “La IA genera decisiones encubiertamente racistas sobre las personas en función de su dialecto”, Nature 633 (2024): 147 – 54.

10. O. Usman, A. Usman y M. Ward, “Comparación de SIRS, qSOFA y NEWS para la identificación temprana de sepsis en el servicio de urgencias”, American Journal of Emergency Medicine 37, no. 8 (agosto 2019): 1490 – 97.

11. S. Kanjilal et al., “Un algoritmo de decisión para promover la administración de antimicrobianos en pacientes ambulatorios para infecciones del tracto urinario no complicadas”, Documento de Science Translational Medicine 12, núm. 568 (2020): eaay5067.

12. S. McKinney et al., “Evaluación internacional de un sistema de IA para la detección del cáncer de mama”, Nature 577 (2020): 89 – 94.

13. Colegio Americano de Cardiología, “Estimador de riesgo de ASCVD Plus”, tools.acc.org/ascvd-risk-estimator-plus/#!/calculate/estimate.

14. T. Bittermann y P. Abt, “Asignación basada en MELD a los 20: ¿Podemos evolucionar y madurar?” Revista Americana de Trasplante 21, no. 11 (noviembre 2021): 3511 – 12.

15. W. Miller et al., “Precisión de la puntuación de evaluación secuencial de insuficiencia orgánica para la mortalidad hospitalaria por raza y relevancia para los estándares de atención en situaciones de crisis”, Red de JAMA abierta 4, no. 6 (2021): e2113891.

16. N. Eneanya, W. Yang y P. Reese, “Reconsiderando las consecuencias del uso de la raza para estimar la función renal”, JAMA 322, no. 2 (2019): 113-14.

17. A. Blanco-Grau et al., “Evaluación de la fibrosis hepática mediante el índice FIB4 en el ámbito comunitario”, Diagnóstico (Basilea) 11, no. 12 (29 de noviembre de 2021): 2236.

18. Z. Nasreddine, “Montreal Cognitive Assessment (MoCA®): Versión 8.3 en inglés”, Geriatric Tool Kit, Universidad de Missouri, geriatrictoolkit.missouri.edu/cog/MoCA-8.3-English-Test-2018-04.pdf.

19. D. Vyas, L. Eisenstein y D. Jones, “Oculto a simple vista: reconsiderando el uso de la corrección racial en algoritmos clínicos”, New England Journal of Medicine 383, núm. 9 (17 de junio de 2020): 874–82.

20. Vyas, Eisenstein y Jones, “Oculto a simple vista”; y Eneanya, Yang y Reese, “Reconsiderando las consecuencias”.

21. S. Bonner et al., “Implicaciones clínicas de la eliminación de las pruebas de función pulmonar con corrección racial para pacientes afroamericanos que requieren cirugía por cáncer de pulmón”, Archives of Surgery 158, n.º 10 (2023): 1061–68; y S. Beaverson et al., “Cosas que hacemos sin motivo™: Ajustes raciales en el cálculo de la función pulmonar a partir de mediciones de espirometría”. Revista de medicina hospitalaria 18, no. 9 (septiembre 2023): 845 – 47.

22. Z. Obermeyer et al., “Disección del sesgo racial en un algoritmo utilizado para gestionar la salud de las poblaciones”, Ciencias: 366, no. 6464 (25 de octubre de 2019): 447–53.

23. A. Rajkomar et al., “Garantizar la equidad en el aprendizaje automático para promover la equidad en salud”, Annals of Internal Medicine 169, no. 12 (4 de diciembre de 2018): 866–72.

24. Obermeyer et al., "Disección del sesgo racial".

25. Obermeyer et al., "Disección del sesgo racial".

26. J. Roski et al., “Mejorar la confianza en la IA mediante la autogobernanza de la industria”, Revista de la Asociación Estadounidense de Informática Médica 28, núm. 7 (julio de 2021): 1582–90; y Chin et al., “Principios rectores”.

27. Rajkomar et al., “Garantizar la equidad”; ​​Roski et al., “Fortalecer la confianza”; y Chin et al., “Principios rectores”.

28. B. Collins et al., “Abordar cuestiones éticas en la inteligencia artificial de la atención médica mediante un proceso basado en el ciclo de vida”, JAMIA Abierto 7, no. 4 (diciembre 2024): ooae108.

29. M. Ng et al., “El ciclo de vida de la IA: un enfoque holístico para crear una IA ética para las decisiones sanitarias”, Nature Medicine 28, no. 11 (noviembre 2022): 2247 – 49.

30. L. Nakayama et al., “Desenmascarando sesgos y sorteando obstáculos en el ciclo de vida de la inteligencia artificial oftálmica: una revisión narrativa”, PlOS: Salud digital 3, núm. 10 (8 de octubre de 2024): e0000618.

31. Ng et al., "El ciclo de vida de la IA".

32. S. Rostami et al., “Precisión discriminatoria del modelo Gail para la evaluación del riesgo de cáncer de mama entre mujeres iraníes”, Irán Journal of Public Health 49, n.º 11 (noviembre de 2020): 2205–13; y X. Wang et al., “Evaluación del rendimiento del modelo de Gail para la predicción del riesgo de cáncer de mama: una revisión sistemática y un metaanálisis con análisis secuencial de ensayos”. Investigación del cáncer de mama 20 (2018): 18.

33. Vyas, Eisenstein y Jones, “Oculto a simple vista”.

34. L. Eberly et al., “Identificación de desigualdades raciales en el acceso a la atención especializada para la insuficiencia cardíaca en pacientes hospitalizados en un centro médico académico”, Circulación: insuficiencia cardíaca 12, núm. 11 (29 de octubre de 2019): e006214.

35. Chin et al., “Principios rectores”.

36. M. Kusner et al., “Justicia contrafactual”, Avances en sistemas de procesamiento de información neuronal 30 (2017), papers.nips.cc/paper/2017.

37. Rajkomar et al., "Garantizar la equidad".

38. Vyas, Eisenstein y Jones, “Oculto a simple vista”; y Eberly et al., “Identificación de desigualdades raciales”.

39. Roski et al., “Mejorar la confianza”.

40. A. Crimmins y otros, eds., Quinta Evaluación Nacional del Clima (Washington, DC: Programa de Investigación sobre el Cambio Global de EE. UU., 2023), nca2023.globalchange.gov.

41. L. Adams et al., “Inteligencia artificial en la salud, la atención médica y las ciencias biomédicas: Borrador de discusión de los principios y compromisos del código de conducta de la IA”, Perspectivas de NAM (8 de abril de 2024): 10.31478/202403a.

42. J. Lubell, “Cómo la IA sanitaria puede ser el 'copiloto' del médico para mejorar la atención”, Asociación Médica Estadounidense, 16 de enero de 2025, ama-assn.org/print/pdf/node/131801.

43. R. Ratwani, K. Sutton y J. Galarraga, “Abordar el sesgo algorítmico de la IA en la atención médica”, JAMA 332, no. 13 (1 de octubre de 2024): 1051–52.

44. G. Collins et al., “Declaración TRIPOD+AI: Guía actualizada para la presentación de informes de modelos de predicción clínica que utilizan métodos de regresión o aprendizaje automático”, BMJ 385 (16 de abril de 2024): e078378; y M. Sendak et al., “Presentación de información del modelo de aprendizaje automático a usuarios clínicos finales con etiquetas de datos del modelo”. npj medicina digital 3 (2020): 41.

45. Ratwani, Sutton y Galarraga, "Abordar el sesgo algorítmico de la IA".

46. Obermeyer et al., "Disección del sesgo racial".

47. Ratwani, Sutton y Galarraga, "Abordar el sesgo algorítmico de la IA".

48. Roski et al., “Mejorar la confianza”.

49. J. Biden, “Desarrollo y uso seguro, protegido y confiable de la inteligencia artificial”, Orden Ejecutiva 14110, Registro Federal1 de noviembre de 2023, federalregister.gov/documents/2023/11/01/2023-24283/safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence.

50. Casa Blanca, “Hoja informativa: El presidente Donald J. Trump toma medidas para mejorar el liderazgo de Estados Unidos en inteligencia artificial”, 23 de enero de 2025, whitehouse.gov/fact-sheets/2025/01/fact-sheet-president-donald-j-trump-takes-action-to-enhance-americas-ai-leadership.

51. “Resumen de alto nivel de la Ley de IA”, Future of Life Institute, 27 de febrero de 2024, artificialintelligenceact.eu/high-level-summary.

52. “Resumen de alto nivel”.

[Ilustraciones de Eva Vázquez]

cuidado de la salud aft, Primavera 2025