
.
.
Sesgo
by
Wulfrano Moreno
Los sistemas de inteligencia artificial se han integrado rápidamente en ámbitos fundamentales de la sociedad moderna, desde la salud y los sistemas judiciales hasta la educación y el empleo. Sin embargo, bajo su apariencia de objetividad se esconde una realidad preocupante: estos a menudo perpetúan y amplifican los prejuicios sociales existentes. La raíz de este problema se encuentra a menudo en conjuntos de datos de formación sesgados que no representan todo el espectro de la diversidad humana.
Cuando la IA se entrena con conjuntos de datos que no representan a ciertos grupos demográficos, es inevitable que desarrollen puntos ciegos. Como se destaca en el innovador artículo de la investigadora Timnit Gebru: Sobre los peligros de los loros estocásticos (On the Dangers of Stochastic Parrots), los grandes modelos lingüísticos (Large Language Models) presentan el riesgo de convertirse en sofisticadas máquinas de imitación que amplifican los prejuicios históricos codificados en sus datos de entrenamiento. Gebru y sus coautores advierten de que estos modelos se entrenan a partir de corpus de datos recogidos en la nube y se utilizan cada vez más en diversos entornos socialmente sensibles. Sin embargo, estos conjuntos de datos de entrenamiento están poco documentados y comprendidos.
Este daño representacional se manifiesta de forma dramática en las capacidades lingüísticas. Los LLM modernos como ChatGPT de la fundación OpenAI o Gemini de Google, entre otros, demuestran un rendimiento notablemente superior en sus respuestas basadas en la lengua de Shakespeare en comparación con otros idiomas, sobre todo los basados en alfabetos diferentes a los originados en el latín. Esta disparidad se deriva directamente de la sobrerrepresentación de contenidos en inglés en los conjuntos de datos de entrenamiento, que a menudo proceden en gran medida de fuentes centradas en Occidente. Las lenguas con menos recursos digitales están menos representadas, lo que reduce las capacidades de inteligencia artificial de sus parlantes.
Las consecuencias de este sesgo van mucho más allá de la mera inconveniencia. Cuando los sistemas de IA funcionan mal en determinados idiomas, excluyen de facto a millones de personas de los beneficios de estas tecnologías. Esta exclusión refuerza la dinámica de poder existente, en la que los angloparlantes -principalmente de los países occidentales más ricos- obtienen un acceso desproporcionado a los avances de punta.
Según la investigación de Gebru, este problema se agrava si tenemos en cuenta que el propio contenido de Internet contiene sesgos demográficos. Los datos recogidos representan en exceso a los usuarios más jóvenes, a los de países acaudalados y a los que tienen un acceso constante en línea. Como señala la investigadora etíope: los datos de entrenamiento también codifican la visión dominante/hegemónica, amplificando aún más las desigualdades existentes.
El documental de Netflix Coded Bias, dirigido por Shalini Kantayya, ilustra dramáticamente cómo estos sesgos de los datos se traducen en discriminación en el mundo real. La película sigue la trayectoria de Joy Buolamwini, investigadora del MIT, que descubrió que los sistemas de identificación facial no reconocían sistemáticamente los rostros de piel más oscura, sobre todo los de mujeres de color. Este descubrimiento reveló cómo los sistemas aparentemente neutros pueden codificar sesgos peligrosos cuando se entrenan con conjuntos de datos no representativos dominados por rostros blancos y masculinos.
Estos sesgos se extienden a los algoritmos que determinan quién recibe préstamos, atención médica, entrevistas de trabajo e incluso consideraciones de libertad condicional. Cuando los sistemas toman decisiones basadas en datos históricos que reflejan una discriminación social arraigada, funcionan como mecanismos de blanqueo de prejuicios, proporcionando un barniz tecnológico para perpetuar la desigualdad.
Quizá lo más preocupante sea el riesgo de que los sistemas sesgados agraven las divisiones sociopolíticas existentes. A medida que las tecnologías median cada vez más en el acceso a oportunidades, estos pueden perjudicar sistemáticamente a comunidades ya marginadas. En consecuencia se crea un pernicioso ciclo vicioso de retroalimentación: los excluidos de los beneficios tienen menos recursos para desafiar estos sistemas o participar en su desarrollo, afianzando aún más su exclusión.
El peligro no estriba únicamente en perpetuar las desigualdades existentes, sino en acelerarlas. A medida que el desarrollo tecnológico impulsa cada vez más el progreso económico, las comunidades dejadas atrás por sistemas sesgados se enfrentan a desventajas agravadas. Una sociedad en la que los beneficios de la IA son principalmente para grupos ya privilegiados, se corre el riesgo de alcanzar niveles de estratificación sin precedentes.
Abordar el sesgo de los conjuntos de datos requiere enfoques multifacéticos: diversificar los equipos de desarrollo, implementar prácticas rigurosas de documentación y auditoría de conjuntos de datos y establecer marcos regulatorios que requieran evaluaciones de impacto algorítmico. Y, lo que es más importante, requiere centrar las voces y experiencias de las comunidades marginadas.
La revolución de la IA promete avances notables, pero sin esfuerzos intencionados para garantizar la representación y la equidad, corre el riesgo de convertirse en otra fuerza que divide en lugar de unir a la humanidad. En esta encrucijada tecnológica, las decisiones que tomemos sobre la inclusión y la representación determinarán si la inteligencia artificial se convierte en una herramienta que amplíe las oportunidades para todos o simplemente refuerza las barreras que nos dividen.