Presentación de informe sobre métodos y herramientas para la evaluación de algoritmos

El 29 de febrero, durante el Mobile World Congress 2024, se presentó el informe Hacia un uso responsable de los algoritmos: métodos y herramientas para su auditoría y evaluación, publicado por Digital Future Society y elaborado por J. Ignacio Criado y Ariana Guevara-Gómez, miembros del equipo del Lab IT_GesPub. 

La presentación formó parte de la jornada titulada Inteligencia Artificial y derechos sociales: riesgos y oportunidades, que se desarrolló en el espacio de la Fundación Mobile World Capital Barcelona, y que fue organizada por la Taula d’entitats del Tercer Sector Social de Catalunya en colaboración con la European Social Network. Esta actividad sirvió de punto de encuentro para reflexionar sobre el potencial que tiene la IA para beneficiar a la población, pero también sobre los riesgos de exclusión y desigualdad a los que debe prestarse atención. 

Además del documento sobre auditoría y evaluación algorítmica, también se presentó el informe Radar de algoritmos y procesos de decisión automatizada para el acceso a los derechos sociales de la ciudadanía en Cataluña, elaborado por la Taula d’entitats del Tercer Sector Social de Catalunya y KSNET. Posteriormente, se desarrollaron dos mesas redondas: una de ellas sobre los retos del uso de la IA en las administraciones públicas, en la que también participó J. Ignacio Criado, director de IT_GesPub; y otra sobre el potencial de la IA para una mejor acción social. Durante toda la jornada hubo representación de las administraciones públicas, el tercer sector, empresas y consultoras, organizaciones internacionales y academia (se puede consultar el programa completo aquí). 

Hacia una sistematización de conceptos y métodos

Uno de los principales aportes del informe Hacia un uso responsable de los algoritmos: métodos y herramientas para su auditoría y evaluación es el esfuerzo de sistematización de conceptos y métodos relacionados con las evaluaciones de algoritmos. Para localizar y organizar la información que existe en torno al tema, desarrollamos una revisión sistemática de literatura, con un total de 64 artículos académicos y 60 documentos de literatura gris, y elaboramos 15 entrevistas semiestructuradas con especialistas internacionales en Inteligencia Artificial. 

Toda esta información sirvió de base para la elaboración de un marco conceptual sobre evaluación de algoritmos. En este caso concreto, entendemos la evaluación algorítmica como un término paraguas que abarca diferentes métodos para analizar el comportamiento de los algoritmos y detectar problemas. No se trata de una labor eminentemente técnica: en función de los objetivos y los recursos, las evaluaciones pueden adoptar diferentes formas y perspectivas. En este sentido, identificamos 10 dimensiones que permiten entender toda la variedad posible de estos procesos de evaluación:  

  • Foco: las evaluaciones pueden tener un enfoque técnico o más holístico (es decir, que se consideran también aspectos sociales, organizativos, contextuales, etc.). 
  • Locus: la evaluación puede desarrollarse dentro de la misma organización que implementa el sistema algorítmico o puede proponerse como un estudio externo. 
  • Actores promotores: el proceso de evaluación puede estar liderado por la organización implementadora del algoritmo, por una organización externa a la que se le encarga este trabajo, o por terceros que tienen completa independencia. 
  • Rol de actores externos: se puede impulsar la participación de usuarios/as y personas afectadas en el proceso de evaluación o se puede hacer a puerta cerrada. 
  • Momento: es posible desarrollar las evaluaciones antes de la implementación de los algoritmos o después. 
  • Orientación hacia la normativa: la motivación detrás de la evaluación puede derivarse del cumplimiento de una normativa, del interés por desarrollar buenas prácticas o para obtener alguna certificación. 
  • Tema: es posible desarrollar una evaluación más general o centrarse en un tema concreto (como el uso de los datos, la ética y los derechos humanos, o la gobernanza). 
  • Ámbito: en algunos casos, se analiza un aspecto concreto del algoritmo y, en otros, se hace un estudio detallado del sistema completo. 
  • Nivel de acceso: dependiendo del nivel de acceso que tiene el equipo evaluador a la información sobre el sistema, pueden desarrollarse evaluaciones white-box, black-box o un punto intermedio. 
  • Metodología: se pueden desarrollar auditorías, que buscan analizar el algoritmo en función de unos criterios específicos (por ejemplo, para detectar sesgos o para verificar el cumplimiento de una normativa), o también es posible avanzar hacia evaluaciones de impacto de forma más amplia.

Siguiendo estas dimensiones, también identificamos los principales métodos que se usan para la evaluación de algoritmos, que van desde los más técnicos hasta los más holísticos. La lista incluye las auditorías de código, el scraping, sock puppet, carrier puppet, auditorías colaborativas, análisis estadísticos, checklists, encuestas a usuarios/as, grupos focales y estudios de caso o historias de desarrollo. En el documento explicamos cada uno de estos métodos y ofrecemos ejemplos de aplicación en la práctica. 

Ecosistema y niveles de gobernanza de rendición de cuentas algorítmica

Bajo la premisa de que los algoritmos son sistemas sociotécnicos, en este informe también reflexionamos sobre el contexto en el que se desarrollan las evaluaciones algorítmicas. Identificamos, de esta forma, un ecosistema de rendición de cuentas compuesto por tres capas de gobernanza: 

  • Nivel macro: en este caso, nos referimos a los diferentes sectores que interactúan en el ecosistema de rendición de cuentas algorítmica. Tenemos, entonces, el sector privado, el sector público y el tercer sector. El rol que cada uno tiene en determinados contextos puede incidir en la forma en la que se desarrollan las evaluaciones de algoritmos. Es decir, los equilibrios que existen entre estos sectores y los valores más amplios en la sociedad pueden también influir en los aspectos que se priorizan en las evaluaciones de los algoritmos. 
  • Nivel mezzo: aquí hacemos referencia a los ámbitos de actividad, como la salud, la educación, la seguridad, la energía, etc. Si bien hay aspectos transversales que deben permear en todos los sectores, es posible que cada uno de ellos tenga unas necesidades específicas que requieran adaptar los procesos de evaluación algorítmica al contexto. 
  • Nivel micro: en este nivel destacamos a los actores que participan de alguna manera en el ecosistema de rendición de cuentas algorítmica. En este sentido, tenemos a las organizaciones, consultoras o especialistas que desarrollan los procesos de evaluación, pero también hay que considerar a las personas usuarias, los organismos de regulación y las organizaciones del tercer sector que, de forma indirecta, pueden influir en estas dinámicas.

Teniendo en cuenta el panorama actual de la rendición de cuentas algorítmica, ofrecemos finalmente algunas ideas para avanzar hacia el futuro. Es importante, por ejemplo, seguir explorando nuevos métodos que permitan captar la complejidad de los sistemas algorítmicos y su impacto en la sociedad. También se debe impulsar la diversidad de los equipos evaluadores y la participación de las personas usuarias y organizaciones de la sociedad civil, así como fortalecer el rol que tiene el sector público en estos procesos. 

Se puede descargar el informe completo aquí. Y en inglés here