En los últimos meses, diferentes organismos a nivel nacional e internacional han hecho un llamamiento a reflexionar sobre el papel de los datos (públicos) abiertos en la era de la inteligencia artificial (IA). Algunos de ellos como la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO), el Open Data Institute (ODI), la Open Data Charter, el portal de datos abiertos europeo (data.europe.eu) y el referente al Gobierno de España (datos.gob), entre otros, están explorando esta relación incipiente debido a los beneficios, pero también desafíos, a los que se enfrentan actualmente los gobiernos en los procesos de diseño, adopción e implementación de sistemas de IA, adentrándose en lo que algunos autores denominan gobernanza algorítmica. En este post, exploramos esta sinergia bajo una perspectiva datacéntrica, situando los datos en el centro de esta relación.
Esta relación entre datos públicos abiertos e IA se puede abordar desde dos frentes opuestos pero complementarios. Así, en una primera aproximación, los datos públicos abiertos pueden ser utilizados para alimentar sistemas de IA y ofrecer importantes beneficios, aunque también existen ciertos riesgos, como consecuencia de su disponibilidad en formatos y licencias abiertas de reutilización. Al mismo tiempo, el diseño y uso de diferentes tecnologías de IA como el aprendizaje profundo, el aprendizaje automático, las redes neuronales o el procesamiento de lenguaje natural, entre otros, puede servir para optimizar los procesos de gestión de datos públicos abiertos por parte de las administraciones públicas, algo fundamental para adquirir un adecuado gobierno del dato y fomentar con ello un ecosistema de datos sostenible. A continuación, ahondamos en las oportunidades y riesgos de esta relación ambivalente, que se mueve desde los datos hacia la IA y que retorna de nuevo hacia los datos, en una especie de reacción en cadena que puede expandir y optimizar los modelos actuales de gestión de la información pública por parte de los gobiernos y administraciones.
Datos públicos abiertos para alimentar sistemas de inteligencia artificial
Un argumento intuitivo nos dice que, si los datos son el combustible con el que funcionan las tecnologías basadas en IA, los datos públicos abiertos pueden utilizarse igualmente para tales fines. Como hemos abordado en anteriores entradas de este blog (aquí, aquí y aquí), los datos públicos abiertos son iniciativas clave del Gobierno Abierto para fomentar el acceso y la reutilización de la información pública. Esto genera una serie de beneficios inmediatos cuando son utilizados como materia prima para el entrenamiento y diseño de sistemas de IA. En un inicio, la reutilización de estos datos no está sujeta a ninguna restricción legal, política o económica. Además, los datos deben de cumplir con ciertos estándares comunes y están sujetos a una regulación específica en materia de calidad, veracidad y anonimización. Esto, sumado a su disponibilidad y acceso en abierto, apoya la apertura de la llamada caja negra o black box de los algoritmos, con un impacto positivo en los procesos de auditoría algorítmica, en el fomento de sistemas de IA confiables y libres de sesgos y discriminación, así como en la toma de decisiones públicas más transparentes y más correctas.
Sin embargo, también existen desafíos asociados a la utilización de datos públicos abiertos en este contexto. Aunque los datos deben cumplir con unos estándares mínimos de calidad, en ciertos casos continúan existiendo problemas relacionados con la ausencia o inexactitud de los metadatos (p.e. la existencia de celdas vacías dentro del conjunto de datos, etiquetado erróneo o confusión en la información de alguna de las celdas, mala estructuración o disposición de las celdas, etc.), disuadiendo a los potenciales usuarios de su reutilización. En paralelo, pensemos en los datos sensibles, privados o que puedan inferir algún tipo de sesgo en un sistema algorítmico. Aunque, por norma general, este tipo de situaciones se producen de manera no intencionada, podría suceder que los datos, al estar publicados en abierto, sufran algún tipo de modificación por parte de un agente externo, cuyo ataque genere desequilibrios negativos en el funcionamiento de los algoritmos que se alimentan de dichos datos, incurriendo en el escenario conocido como “veneno en el pozo” (poison in the well en inglés).
Inteligencia artificial para la gestión de datos públicos abiertos
En anteriores entradas del blog hemos analizado diferentes estrategias de IA, reflexionado sobre las distintas capacidades de estos sistemas y debatido sobre el futuro de estas iniciativas en el sector público. Aquí, es importante destacar que los sistemas de IA no solo beben de la fuente de los datos, también pueden optimizar los procesos humanos de gestión de los mismos, y generar oportunidades para solucionar gran parte de las problemáticas actuales relacionadas con los datos públicos abiertos. En primer lugar, la IA se puede utilizar para facilitar la recopilación y catalogación de los conjuntos de datos que serán publicados en el futuro y que actualmente se encuentran dispersos en diferentes bases de datos gubernamentales. Esta exploración es compatible con el análisis de los conjuntos de datos ya publicados para la detección de inconsistencias o anomalías en la calidad e integridad de los mismos. Además, también se podrían integrar sistemas de IA en los portales de datos abiertos para mejorar la accesibilidad, comprensión, visualización y análisis de los conjuntos de datos, por ejemplo, mediante chatbots o agentes conversacionales y otras herramientas de visualización.
A pesar del potencial de los sistemas de IA para la mejora de los procesos de gestión, publicación y reutilización de los datos, también se derivan algunos desafíos importantes. Por un lado, desde el punto de vista técnico, tanto los algoritmos como los datos de entrenamiento deben cumplir con una serie de estándares éticos, de calidad y confiabilidad que no siempre es fácil alcanzar (especialmente cuando hablamos de grandes cantidades de datos y de algoritmos opacos). De aquí, emerge una paradoja importante: los sistemas de IA utilizados para identificar algún tipo de inconsistencia en los conjuntos de datos deben ser entrenados con datos perfectamente estructurados e integrados. A este debate se le añade otro adicional, y es que la utilización de IA por parte de empleados públicos y ciudadanos va a requerir de nuevas capacidades digitales que deben desarrollarse y fomentarse para asegurar una adopción efectiva y un aprovechamiento completo de estas nuevas herramientas.
¿Hacia dónde se dirige esta nueva sinergia?
La relación entre datos públicos abiertos e IA se presenta como una doble vía que, si bien genera oportunidades sustanciales para la optimización de los procesos de gestión de información pública abierta y el desarrollo de nuevas tecnologías más transparentes, también plantea ciertos desafíos y reaviva debates clásicos en torno a los datos y los sistemas de IA. En un futuro cercano, esta sinergia será más compleja y, entonces, debatiremos sobre datos públicos abiertos de alto valor en el contexto de la IA, de nuevas interacciones (y capacidades) entre portales de datos abiertos y usuarios, de datos públicos abiertos e IA generativa en el sector público… Y todo ello, en realidad, nos devuelve al origen de la pregunta, a los aspectos más básicos de los datos y de la IA, y al quehacer de nuestras instituciones para garantizar valores éticos y de calidad comunes en torno a estas nuevas herramientas sobre las que todavía queda mucho por conocer.
Carlos Jiménez Cid. Investigador predoctoral FPI Comunidad de Madrid. Departamento de Ciencia Política y Relaciones Internacionales, y miembro del Lab IT_GesPub (Innovación, Tecnología y Gestión Pública), Universidad Autónoma de Madrid.
Este post se ha realizado con el apoyo del Proyecto del Ministerio de Ciencia, Innovación y Universidades “Abriendo la caja negra de la gobernanza pública mediada por algoritmos. Implicaciones de la Inteligencia Artificial en gobiernos, servicios públicos y personas (#AIPublicGov)”. Ref. PID2022-136283OB-I00, MCIN/AEI/10.13039/501100011033 y FSE+.
La imagen de encabezado fue generada por la inteligencia artificial DALL·E 2, de openai.