Parte 2.5: Aprendizaje por refuerzo de IA vs. gobernanza humana

Inspirado por el curso en línea de Aprendizaje de IA , quise escribir un artículo sobre la relación entre el aprendizaje de refuerzo de la IA y la gobernanza humana. Al analizar sus similitudes y diferencias, podemos comprender mejor los posibles impactos de la IA.

Aprendizaje por refuerzo en el juego del escondite

El aprendizaje por refuerzo (RL) es un subconjunto del aprendizaje automático en el que los agentes aprenden a optimizar su comportamiento mediante ensayo y error . Una aplicación fascinante del RL se observa en el juego del escondite, en el que los agentes aprenden estrategias complejas para esconderse o buscar de manera eficaz. Este juego, que suele utilizarse como punto de referencia en la investigación de la IA, demuestra cómo los agentes desarrollan estrategias complejas y se adaptan a entornos dinámicos, reflejando ciertos aspectos del aprendizaje humano y los procesos de toma de decisiones .

En un estudio realizado por OpenAI , se colocó a los agentes en un entorno virtual con objetos móviles y se les pidió que jugaran al escondite. Los agentes utilizaron el aprendizaje automático para desarrollar estrategias a lo largo de millones de iteraciones . Los que se escondieron aprendieron a bloquear las entradas con objetos para crear zonas seguras, mientras que los que buscaron aprendieron a usar rampas para superar obstáculos. Este comportamiento emergente demuestra el poder del aprendizaje automático para descubrir estrategias complejas a partir de reglas simples .

Gobernanza humana y regulación del comportamiento

La gobernanza humana implica el establecimiento de reglas, normas e instituciones para regular el comportamiento dentro de las sociedades. A diferencia del aprendizaje directo, que se basa en algoritmos computacionales para optimizar el comportamiento, la gobernanza humana es una interacción compleja de consideraciones culturales, legales y éticas . Diferentes sociedades pueden adoptar distintos modelos de gobernanza, desde sistemas democráticos que enfatizan la participación ciudadana hasta estructuras más centralizadas, cada una con su propia dinámica de poder y valores culturales .

Las estructuras de gobernanza están diseñadas para mantener el orden, proteger los derechos y promover el bienestar, y a menudo requieren el consenso y el cumplimiento de la población gobernada. Los sistemas de gobernanza suelen evaluarse en función de su eficacia para lograr objetivos sociales, como la justicia, la seguridad y la prosperidad económica. Estos sistemas se basan en una combinación de incentivos y disuasiones, similar al sistema de recompensas y sanciones de la vida real, para influir en el comportamiento. Sin embargo, la gobernanza humana también implica negociación, persuasión y equilibrio de intereses en pugna, lo que añade capas de complejidad que no están presentes en los entornos de la vida real .

Comparación entre aprendizaje y adaptación

Tanto el aprendizaje presencial en el juego de las escondidas como la gobernanza humana implican aprendizaje y adaptación, pero difieren significativamente en sus mecanismos y resultados. En el juego presencial, el aprendizaje está impulsado por una función de recompensa clara y cuantificable, y la adaptación se produce mediante ensayo y error a lo largo de numerosas iteraciones. Los agentes del juego de las escondidas se adaptan explorando diferentes estrategias y conservando aquellas que maximizan su retroalimentación de refuerzo .

En cambio, la gobernanza humana implica el aprendizaje a través de la experiencia histórica, la evolución cultural y el desarrollo institucional. La adaptación en la gobernanza humana suele ser más lenta y deliberada , ya que requiere cambios en las leyes, las políticas y las normas sociales. Los mecanismos de retroalimentación en la gobernanza son menos directos y cuantificables que en la vida real, y suelen implicar dinámicas sociales y procesos políticos complejos. Estos circuitos de retroalimentación pueden abarcar desde los resultados electorales y las encuestas de opinión pública hasta los movimientos sociales y las protestas, la configuración de las políticas y la garantía de la capacidad de respuesta a las necesidades de la población.

Estrategias emergentes y consecuencias no deseadas

Uno de los aspectos fascinantes del aprendizaje por pares en el juego del escondite es la aparición de estrategias que no estaban programadas explícitamente . Este comportamiento emergente es el resultado de las interacciones de los agentes con su entorno y entre ellos , lo que conduce a soluciones innovadoras para los desafíos que enfrentan. Por ejemplo, el uso de objetos por parte de los jugadores que se escondían para bloquear las entradas fue una estrategia emergente que evolucionó a partir de las reglas básicas del juego.

De manera similar, la gobernanza humana puede generar conductas emergentes y consecuencias no deseadas . Las políticas diseñadas para alcanzar objetivos específicos pueden tener efectos dominó en toda la sociedad y generar resultados que no se habían previsto. Por ejemplo, aumentar la edad de jubilación, si bien tiene como objetivo abordar las preocupaciones económicas relacionadas con el envejecimiento de la población, puede alterar las estructuras familiares tradicionales y los mecanismos de cuidado. Este cambio podría generar tensiones en las familias y aumentar aún más las desigualdades existentes, especialmente si el sistema carece de opciones adecuadas y asequibles de cuidado infantil o servicios de apoyo para personas mayores dependientes. La complejidad de las sociedades humanas significa que la gobernanza debe ser adaptable y responder a estos desafíos emergentes.

El diagrama ilustra la interconexión de un sistema de IA y cómo aprende mediante ensayo y error. De manera similar, la gobernanza humana implica una red compleja de interacciones, en la que las políticas pueden tener efectos dominó no deseados en las sociedades. — El diagrama ilustra la interconexión de un sistema de IA (izquierda) y cómo aprende mediante ensayo y error (derecha). De manera similar, la gobernanza humana implica una red compleja de interacciones, donde las políticas pueden tener efectos dominó no deseados en las sociedades ( Universidad de Cornell ).

La innovación y el espectro de las alucinaciones

La línea entre el pensamiento visionario y las alucinaciones puede ser difusa tanto para los humanos como para los sistemas de IA. Para los humanos, este espectro va desde los momentos de inspiración visionaria hasta las percepciones distorsionadas y delirantes de la realidad , así como las exploraciones creativas de la fantasía. La «previsión» también está en el espectro, ya que une el pensamiento visionario y el potencial de alucinaciones. Es un método utilizado para explorar escenarios futuros y actualmente es una habilidad muy solicitada. La previsión es una de las cinco habilidades esenciales mencionadas en el Quinteto del Cambio de la ONU 2.0, en particular porque las innovaciones necesarias requieren explorar nuevas ideas e ir más allá de lo convencional.

Los agentes de IA funcionan de manera diferente a los humanos, en particular porque no tienen límites naturales inherentes, como el sentido común, los límites cognitivos, las consideraciones éticas o las restricciones físicas y biológicas . Esta falta de límites humanos permite que el sistema ofrezca perspectivas y resultados inesperados, tan novedosos que sus consecuencias podrían ser impredecibles para nosotros. Interpretamos los resultados como creativos o incluso revolucionarios si suenan bien y prometedores, pero los etiquetamos como «alucinaciones» si suenan o resultan ser erróneos.

Este potencial de “alucinaciones” de la IA pone de relieve la necesidad de un uso responsable de la IA en la gobernanza, garantizando que las ideas generadas por la IA, al igual que las ideas humanas, se evalúen y validen en relación con los valores humanos para evitar consecuencias no deseadas . Pero ¿es realmente preciso hablar de “alucinaciones” o estamos cayendo una vez más en la trampa del antropomorfismo al atribuir procesos humanos a la IA , en lugar de quedarnos con la metáfora más neutral del escondite?

Parte del juego: Aleatoriedad y sesgo

Es divertido ver a los agentes de IA jugar al escondite. Cuando se eliminan los muros y los límites, algunos agentes simplemente salen corriendo al mundo infinito de los datos. ¿Volverán alguna vez con algún resultado? Para evitar que los agentes se pierdan en la inmensidad de la información, el sistema introduce un equilibrio: la probabilidad por aleatoriedad. Es un principio básico en el aprendizaje automático y un desafío al diseñar sistemas de IA: encontrar un equilibrio entre la aleatoriedad (generalmente denominada «alucinaciones») y la exploración dirigida para producir resultados utilizables.

En cuanto a la usabilidad, tanto el aprendizaje automático como la gobernanza humana plantean consideraciones éticas. En el aprendizaje automático, el sesgo en los datos de entrenamiento puede hacer que los sistemas de IA perpetúen sesgos sociales . Sin embargo, este sesgo también se puede utilizar de forma positiva para sacar a la luz sesgos sociales ocultos, lo que permite el análisis y la mejora. De hecho, a menudo es a través de la exploración de la aleatoriedad que descubrimos dichos sesgos, revelando patrones ocultos y cuestionando nuestras suposiciones.

Mientras que en el caso de los seres humanos, el sesgo suele estar arraigado y no ser aleatorio , y deriva de factores personales y sociales complejos, en el caso de la IA, el sesgo es un reflejo más directo de los datos con los que se la entrena. Esto podría facilitar su identificación y su tratamiento. En la gobernanza humana, garantizar la equidad y la rendición de cuentas son desafíos constantes. A medida que la IA desempeña un papel cada vez más destacado, es esencial abordar estas implicaciones éticas de manera proactiva, garantizando que se utilice de una manera que se alinee con los valores humanos y promueva el bienestar .

Esto nos deja con la pregunta de cómo utilizar la IA para la gobernanza humana. DiploFoundation. A. L. Traducido al español

El Portal de las Tecnologías para la Innovación

Parte 2.5: Aprendizaje por refuerzo de IA vs. gobernanza humana

Aprendizaje por refuerzo en el juego del escondite

Gobernanza humana y regulación del comportamiento

Comparación entre aprendizaje y adaptación

Estrategias emergentes y consecuencias no deseadas

La innovación y el espectro de las alucinaciones

Parte del juego: Aleatoriedad y sesgo

Buscá noticias

Seleccioná una categoría

Newsletter

Artículos relacionados

Seguridad ante todo: cómo Knox protege tus datos personales en tu TV Samsung

U Cisco. Spotlight: Tu Mejor Día de Aprendizaje es Esperando

El portal de
las tecnologías
para la innovación

Contacto

Parte 2.5: Aprendizaje por refuerzo de IA vs. gobernanza humana

Aprendizaje por refuerzo en el juego del escondite

Gobernanza humana y regulación del comportamiento

Comparación entre aprendizaje y adaptación

Estrategias emergentes y consecuencias no deseadas

La innovación y el espectro de las alucinaciones

Parte del juego: Aleatoriedad y sesgo

Buscá noticias

Seleccioná una categoría

Newsletter

Artículos relacionados

Seguridad ante todo: cómo Knox protege tus datos personales en tu TV Samsung

U Cisco. Spotlight: Tu Mejor Día de Aprendizaje es Esperando

El portal de las tecnologías para la innovación

Contacto

El portal de
las tecnologías
para la innovación