Síntesis y direcciones futuras
Síntesis del stack agéntico completo y de cómo unas capas condicionan a otras. Problemas abiertos: razonamiento de largo plazo, uso fiable de herramientas, coordinación escalable, verificación formal. Trayectorias profesionales y responsabilidades éticas.
Duración: 2 horas de clase + 1 hora de discusión/presentaciones Prerrequisitos: Semanas 1-14 (curso completo)
01Objetivos de aprendizaje
Al finalizar esta clase, los estudiantes serán capaces de:
- Articular la pila completa de la IA agéntica y explicar cómo cada componente contribuye a las capacidades del agente
- Sintetizar conceptos de todo el curso en una comprensión coherente de los sistemas agénticos
- Identificar las limitaciones actuales de la IA agéntica y formularlas como problemas de investigación
- Evaluar las tendencias emergentes en IA agéntica y valorar su impacto potencial
- Proporcionar una evaluación realista del camino desde los agentes actuales hacia una IA más general
- Identificar oportunidades profesionales en el ecosistema de IA agéntica
- Reflexionar sobre las responsabilidades éticas de los profesionales de la IA agéntica
021. Síntesis: la pila de la IA agéntica
1.1 Mirar atrás para mirar adelante
A lo largo de las últimas catorce semanas, hemos construido una comprensión integral de los sistemas de IA agéntica, capa a capa, como construir un edificio desde los cimientos hasta el tejado. Cada semana añadió nuevos conceptos, pero es solo ahora, al final, cuando podemos dar un paso atrás y ver la arquitectura completa.
Esta última clase tiene un carácter diferente de las anteriores. En lugar de introducir material técnico nuevo, vamos a hacer tres cosas: (1) sintetizar todo lo que hemos aprendido en una imagen unificada, (2) identificar lo que aún no podemos hacer y por qué, y (3) mirar hacia dónde se dirige el campo.
Empecemos poniendo la pila completa en un solo lugar.
1.2 La imagen completa
Interactive · La pila de la IA agéntica
Visión sistémica
Las siete capas de la IA agéntica
Las capas superiores se apoyan en las inferiores; las inferiores quedan condicionadas por las superiores. La gobernanza no es un anexo: es la capa que cierra el sistema.
Esta pila no es solo un resumen; es un plano arquitectónico. Todo sistema agéntico del mundo real, desde un chatbot simple con acceso a herramientas hasta un sistema de investigación multi-agente complejo, puede describirse en términos de qué capas utiliza y qué decisiones toma en cada capa.
1.3 Cómo interactúan las capas
La pila no es estrictamente jerárquica. Las capas interactúan bidireccionalmente, y esta interacción bidireccional es lo que hace que los sistemas agénticos sean tanto potentes como complejos.
Flujo ascendente (capacidad). Los modelos fundacionales proporcionan comprensión y generación de lenguaje. Las herramientas extienden las capacidades más allá del texto al mundo real. La memoria permite la persistencia y el aprendizaje. La planificación orquesta comportamiento complejo en múltiples pasos. La coordinación multi-agente permite la inteligencia colectiva. La interacción humana ancla el sistema en las necesidades del mundo real. La gobernanza asegura una operación segura.
Cada capa se construye sobre la anterior. Sin modelos fundacionales (Capa 1), no puedes tener uso de herramientas (Capa 2). Sin memoria (Capa 3), la planificación (Capa 4) no puede aprender de intentos pasados. Sin planificación, la coordinación multi-agente (Capa 5) no tiene nada que coordinar.
Flujo descendente (restricción). La gobernanza define lo qué el agente puede hacer. La supervisión humana moldea el comportamiento del agente a través de retroalimentación y aprobación. Los protocolos de coordinación restringen cómo interactúan los agentes. La planificación determina qué herramientas usar y cuándo. La memoria proporciona contexto para la selección de herramientas. Las herramientas anclan las salidas del modelo en la realidad.
Cada capa restringe a las inferiores. La gobernanza (Capa 7) limita qué herramientas pueden usarse (Capa 2). La supervisión humana (Capa 6) moldea qué planes son aceptables (Capa 4). Este flujo descendente es lo que hace que los agentes sean seguros, no solo capaces.
Interacciones entre capas. Los guardrails de seguridad (Capa 7) operan en todas las demás capas: filtrando entradas al modelo (Capa 1), restringiendo el acceso a herramientas (Capa 2), limitando lo que el agente puede recordar (Capa 3), validando planes (Capa 4), gobernando la comunicación entre agentes (Capa 5) y mediando la interacción humana (Capa 6). La memoria (Capa 3) informa la planificación (Capa 4) y se enriquece con las salidas de herramientas (Capa 2) y la retroalimentación humana (Capa 6).
Idea clave: El error arquitectónico más común en IA agéntica es invertir en las capas 1-4 (lo "interesante") sin invertir adecuadamente en las capas 5-7 (lo "aburrido"). Un agente capaz sin gobernanza, interacción humana y coordinación es un riesgo, no un activo.
1.4 El espacio de diseño
Todo sistema agéntico toma decisiones en cada capa. Estas decisiones definen la posición del sistema en un espacio de diseño multidimensional:
| Dimensión de diseño | Espectro |
|---|---|
| Modelo | Pequeño/rápido/barato ... Grande/capaz/caro |
| Herramientas | Sin herramientas (LLM puro) ... Muchas herramientas (entorno rico) |
| Memoria | Efímera (sesión única) ... Persistente (a largo plazo) |
| Planificación | Reactiva (responder a entradas) ... Deliberativa (planes multi-paso) |
| Coordinación | Agente único ... Enjambre multi-agente |
| Autonomía | Human-in-the-loop ... Totalmente autónomo |
| Seguridad | Guardrails mínimos ... Defensa en profundidad |
No hay una configuración "mejor" única. Un chatbot de atención al cliente necesita decisiones de diseño diferentes que un agente de investigación autónomo, que necesita decisiones diferentes que un asistente de programación. La configuración adecuada depende del dominio de aplicación, la tolerancia al riesgo, los requisitos de rendimiento y las restricciones de cóste.
Inténtalo tú mismo: mapea tu proyecto a la pila
Toma el agente que construiste para tu proyecto final (o cualquier agente con el que hayas trabajado). Para cada capa de la pila, identifica:
- ¿Qué decisión tomaste en esta capa?
- ¿Por qué tomaste esa decisión?
- ¿Qué cambiarías si tuvieras más tiempo?
- ¿Cuáles son los riesgos de tu decisión actual?
Este ejercicio hace concreta la pila abstracta conectándola con tu propia experiencia.
032. Qué hemos cubierto y cómo se conecta
2.1 Arco del curso
El curso siguió una progresión deliberada, diseñada para que cada semana construyera naturalmente sobre las anteriores:
Semanas 1-4: Fundamentos. Establecimos qué son los agentes, cómo funcionan los LLM como su núcleo cognitivo, y cómo el prompting y el ajuste fino moldean su comportamiento. Esto nos dio el vocabulario y los fundamentos conceptuales para todo lo que siguió.
El concepto clave de esta sección: los agentes son sistemas que perciben, razonan y actúan en un bucle. Todo lo demás en el curso trata de hacer ese bucle más capaz, más fiable y más seguro.
Semanas 5-7: Capacidades. Añadimos los componentes que transforman un modelo de lenguaje en un agente: uso de herramientas (actuar en el mundo), recuperación (acceder a conocimiento externo) y memoria (aprender y persistir estado). Estas son las capacidades que distinguen a los agentes de los chatbots.
El concepto clave de esta sección: anclaje (grounding). Un modelo de lenguaje sin herramientas está generando texto. Un modelo de lenguaje con herramientas está realizando acciones. El cambio de generar a actuar es el cambio fundamental de un chatbot a un agente.
Semanas 8-10: Inteligencia. Exploramos cómo los agentes piensan y trabajan juntos: planificación y razonamiento para tareas complejas, evaluación y testing para fiabilidad, y sistemas multi-agente para resolución colectiva de problemas. Estas son las arquitecturas cognitivas que permiten comportamiento sofisticado.
El concepto clave de esta sección: gestión de la complejidad. Las tareas del mundo real son demasiado complejas para un único paso de razonamiento. Planificación, descomposición, reflexión y coordinación son cómo los agentes gestionan la complejidad.
Semanas 11-14: Responsabilidad. Abordamos los desafíos de desplegar agentes de forma responsable: seguridad y alineamiento (prevenir daños), interacción humana (mantener a los humanos en control), aplicaciones prácticas (ingeniería de software) y gobernanza (cumplir requisitos legales y éticos). Estos son los guardrails que hacen que los agentes sean dignos de confianza.
El concepto clave de esta sección: los agentes son sistemas sociotécnicos. Existen en un contexto de usuarios humanos, marcos legales, políticas organizacionales y normas sociales. La excelencia técnica sin responsabilidad social es insuficiente.
Semana 15: Síntesis. Lo unimos todo y miramos hacia adelante.
2.2 Temas clave a lo largo del curso
Varios temas reaparecieron a lo largo de todo el curso, apareciendo en diferentes formas en diferentes capas:
El compromiso capacidad-seguridad. Los agentes más capaces pueden hacer más bien pero también más daño. Cada aumento de capacidad exige una mejora correspondiente de seguridad. Este tema apareció en la Semana 5 (el acceso a herramientas crea nuevos riesgos), la Semana 8 (una planificación más sofisticada puede perseguir objetivos mal especificados de forma más efectiva), la Semana 10 (los sistemas multi-agente pueden amplificar los fallos de agentes individuales) y la Semana 11 (toda la clase sobre seguridad).
La importancia del anclaje. Los modelos de lenguaje puros generan texto de apariencia plausible. Las herramientas, la recuperación y la memoria anclan el comportamiento del agente en la realidad. El anclaje es lo que hace que los agentes sean útiles en lugar de solo fluidos. Sin anclaje, un agente es como una persona segura de sí misma que ha leído muchos libros pero nunca ha salido de su casa: articulada pero potencialmente desconectada de la realidad.
El papel del humano. A pesar de la etiqueta de "autónomo", los humanos siguen siendo esenciales en la IA agéntica: como diseñadores, supervisores, proveedores de retroalimentación y tomadores de decisiones finales. La pregunta no es si los humanos están involucrados sino cómo. Este tema apareció explícitamente en la Semana 12 pero estuvo presente en cada semana.
El desafío de ingeniería. Construir agentes fiables requiere resolver problemas difíciles de ingeniería: gestionar estado, manejar fallos, asegurar consistencia, mantener la seguridad, registrar todo, recuperarse de errores. La IA agéntica es tanto ingeniería de software como investigación en IA. La arquitectura de agente más brillante es inútil si se cae en producción.
043. Limitaciones actuales y problemas abiertos de investigación
3.1 Fiabilidad y consistencia
El problema. Los agentes actuales son poco fiables. El mismo prompt puede producir diferentes planes y diferentes resultados entre ejecuciones. Un agente puede tener éxito en una tarea el 70 % de las veces pero fallar de forma impredecible en el 30 % restante. Para sistemas en producción, esta falta de fiabilidad es una barrera importante. Se espera que el software tradicional funcione correctamente el 99,999 % del tiempo. Los agentes están muy lejos de ese estándar.
Para poner esto en perspectiva con una analogía: imagina un coche que arranca el 70 % de las veces. Nunca lo comprarías. Ahora imagina un desarrollador de software que escribe código correcto el 70 % de las veces. Nunca lo contratarías. Sin embargo, estamos construyendo agentes con aproximadamente esa fiabilidad y esperando que sean útiles. Sí son útiles, pero solo porque la supervisión humana detecta muchos de los fallos. El camino hacia un despliegue más amplio requiere mejorar dramáticamente esta cifra.
La falta de fiabilidad no es simplemente ruido aleatorio. Es estructurada: los agentes tienden a fallar en tipos específicos de entradas, tipos específicos de tareas o combinaciones específicas de condiciones. Pero estas condiciones de fallo son difíciles de caracterizar de antemano, lo que hace difícil saber cuándo confiar en el agente y cuándo no. Un agente de programación podría tener un 95 % de fiabilidad en tareas de Python pero solo un 60 % en tareas de Rust, y puede que no lo sepas hasta que hayas ejecutado cientos de tareas.
Preguntas de investigación abiertas:
- ¿Cómo podemos hacer que el comportamiento del agente sea más determinista sin sacrificar la flexibilidad que los hace útiles? (Pista: determinista no significa "la misma salida cada vez"; significa "salida consistentemente correcta".)
- ¿Qué técnicas de verificación formal pueden aplicarse a los planes de los agentes? ¿Podemos demostrar que un plan es seguro antes de ejecutarlo?
- ¿Cómo definimos y medimos la "fiabilidad" para sistemas no deterministas? El testing de software tradicional asume comportamiento determinista. ¿Cuál es el equivalente para agentes?
Por qué esto importa para los profesionales: Hasta que los agentes sean lo suficientemente fiables para uso en producción, estarán limitados a asistir a humanos en lugar de reemplazarlos. Mejorar la fiabilidad es la dirección de investigación con mayor impacto para ampliar las aplicaciones prácticas de los agentes.
3.2 Tareas de horizonte largo
El problema. Los agentes funcionan bien en tareas que llevan minutos pero se degradan significativamente en tareas que llevan horas o días. Los errores se acumulan, el contexto se pierde (cuando la tarea excede la ventana de contexto del modelo) y el agente se desvía de su objetivo original.
Esto es parcialmente una limitación de la ventana de contexto (los modelos actuales pueden manejar 100K-1M tokens, lo cual parece mucho pero se llena rápidamente a lo largo de horas de trabajo), parcialmente una limitación de planificación (los planes de horizonte largo requieren predecir las consecuencias de acciones muchos pasos por delante) y parcialmente un problema de propagación de errores (pequeños errores en el paso 5 pueden causar grandes errores en el paso 50).
Preguntas de investigación abiertas:
- ¿Cómo deberían los agentes gestionar el contexto durante períodos extendidos? Los enfoques actuales incluyen resumen de contexto, memoria jerárquica y recuperación selectiva, pero ninguno es plenamente satisfactorio.
- ¿Qué arquitecturas de planificación permiten una ejecución eficaz a largo plazo? La planificación jerárquica (planes dentro de planes) es prometedora pero plantea preguntas sobre la coherencia del plan.
- ¿Cómo detectamos y corregimos la deriva en el comportamiento del agente? Si el agente se desvía lentamente de su objetivo a lo largo de cientos de pasos, ¿cómo lo notamos?
3.3 Profundidad de razonamiento
El problema. Los LLM funcionan bien en tareas que requieren reconocimiento de patrones y razonamiento superficial, pero tienen dificultades con tareas que requieren razonamiento lógico profundo de múltiples pasos, demostración matemática o inferencia causal. La cadena de pensamiento ayuda pero no resuelve la limitación fundamental.
Considera la diferencia entre "¿qué hace esta función?" (que los agentes manejan bien, por reconocimiento de patrones contra muchas funciones similares que han visto en entrenamiento) y "¿esta función siempre terminará para todas las entradas posibles?" (que requiere razonamiento lógico genuino sobre el comportamiento del programa). Lo primero es reconocimiento de patrones; lo segundo es demostración matemática. Los agentes actuales son mucho mejores en lo primero que en lo segundo.
Preguntas de investigación abiertas:
- ¿Pueden los agentes basados en LLM lograr razonamiento lógico genuino, o dependen fundamentalmente de reconocimiento de patrones sofisticado? Esta es una pregunta filosófica profunda con implicaciones prácticas.
- ¿Cómo podemos combinar el razonamiento neuronal (LLMs) con el razonamiento simbólico (lógica formal, solucionadores de restricciones, demostradores de teoremas) de forma eficaz? La IA neuro-simbólica es una dirección prometedora pero desafiante.
- ¿Qué enfoques de entrenamiento mejoran la profundidad de razonamiento? Trabajos recientes en modelos de razonamiento (la serie o1 de OpenAI, DeepSeek-R1) muestran que entrenar específicamente para razonamiento puede producir mejoras dramáticas. ¿Hasta dónde puede llegar este enfoque?
3.4 Uso robusto de herramientas
El problema. Los agentes cometen errores en la selección de herramientas, la construcción de parámetros y la interpretación de resultados. Pueden llamar a la herramienta equivocada, pasar argumentos incorrectos o malinterpretar los resultados, especialmente con herramientas que no han encontrado durante el entrenamiento.
Preguntas de investigación abiertas:
- ¿Cómo pueden los agentes aprender a usar nuevas herramientas sólo a partir de documentación, sin haber visto ejemplos en el entrenamiento? Este es el problema del "uso de herramientas zero-shot."
- ¿Qué diseños de interfaz minimizan los errores de uso de herramientas? El trabajo de SWE-agent (Semana 13) mostró que el diseño de herramientas importa enormemente. ¿Qué principios deberían guiar el diseño de herramientas para agentes?
- ¿Cómo podemos verificar formalmente que las llamadas a herramientas de un agente son correctas? ¿Podemos comprobar automáticamente que los parámetros son válidos antes de ejecutar la llamada?
3.5 Seguridad y alineamiento
El problema. Las medidas de seguridad actuales (guardrails, RLHF, Constitutional AI) reducen el comportamiento dañino pero no lo eliminan. La inyección de prompts sigue siendo un problema fundamental no resuelto. El alineamiento se logra mediante entrenamiento y reglas, no mediante una comprensión genuina del agente y su adhesión a los valores humanos.
Preguntas de investigación abiertas:
- ¿Es una defensa robusta contra la inyección de prompts alcanzable en principio? ¿O es como el problema de la parada: fundamentalmente irresoluble?
- ¿Podemos desarrollar técnicas de alineamiento que se generalicen a situaciones novedosas para las que el agente nunca fue entrenado?
- ¿Cómo alineamos agentes en escenarios con múltiples partes interesadas donde diferentes humanos tienen valores en conflicto? Un agente que sirve a una empresa y a sus clientes puede enfrentar situaciones donde los intereses de la empresa y los del cliente divergen.
3.6 Evaluación y benchmarking
El problema. Evaluar agentes es fundamentalmente más difícil que evaluar modelos. El comportamiento del agente es contextual, secuencial y dependiente del entorno. Los benchmarks actuales (SWE-bench, WebArena, GAIA) capturan porciones estrechas de la capacidad del agente.
Preguntas de investigación abiertas:
- ¿Cómo evalúamos agentes en tareas abiertas del mundo real donde la respuesta correcta no está predeterminada?
- ¿Qué métricas capturan la calidad del comportamiento del agente más allá de la completación de tareas? (p. ej., eficiencia, seguridad, experiencia de usuario, equidad)
- ¿Cómo hacemos benchmarking de seguridad y alineamiento de forma significativa? Las evaluaciones de seguridad actuales a menudo usan escenarios artificiales que no reflejan las condiciones de despliegue del mundo real.
Idea clave: Las limitaciones listadas arriba no son solo curiosidades académicas. Son las barreras que actualmente impiden un despliegue más amplio de la IA agéntica. Si buscas una dirección de investigación o un enfoque profesional, estos son los problemas que más importan.
054. Tendencias emergentes
Inténtalo tú mismo: fórmula un problema de investigación
Elige una de las limitaciones anteriores que más te interese. Escribe un párrafo de "enunciado de problema de investigación" que:
- Describa la limitación de forma concreta (con un ejemplo)
- Explique por qué importa prácticamente
- Identifique un posible enfoque para abordarla
- Identifique el principal desafío de ese enfoque
Este ejercicio práctica una habilidad crítica para cualquiera en el campo: la capacidad de articular un problema con claridad e identificar un camino hacia una solución.
064. Tendencias emergentes
Las limitaciones de la Sección 3 definen dónde está el campo hoy. Las tendencias de esta sección sugieren hacia dónde se dirige. Algunas de estas tendencias abordan las limitaciones directamente; otras abren dominios de aplicación completamente nuevos.
4.1 Descubrimiento científico autónomo
Los agentes de IA están comenzando a participar en el propio ciclo de investigación científica. Esta es posiblemente la tendencia emergente de mayor impacto porque acelerar el descubrimiento científico tiene efectos compuestos en todos los demás campos.
Agentes de revisión de literatura. Sistemas que leen, resumen y sintetizan artículos científicos, identificando vacíos y generando hipótesis. Herramientas como Semantic Scholar, Elicit y Consensus demuestran capacidades tempranas. Estos agentes pueden procesar miles de artículos e identificar patrones que ningún investigador humano podría detectar leyendo individualmente.
Agentes de diseño de experimentos. Agentes que proponen diseños experimentales, incluyendo rangos de parámetros, condiciones de control y planes de análisis. Boiko et al. (2023) demostraron un "Agente de Investigación Científica Autónoma" capaz de diseñar y ejecutar experimentos de química, incluyendo selección de reactivos, planificación de pasos de síntesis e interpretación de resultados.
Agentes de automatización de laboratorio. Agentes que controlan equipos de laboratorio robóticos para ejecutar experimentos. La integración de la planificación de IA con la automatización física aún está en fase temprana pero avanza rápidamente en campos como el descubrimiento de fármacos y la ciencia de materiales.
La visión. Un ciclo de investigación completo donde los agentes generan hipótesis, diseñan experimentos, los ejecutan (en simulación o con laboratorios robóticos), analizan resultados y escriben artículos. Esto sigue siendo aspiracional para la mayoría de los campos, pero los componentes se están ensamblando. La cuestión no es si esto ocurrirá sino cuándo y cuánta supervisión humana permanecerá.
Idea clave: El descubrimiento científico autónomo es quizás la aplicación de mayor impacto de la IA agéntica. Si los agentes pueden acelerar la investigación científica aunque sea modestamente, los efectos compuestos sobre el conocimiento humano y la tecnología serían enormes. Pero los requisitos de seguridad también son altos: un agente que genera hallazgos científicos falsos o realiza experimentos no éticos podría causar un daño serio.
4.2 Robótica agéntica
La convergencia de los LLM y la robótica está creando una nueva generación de robots inteligentes:
Control condicionado por lenguaje. Robots que entienden instrucciones en lenguaje natural y las traducen en acciones físicas. Brohan et al. (2023) demostraron RT-2, que usa un modelo de visión-lenguaje para producir directamente acciones robóticas a partir de comandos en lenguaje natural y observaciones visuales.
Planificación para tareas físicas. Usar LLMs para descomponer instrucciones de alto nivel ("hazme un sándwich") en secuencias de acciones físicas ("abrir nevera, localizar pan, agarrar pan, ..."). Ahn et al. (2022) introdujeron SayCan, que ancla los planes del LLM en las capacidades físicas reales del robot. El LLM propone acciones, y un modelo aprendido de afordáncias las filtra según lo que el robot realmente puede hacer. El LLM podría sugerir "volar a la cocina" pero el modelo de afordáncias sabe que el robot no puede volar.
Manipulación generalizable. Avanzar más allá de la programación específica para cada tarea hacia robots que puedan manejar objetos y situaciones novedosas mediante razonamiento general. Este es el equivalente en robótica del cambio de la Etapa 2 a la Etapa 4 en programación: de comportamiento preprogramado a comportamiento adaptativo basado en razonamiento.
4.3 Software nativo de IA
Está emergiendo un cambio de paradigma en cómo se construye y se usa el software:
UI generativa. En lugar de diseñar interfaces fijas, los agentes generan interfaces de usuario dinámicamente según las necesidades y el contexto del usuario. v0 de Vercel y herramientas similares demuestran versiones tempranas: describes la interfaz que quieres y el sistema la genera. El punto final lógico es software que no tiene interfaz fija en absoluto, adaptándose a cada usuario y cada tarea.
Lenguaje natural como interfaz. Aplicaciones donde la interfaz principal del usuario es la conversación en lenguaje natural, con el agente construyendo las operaciones de backend apropiadas. Este ya es el paradigma para herramientas como Claude Code. En lugar de hacer clic a través de menús, describes lo que quieres.
Aplicaciones automodificables. Software que puede modificar su propio código para añadir funcionalidades, corregir bugs o adaptarse a nuevos requisitos. Combinado con pipelines de testing y despliegüe, esto permite una evolución de software rápida y autónoma. Esta idea suena futurista, pero es esencialmente lo que ocurre cuando usas un agente de programación para modificar una aplicación desplegada.
Agentes de infraestructura. Agentes de IA que gestionan infraestructura en la nube: escalando recursos, optimizando configuraciones, respondiendo a incidentes y gestionando despliegues. Estos extienden la automatización DevOps existente con mayor autonomía e inteligencia.
4.4 Agentes personalizados
Asistentes personales a largo plazo. Agentes que acumulan conocimiento sobre un usuario a lo largo de meses y años, proporcionando asistencia cada vez más personalizada. Los sistemas de memoria de la Semana 7 son fundamentales para esto. El desafío es mantener una memoria útil respetando la privacidad y evitando el problema de la burbuja de filtro (donde el agente refuerza las preferencias y creencias existentes del usuario en lugar de desafiarlas).
Gemelos digitales. Representaciones agénticas de individuos que pueden actuar en su nombre, tomando decisiones consistentes con sus preferencias y valores. Esto plantea preguntas profundas sobre identidad, consentimiento y autonomía. Si un gemelo digital tuyo toma una decisión mientras duermes, ¿estás vinculado por ella?
Agentes como colaboradores. Avanzar más allá de los agentes orientados a tareas (haz esta cosa específica) hacia agentes que mantienen relaciones de colaboración continúas, entendiendo contexto, preferencias, estilo de trabajo y objetivos a largo plazo. El "modelo de colega" de la Semana 12, extendido a lo largo de meses o años.
4.5 Mercados y ecosistemas de agentes
Comercio agente-a-agente. Agentes que contratan a otros agentes para realizar subtareas, creando ecosistemas económicos de agentes especializados. Imagina que tu agente personal necesita asesoramiento legal: contrata a un agente de investigación legal, paga una tarifa y recibe el análisis.
Plataformas de agentes. Plataformas que alojan, despliegan y gestionan agentes, análogas a las tiendas de aplicaciones. La GPT Store de OpenAI y las integraciones de Claude de Anthropic son ejemplos tempranos.
Estándares de interoperabilidad. Protocolos para que agentes construidos en diferentes plataformas se comuniquen y colaboren. El Model Context Protocol (MCP) e iniciativas similares buscan estandarizar las interfaces agente-herramienta y agente-agente. Sin interoperabilidad, el ecosistema de agentes se fragmentará en silos incompatibles.
075. El camino desde los agentes actuales hasta la AGI: una evaluación realista
Inténtalo tú mismo: análisis de tendencia
Elige una de las tendencias emergentes anteriores y escribe un breve análisis:
- ¿En qué capacidades técnicas (de nuestro curso) se apoya esta tendencia?
- ¿Qué limitaciones actuales (de la Sección 3) deben superarse para que esta tendencia alcance la madurez?
- ¿Cuáles son los posibles impactos sociales positivos y negativos?
- ¿Qué marcos de gobernanza (de la Semana 14) serían relevantes?
Este ejercicio práctica el pensamiento sistémico que conecta las capacidades técnicas con el impacto en el mundo real.
5.1 Lo que los agentes actuales pueden hacer
En 2026, los agentes más capaces pueden:
- Seguir instrucciones complejas de múltiples pasos con alta precisión
- Usar docenas de herramientas para interactuar con sistemas de software
- Escribir, probar y depurar código a un nivel de desarrollador junior a medio
- Realizar investigación en grandes colecciones de documentos
- Mantener memoria a corto plazo y limitada a largo plazo
- Colaborar con humanos en tareas intelectuales
- Operar dentro de límites de seguridad definidos
- Resolver aproximadamente el 50-60 % de las tareas de ingeniería de software del mundo real de forma autónoma
Estas capacidades se habrían considerado ciencia ficción hace apenas cinco años. El progreso ha sido extraordinario.
5.2 Lo que los agentes actuales no pueden hacer
A pesar de sus impresionantes capacidades, los agentes actuales tienen limitaciones fundamentales:
Comprensión genuina. Los agentes manipulan símbolos y patrones pero no demuestran comprender el significado de la forma en que lo hacen los humanos. Pueden discutir sobre física cuántica con fluidez sin entender qué es un fotón. Si esto importa prácticamente (el debate de la "Habitación China") es discutido, pero se manifiesta como fallos inesperados cuando el agente encuentra situaciones que requieren comprensión más que reconocimiento de patrones.
Razonamiento novedoso. Los agentes tienen dificultades con problemas que requieren una perspectiva genuinamente novedosa, en contraposición a recombinar patrones del entrenamiento. Pueden resolver problemas que son variaciones de problemas que han visto, pero tienen dificultades con problemas que requieren un enfoque genuinamente nuevo. Esta es la diferencia entre un motor de ajedrez (que busca patrones conocidos) y un matemático (que inventa nuevas técnicas de demostración).
Interacción con el mundo físico. Fuera de entornos robóticos controlados, los agentes no pueden interactuar con el mundo físico. Pueden controlar un brazo robótico en un laboratorio pero no pueden navegar una cocina desordenada o reparar un coche. La inteligencia física sigue muy por detrás de la inteligencia lingüística.
Auto-mejora. Los agentes no se mejoran genuinamente a sí mismos a través de la experiencia de la forma en que los humanos aprenden. El ajuste fino y el aprendizaje en contexto proporcionan adaptación limitada, pero un agente que ha estado funcionando durante un año no es fundamentalmente más inteligente que uno que ha estado funcionando un día (a menos que haya sido reentrenado durante ese tiempo).
Sentido común robusto. Los agentes cometen errores que revelan lagunas en la comprensión del sentido común, especialmente sobre física ("¿puede una pelota rodar cuesta arriba?"), normas sociales ("¿es apropiado hablar de salarios en una cena?") y causalidad ("si dejó caer un vaso, ¿qué pasa?"). Estos errores son intermitentes, lo que los hace más difíciles de detectar que los errores sistemáticos.
Objetivos persistentes. Los agentes no tienen objetivos o motivaciones genuinas. Persiguen objetivos porque se les instruye, no porque quieran. En realidad, esto es una característica de seguridad (no queremos agentes que quieran cosas), pero limita su capacidad para perseguir objetivos a largo plazo de forma autónoma.
5.3 Conceptos erróneos comunes sobre las capacidades de los agentes
Antes de discutir la AGI, abordemos algunos conceptos erróneos comunes que distorsionan la conversación pública:
Concepto erróneo: "Los LLM entienden el lenguaje." Más precisamente, los LLM son muy buenos prediciendo qué texto debería venir a continuación dado el texto previo. Si esto constituye "comprensión" depende de tu definición. Prácticamente, significa que los agentes pueden procesar y generar lenguaje con fluidez pero pueden fallar en tareas que requieren comprensión genuina (como seguir razonamiento espacial complejo o entender causalidad física).
Concepto erróneo: "Los agentes se están volviendo más inteligentes exponencialmente." El progreso es rápido pero desigual. El rendimiento en algunos benchmarks (generación de código, respuesta a preguntas) ha mejorado dramáticamente. El rendimiento en otros (planificación a largo plazo, razonamiento novedoso) ha mejorado más lentamente. La trayectoria no es una curva exponencial suave; es una línea irregular con algunas áreas avanzando más rápido que otras.
Concepto erróneo: "Si los agentes pueden aprobar exámenes, entienden la materia." Los agentes pueden aprobar exámenes estandarizados aprovechando patrones en el formato del examen, no entendiendo los conceptos subyacentes. Un agente que aprueba un examen de abogacía no ha "aprendido derecho"; ha aprendido a generar texto que coincide con los patrones de respuestas legales correctas en exámenes. Esto es útil pero diferente de la experiencia genuina.
Concepto erróneo: "Los agentes actuales están a unos pocos ajustes de la AGI." Esto subestima dramáticamente la brecha entre las capacidades actuales y la inteligencia general. Resolver SWE-bench al 60 % es impresionante pero sigue significando un 40 % de fallos en tareas bien definidas en un único lenguaje de programación. La brecha entre el 60 % en tareas definidas y la inteligencia general a nivel humano es enorme.
5.4 La cuestión de la AGI
La Inteligencia General Artificial (AGI) se define de forma diferente por diferentes comunidades. Una definición de trabajo útil: la AGI es un sistema de IA que puede realizar cualquier tarea intelectual que un humano pueda, a un nivel comparable, sin entrenamiento específico para la tarea.
Argumentos a favor de que la AGI está cerca (la "hipótesis de escalado"):
- Escalar el tamaño del modelo y los datos de entrenamiento ha mejorado consistentemente las capacidades
- Habilidades emergentes aparecen a mayores escalas (aunque la naturaleza y realidad de la "emergencia" es debatida)
- Combinar LLMs con herramientas, memoria y planificación crea sistemas cada vez más generales
- La tasa de mejora parece estar acelerándose
Argumentos a favor de que la AGI está lejos o puede requerir nuevos paradigmas:
- Los sistemas actuales carecen de comprensión genuina y razonamiento causal
- El escalado puede enfrentar rendimientos decrecientes en tareas que requieren razonamiento intensivo
- El anclaje físico sigue siendo un desafío fundamental
- Los enfoques actuales de seguridad y alineamiento pueden no escalar a sistemas mucho más capaces
- Las "ganancias fáciles" pueden haber quedado atrás; los desafíos restantes pueden requerir enfoques fundamentalmente nuevos
Una visión equilibrada. Los sistemas actuales de IA agéntica son extraordinariamente útiles y seguirán mejorando. Si están en un camino directo hacia la AGI o representan un óptimo local que requerirá nuevos paradigmas para trascender es genuinamente incierto. Los investigadores honestos discrepan, y las predicciones sobre plazos de IA tienen un historial pobre.
5.4 Lo que importa más que el debate sobre la AGI
Independientemente de cuándo o si llega la AGI, varias preguntas prácticas son más inmediatamente importantes:
- ¿Cómo construimos agentes fiables? La falta de fiabilidad actual limita el despliegue. Mejorar la fiabilidad del 70 % al 99 % transformaría la utilidad práctica de los agentes.
- ¿Cómo mantenemos el control humano? A medida que los agentes se vuelven más capaces, la supervisión se hace más difícil pero más importante. La paradoja de la automatización de la Semana 12 no desaparece; se intensifica.
- ¿Cómo distribuimos los beneficios de forma equitativa? Las ganancias de productividad impulsadas por la IA deberían beneficiar ampliamente, no solo a quienes construyen y despliegan agentes. ¿Cómo aseguramos que los beneficios económicos de la IA se compartan?
- ¿Cómo gestionamos la transición? Los trabajos, la educación y las instituciones cambiarán. ¿Cómo gestionamos esta transición de forma humana, asegurando que las personas desplazadas tengan caminos hacia nuevas oportunidades?
Idea clave: Las preguntas más importantes sobre la IA agéntica no son "¿cuándo llegará la AGI?" sino "¿cómo construimos sistemas que sean fiables, seguros, equitativos y beneficiosos?" Estas son las preguntas que determinarán si la IA agéntica mejora la vida humana o crea nuevos problemas. Céntrate en los desafíos prácticos, y las grandes preguntas filosóficas se resolverán por sí solas.
086. Oportunidades profesionales en IA agéntica
6.1 Roles técnicos
Ingeniero de agentes / Ingeniero de IA. Diseña, construye y despliega sistemas agénticos. Requiere sólidas habilidades de ingeniería de software, comprensión de LLMs y prompting, y experiencia con frameworks de agentes. Este es el rol más directamente relacionado con lo que has aprendido en este curso.
Científico de investigación en ML/IA. Realiza investigación sobre arquitecturas de agentes, algoritmos de planificación, sistemas de memoria o técnicas de alineamiento. Típicamente requiere un doctorado o experiencia de investigación equivalente. Los problemas abiertos de la Sección 3 son tu agenda de investigación.
Investigador/Ingeniero de seguridad y alineamiento. Se centra en hacer que los agentes sean seguros y alineados. Un campo en rápido crecimiento con alta demanda y relativamente pocos candidatos cualificados. Si encontraste la clase de la Semana 11 la más interesante, este podría ser tu camino.
Ingeniero de evaluación y testing. Se especializa en probar sistemas agénticos: diseñar benchmarks, ejecutar evaluaciones, identificar modos de fallo. Este rol es crítico para el despliegue en producción y a menudo está infravalorado.
Ingeniero de MLOps / plataforma de IA. Construye la infraestructura que soporta el despliegue de agentes: monitorización, logging, escalado y gestión del ciclo de vida. Los temas de observabilidad y monitorización de las Semanas 11 y 13 son directamente relevantes.
6.2 Roles interdisciplinarios
Product Manager de IA. Define lo que los agentes deben hacer, trabajando en la intersección de necesidades de usuario, capacidades técnicas y requisitos de negocio. Requiere comprensión tanto de la tecnología como de los usuarios.
Especialista en ética y gobernanza de IA. Asegura que los sistemas de IA cumplan con las regulaciones y estándares éticos. Requiere comprensión tanto de la tecnología como del derecho/políticas. El contenido de la Semana 14 es directamente relevante.
Diseñador de interacción humano-IA. Diseña las interfaces a través de las cuales los humanos interactúan con los agentes. Combina diseño UX, ciencia cognitiva y comprensión de IA. El contenido de la Semana 12 sobre UX agéntica es tu punto de partida.
Asesor de políticas de IA. Trabaja con gobiernos, organizaciones o organismos internacionales para desarrollar políticas de IA. Requiere comprensión tanto de la tecnología como de la gobernanza.
6.3 Habilidades demandadas
Basándose en el panorama de 2026:
- Sólidos fundamentos de ingeniería de software. La IA agéntica es ingeniería de software. Estructuras de datos, algoritmos, diseño de sistemas, sistemas distribuidos y testing siguen siendo esenciales. El agente se construye sobre un sistema de software.
- Fluidez con LLMs. Comprender cómo funcionan los LLMs, cómo hacer prompting de forma eficaz y cómo integrarlos en aplicaciones. Esta es la nueva alfabetización de la ingeniería de IA.
- Pensamiento sistémico. Capacidad de diseñar sistemas complejos con muchos componentes interactuantes, razonar sobre modos de fallo y optimizar a través de múltiples objetivos simultáneamente.
- Mentalidad de seguridad. Comprender modelos de amenazas, vectores de ataque y estrategias de defensa. La inyección de prompts, la fuga de datos y las acciones no autorizadas son los desafíos de seguridad de la era de los agentes.
- Comunicación. Capacidad de explicar las capacidades y limitaciones de la IA a partes interesadas no técnicas. Si no puedes explicar qué hace tu agente y qué no puede hacer, no puedes desplegarlo de forma responsable.
- Razonamiento ético. Capacidad de identificar y razonar sobre las implicaciones éticas de los sistemas de IA. Esto no es un "nice-to-have"; es un requisito profesional a medida que las regulaciones se endurecen.
6.4 Por dónde empezar
Aquí hay una hoja de ruta concreta para empezar en cada una de estas áreas:
Para ingeniería de agentes:
- Construye un agente simple usando un framework de la Semana 13 (empieza con OpenAI Agents SDK o Claude Agent SDK, que son los más simples)
- Añade herramientas: lectura de archivos, búsqueda web, acceso a base de datos
- Añade guardrails: validación de entrada, filtrado de salida, restricciones de acciones
- Despliégalo (aunque sea localmente) y monitoriza su comportamiento
- Intenta romperlo con entradas adversariales; corrige los problemas que encuentres
Para investigación:
- Lee los artículos fundamentales referenciados a lo largo de este curso (empieza con el artículo de ReAct de Yao et al. y la survey de Wang et al.)
- Sigue conferencias: NeurIPS, ICML, ACL, AAAI y workshops centrados en agentes
- Reproduce un resultado de un artículo; esto te enseña mucho más que simplemente leer
- Identifica una limitación y propón una mejora; escríbelo aunque no lo envíes
Para open source:
- Contribuye a proyectos como LangChain, LlamaIndex, OpenHands o documentación de frameworks
- Empieza poco a poco: corrige bugs, mejora documentación, añade tests
- El open source es tanto una oportunidad de aprendizaje como una forma de construir un portafolio público
Para la comunidad:
- Únete a foros, servidores de Discord y meetups centrados en ingeniería de IA
- Escribe sobre lo que aprendes: las publicaciones de blog, tutoriales y artículos de investigación construyen reputación y profundizan la comprensión
- Enseñar es la mejor forma de aprender: explica un concepto a otra persona y lo entenderás mejor tú mismo
Idea clave: Las personas más exitosas en este campo no son necesariamente las que tienen más conocimiento. Son las que construyen cosas, comparten lo que aprenden y se involucran con la comunidad. El conocimiento sin acción es potencial; la acción crea impacto.
097. Responsabilidades éticas de los profesionales de la IA agéntica
7.1 La carga del profesional
Como constructores de sistemas de IA agéntica, tenemos una responsabilidad especial. Creamos sistemas que actúan en el mundo, afectando la vida, el sustento y el bienestar de las personas. Esta no es una responsabilidad que pueda delegarse a reguladores, eticistas o directivos. Comienza con el ingeniero individual tomando decisiones de diseño cada día.
Honestidad. Sé honesto sobre lo que tus agentes pueden y no pueden hacer. No exageres las capacidades ni ocultes las limitaciones. Los materiales de marketing que afirman "impulsado por IA, totalmente autónomo" cuando el sistema en realidad requiere supervisión humana crean expectativas falsas que pueden llevar a daños.
Diligencia. Prueba exhaustivamente. Considera los casos límite. Piensa en quién podría resultar perjudicado por los fallos de tu sistema. El ejercicio de pre-mortem de la Semana 11 debería ser una práctica estándar, no un ejercicio puntual.
Humildad. Reconoce la incertidumbre. No puedes predecir todas las formas en que tu agente será usado o mal usado. Incorpora salvaguardas y monitorización. Los sistemas que construimos son más complejos de lo que podemos comprender completamente, y pretender lo contrario es peligroso.
Defensa. Aboga dentro de tu organización por medidas de seguridad adecuadas, incluso cuando entren en conflicto con las presiones de velocidad de comercialización. Es más fácil resistir antes del despliegue que disculparse después de un incidente.
Inclusión. Considera las necesidades de poblaciones de usuarios diversas. Un agente que funciona bien para usuarios de habla inglesa, con conocimientos técnicos, en países ricos, pero falla para otros, no es una solución completa. El mundo es diverso, y nuestros agentes deberían servir al mundo.
7.2 Marcos éticos en la práctica
Varios marcos éticos prácticos pueden guiar las decisiones del día a día:
La prueba del periódico. ¿Te sentirías cómodo si tu decisión de diseño apareciera en la portada de un periódico? Si no, reconsidera.
La prueba del usuario vulnerable. ¿Cómo afectaría tu agente al usuario potencial más vulnerable? ¿Una persona mayor con habilidades tecnológicas limitadas? ¿Un hablante no nativo? ¿Alguien en crisis? Diseña para ellos, y proteges a todos.
La prueba de la reversibilidad. ¿Se pueden deshacer los efectos de las acciones de tu agente? Si no, se necesitan salvaguardas adicionales. Las acciones irreversibles merecen el más alto nivel de escrutinio.
La prueba de la transparencia. ¿Puedes explicar lo que hace tu agente y por qué a un usuario no técnico? Si no, el sistema puede ser demasiado opaco para desplegarlo de forma responsable.
7.3 El contexto más amplio
La IA agéntica no es sólo una tecnología; es una fuerza que está remodelando la sociedad. Como profesionales, debemos ser conscientes de las implicaciones más amplias:
Desplazamiento laboral. Los agentes ya están automatizando tareas previamente realizadas por trabajadores del conocimiento. Aunque se crean nuevas oportunidades, la transición puede ser dolorosa para los desplazados. Esto no es un argumento contra construir agentes; es un argumento a favor de construirlos con cuidado y apoyar a los afectados por la transición.
Concentración de poder. Los agentes de IA pueden amplificar las capacidades de sus operadores. Si el acceso a agentes potentes se concentra en unas pocas organizaciones, esto amplifica los desequilibrios de poder existentes. Apoyar la IA de código abierto, los estándares abiertos y el acceso amplio a la tecnología de agentes ayuda a contrarrestar esta concentración.
Efectos epistémicos. Los agentes que median nuestro acceso a la información moldean lo que sabemos y creemos. Un agente de investigación que muestra consistentemente ciertas perspectivas mientras ignora otras no es solo un mal producto; es un riesgo epistémico. Construir agentes que presenten perspectivas diversas y señalen la incertidumbre es una responsabilidad.
Impacto ambiental. Entrenar y ejecutar modelos de lenguaje grandes consume energía significativa. El coste ambiental de la infraestructura de agentes es real y debe considerarse en las decisiones de diseño (p. ej., usar modelos más pequeños cuando sean suficientes, cachear resultados, minimizar el cómputo innecesario).
108. Reflexiones finales
8.1 Lo que hemos aprendido
Este curso ha cubierto el espectro completo de la IA agéntica: desde los fundamentos de los modelos de lenguaje grandes hasta la gobernanza de los sistemas autónomos. Hemos construido un conjunto de herramientas conceptuales que incluye:
- Conocimiento técnico: Cómo funcionan los agentes, desde la arquitectura del modelo hasta el diseño de sistemas, desde el prompting hasta la coordinación multi-agente
- Habilidades de ingeniería: Cómo construir, probar, desplegar y monitorizar agentes de forma segura y fiable
- Pensamiento crítico: Cómo evaluar las capacidades de los agentes honestamente, identificar limitaciones y razonar sobre riesgos
- Conciencia ética: Cómo construir agentes que sirvan al bienestar humano, cumplan con las regulaciones y respeten los derechos
8.2 El campo es joven
La IA agéntica como campo es notablemente joven. Los artículos fundamentales tienen apenas unos pocos años. Las herramientas y los frameworks evolucionan mensualmente. Los estándares y regulaciones se están escribiendo en tiempo real. Esto significa tres cosas:
No vas con retraso. Todo el mundo está aprendiendo. No hay expertos profundos con décadas de experiencia porque el campo no existía hace décadas. Si has completado este curso, tienes una base sólida que muchos profesionales en activo carecen.
Puedes contribuir. El campo necesita perspectivas diversas: no solo investigadores de ML sino ingenieros de software, diseñadores de producto, eticístas, expertos de dominio y usuarios. Sea cual sea tu formación, hay un lugar para ti.
Las cosas cambiarán. Lo que hemos cubierto en este curso estará parcialmente desactualizado dentro de un año. Las herramientas, técnicas y mejores prácticas específicas evolucionarán. Pero los principios perdurarán: el bucle observar-pensar-actuar, la importancia del anclaje, la necesidad de seguridad, el papel de la supervisión humana, las responsabilidades éticas. Aprende a aprender y manténte al día.
8.3 Una nota personal
Construir sistemas de IA agéntica es una de las actividades más estimulantes intelectualmente y con más impacto en la tecnología actual. Tienes la oportunidad de dar forma a cómo se construyen, despliegan y gobiernan estos sistemas. Toma esa responsabilidad en serio, pero también disfruta del camino. Los problemas son fascinantes, el ritmo del progreso es estimulante y el potencial de impacto positivo es enorme.
Construye cosas que importen. Constrúyelas con cuidado. Constrúyelas para todos.
119. Repaso completo para las presentaciones del proyecto final
9.1 Qué preparar
Para la presentación de tu proyecto final, deberías ser capaz de:
-
Describir la arquitectura de tu agente. Mapea tu sistema a la pila de IA agéntica. ¿Qué capas usa tu agente? ¿Qué decisiones tomaste en cada capa y por qué?
-
Demostrar las capacidades de tu agente. Muestra tu agente realizando su tarea prevista. Destaca dónde funciona bien y dónde tiene dificultades. La demostración honesta de las limitaciones se valora más que ocultarlas.
-
Discutir seguridad y limitaciones. ¿Qué guardrails implementaste? ¿Cuáles son los modos de fallo conocidos? ¿Cómo manejaría tu agente entradas adversariales?
-
Explicar tu enfoque de evaluación. ¿Cómo probaste tu agente? ¿Qué métricas usaste? ¿Cuáles fueron los resultados?
-
Reflexionar sobre las lecciones aprendidas. ¿Qué te sorprendió? ¿Qué harías diferente? ¿Qué aprendiste sobre construir sistemas agénticos que no esperabas?
9.2 Lista de verificación de repaso
Usa esta lista de verificación para asegurar que tu proyecto cubre los conceptos clave del curso:
Fundamentos (Semanas 1-4):
- Definición y arquitectura del agente claramente articuladas
- Selección de modelo y estrategia de prompting apropiadas
- Comprensión de las capacidades y limitaciones del modelo
Capacidades (Semanas 5-7):
- Integración significativa de herramientas (no solo un wrapper sobre una API)
- Uso apropiado de recuperación si la tarea requiere conocimiento externo
- Estrategia de memoria (incluso si es efímera, justifica la elección)
Inteligencia (Semanas 8-10):
- Enfoque de planificación para tareas multi-paso
- Metodología de evaluación con métricas significativas
- (Si aplica) Coordinación multi-agente
Responsabilidad (Semanas 11-14):
- Medidas de seguridad: como mínimo validación de entrada y filtrado de salida
- Supervisión humana: mecanismo para revisión o intervención humana
- Manejo de errores: degradación controlada cuando algo sale mal
- Documentación: descripción clara de lo que hace el agente y sus limitaciones
9.3 Criterios de evaluación
Los proyectos serán evaluados según:
| Criterio | Peso | Descripción |
|---|---|---|
| Profundidad técnica | 25 % | Sofisticación de la arquitectura e implementación del agente |
| Corrección | 20 % | ¿Funciona el agente? ¿Cumple su propósito declarado? |
| Seguridad | 15 % | ¿Se han implementado medidas de seguridad apropiadas? |
| Evaluación | 15 % | ¿El agente está rigurosamente probado y evaluado? |
| Presentación | 15 % | Presentación clara, bien estructurada, con buenas demos |
| Reflexión | 10 % | Análisis reflexivo de limitaciones, lecciones y trabajo futuro |
1210. Preguntas de discusión
-
El curso en retrospectiva. Ahora que has completado el curso, ¿qué tema te habría gustado que hubiéramos cubierto con más profundidad? ¿Qué tema fue menos útil de lo esperado?
-
La lección más importante. ¿Cuál es la cosa más importante que has aprendido en este curso? ¿Cómo influirá en tu trabajo futuro?
-
Predicciones. Haz tres predicciones específicas y falsificables sobre dónde estará la IA agéntica en 5 años (2031). ¿Qué capacidades tendrán los agentes? ¿Qué seguirá sin resolver? ¿Qué nos sorprenderá?
Pista: Las buenas predicciones son específicas. "La IA será más potente" no es específico. "Los agentes de programación resolverán más del 90 % de SWE-bench Verified" es específico y falsificable. Escribe tus predicciones; revísalas en 5 años.
-
La cuestión de la responsabilidad. Como alguien que ahora sabe cómo construir agentes de IA, ¿qué directrices éticas te impondrás a ti mismo en tu carrera? ¿Dónde trazarías la línea sobre lo que construirías o no construirías?
Pista: Piensa en escenarios específicos, no en principios abstractos. ¿Construirías un agente que automatice decisiones de contratación? ¿Moderación de contenido? ¿Aplicaciones militares? ¿Publicidad política? ¿Dónde está tu línea personal y por qué?
-
El futuro de la educación en informática. ¿Cómo debería cambiar la educación en informática para preparar a los estudiantes para un mundo donde los agentes de IA son ubicuos? ¿Debería la programación seguir siendo una habilidad fundamental, o será parcialmente reemplazada por habilidades de "orquestación de agentes"?
Pista: Considera que las habilidades más valiosas en un mundo aumentado por IA pueden no ser las mismas que las más valiosas hoy. ¿Qué habilidades se vuelven más importantes? ¿Qué habilidades se vuelven menos importantes?
1311. Resumen y puntos clave
-
La pila de IA agéntica comprende ocho capas: fundamentos, modelos fundacionales, herramientas y acciones, memoria y estado, planificación y razonamiento, coordinación multi-agente, interacción humana y gobernanza. Cada capa aporta capacidades esenciales, y las capas interactúan bidireccionalmente. El error arquitectónico más común es invertir en las capas de capacidad sin invertir adecuadamente en las capas de seguridad y gobernanza.
-
El curso siguió una progresión deliberada desde los fundamentos a través de capacidades, inteligencia y responsabilidad. Temas clave a lo largo del curso: el compromiso capacidad-seguridad, la importancia del anclaje, el papel esencial del humano y el desafío de ingeniería de construir sistemas fiables.
-
Las limitaciones actuales incluyen falta de fiabilidad, dificultad con tareas de horizonte largo, razonamiento superficial, uso frágil de herramientas, seguridad incompleta y evaluación inadecuada. Cada una de estas es un área de investigación activa con alta importancia práctica.
-
Las tendencias emergentes incluyen el descubrimiento científico autónomo, la robótica agéntica, el software nativo de IA, los agentes personalizados a largo plazo y los ecosistemas de agentes con mercados y estándares de interoperabilidad.
-
El camino hacia la AGI es incierto. Los agentes actuales son extraordinariamente capaces pero fundamentalmente limitados en comprensión, razonamiento novedoso y auto-mejora. Los desafíos prácticos (fiabilidad, seguridad, equidad, supervisión humana) son más inmediatamente importantes que el debate sobre los plazos de la AGI.
-
Las oportunidades profesionales abarcan roles técnicos (ingeniería de agentes, investigación en seguridad, evaluación), roles interdisciplinarios (gestión de producto, ética, políticas) y requieren una combinación de fundamentos de ingeniería de software, fluidez con LLMs, pensamiento sistémico y razonamiento ético.
-
Las responsabilidades éticas incluyen honestidad sobre las capacidades, diligencia en el testing, humildad ante la incertidumbre, defensa de prácticas responsables y atención a los efectos sociales más amplios de la IA (desplazamiento laboral, concentración de poder, efectos epistémicos, impacto ambiental).
-
El campo es joven. Estás entrando en la planta baja. Los principios de este curso perdurarán; las herramientas y técnicas específicas evolucionarán. Mantén la curiosidad, mantén la responsabilidad y construye cosas que importen.
1412. Referencias
-
Ahn, M., Brohan, A., Brown, N., Chebotar, Y., Cortés, O., David, B., ... & Zeng, A. (2022). Do as I can, not as I say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691.
-
Boiko, D. A., MacKnight, R., Kline, B., & Gomes, G. (2023). Autonomous chemical research with large language models. Nature, 624, 570-578.
-
Brohan, A., Brown, N., Carbajal, J., Chebotar, Y., Chen, X., Choromanski, K., ... & Zitkovich, B. (2023). RT-2: Visión-language-action models transfer web knowledge to robotic control. arXiv preprint arXiv:2307.15818.
-
Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., ... & Zhang, Y. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.
-
Park, J. S., O'Brien, J. C., Caí, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative agents: Interactive simulacra of human behavior. Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology (UIST), 1-22.
-
Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexión: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36.
-
Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., ... & Wang, J. (2024). A survey on large language model based autonomous agents. Frontiers of Computer Science, 18(6), 186345.
-
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35.
-
Weng, L. (2023). LLM-powered autonomous agents. Lil'Log (blog post). https://lilianweng.github.io/posts/2023-06-23-agent/
-
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2023). ReAct: Synergizing reasoning and acting in language models. Proceedings of the 11th International Conference on Learning Representations (ICLR 2023).
Estos apuntes de clase forman parte del curso de IA Agéntica. Licenciados bajo CC BY 4.0.