En un mensaje dirigido a inversores la primavera pasada, Anthropic dijo que tenía la intención de desarrollar inteligencia artificial para impulsar asistentes virtuales que pudieran realizar investigaciones, responder correos electrónicos y manejar otros trabajos administrativos por sí solos. La compañía se refirió a esto como un “algoritmo de próxima generación para el autoaprendizaje de la IA”, uno que creía que podría, si todo va según lo planeado, automatizar grandes aspectos de la economía algún día.
Ha tardado un poco, pero esa IA está empezando a llegar.
Antrópico liberó una versión mejorada de su modelo Claude 3.5 Sonnet que puede comprender e interactuar con cualquier aplicación de escritorio. A través de una nueva API de “Uso de computadora”, ahora en versión beta abierta, el modelo puede imitar pulsaciones de teclas, clics de botones y gestos del mouse, emulando esencialmente a una persona sentada frente a una PC.
“Entrenamos a Claude para ver lo que sucede en una pantalla y luego usar las herramientas de software disponibles para realizar tareas”, escribió Anthropic en una publicación de blog. “Cuando un desarrollador le pide a Claude que use un software de computadora y le da el acceso necesario, Claude mira capturas de pantalla de lo que es visible para el usuario y luego cuenta cuántos píxeles vertical u horizontalmente necesita para mover el cursor y hacer clic. el lugar correcto”.
Los desarrolladores pueden probar el uso de la computadora a través de la API de Anthropic, Amazon Bedrock y la plataforma Vertex AI de Google Cloud. El nuevo Sonnet 3.5 sin acceso del PC se está implementando en las aplicaciones de Claude y trae varias mejoras de rendimiento con respecto al modelo distribuido 3.5 Sonnet.
Automatizar aplicaciones
Una herramienta que pueda automatizar tareas en una PC no es una idea novedosa. Innumerables empresas ofrecen este tipo de herramientas, desde proveedores de RPA con décadas de antigüedad hasta nuevas empresas como Relay, Induced AI y Automat.
En la carrera por desarrollar los llamados “agentes de IA”, el mercado sólo se ha vuelto más saturado. Agentes de IA sigue siendo un término mal definido, pero generalmente se refiere a la IA que puede automatizar tareas de software.
Alguno analistas dicen que los agentes de IA podrían proporcionar a las empresas un camino más fácil para monetizar los miles de millones de dólares que están invirtiendo en IA. Las empresas parecen estar de acuerdo: según una encuesta reciente Capgemini el 10% de las organizaciones ya utilizan agentes de IA y el 82% los integrará en los próximos tres años.
Salesforce hizo anuncios llamativos sobre su tecnología de agente de IA este verano, mientras que Microsoft promocionó nuevas herramientas para construir agentes de IA. OpenAI, que está diseñando su propia marca de agentes de IA ve la tecnología como un paso hacia la IA superinteligente.
Anthropic llama a su versión del concepto de agente de IA una “capa de ejecución de acción” que permite al nuevo Sonnet 3.5 ejecutar comandos a nivel de escritorio. Gracias a su capacidad para navegar por la web (no es una novedad para los modelos de IA, pero sí una novedad para Anthropic), 3.5 Sonnet puede utilizar cualquier sitio web y cualquier aplicación.
La nueva IA de Anthropic puede controlar aplicaciones en una PC. Créditos: Anthropic
“Las personas mantienen el control al proporcionar indicaciones específicas que dirigen las acciones de Claude, como ‘usar datos de mi computadora online para completar este formulario'”, dijo un portavoz de Anthropic. “La gente habilita el acceso y lo limita según sea necesario. Claude divide las indicaciones del usuario en comandos de computadora (por ejemplo, mover el cursor, hacer clic, escribir) para realizar esa tarea específica”.
La plataforma de desarrollo de software Replit ha utilizado una versión anterior del nuevo modelo 3.5 Sonnet para crear un “verificador autónomo” que puede evaluar aplicaciones mientras se crean. Mientras tanto, Canva dice que está explorando formas en que el nuevo modelo podría respaldar el proceso de diseño y edición.
Pero, ¿en qué se diferencia esto de los otros agentes de IA que existen? Rabbit, la startup de dispositivos de consumo, está creando un agente web que puede hacer cosas como comprar entradas de cine online, Adept, que fue recientemente adquirida por Amazon, entrena modelos para navegar por sitios web, y Twin Labs está utilizando modelos disponibles en el mercado, incluido el GPT-4o de OpenAI, para automatizar los procesos de escritorio.
Anthropic afirma que el nuevo 3.5 Sonnet es simplemente un modelo más fuerte y robusto que puede funcionar mejor en tareas de codificación que incluso el buque insignia o1 de OpenAI, según el punto de referencia SWE-bench Verified. A pesar de no estar capacitado explícitamente para hacerlo, el Sonnet 3.5 actualizado se autocorrige y reintenta las tareas cuando encuentra obstáculos, y puede trabajar con objetivos que requieren docenas o cientos de pasos.
Prestaciones del modelo Claude 3.5 Sonnet en diversas pruebas. Créditos: Anthropic
En una evaluación diseñada para probar la capacidad de un agente de IA para ayudar con tareas de reserva de aerolíneas, como modificar una reserva de vuelo, el nuevo 3.5 Sonnet logró completar menos de la mitad de las tareas con éxito. En una prueba separada que involucraba tareas como iniciar una devolución, 3.5 Sonnet falló aproximadamente un tercio de las veces.
Anthropic admite que el nuevo Sonnet 3.5 actualizado tiene problemas con acciones básicas como desplazarse y hacer zoom, y que puede perder acciones y notificaciones “de corta duración” debido a la forma en que toma capturas de pantalla y las une.
“El uso de la computadora por parte de Claude sigue siendo lento y, a menudo, propenso a errores”, escribe Anthropic en su publicación. “Alentamos a los desarrolladores a comenzar la exploración con tareas de bajo riesgo”.
Negocio arriesgado
¿Pero es el nuevo Sonnet 3.5 lo suficientemente capaz como para ser peligroso? Probablemente.
Un estudio reciente encontró que los modelos sin con la capacidad de utilizar aplicaciones de escritorio, como GPT-4o de OpenAI, estaban dispuestos a participar en un “comportamiento de agente de varios pasos” dañino, como solicitar un pasaporte falso a alguien en la web oscura, cuando eran “atacados” utilizando técnicas de jailbreak. Según los investigadores, los jailbreak condujeron a altas tasas de éxito en la realización de tareas dañinas incluso para modelos protegidos por filtros y salvaguardas.
Uno puede intuir cómo un modelo con el acceso al escritorio podría causar más estragos – digamos, al explotar vulnerabilidades de la aplicación para comprometer información personal o almacenar chats en texto plano. Aparte de las palancas de software a su disposición, las conexiones online y de aplicaciones del modelo podrían abrir vías para jailbreakers maliciosos.
Anthropic no niega que existe riesgo al lanzar el nuevo Sonnet 3.5. Pero la empresa sostiene que los beneficios de observar cómo se utiliza el modelo en la naturaleza superan en última instancia este riesgo.
“Creemos que es mucho mejor dar acceso a las computadoras a los modelos actuales más limitados y relativamente más seguros”, escribió la compañía. “Esto significa que podemos comenzar a observar y aprender de cualquier problema potencial que surja en este nivel inferior, aumentando el uso de la computadora y las mitigaciones de seguridad de manera gradual y simultánea”.
Créditos: Anthropic
Anthropic también añade que ha tomado medidas para disuadir del uso indebido, como no entrenar el nuevo Sonnet 3.5 en las capturas de pantalla y las indicaciones de los usuarios, y evitar que el modelo acceda a la web durante el entrenamiento. La compañía dice que desarrolló clasificadores para alejar a 3.5 Sonnet de acciones percibidas como de alto riesgo, como publicar en redes sociales, crear cuentas e interactuar con sitios web gubernamentales.
A medida que se acercan las elecciones generales de Estados Unidos, Anthropic dice que se centra en mitigar el abuso de sus modelos relacionado con las elecciones. El Instituto de Seguridad de IA de EE. UU. y el Instituto de Seguridad del Reino Unido, dos agencias gubernamentales independientes pero aliadas dedicadas a evaluar el riesgo de los modelos de IA, probaron el nuevo 3.5 Sonnet antes de su implementación.
Anthropic dijo que tiene la capacidad de restringir el acceso a sitios web y funciones adicionales “si es necesario”, para proteger contra spam, fraude y desinformación, por ejemplo. Como medida de seguridad, la empresa conserva las capturas de pantalla capturadas por el Uso del PC durante al menos 30 días, un período de retención que podría alarmar a algunos desarrolladores.
Anthropic preguntado bajo qué circunstancias, si las hubiera, entregaría capturas de pantalla a un tercero (por ejemplo, autoridades policiales) si se le solicitara, no ha comunicado una respuesta.
“No existen métodos infalibles y evaluaremos e iteraremos continuamente nuestras medidas de seguridad para equilibrar las capacidades de Claude con el uso responsable”, dijo Anthropic. “Aquellos que utilizan la versión de Claude para computadora deben tomar las precauciones pertinentes para minimizar este tipo de riesgos, incluido aislar a Claude de datos particularmente confidenciales en su computadora”.
Con suerte, eso será suficiente para evitar que ocurra lo peor.
Un modelo más barato
El producto estrella en la presentación podría haber sido el modelo Sonnet 3.5 actualizado, pero Anthropic también dijo que una versión actualizada de Haiku, el modelo más barato y eficiente de su serie Claude, está en camino.
Claude 3.5 Haiku, previsto para las próximas semanas, igualará el rendimiento de Claude 3 Opus, que alguna vez fue el modelo de última generación de Anthropic, en ciertos puntos de referencia al mismo coste y “velocidad aproximada” de Claude 3 Haiku.
“Con velocidades rápidas, seguimiento de instrucciones mejorado y uso de herramientas más preciso, Claude 3.5 Haiku es ideal para productos orientados al usuario, tareas especializadas de subagente y generación de experiencias personalizadas a partir de grandes volúmenes de datos como historial de compras, precios o datos de inventario. ”, escribió Anthropic en una publicación de blog.
Claude 3.5 Haiku estará disponible inicialmente como un modelo de solo texto y luego como parte de un paquete multimodal que puede analizar tanto texto como imágenes.
Claude 3.5. Rendimiento comparativo de Haiku. Créditos: Anthropic
Una vez que 3.5 Haiku esté disponible, ¿habrá razones para usar 3 Opus? ¿Qué pasa con 3.5 Opus, el sucesor de 3 Opus, que Anthropic adelantó en junio?
“Todos los modelos de la familia Claude 3 tienen sus usos individuales para los clientes”, dijo el portavoz de Anthropic. “Claude 3.5 Opus está en nuestra hoja de ruta y nos aseguraremos de compartir más tan pronto como podamos”.