La construcción de proyectos robóticos avanzados en el ámbito doméstico ha comenzado a simplificarse de manera significativa. Se ha presentado Smolvla, un modelo de inteligencia artificial de código abierto destinado a la robótica, desarrollado por la plataforma Hugging Face.
Este modelo fue entrenado con conjuntos de datos compartidos por la comunidad y con licencias compatibles, y ha superado en rendimiento a modelos más grandes en tareas realizadas tanto en entornos virtuales como reales. Según se ha explicado en una publicación oficial de su blog, el objetivo de Smolvla es facilitar el acceso a los modelos VLA (visión-lenguaje-acción) y acelerar la investigación en el ámbito de los agentes robóticos generalistas.
Se ha destacado que Smolvla no solo representa un modelo liviano y eficiente, sino que también incorpora un enfoque metodológico para el entrenamiento y evaluación de tecnologías robóticas generalistas. Este desarrollo se enmarca dentro de una estrategia más amplia por parte de Hugging Face, orientada a consolidar un ecosistema robótico de software y hardware accesible y de bajo coste.
Durante el año anterior, se introdujo Lerobot, una iniciativa compuesta por modelos, datasets y herramientas enfocados en la robótica. Posteriormente, se realizó la adquisición de Pollen Robotics, una empresa emergente con sede en Francia, y se anunciaron nuevos sistemas robóticos económicos, entre los cuales se incluyen plataformas humanoides disponibles para el público.
El modelo Smolvla, con un tamaño de 450 millones de parámetros, ha sido entrenado utilizando datos provenientes de la comunidad de Lerobot y otros conjuntos de datos etiquetados específicamente para robótica, disponibles en la plataforma de Hugging Face. Estos parámetros, también conocidos como pesos, son los elementos que determinan el comportamiento del modelo.
Se ha subrayado que Smolvla puede ejecutarse en una sola GPU de consumo o incluso en una computadora portátil como una MacBook. Además, su implementación ha sido diseñada para hardware asequible, incluidos los sistemas robóticos propios de la empresa desarrolladora.
El modelo Smolvla ya se encuentra disponible para su descarga en la plataforma de Hugging Face. Usuarios de la comunidad han comenzado a experimentar con su aplicación en hardware existente. Uno de ellos ha declarado que logró controlar un brazo robótico de terceros utilizando el modelo con tan solo 31 demostraciones, obteniendo resultados que igualan o superan modelos especializados en tareas únicas.
Una innovación particular de este modelo consiste en su compatibilidad con una arquitectura de inferencia asincrónica, mediante la cual se separan los procesos de percepción (visión y audio) de los de acción. Gracias a esta estructura, se ha indicado que los robots pueden responder con mayor rapidez en entornos dinámicos.
No obstante, se ha señalado que Hugging Face no es el único actor relevante en el creciente ecosistema de la robótica abierta. Empresas como Nvidia han desarrollado herramientas específicas para esta área, mientras que startups como K-Scale Labs están trabajando en componentes para humanoides de código abierto. Asimismo, destacan otras iniciativas como las de Dyna Robotics, RLWRLD y Physical Intelligence, esta última respaldada por Jeff Bezos.
Con Smolvla, se ha dado un nuevo paso hacia la democratización de la robótica, al ofrecer soluciones potentes, accesibles y adaptables a un amplio abanico de aplicaciones.