OpenVLA: El modelo de robótica de Código Abierto con IA

By Juan Diego Polo

Imagen de un robot futurista en un laboratorio, interactuando con diversos objetos y realizando tareas. El robot está equipado con sensores avanzados y cámaras, mostrando la integración de modelos de visión-lenguaje-acción (VLA). En el fondo, investigadores observan y trabajan en computadoras, destacando la naturaleza abierta y colaborativa del proyecto OpenVLA.

En un esfuerzo por hacer la robótica más accesible y personalizable, un grupo de investigadores de Stanford, UC Berkeley, el Instituto de Investigación de Toyota y Google Deepmind han lanzado OpenVLA. Este modelo de visión-lenguaje-acción (VLA) de código abierto promete cambiar la manera en que entendemos y utilizamos la inteligencia artificial en la robótica.

Los modelos VLA tradicionales han sido revolucionarios, pero su adopción ha sido limitada por su naturaleza cerrada y la falta de prácticas recomendadas para su implementación en nuevos entornos. OpenVLA nace para abordar estos problemas, ofreciendo un modelo abierto y flexible, diseñado para ser optimizado y adaptado con facilidad.

¿Qué es OpenVLA?

OpenVLA es un modelo con 7 mil millones de parámetros, basado en el modelo de visión-lenguaje Prismatic-7B. Utiliza un codificador visual de dos partes para extraer características de las imágenes y el modelo Llama-2 7B para procesar instrucciones en lenguaje natural. Este enfoque le permite al modelo interpretar comandos y decidir la secuencia de acciones que debe realizar un robot para completar una tarea.

Formación y Rendimiento

Para entrenar OpenVLA, los investigadores utilizaron un conjunto de datos masivo de 970,000 trayectorias de manipulación de robots del dataset Open-X Embodiment. Esto abarca una amplia gama de robots, tareas y escenarios, lo que permite al modelo generalizar de manera efectiva.

El rendimiento de OpenVLA ha sido notable. Supera al modelo RT-2-X de 55 mil millones de parámetros en diversas tareas y entornos, demostrando su eficacia y eficiencia. Además, es capaz de ser afinado con estrategias de bajo costo, utilizando técnicas de adaptación de bajo rango (LoRA) y cuantización de modelos.

Implementación y Accesibilidad

Uno de los puntos fuertes de OpenVLA es su accesibilidad. Los investigadores han puesto a disposición de la comunidad todos los modelos, cuadernos de implementación y afinación, y el código base de OpenVLA para la formación de VLAs a gran escala. Esto incluye soporte para la afinación del modelo en GPUs individuales y el entrenamiento en clusters de múltiples GPUs, así como compatibilidad con técnicas modernas de optimización y paralelización.

Casos de Uso y Futuras Mejoras

OpenVLA ya ha demostrado su capacidad en tareas de manipulación de objetos y limpieza de superficies, con un éxito notable en la generalización de instrucciones en entornos multitarea. Los investigadores planean mejorar OpenVLA para soportar múltiples entradas de imagen y datos proprioceptivos, así como el historial de observación, lo que aumentará su flexibilidad y capacidad de adaptación.

OpenVLA representa un avance significativo en la robótica, al hacer accesibles modelos VLA de alto rendimiento a un público más amplio. Con su capacidad de generalizar tareas y su eficiencia en el uso de recursos, este modelo tiene el potencial de transformar la manera en que los robots interactúan con el mundo.


La noticia OpenVLA: El modelo de robótica de Código Abierto con IA fue publicada originalmente en Wwwhatsnew.com por Juan Diego Polo.

Source:: Wwwath’s new

Add a Comment

You must be logged in to post a comment