Google упростила обучение роботов разным действиям с помощью ИИ-модели RT-2 — машины научили выбрасывать мусор
Разработка Google DeepMind под названием RT-2 (Robotics Transformer 2) знаменует собой не просто очередной шаг в робототехнике, а смену парадигмы: отныне робот способен выполнять действия, которым его никогда напрямую не обучали. В ходе более чем 6000 тестов новая система продемонстрировала двукратное превосходство над предшественником при работе с незнакомыми объектами — 62% успеха против 32% у RT-1. Это означает, что промышленность и логистика могут получить машины, адаптирующиеся к хаосу реального мира без дорогостоящего перепрограммирования.
«Зрение-язык-действие»: как ИИ учится на интернете, а не на инструкциях
Ключевое отличие RT-2 — это архитектура класса Vision-Language-Action (VLA), построенная на принципах «Трансформера». В отличие от традиционных методов, где каждый объект, среда и действие требуют ручного ввода данных, новая модель обучается на гигантских массивах текстов и изображений из сети. Она не просто распознает картинку или команду — она преобразует их в двигательные команды. В Google это называют «языком роботов»: система понимает абстрактные концепции и переводит их в физические движения.
Проблема «паралича» решена
До сих пор главным камнем преткновения был разрыв между «высоким» мышлением и «низкими» действиями. Роботы могли рассуждать о целях, но не могли заставить свои манипуляторы выполнить элементарную работу. Предыдущие модели, такие как PaLM-E и RT-1, улучшили ориентацию в пространстве и способность учиться у собратьев, но не решали проблему моторного контроля. RT-2 объединяет алгоритмы рассуждения и управления в единый поток, позволяя машине действовать даже в ситуациях, не описанных в обучающей выборке.
Практический прорыв: мусор, который не нужно «объяснять»
пустой пакет от чипсов и банановая кожура становятся мусором только после того, как человек съел содержимое. Это абстрактное понимание причинно-следственных связей ранее было недоступно для промышленных роботов.Традиционный подход к обучению роботов остается чрезмерно трудоемким и дорогим, требуя ввода данных по каждому объекту, среде и сценарию. Внедрение моделей машинного зрения и трансферного обучения частично облегчило ситуацию, но RT-2 впервые предлагает сквозное решение, где «зрение» и «действие» являются частями одной нейросети.
С практической точки зрения, успех RT-2 открывает дорогу к созданию универсальных роботов-помощников, способных работать на складах, в сортировочных центрах и даже в быту без предварительной настройки под каждую новую задачу. Снижение порога входа для разработчиков и двукратный рост эффективности в нестандартных ситуациях делают эту технологию не просто лабораторным курьезом, а реальным драйвером для автоматизации следующего поколения.















