구글(GOOGL)이 자율 로봇을 위한 최신 AI 모델인 ‘제미니 로보틱스(Gemini Robotics)’와 ‘제미니 로보틱스-ER(Gemini Robotics-ER)’을 공개했다. 이 모델들은 지난해 12월 발표된 ‘제미니 2.0’ 대형 언어 모델(LLM)을 기반으로 하며, 텍스트뿐만 아니라 영상 등 다양한 멀티모달 데이터를 처리할 수 있다.
제미니 로보틱스는 ‘비전-언어-행동 모델’로 설계되었으며, 인간의 자연어 명령을 이해하고 복잡한 작업을 수행할 수 있도록 돕는다. 사용자가 종이 접기를 요청하면 이를 실행하거나 물건을 지퍼백에 담는 등의 작업이 가능하다. 기존 산업용 로봇은 새로운 기능을 학습하기 위해 개별적인 프로그래밍이 필요했지만, 제미니 로보틱스는 별도의 프로그래밍 없이 새로운 작업을 수행할 수 있도록 설계되었다.
구글은 제미니 로보틱스의 일반화 능력을 평가하기 위한 테스트에서 기존 모델 대비 두 배 이상의 성능 향상을 보였다고 밝혔다. 카롤리나 파라다(Carolina Parada) 구글 딥마인드 로보틱스 총괄은 “예기치 않은 상황에서도 로봇이 신속하게 계획을 수정하며 작업을 지속할 수 있다”고 강조했다.
제미니 로보틱스-ER은 공간 추론(spatial reasoning)에 최적화된 모델로, 로봇이 사물을 인식하고 최적의 동작 경로를 계산하는 복잡한 연산을 수행한다. 예를 들어, 컵을 집으려면 손잡이 위치를 파악하고 적절한 각도로 접근해야 하며, 이러한 과정을 자동으로 설정해준다. 또한, 개발자가 소수의 인간 시연만으로도 로봇이 최적의 행동 방식을 학습할 수 있도록 지원한다.
구글은 이 새로운 AI 모델을 다양한 파트너 기업과 협업해 적용할 계획이다. 그중 하나로, 최근 3억 5,000만 달러(약 5,040억 원) 규모의 투자 유치를 마친 휴머노이드 로봇 스타트업 앱트로닉(Apptronik)과 손잡고, 제미니 2.0 기반의 차세대 로봇을 개발할 예정이다.
이번 AI 모델 출시는 자율 로봇 산업의 혁신을 가속화하는 계기가 될 것으로 전망된다.