정밀 홈 로봇은 실제-시뮬레이션-실제로 학습합니다.

정밀 홈 로봇은 실제-시뮬레이션-실제로 학습합니다.



정밀 홈 로봇은 실제-시뮬레이션-실제로 학습합니다.

많은 자동화 희망 목록의 맨 위에는 특히 시간이 많이 걸리는 작업인 집안일이 있습니다.

많은 로봇공학자의 문샷은 적절한 하드웨어와 소프트웨어 조합을 만들어내어 기계가 모든 곳에서 모든 조건에서 작동하는 “일반적인” 정책(로봇 행동을 안내하는 규칙과 전략)을 학습할 수 있도록 하는 것입니다. 하지만 현실적으로, 집에 로봇이 있다면 이웃을 위해 일하는 것에 대해 별로 신경 쓰지 않을 것입니다. MIT 컴퓨터 과학 및 인공지능 연구소(CSAIL) 연구원들은 이를 염두에 두고 매우 특정한 환경에 대한 견고한 로봇 정책을 쉽게 훈련할 수 있는 솔루션을 찾기로 결정했습니다.

“우리는 로봇이 단일 환경 내에서 교란, 방해, 다양한 조명 조건 및 객체 포즈의 변화에도 예외적으로 잘 작동하도록 하는 것을 목표로 합니다.” Improbable AI 연구실의 MIT CSAIL 연구 보조원이자 최근 연구에 대한 논문의 주저자인 Marcel Torne Villasevil이 말했습니다. “우리는 컴퓨터 비전의 최신 발전을 사용하여 즉석에서 디지털 트윈을 만드는 방법을 제안합니다. 누구나 휴대전화만 있으면 실제 세계의 디지털 복제본을 캡처할 수 있으며, 로봇은 GPU 병렬화 덕분에 실제 세계보다 훨씬 빠르게 시뮬레이션된 환경에서 훈련할 수 있습니다. 우리의 접근 방식은 몇 가지 실제 데모를 활용하여 훈련 프로세스를 시작함으로써 광범위한 보상 엔지니어링의 필요성을 제거합니다.”

로봇을 집으로 가져가기

물론 RialTo는 단순히 전화를 흔들고 (붐!) 홈봇을 제공하는 것보다 조금 더 복잡합니다. 먼저 NeRFStudio, ARCode 또는 Polycam과 같은 도구를 사용하여 대상 환경을 스캔하는 것으로 시작합니다. 장면이 재구성되면 사용자는 RialTo 인터페이스에 업로드하여 세부 조정을 하고 로봇에 필요한 조인트를 추가하는 등의 작업을 할 수 있습니다.

정제된 장면은 내보내져 시뮬레이터로 가져옵니다. 여기서 목표는 카운터에서 컵을 잡는 것과 같은 실제 행동과 관찰에 기반한 정책을 개발하는 것입니다. 이러한 실제 데모는 시뮬레이션에서 복제되어 강화 학습을 위한 귀중한 데이터를 제공합니다. “이것은 시뮬레이션과 실제 세계에서 모두 잘 작동하는 강력한 정책을 만드는 데 도움이 됩니다. 강화 학습을 사용하는 향상된 알고리즘은 이 프로세스를 안내하여 시뮬레이터 외부에서 적용될 때 정책이 효과적임을 보장합니다.”라고 Torne은 말합니다.

테스트 결과, RialTo는 통제된 실험실 환경이든 예측할 수 없는 실제 환경이든 다양한 작업에 대해 강력한 정책을 만들어 동일한 수의 시범으로 모방 학습보다 67% 향상되었습니다. 작업에는 토스터 열기, 책 선반에 책 놓기, 접시 랙에 놓기, 머그잔 선반에 놓기, 서랍 열기, 캐비닛 열기가 포함되었습니다. 각 작업에 대해 연구자들은 객체 포즈 무작위화, 시각적 방해 요소 추가, 작업 실행 중 물리적 교란 적용의 세 가지 난이도 수준에서 시스템의 성능을 테스트했습니다. 실제 데이터와 페어링했을 때, 시스템은 특히 시각적 방해 요소나 물리적 교란이 많은 상황에서 기존의 모방 학습 방법보다 성능이 우수했습니다.

“이러한 실험은 특정 환경에 대한 매우 견고성을 중요하게 여긴다면 다양한 환경에서 대규모 데이터 수집으로 견고성을 얻으려고 하는 대신 디지털 트윈을 활용하는 것이 가장 좋은 방법이라는 것을 보여줍니다.” Improbable AI Lab의 책임자이자 MIT 전기공학 및 컴퓨터 과학(EECS) 준교수, MIT CSAIL 수석 연구원이며 이 연구의 수석 저자인 풀킷 아그라왈의 말입니다.

제한 사항과 관련하여 RialTo는 현재 완전히 훈련하는 데 3일이 걸립니다. 이를 가속화하기 위해 팀은 기본 알고리즘을 개선하고 기초 모델을 사용한다고 언급했습니다. 시뮬레이션 훈련에도 제한 사항이 있으며, 현재는 손쉽게 시뮬레이션에서 실제 전송을 수행하고 변형 가능한 물체나 액체를 시뮬레이션하는 것이 어렵습니다.

다음 단계

RialTo의 다음 여정은 무엇일까요? 과학자들은 이전의 노력을 바탕으로 다양한 교란에 대한 견고성을 유지하면서도 새로운 환경에 대한 모델의 적응력을 개선하기 위해 노력하고 있습니다. Torne은 “다음으로 사전 훈련된 모델을 사용하고, 학습 과정을 가속화하고, 인간의 입력을 최소화하고, 더 광범위한 일반화 기능을 달성하는 접근 방식입니다.”라고 말합니다.

“우리는 로봇이 주변 환경을 자율적으로 스캔하고 시뮬레이션에서 특정 작업을 해결하는 방법을 학습할 수 있는 ‘즉석’ 로봇 프로그래밍 개념에 대해 엄청나게 열광하고 있습니다. 현재 방법에는 한계가 있습니다. 예를 들어, 사람이 몇 번 초기 시연을 해야 하고 이러한 정책을 훈련하는 데 상당한 컴퓨팅 시간(최대 3일)이 필요하지만, 우리는 이를 ‘즉석’ 로봇 학습 및 배포를 달성하기 위한 중요한 단계로 보고 있습니다.”라고 Torne은 말합니다. “이 접근 방식은 로봇이 모든 시나리오를 포괄하는 기존 정책이 필요하지 않은 미래에 더 가까워집니다. 대신 로봇은 광범위한 현실 세계 상호 작용 없이도 새로운 작업을 빠르게 학습할 수 있습니다. 제 생각에 이러한 발전은 보편적이고 포괄적인 정책에만 의존하는 것보다 훨씬 빨리 로봇 공학의 실제 적용을 촉진할 수 있습니다.”

“연구자들은 실제 세계에 로봇을 배치하기 위해 전문가 데이터에서 모방 학습과 같은 방법에 의존해 왔는데, 이는 비용이 많이 들 수 있고, 강화 학습은 안전하지 않을 수 있습니다.” 논문에 참여하지 않은 워싱턴 대학교의 컴퓨터 과학 박사 과정 학생인 조이 첸의 말입니다. “RialTo는 실제 세계 RL의 안전 제약을 직접 해결합니다. [robot learning]그리고 데이터 중심 학습 방법을 위한 효율적인 데이터 제약 조건, 새로운 real-to-sim-to-real 파이프라인을 제공합니다. 이 새로운 파이프라인은 실제 배포 전에 시뮬레이션에서 안전하고 견고한 교육을 보장할 뿐만 아니라 데이터 수집의 효율성을 크게 개선합니다. RialTo는 로봇 학습을 크게 확장할 수 있는 잠재력이 있으며 로봇이 복잡한 실제 시나리오에 훨씬 더 효과적으로 적응할 수 있도록 합니다.”

“시뮬레이션은 정책 학습을 위한 저렴하고 무한한 데이터를 제공함으로써 실제 로봇에서 인상적인 역량을 보여주었습니다.” 워싱턴 대학교의 컴퓨터 과학 박사 과정 학생인 Marius Memmel은 이 작업에 참여하지 않았습니다. “그러나 이러한 방법은 몇 가지 특정 시나리오로 제한되어 있으며 해당 시뮬레이션을 구성하는 데 비용이 많이 들고 노력이 많이 듭니다. RialTo는 몇 시간이 아닌 몇 분 만에 실제 환경을 재구성하는 사용하기 쉬운 도구를 제공합니다. 또한 정책 학습 중에 수집된 데모를 광범위하게 사용하여 운영자의 부담을 최소화하고 sim2real 갭을 줄입니다. RialTo는 객체 포즈와 교란에 대한 견고성을 보여주며 광범위한 시뮬레이터 구축 및 데이터 수집이 필요 없이 놀라운 실제 성능을 보여줍니다.”

Torne은 워싱턴 대학교 조교수인 Abhishek Gupta와 Agrawal과 함께 이 논문을 썼습니다. 다른 4명의 CSAIL 회원도 인정받았습니다: EECS 박사 과정생 Anthony Simeonov SM ’22, 연구 조수 Zechu Li, 학부생 April Chan, Tao Chen 박사 과정 ’24. Improbable AI Lab과 WEIRD Lab 회원도 이 프로젝트를 개발하는 데 귀중한 피드백과 지원을 제공했습니다.

이 연구는 소니 리서치 어워드, 미국 정부, 현대자동차의 지원을 받았으며, WEIRD(워싱턴 체현 지능 및 로봇 개발) 랩의 지원을 받았습니다. 연구원들은 이번 달 초에 열린 Robotics Science and Systems(RSS) 컨퍼런스에서 연구 결과를 발표했습니다.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *