로봇이 중요한 물체에 집중할 수 있도록 지원

소스 패킷이 흩어져 있는 카운터부터 시작하여 지저분한 주방을 정리해야 한다고 상상해 보십시오. 목표가 카운터를 깨끗하게 닦는 것이라면 패킷을 그룹으로 정리할 수 있습니다. 그러나 나머지를 버리기 전에 먼저 겨자 패킷을 선택하려면 소스 유형별로 더 차별적으로 정렬해야 합니다. 그리고 머스타드 중에서 그레이 푸퐁에 대한 동경이 있었다면, 이 특정 브랜드를 찾으려면 좀 더 신중한 검색이 필요할 것입니다.

MIT 엔지니어들은 로봇이 유사하게 직관적이고 작업 관련 결정을 내릴 수 있는 방법을 개발했습니다.

Clio라는 팀의 새로운 접근 방식을 사용하면 로봇이 주어진 작업에서 중요한 장면 부분을 식별할 수 있습니다. Clio를 사용하면 로봇은 자연어로 설명된 작업 목록을 받아 이러한 작업을 기반으로 주변 환경을 해석하고 관련 장면 부분만 “기억”하는 데 필요한 세부 수준을 결정합니다.

복잡한 큐비클부터 MIT 캠퍼스의 5층 건물까지 실제 실험에서 팀은 Clio를 사용하여 “랙 이동”과 같은 자연어 프롬프트에 지정된 작업 세트를 기반으로 장면을 다양한 세부 수준으로 자동 분할했습니다. 잡지’와 ‘구급 상자를 구하세요.’

팀은 또한 4족 로봇에서 실시간으로 Clio를 실행했습니다. 로봇이 사무실 건물을 탐색할 때 클리오는 로봇의 작업(사무용품 더미를 무시하고 개 장난감을 가져오는 등)과 관련된 장면 부분만 식별하고 매핑하여 로봇이 관심 있는 물체를 잡을 수 있도록 했습니다.

Clio는 주어진 작업에 중요한 요소만 식별하고 기억하는 능력으로 인해 그리스 역사의 뮤즈의 이름을 따서 명명되었습니다. 연구원들은 Clio가 로봇이 주어진 작업의 맥락에서 주변 환경을 신속하게 조사하고 이해해야 하는 많은 상황과 환경에서 유용할 것이라고 생각합니다.

MIT 항공우주학과(AeroAstro) 부교수인 루카 칼론(Luca Carlone)은 “수색 및 구조는 이 작업에 대한 동기 부여 응용 프로그램이지만 Clio는 가정용 로봇과 인간과 함께 공장 현장에서 일하는 로봇에도 전력을 공급할 수 있습니다.”라고 말했습니다. LIDS(정보 및 의사결정 시스템 연구소) 및 MIT SPARK 연구소 소장. “로봇이 임무를 수행하기 위해 기억해야 할 사항과 환경을 이해하도록 돕는 것이 중요합니다.”

팀은 오늘 저널에 게재된 연구에서 결과를 자세히 설명합니다. 로봇 공학 및 자동화 편지. Carlone의 공동 저자로는 SPARK Lab의 구성원인 Dominic Maggio, Yun Chang, Nathan Hughes 및 Lukas Schmid가 있습니다. MIT Lincoln Laboratory 회원: Matthew Trang, Dan Griffith, Carlyn Dougherty 및 Eric Cristofalo.

열린 필드

컴퓨터 비전 및 자연어 처리 분야의 엄청난 발전으로 로봇은 주변의 물체를 식별할 수 있게 되었습니다. 그러나 최근까지 로봇은 로봇이 인식하도록 사전 훈련된 한정된 수의 물체를 사용하여 세심하게 관리되고 제어되는 환경에서 작업하도록 프로그래밍된 “폐쇄 세트” 시나리오에서만 그렇게 할 수 있었습니다.

최근 몇 년 동안 연구자들은 로봇이 보다 현실적인 환경에서 물체를 인식할 수 있도록 보다 “개방적인” 접근 방식을 취했습니다. 개방형 인식 분야에서 연구자들은 딥러닝 도구를 활용하여 인터넷에서 수십억 개의 이미지와 각 이미지의 관련 텍스트(예: 친구의 Facebook 개 사진, 내 새 강아지!”).

수백만 개의 이미지-텍스트 쌍에서 신경망은 개와 같은 특정 용어의 특징을 나타내는 장면의 세그먼트를 학습한 다음 식별합니다. 그런 다음 로봇은 해당 신경망을 적용하여 완전히 새로운 장면에서 개를 발견할 수 있습니다.

그러나 특정 작업과 관련된 유용한 방식으로 장면을 구문 분석하는 방법에 대한 과제는 여전히 남아 있습니다.

“일반적인 방법은 장면의 세그먼트를 하나의 ‘객체’로 간주할 수 있는 것으로 융합하는 방법을 결정하기 위해 임의적이고 고정된 세분성 수준을 선택합니다.”라고 Maggio는 말합니다. “그러나 ‘객체’라고 부르는 것의 세분성은 실제로 로봇이 수행해야 하는 작업과 관련이 있습니다. 작업을 고려하지 않고 세분성이 고정되면 로봇은 작업에 유용하지 않은 지도를 갖게 될 수 있습니다.”

정보 병목 현상

MIT 팀은 Clio를 통해 로봇이 당면한 작업에 자동으로 조정할 수 있는 수준으로 세부적으로 주변 환경을 해석할 수 있도록 하는 것을 목표로 했습니다.

예를 들어, 책 더미를 선반으로 옮기는 작업이 주어지면 로봇은 책 더미 전체가 작업과 관련된 개체인지 판단할 수 있어야 합니다. 마찬가지로, 작업이 스택의 나머지 부분에서 녹색 책만 이동하는 것이라면 로봇은 녹색 책을 단일 대상 객체로 구별하고 스택의 다른 책을 포함하여 장면의 나머지 부분을 무시해야 합니다.

팀의 접근 방식은 수백만 개의 오픈 소스 이미지와 의미 텍스트를 연결하는 신경망으로 구성된 대규모 언어 모델과 최첨단 컴퓨터 비전을 결합합니다. 또한 이미지를 자동으로 여러 개의 작은 세그먼트로 분할하는 매핑 도구를 통합하여 신경망에 입력하여 특정 세그먼트가 의미상 유사한지 확인할 수 있습니다. 그런 다음 연구원들은 “정보 병목 현상”이라는 고전적인 정보 이론의 아이디어를 활용하여 주어진 작업과 의미상 가장 관련성이 높은 세그먼트를 선택하고 저장하는 방식으로 여러 이미지 세그먼트를 압축하는 데 사용합니다.

“예를 들어 장면에 책 더미가 있는데 내 임무가 단지 녹색 책을 가져오는 것이라고 가정해 보겠습니다. 이 경우 병목 현상을 통해 장면에 대한 모든 정보를 푸시하고 녹색 책을 나타내는 세그먼트 클러스터로 끝납니다.”라고 Maggio는 설명합니다. “관련되지 않은 다른 모든 세그먼트는 간단히 제거할 수 있는 클러스터로 그룹화됩니다. 그리고 내 작업을 지원하는 데 필요한 올바른 세분성 개체가 남습니다.”

연구원들은 다양한 실제 환경에서 Clio를 시연했습니다.

“우리가 정말 말도 안 되는 실험이라고 생각한 것은 제가 사전에 청소를 전혀 하지 않은 제 아파트에서 Clio를 실행하는 것이었습니다.”라고 Maggio는 말합니다.

팀은 ‘옷 더미 옮기기’와 같은 자연어 작업 목록을 작성한 다음 Maggio의 어수선한 아파트 이미지에 Clio를 적용했습니다. 이 경우 Clio는 아파트의 장면을 신속하게 분할하고 정보 병목 알고리즘을 통해 세그먼트에 피드를 제공하여 옷 더미를 구성하는 세그먼트를 식별할 수 있었습니다.

그들은 또한 Boston Dynamic의 4족 로봇인 Spot에서 Clio를 실행했습니다. 그들은 로봇에게 완료해야 할 작업 목록을 주었고 로봇이 사무실 건물 내부를 탐색하고 매핑하는 동안 Clio는 Spot에 장착된 온보드 컴퓨터에서 실시간으로 실행하여 매핑된 장면에서 세그먼트를 선택했습니다. 주어진 작업과 시각적으로 관련됩니다. 이 방법은 대상 객체만 보여주는 오버레이 맵을 생성했으며, 로봇은 이를 식별된 객체에 접근하고 물리적으로 작업을 완료하는 데 사용했습니다.

Maggio는 “실시간으로 Clio를 실행하는 것은 팀에게 큰 성과였습니다.”라고 말합니다. “많은 이전 작업을 실행하는 데 몇 시간이 걸릴 수 있습니다.”

앞으로 팀은 더 높은 수준의 작업을 처리하고 사실적인 시각적 장면 표현의 최근 발전을 기반으로 Clio를 조정할 계획입니다.

Maggio는 “우리는 여전히 ‘카드 찾기’와 같은 다소 구체적인 Clio 작업을 제공하고 있습니다.”라고 말합니다. “수색 및 구조를 위해서는 ‘생존자 찾기’, ‘전원 다시 켜기’ 등 좀 더 높은 수준의 작업을 맡겨야 합니다. 그래서 우리는 보다 복잡한 작업을 수행하는 방법에 대해 보다 인간적인 수준에서 이해하고 싶습니다.”

이 연구는 부분적으로 미국 국립과학재단, 스위스 국립과학재단, MIT 링컨 연구소, 미국 해군 연구실, 미 육군 연구소 분산 및 협업 지능형 시스템 및 기술 협력 연구 연합의 지원을 받았습니다.



Source link

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *