자연어는 코딩, 계획 및 로봇 공학 분야에서 LLM 성과를 향상시킵니다.

LLM(대형 언어 모델)은 프로그래밍 및 로봇 공학 작업에 점점 더 유용해지고 있지만 더 복잡한 추론 문제의 경우 이러한 시스템과 인간 사이의 격차가 커집니다. 인간처럼 새로운 개념을 학습할 수 있는 능력이 없으면 이러한 시스템은 좋은 추상화(본질적으로 덜 중요한 세부 사항을 건너뛰는 복잡한 개념의 상위 수준 표현)를 형성하지 못하므로 더 정교한 작업을 수행하라는 요청을 받으면 펄쩍 뛰게 됩니다.

운 좋게도 MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL) 연구원들은 자연어 내에서 추상화의 보고를 발견했습니다. 이번 달 학습 표현에 관한 국제 회의에서 발표될 세 가지 논문에서 그룹은 일상적인 단어가 어떻게 언어 모델에 대한 풍부한 맥락의 소스가 되어 코드 합성, AI 계획 및 로봇 탐색을 위한 더 나은 포괄적인 표현을 구축하는 데 도움이 되는지 보여줍니다. 시장 조작.

세 가지 개별 프레임워크는 주어진 작업에 대한 추상화 라이브러리를 구축합니다. LILO(언어 관찰의 라이브러리 유도)는 코드를 합성, 압축 및 문서화할 수 있습니다. Ada(액션 도메인 획득)는 인공 지능 에이전트의 순차적 의사 결정을 탐색합니다. LGA(언어 기반 추상화)는 로봇이 환경을 더 잘 이해하여 보다 실현 가능한 계획을 개발할 수 있도록 도와줍니다. 각 시스템은 인간과 유사한 신경망과 프로그램과 같은 논리적 구성요소를 혼합한 AI 유형인 신경기호적 방법입니다.

LILO: 코드를 작성하는 신경 기호 프레임워크

대규모 언어 모델을 사용하면 소규모 코딩 작업에 대한 솔루션을 신속하게 작성할 수 있지만 아직 인간 소프트웨어 엔지니어가 작성한 것과 같은 전체 소프트웨어 라이브러리를 설계할 수는 없습니다. 소프트웨어 개발 기능을 더욱 발전시키려면 AI 모델은 코드를 간결하고 읽기 쉽고 재사용 가능한 프로그램 라이브러리로 리팩터링(삭제 및 결합)해야 합니다.

이전에 개발된 MIT 주도의 Stitch 알고리즘과 같은 리팩토링 도구는 추상화를 자동으로 식별할 수 있으므로 CSAIL 연구원은 디즈니 영화 “Lilo & Stitch”에 대한 고개를 끄덕이며 이러한 알고리즘 리팩토링 접근 방식을 LLM과 결합했습니다. 신경 기호 방법 LILO는 표준 LLM을 사용하여 코드를 작성한 다음 이를 Stitch와 결합하여 라이브러리에 포괄적으로 문서화되어 있는 추상화를 찾습니다.

LILO는 자연어를 독특하게 강조하므로 시스템은 코드 문자열에서 모든 모음을 식별 및 제거하고 눈송이를 그리는 등 인간과 같은 상식적 지식이 필요한 작업을 수행할 수 있습니다. 두 경우 모두 CSAIL 시스템은 독립형 LLM과 DreamCoder라는 MIT의 이전 라이브러리 학습 알고리즘보다 성능이 뛰어났으며 이는 프롬프트 내 단어에 대한 더 깊은 이해를 구축하는 능력을 나타냅니다. 이러한 고무적인 결과는 LILO가 Excel 스프레드시트와 같은 문서를 조작하는 프로그램 작성, AI가 시각 자료에 대한 질문에 답하도록 돕고 2D 그래픽 그리기와 같은 작업을 지원할 수 있음을 나타냅니다.

“언어 모델은 자연어로 명명된 함수를 사용하는 것을 선호합니다”라고 MIT 전기 공학 및 컴퓨터 과학 박사 과정 학생이자 CSAIL 계열사이자 연구의 주요 저자인 Gabe Grand SM ’23은 말합니다. “우리 작업은 언어 모델에 대한 보다 간단한 추상화를 생성하고 각 모델에 자연어 이름과 문서를 할당하여 프로그래머가 더 해석하기 쉬운 코드를 만들고 시스템 성능을 향상시킵니다.”

프로그래밍 작업에 대한 메시지가 표시되면 LILO는 먼저 LLM을 사용하여 훈련된 데이터를 기반으로 솔루션을 신속하게 제안한 다음 시스템은 외부 솔루션을 천천히 더 철저하게 검색합니다. 다음으로 Stitch는 코드 내의 공통 구조를 효율적으로 식별하고 유용한 추상화를 끌어냅니다. 그런 다음 LILO에 의해 자동으로 이름이 지정되고 문서화되므로 시스템에서 더 복잡한 작업을 해결하는 데 사용할 수 있는 단순화된 프로그램이 생성됩니다.

MIT 프레임워크는 어린이들에게 프로그래밍을 가르치기 위해 1970년대 MIT에서 개발한 언어인 Logo와 같은 영역별 프로그래밍 언어로 프로그램을 작성합니다. Python과 같은 보다 일반적인 프로그래밍 언어를 처리하기 위해 자동화된 리팩토링 알고리즘을 확장하는 것이 향후 연구의 초점이 될 것입니다. 그럼에도 불구하고 그들의 작업은 언어 모델이 점점 더 정교한 코딩 활동을 촉진할 수 있는 방법에 대한 한 단계 발전을 나타냅니다.

Ada: 자연어가 AI 작업 계획을 안내합니다.

프로그래밍과 마찬가지로 가정 및 명령 기반 비디오 게임에서 다단계 작업을 자동화하는 AI 모델에는 추상화가 부족합니다. 당신이 아침 식사를 요리하고 룸메이트에게 뜨거운 계란을 테이블로 가져오라고 요청한다고 상상해 보십시오. 룸메이트는 부엌에서 요리하는 것에 대한 배경 지식을 일련의 작업으로 직관적으로 추상화할 것입니다. 이와 대조적으로 유사한 정보에 대해 교육을 받은 LLM은 유연한 계획을 수립하는 데 필요한 것이 무엇인지 추론하는 데 여전히 어려움을 겪을 것입니다.

많은 사람들이 세계 최초의 프로그래머로 간주하는 유명한 수학자 Ada Lovelace의 이름을 딴 CSAIL이 주도하는 “Ada” 프레임워크는 가상 주방 집안일과 게임을 위한 유용한 계획 라이브러리를 개발하여 이 문제를 해결하고 있습니다. 이 방법은 잠재적인 작업과 해당 자연어 설명을 학습한 다음 언어 모델이 이 데이터 세트에서 작업 추상화를 제안합니다. 인간 운영자는 최상의 계획을 점수화하고 라이브러리에 필터링하여 다양한 작업에 대한 계층적 계획에 최상의 조치를 구현할 수 있습니다.

“전통적으로 대규모 언어 모델은 추상화에 대한 추론과 같은 문제 때문에 더 복잡한 작업을 수행하는 데 어려움을 겪었습니다.”라고 MIT 뇌 및 인지 과학 대학원생이자 CSAIL 계열사이자 LILO 공동 저자인 Ada 수석 연구원 Lio Wong은 말합니다. “그러나 소프트웨어 엔지니어와 로봇 공학자가 LLM과 함께 사용하는 도구를 결합하여 가상 환경에서의 의사 결정과 같은 어려운 문제를 해결할 수 있습니다.”

연구원들이 널리 사용되는 대형 언어 모델 GPT-4를 Ada에 통합했을 때 시스템은 AI 의사 결정 기준인 “정책으로서의 코드”보다 주방 시뮬레이터와 Mini Minecraft에서 더 많은 작업을 완료했습니다. Ada는 자연어에 숨겨진 배경 정보를 사용하여 차가운 와인을 캐비닛에 넣고 침대를 만드는 방법을 이해했습니다. 결과는 각각 59%와 89%의 놀라운 작업 정확도 향상을 나타냈습니다.

이러한 성공을 통해 연구원들은 Ada가 다른 가사 작업을 돕고 주방에서 여러 로봇을 도울 수 있기를 희망하면서 그들의 작업을 실제 가정으로 일반화하기를 희망합니다. 현재 주요 제한 사항은 일반 LLM을 사용한다는 것입니다. 따라서 CSAIL 팀은 보다 광범위한 계획을 지원할 수 있는 보다 강력하고 미세 조정된 언어 모델을 적용하려고 합니다. Wong과 그녀의 동료들은 Ada를 CSAIL에서 새로 나온 로봇 조작 프레임워크인 LGA(언어 유도 추상화)와 결합하는 것을 고려하고 있습니다.

언어 기반 추상화: 로봇 작업 표현

MIT 전기 공학 및 컴퓨터 과학 대학원생이자 CSAIL 계열사인 Andi Peng SM ’23과 그녀의 공동 저자는 기계가 주변 환경을 인간처럼 해석하여 공장이나 주방과 같은 복잡한 환경에서 불필요한 세부 사항을 제거할 수 있는 방법을 설계했습니다. LILO 및 Ada와 마찬가지로 LGA는 자연어가 어떻게 우리를 더 나은 추상화로 이끄는지에 새로운 초점을 맞추고 있습니다.

이러한 구조화되지 않은 환경에서 로봇은 사전에 기본 교육을 받은 경우에도 자신이 수행하는 작업에 대한 상식이 필요합니다. 예를 들어 로봇에게 그릇을 건네달라고 요청하면 기계는 주변 환경에서 어떤 기능이 중요한지에 대한 일반적인 이해가 필요합니다. 거기에서 당신이 원하는 아이템을 어떻게 줄 것인지 추론할 수 있습니다.

LGA의 경우 인간은 먼저 “내 모자를 가져와”와 같이 자연어를 사용하여 일반적인 작업 설명과 함께 사전 훈련된 언어 모델을 제공합니다. 그런 다음 모델은 이 정보를 이 작업을 수행하는 데 필요한 필수 요소에 대한 추상화로 변환합니다. 마지막으로, 몇 가지 시연을 통해 훈련된 모방 정책은 이러한 추상화를 구현하여 로봇이 원하는 항목을 잡도록 안내할 수 있습니다.

이전 작업에서는 사람이 로봇을 사전 훈련하기 위해 다양한 조작 작업에 대해 광범위한 메모를 해야 했으며 이는 비용이 많이 들 수 있습니다. 놀랍게도 LGA는 인간 주석 작성자와 유사한 추상화를 생성하도록 언어 모델을 안내하지만 시간은 더 짧습니다. 이를 설명하기 위해 LGA는 Boston Dynamics의 Spot 4족 동물이 과일을 집고 음료수를 재활용 쓰레기통에 버릴 수 있도록 돕는 로봇 정책을 개발했습니다. 이러한 실험은 MIT에서 개발한 방법이 어떻게 세상을 스캔하고 구조화되지 않은 환경에서 효과적인 계획을 개발할 수 있는지 보여 주며, 잠재적으로 도로 위의 자율 차량과 공장 및 주방에서 일하는 로봇을 안내합니다.

Peng은 “로봇공학에서 우리가 종종 무시하는 사실은 로봇을 현실 세계에서 유용하게 만들기 위해 데이터를 얼마나 정제해야 하는지입니다.”라고 말합니다. “작업을 수행하기 위해 로봇을 훈련시키기 위해 이미지에 있는 내용을 단순히 암기하는 것 이상으로 우리는 언어와 함께 컴퓨터 비전 및 캡션 모델을 활용하고 싶었습니다. 로봇이 보는 것에서 텍스트 캡션을 생성함으로써 우리는 언어 모델이 본질적으로 로봇에 대한 중요한 세계 지식을 구축할 수 있음을 보여줍니다.”

LGA의 과제는 일부 동작을 언어로 설명할 수 없어 특정 작업이 제대로 지정되지 않는다는 것입니다. 환경에서 기능을 표현하는 방법을 확장하기 위해 Peng과 동료들은 다중 모드 시각화 인터페이스를 작업에 통합하는 것을 고려하고 있습니다. 한편 LGA는 로봇이 인간에게 도움의 손길을 줄 때 주변 환경에 대해 더 나은 느낌을 얻을 수 있는 방법을 제공합니다.

AI의 “흥미로운 개척지”

논문에 참여하지 않은 위스콘신대학교 매디슨캠퍼스 조교수인 로버트 호킨스(Robert Hawkins)는 “도서관 학습은 인공지능의 가장 흥미로운 개척지 중 하나이며, 구성적 추상화를 발견하고 추론할 수 있는 길을 제공합니다.”라고 말합니다. Hawkins는 이 주제를 탐구하는 이전 기술이 “대규모로 사용하기에는 계산 비용이 너무 많이 들고” 생성되는 많은 언어에서 새로운 기능을 설명하는 데 사용되는 람다 또는 키워드에 문제가 있다고 지적합니다. “그들은 해석하기 어려운 함수가 잔뜩 쌓여 있는 불투명한 ‘람다 샐러드’를 생성하는 경향이 있습니다. 이러한 최근 논문은 기호 검색, 압축 및 계획 알고리즘을 사용하여 대화형 루프에 대규모 언어 모델을 배치함으로써 강력한 발전 방법을 보여줍니다. 이 작업을 통해 당면한 작업에 대해 더 해석 가능하고 적응력이 뛰어난 라이브러리를 신속하게 확보할 수 있습니다.”

자연어를 사용하여 고품질 코드 추상화 라이브러리를 구축함으로써 세 가지 신경 기호 방법을 사용하면 언어 모델이 향후 더욱 정교한 문제와 환경을 더 쉽게 해결할 수 있습니다. 프롬프트 내의 정확한 키워드에 대한 더 깊은 이해는 더욱 인간과 유사한 AI 모델을 개발하는 데 있어 앞으로 나아갈 길을 제시합니다.

MIT CSAIL 회원은 각 논문의 수석 저자입니다. LILO와 Ada의 뇌 및 인지 과학 교수인 Joshua Tenenbaum; LGA 항공우주학과장 Julie Shah; 세 가지 모두에 대해 전기 공학 및 컴퓨터 과학 부교수인 Jacob Andreas가 있습니다. 추가 MIT 저자는 모두 박사 과정 학생입니다. LILO의 Maddy Bowers와 Theo X. Olausson, Ada의 Jiayuan Mao와 Pratyusha Sharma, LGA의 Belinda Z. Li입니다. Harvey Mudd College의 Muxin Liu는 LILO의 공동저자였습니다. 프린스턴 대학의 Zachary Siegel, 버클리 캘리포니아 대학의 Jaihai Feng, Microsoft의 Noa Korneev가 Ada의 공동 저자였습니다. 그리고 Ilia Sucholutsky, Theodore R. Sumers, Princeton의 Thomas L. Griffiths가 LGA의 공동저자였습니다.

LILO와 Ada는 부분적으로 MIT Quest for Intelligence, MIT-IBM Watson AI Lab, Intel, 미 공군 과학 연구실, 미 국방 고등 연구 프로젝트 기관 및 미 해군 연구실의 지원을 받았습니다. , 후자의 프로젝트도 뇌, 정신 및 기계 센터로부터 자금을 지원받고 있습니다. LGA는 미국 국립과학재단, Open Philanthropy, 캐나다 자연과학 및 공학연구위원회, 미국 국방부로부터 자금 지원을 받았습니다.



Source link

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *