Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

IT 프로그래밍/논문 리뷰

Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

기술1 2025. 7. 11. 19:43

Abstract

언어 모델의 중요한 약점은 현실세계의 경험이 부족하다는 것입니다. 그래서 주어진 것 이내에는 어떠한 결정을 하는 것이 어렵습니다. 현실 세계의 제약 조건이나 로봇의 능력을 고려하지 않음

Pretained Skills

로봇이 수행할 수 있는 사전 훈련된 저수준 동작 기술들

이 기술들을 제약 조건으로 사용하여 언어 모델이 제안하는 행동들이 현실적으로 실행 가능하고 문맥에 맞는 형태가 되도록 유도

Language Model: 고수준 지식 및 절차 제공 (예: “액체를 닦아라”와 같은 추상적 지시)
로봇: 언어 모델의 “눈과 손”이 되어 실제 환경에서 동작 수행
Value Functions (가치 함수): 각 기술의 적합성과 효과를 평가하여 현실과 연결된 결정을 가능하게 함

여러 실제 로봇 작업에 적용
자연어로 주어진 추상적이고 장기적인(long-horizon) 지시도 성공적으로 수행 가능함을 입증
이 방식이 현실 세계 grounding의 필요성을 강조하고, 실제 환경에서 언어 모델과 로봇을 결합할 수 있는 실질적인 방안을 제시

Introduction

LLM의 발전으로 인해, 자연어 프롬프트 에 따른 복잡한 문장을 생성하거나, 질문 대답, 다양한 주제 대화 가능함 이러한 모델들은 웹에서 수집한 방대한 텍스트 데이터를 통해 일상적 작업 지식까지 습득

하지만 LLMs의 지식을 실제 로봇이 물리적 세계에서 과제를 수행하는 데 어떻게 활용 가능할까?

LLM은 자신이 생성한 텍스트가 현실에서 어떤 영향을 미치는지 모름, 이는 비현실적이거나 위험하게 분석할 수 있으며, 로봇에 대한 상세한 개념이 없기에 프롬프트 엔지니어링만으로는 한계가 있음

LLM을 현실세계와 접목시키기 위한 방법

로봇은 사전 학습된 atomic skills 보유
LLM은 low-level 지시를 받아, 어떤 스킬이 목표 달성에 유용한지 평가
각 스킬에는 affordance function 존재
LLM의 유용성 평가와 affordacne function의 실행 가능성 결합항여 성공 가능성 계산

이로써 LLM은

현재 장면을 인식할 수 있도록 하며, 생성 결과를 로봇의 스킬 설명을 제한함으로써 LLM의 로봇 능력 인식
LLM (Say) 어떤 행동이 유용한지 판단
("Can") Affordance는 어떤 행동이 가능한지 판단
로봇은 현실적으로 실행 가능한 언어 기반 계획을 따르게 됨

실험 및 성능

101개의 실제 로봇 작업에서 방법을 검증
제로샷(zero-shot) 조건에서도 다양한 자연어 지시를 수행
현실 세계 기반 affordance를 도입하면 성능이 약 2배 향상
다른 LLM을 사용했을 때도 성능 차이를 관찰 → 더 나은 LLM을 사용하면 로봇 성능도 향상

Preliminaries

Large Language Models

텍스트를 전체 확률로 모델링하는 것, Chain rule을 사용하여 확률을 다음과 같이 분해

→ 각 단어 w_j는 이전 단어들의 조건 하에 예측됨.

Transformer 기반의 LLM 방식

Transformers
BERT
T5, GPT-3, Gopher, LAMDA, FLAN, PaLM

Large capacity와 Subsequent ability (이들은 수십억개의 파라미터와 수 테라바이트 텍스트로 훈련됨

Value functions and RL

언어 명령으로 주어진 스킬이 현재 상태에서 실행 가능한지 정확히 예측하는 것입니다. 이를 위해 temporal-difference-based (TD) reinforcement learning (번역하자면 시간차 강화학습)

마르코프 결정 과정(Markov Decision Process, MDP) M=(S,A,P,R,γ)를 정의

S와 A: 상태(state)와 행동(action) 공간
P:S×A×S→ℝ^+: 상태 전이 확률 함수
R:S×A: 보상 함수
γ: 할인 계수(discount factor)

TD 방법의 목적은 정책 하에서 상태-행동 가치 함수(Q-function) Q^파이(s,a)를 학습하는 것, 이는 상태 s와 행동 a에서 시작하여 이후 정책 파이를 따랐을 때 받을 것으로 추정되ㅑ는 할ㅇ인된 누적 보상

Q^π(s,a)는 근사 동적 계획법(approximate dynamic programming)을 통해 다음 손실 함수를 최소화하여 학습할 수 있습니다.

DD: 상태-행동 데이터셋
θ: Q-함수의 파라미터

TD 기반의 방법을 사용해, 언어 명령에 조건화된 Value function을 학습, 이 value function을 통해 명령어 현재 상태에서 실행 가능한지 판단

discount-free, sparse reward 환경에서는 성공 시 마지막에 1.0, 실패 시 0.0 보상, RL로 학습된 가치 함수는 affordance function과 동일한 의미 가짐

문제: 로봇이 어떤 행동(skill)을 지금 실행할 수 있는지 예측하고자 함
접근: 강화학습(RL)의 가치 함수(Q-function)를 언어 명령에 조건화하여 학습
핵심 아이디어:
- 희소 보상 환경에서는 가치 함수 = affordance function
- 즉, 가치 함수가 높으면 → 그 행동은 현재 상태에서 실행 가능할 확률이 높음
결과: 로봇이 "지금 이 스킬을 쓸 수 있나?"를 판단할 수 있는 수단을 확보함

SayCan: Do As I Can, Not As I Say

Problem Statement.

시스템은 자연어 지시 i를 받습니다. 이는 길거나, 추상적이거나, 모호할 수 있습니다. 우리는 스킬집합 2를 가진다고 가정하고, 이는 특정 물체 집기 같은 짧은 작업이 수행되며, 짧은 언어 설명이 함께 주어집니다.

각 스킬에는 affordance 함수가 정의되며,

이는 상태 s에서 언어 설명 'π‘를 따랐을 때 스킬이 최종적으로 완료될 확률을 말합니다.

"로봇에게 π을 시켰을 때, 실행할 수 있는가?" 강화학습 관점에서 보면, 이는 성공 시 보상을 1, 실패 시 0으로 설정한 가치 함수(value function) 와 동일

Connecting Large Language Models to Robots

LLMs는 방대한 텍스트로부터 학습된 풍부한 지식을 바탕으로 다양한 정보를 생성할 수 있지만, high-level 명령을 로봇이 실행 가능한 low-level 명령으로 자동으로 분해하지는 못함

따라서 언어 모델을 로봇 계획 문제에 맞게 활용하려면, 고수준 지시를 로봇이 실행 가능한 저수준 스킬의 순서로 분해하도록 유도할 필요가 있습니다. 이때 프롬프트 엔지니어링(모델에게 특정 응답 구조 유도)

이 방법으로는 primitive skill들로 완전히 제약 x -> 모델이 실행 불가능한 행동이나 분해하기 어려운 형식의 문장을 생성하는 경우도 있음

언어 모델은 고정된 출력 집합에 대해 확률을 할당할 수 있기에, 제약된 응답(constrained response)를 생성하는 데 활용될 수 있음, 언어 모델은 p(wk|w<k)형식의 확률 분포를 학습하며, 이는 k번째 단어 wk가 주어진 이전 단어들 w<k 이후 등장할 확률을 말함

후보 문장 중 어떤 것이 가장 적절한지 모델에 질의(query)

(a): 가치 함수 모듈이 현재 관찰을 기반으로 가능한 행동들에 대한 가치 함수 맵(value map) 을 생성
(b): 장면에 “레드불 캔”과 “사과”가 있어, "pick up red bull can" 및 "pick up apple" 스킬의 가치가 높음
(c): 로봇이 빈 공간을 탐색 중이라, pick 동작에 해당하는 스킬은 모두 낮은 값

일반적 생성 작업에서는 확률 분포에서 샘플링하거나 최대 가능도(maximum likelihood) 응답을 디코딩, 하지만 saycan은 후보 응답 집합 중 하나를 선택해 그 응답의 확률을 평가하는 데 이 모델 사용

저수준 스킬 집합 Π 와 각 스킬의 언어 설명 Π, 그리고 사용자 지시 i가 주어졌을 때,
각 스킬 설명 π가 지시 i를 수행하는 데 얼마나 기여할 수 있는지를 확률적으로 평가:p(‘π‘∣i)
이는 언어 모델에 후보 완성 문장을 질의(querying) 하여 얻는 값

단순히 생성하는 것이 아닌 확률 기반 선택하고 비교,

1: n = 0, π = ∅

n은 현재까지 몇 번째 스킬을 실행했는지를 나타내는 스텝 인덱스
π는 지금까지 선택한 스킬 시퀀스의 목록
초기에 아무 스킬도 선택하지 않았기 때문에 빈 상태로 시작합니다.

2: while ℓ_πₙ₋₁ ≠ “done” do

스킬 시퀀스의 마지막 언어 설명이 "done"이 아닐 때까지 반복
즉, 로봇이 "작업이 끝났다" 는 시그널을 줄 때까지 계속 계획을 생성하고 실행합니다.

3: C = ∅

가능한 모든 스킬 π 에 대해 반복
각각의 스킬은 텍스트 설명 ℓπ 을 가지고 있음
예: “컵을 집는다”, “사과를 찾는다”

4: for π ∈ Π and ℓ_π ∈ ℓ_Π do

가능한 모든 스킬 π∈Π에 대해 반복
각각의 스킬은 텍스트 설명 ℓ 을 가지고 있음
예: “컵을 집는다”, “사과를 찾는다”

LLM 확률 평가 – 이 스킬이 지시에 맞는가?

5: p_LLM^π = p(ℓ_π | i, ℓ_π₀, ..., ℓ_πₙ₋₁)

대규모 언어 모델(LLM)에 물어봄:
"지시 와 지금까지 실행한 스킬들을 고려했을 때, 다음 단계로 ℓ_π 가 적절할 확률은?"
이 확률은 이 스킬이 지시에 부합하는 정도(Task-grounding) 를 나타냄

Affordance 평가 – 현재 상태에서 실행 가능한가?

6: p_affordance^π = p(c_π | sₙ, ℓ_π)

현재 상태 s_n 에서 이 스킬 π 를 실행했을 때 성공할 확률
이는 강화학습 기반 value function 으로부터 얻습니다.
이 확률은 물리적으로 가능한가(World-grounding) 를 반영

7: p_combined^π = p_affordance^π * p_LLM^π

두 확률을 곱해서 최종 스코어 계산
(지시에 맞는 정도 × 실행 가능성)
SayCan의 핵심 수식
높은 점수일수록 "지금 이 스킬이 적절하고 실행 가능하다"는 의미

Implementing SayCan in a Robotic System

Language-Conditioned Robotic Control Policies.

Policy
Value Function
Short Language Description

이러한 스킬, 가치함수, 설명은 개별 스킬을 학습

본 논문에서는 다음 두 가지 방식으로 개별 스킬을 학습합니다:

Behavioral Cloning (BC) 기반 이미지 학습
강화학습 (RL) 기반 스킬 학습

스킬의 정책을 어떤 방식으로 학습했든 관계없이, 우리는 TD-backup 기반의 강화학습으로 학습된 가치 함수를 해당 스킬의 affordance 모델로 사용합니다.

사전 하습된 대형 문장 인코더 언어 모델을 사용하여, 훈련 중 파라미터를 free하며, 각 스킬의 텍스트 설명을 모델에 통과시켜 생성된 임베딩을 정책 및 value function의 입력으로 사용합니다.

임베딩 생성에 사용된 언어 모델과
계획 수립에 사용되는 LLM은 서로 다를 수 있음

따라서 SayCan은 추상 수준이 서로 다른 언어 모델들을 효과적으로 분리하여 사용할 수 있습니다:

LLM → 고차원 계획 구성
Sentence encoder → 스킬 수준 표현

Training the Low-Level Skills

MDP 설정

policy와 value function을 학습하기 위해서 다음을 정의

reward function
skill specification (짧은 자연어 설명으로 주어지며, 언어 임베딩으로 표현)

보상함수

Sparse Reward 사용
- 에피소드 마지막 스킬이 성공적이면 1.0
- 아니면 0.0
스킬 성공 여부는 human raters가 결정
- 로봇이 해당 스킬 수행하는 비디오 지시문을 보고
- 3명 중 2명 성공 -> 보상 1.0

Behavioral Cloning (BC) 기반 정책 학습

강화 학습(RL) 기반 정책 학습

MT-Opt 를 사용하여 Everyday Robots 시뮬레이터 상에서 학습
RetinaGAN 을 통한 sim-to-real transfer 활용
시뮬레이션 시연을 통해 초기 성능 확보 → 온라인 데이터 수집으로 성능 점진 향상
사용된 네트워크 구조는 Figure 9 참고

Experimental Evaluation

Experimental Setup

SayCan 시스템을 모바일 manipulator와 함께 평가하며, 이를 위한 주방 환경 object manipulation 및 navigation 스킬을 사용합니다.

사무실 주방에서 자주 볼 수 있는 물체 15개

사용된 위치:

의미적 의미(semantic meaning) 를 지닌 5개 위치
- 예: 2개의 조리대(counter), 테이블(table), 쓰레기통(trash can), 사용자 위치(user location)

우리는 두 가지 환경에서 방법을 테스트합니다:

실제 사무실 주방(real office kitchen)
그 환경을 모방한 인공 환경(mock environment)

특별한 언급이 없는 한 PaLM(PPathways Language Model) 540B 모델 사용 [9]
이 LLM을 사용하는 SayCan 시스템을 PaLM-SayCan 이라고 부름

PaLM (Pathways Language Model) 은 Google에서 개발한 대규모 언어 모델 (LLM) 로,
다음과 같은 특징을 가집니다:

매우 큰 파라미터 수: 540B (5400억 개 파라미터)
멀티태스크(multi-task) 처리 능력 우수
추론(reasoning), 요약(summarization), 번역(translation) 등 다양한 자연어 작업에서 뛰어난 성능

Instructions.

SayCan의 성능을 평가하기 위해, 총 101개의 지시문을 사용함

지시문들은 다음을 고려하여 설계됨:

크라우드소싱 (Amazon Mechanical Turk)
직접 주방 사용자들의 요청
기존 벤치마크 (ALFRED, BEHAVIOR)

지시문은 다양한 변화를 포함:

시간적 범위(time-horizon): 단일 행동부터 10단계 이상
언어 복잡도(language complexity): 구조화된 문장 ~ 자유형
화신성(embodiment): 로봇과 환경 상태에 따른 변형

Metrics.

1. 계획 성공률 (Plan Success Rate)

LLM이 생성한 스킬 시퀀스가 지시문에 적절한가?
실제 실행 여부는 고려하지 않음
3명의 사람 평가자가 판단:
- 2명 이상이 “지시에 맞다”고 동의 → 성공으로 간주
참고: 지시문에는 복수의 정답이 있을 수 있음
예: “스펀지를 가져와서 콜라캔을 버려”
→ 두 행동 순서는 달라도 모두 유효한 계획

2. 실행 성공률 (Execution Success Rate)

PaLM-SayCan 시스템이 지시를 실제로 성공적으로 수행했는가?
3명의 평가자가 로봇 실행 영상을 보고 판단
질문: “로봇이 지시된 작업을 수행했는가?”
2명 이상이 성공이라 판단하면 성공으로 기록

Results

모의 주방(mock kitchen) 환경:
- 계획 성공률: 84%
- 실행 성공률: 74%
실제 주방(real kitchen) 환경:
- 계획 성공률: 81% (3% 감소)
- 실행 성공률: 60% (14% 감소)

→ 이는 PaLM-SayCan 시스템이 실제 환경에서도 정책(policy) 및 가치 함수(value function) 가 상당히 잘 일반화(generalize) 된다는 것을 보여줍니다.

여러 단계를 오류 없이 계획하고, 주방 전체를 탐색하며 상호작용할 수 있어야 수행 가능

시스템은 “그것들(them)”이 어떤 물체들을 의미하는지 추적해야 함
또한 스펀지를 어디에 가져가야 하는지도 이해해야 함

→ 이는 상황 인식력(context-awareness) 과 추론 능력(reasoning) 이 LLM + RL 시스템에서 효과적으로 작동함을 시사

NL Nouns (명사 중심 자연어 지시):
- 성능이 NL Verbs (동사 중심 지시) 보다 낮음
- 이유:
  - 가능한 명사 수: 15개 물체 + 5개 위치 = 20가지
  - 가능한 동사 수: 6개
  - → 명사는 조합이 많아 예측 난이도가 높아짐

Structured Language (구조화된 언어):
- 이 그룹은 구체적인 단계로 지시를 명시하여, 자연어 처리 난이도를 줄이기 위한 비교 그룹
- 계획 성공률: 93%
- 반면, 동일 의미의 자연어 동사 지시는 계획 정확도 100%
- → PaLM이 자연어 쿼리의 의미를 효과적으로 파악함을 시사

Embodiment (화신성 지시):
- 계획 성공률: 64%
- 실패 원인 대부분은 affordance 함수의 오분류
  - 즉, 어떤 행동이 현재 상태에서 가능한지 잘못 판단

Crowd-Sourced (비정형 사용자 지시):
- 자연어의 형식이 자유롭고 구조가 불명확함에도 불구하고,
- 다른 그룹들과 비슷한 성능 유지
- → LLM의 강력한 일반화 능력 반영

Long-Horizon (장기 계획 지시):
- 가장 어려운 유형
- 주된 실패 원인:
  - LLM이 중간에 작업을 조기 종료함 (예: 하나만 가져오고 끝냄)
- 또한 부정 명령(negation) 과 모호한 참조(ambiguous reference) 에도 약점
  - 예: “사과는 제외하고 간식 가져와” (negation 처리 문제)
  - 예: “카페인이 있는 음료” (명확하지 않은 대상)

1. 언어 모델 제거 실험 (Ablating Language)

LLM의 중용성을 확인하기 위한 두가지 실험은

LLM없이, 전체 지시문 i를 policy제 직접 입력, BC 또는 RL 기반 지시 수행 해당, 모든 작업 0% 수행 성공률

BC NL:
- LLM 없이, 전체 지시문 i를 정책(policy) 에 직접 입력
- 기존의 BC(Behavior Cloning) 또는 RL 기반 지시 수행 방식 [13, 20, 21, 22]에 해당
- 결과: 모든 작업에서 0% 수행 성공률
BC USE:
- 지시문을 Universal Sentence Encoder (USE) 로 임베딩
- 이미 알려진 명령어와 임베딩 간 코사인 유사도로 가장 유사한 명령 선택
- 결과: 단일 행동(primitive)에만 60% 성공률, 그 외에는 모두 0%

✅ 결론: 언어 기반 해석(LM grounding)이 필수적임을 보여줌

Ablating Value Functions

No VF:

Affordance grounding 없이, LLM의 언어 점수만으로 스킬 선택

Generative:

LLM의 생성 결과를 USE 임베딩 기반으로 가장 가까운 스킬에 매핑
→ 기존 연구 방식과 유사
확률 기반 출력이 없어 해석 가능성 저하, affordance 확률과의 결합 불가
- 결과:
  - No VF: 계획 성공률 67%
  - Generative: 74%
  - 둘 다 PaLM-SayCan (84%)보다 낮음
결론: Affordance grounding이 성능 향상에 중요

Affordance grounding은 특정 스킬이 현재 로봇 상태(state)에서 실제로 실행 가능한지를 평가하는 과정입니다.
→ 강화학습(RL)로 학습된 가치 함수(value function) 를 사용합니다.

LLM grounding → "해야 할 행동인지?"

Affordance grounding → "지금 할 수 있는 행동인지?"

Case Studies of New Capabilities of PaLM-SayCan

새로운 스킬을 매우 쉽게 시스템에 추가할 수 있음
- 예시: 서랍(drawer) 조작과 같은 동작을 새로 추가하여 테스트
- 새로운 스킬을 추가하기 위해 복잡한 재설계 없이 손쉽게 통합 가능
Chain of Thought 추론(chain-of-thought reasoning) 을 활용하여
- 추론이 필요한 복잡한 작업도 해결 가능
- 언어 모델이 중간 단계의 사고 과정을 거쳐 논리적으로 행동 시퀀스를 생성함
다국어 질의(multilingual queries) 도 처리 가능
- 특별히 다국어를 위한 설계 없이도 다양한 언어로 지시된 명령을 이해하고 수행 가능

Adding Skills: Drawer Manipulation

SayCan은 새로운 스킬을 다음과 같은 방식으로 간단히 통합:

새로운 스킬을 LLM이 선택 가능한 옵션(option) 으로 추가
해당 스킬에 대응되는 value function (실행 가능성 모델) 을 제공
그리고 그 스킬이 포함된 예시 프롬프트를 함께 추가

prob : SayCan은 negation을 처리하는 명령에는 약하며 이는 기초 언어 모델의 한계

sol : Chain-of-Thought prompting 사용하면 문제 일부 해결 가능

프롬프트에 Explanation 파트 추가
기존에는 점수 기반(Scoring)으로 옵션을 선택했으나
- LLM이 설명을 생성하도록 유도
- 이후, 설명을 포함한 프롬프트를 다시 넣어 스코어링 수행

Low -level Policy

CLIPort를 사용하여 구현
- Pick and Place 위치를 출력하도록 학습된 모델
이 구현에서는 별도의 value function이 없기에, affordance grounding은 ViLD 객체 탐지기를 사용해 대체

Related Work

Grounding Language Models.

언어를 실제 세계에 grounding 하는 방법은 활발하게 진행되어 왔습니다. LLM을 환경 입력과 연결시키거나, 직접 행동을 출력하도록 학습시키는 방법이 제안되어 왔으며, 프롬프트 엔지니어링을 통해 언어를 환경에 간접적으로 연결하려는 시도도 있었습니다.

프롬프트 엔지니어링만으로 temporally extended plans를 생성하나, 실제 환경에 대한 grounding이 없음 -> 이들 대부분은 실제 물리적 환경과 상호작용 없이 훈련되었기에 실제 로봇 행동과 괴리가 큼

상호작용 기반 그라운딩 연구

1. 사전학습된 언어 모델 표현을 활용하여 후속 네트워크를 학습

2. 언어 모델 자체를 파인튜닝: 상호작용 데이터를 기반으로 보상이나 랭킹 피드백을 사용

SayCan의 차별성

사전 학습된 value function을 활용하여 언어 모델을 실제 환경 상태에 직접 grounding
이를 통해
- 일반적인 지시문에 대해
- long horizen 작업도
- zero-shot으로 수행 가능

Learning Language-Conditioned Behavior

많은 기존 연구들은 imitation learning 혹은 reinforcement learning을 통해 language-conditioned behavior을 학습했습니다.

기존 연구는 low-level 명령, pick-and-place 작업, primitive manipulation에 초점을 두고서 시물레이션 환경에서 long-horizon compound 작업도 다릅니다.

Saycan의 차별성 : LLM에서 지식을 추출하고, 이를 로봇의 affordance에 기반하여 결합한다는 점, 기존 연구들도 사전 학습된 언어 임베딩을 사용하여 : 새로운 명령에 대한 일반화 성능을 높이려고 했으나, SayCan은 그보다 훨씬 풍부한 언어 모델의 지식을 로봇의 affordance와 결합하면서 -> 로봇이 언어 모델을 planning의 도구로 활용할 수 있도록 함

Task Planning and Motion Planning.

High-level의 문제를 해결하기 위해 물리적 제약 내에서 실행 가능성 보장 문제, 작업 계획, 모션 계획

전통적으로 이 문제는 다음과 같은 방식으로 해결되어 왔습니다:

심볼릭 계획(Symbolic Planning)
최적화 기반 기법(Optimization)

하지만 이러한 고전적 방법들은:

명시적 작업 원자(primitive)
엄격한 제약 조건

을 필요로 하며, 유연성이 낮습니다.

최근 연구들은 머신러닝을 통해 다음을 가능하게 했습니다:

추상적인 작업 명세(abstract task specification)
범용적 작업 원자(general primitives)
제약 조건의 완화(relaxed constraints)

또한, 일부 연구들은 계층적(hierarchical) 구조를 통해 장기적인(long-horizon) 문제를 해결하는 방법을 학습합니다

Saycan은 LLM에 대한 Semantic knowledge를 활용하여 실행 가능한 행동으로 연결하고 LLM 사용과 학습된 Low-level policies의 범용성 덕분에

실제 환경에서
시간적으로 긴 추상적 작업도 효율적 수행 가능

이는 SayCan이 기존의 심볼릭/최적화 기반 TAMP 문제 해결 방식을 자연어 기반 추론과 강화학습 Value Function으로 대체 및 보완하고 있음을 보여줍니다.

Conclusions, Limitations and Future Work

Saycan을 제안하면서 LLM이 가진 것을 로봇 작업에 Grounding하여 사용할 수 있도록 함

이는

사전 학습된 로봇 스킬(pretrained skills)을 이용하여서

자연어 기반 지시가
로봇의 능력과 환경 상황에 적절한 행동으로 매핑되도록 합니다.

구체적으로는

각 스킬의 강화 학습을 통해 학습된 value function을 사용해
affordance를 평가합니다.

이 스킬들은 자연어 레이블로 표현되고

이들을 언어 모델이 score하여
가장 적절한 행동 sequence를 취합니다.

이러한 방식은 언어 모델의 고수준 의미 정보를 제공하고 스킬과 value function은 언어 모델의 손과 눈처럼 동작하는 구조입니다.

모바일 매니퓰레이터 로봇을 활용하여,
오피스 키친 환경에서 장기적 자연어 명령 101개를 성공적으로 수행함을 실험적으로 보였습니다.
또한, 언어 모델 성능을 개선하면 로봇 성능도 향상되는 현상을 처음으로 보여주었습니다.

LLM의 한계와 편향을 그대로 이어받을 수 있음
로봇 스킬의 수와 품질이 성능의 가장 큰 병목
스킬이 실패할 경우, 이에 적절히 대응하는 능력이 부족함
- 향후에는 언어 모델을 통해 실패 감지 및 수정 지시 가능성 검토 필요

로봇의 상호작용 경험을 통해, LLM의 사실성(factuality) 및 상식 추론(common-sense reasoning) 능력 강화 가능성
affordance 외의 다른 grounding 소스(예: 비로봇 환경)도 활용 가능성
자연어가 로봇 프로그래밍 언어로 적절한지에 대한 탐색:
- 장점: 의미와 맥락 포함
- 한계: 감독(supervision)이 필요하고, 일부 작업엔 비효율적