From Bits to Atoms II: 지금이 Robotics의 GPT-1 Moment인가

"We are at the GPT-1 moment for robotics."

2026년 4월, Physical Intelligence의 공동 창업자 Quan Vuong이 YC Lightcone Podcast에 출연하여 "우리는 지금 로보틱스의 GPT-1 순간에 있다."고 선언했습니다.

Physical Intelligence는 UC Berkeley의 Sergey Levine 교수가 창업한 스타트업으로, 1년 만에 누적 $11억을 투자받아 2025년 11월 시리즈 B 기준 기업 가치 $56억에 도달한, 현재 로보틱스 분야에서 가장 앞서 있는 foundation model 회사입니다. 투자자 명단에는 Jeff Bezos, Thrive Capital, Lux Capital, Khosla Ventures 등이 포함되어 있습니다.

Physical Intelligence의 공동창업자인 Vuong 박사는 왜 지금 이런 선언을 한 것일까요?

Physical Intelligence의 공동창업자 Quan Vuong <Source: Sequoia Capital>

이번 글에서는 LLM에 이어 Robot Foundation Model로 대변되는 Physical AI 기술의 변곡점에 대한 양쪽 진영의 주장을 정리해보겠습니다. Vertical Playbook과 한국 창업자의 실행 관점은 다음 편에서 별도로 다루겠습니다.

왜 지금이 GPT-1 Moment인가 — 무너지고 있는 Moat

Physical AI 시대의 변곡점을 언급하는 건 Quan 혼자가 아닙니다. Stanford 교수이자 World Labs의 창업자인 Fei-Fei Li는 2024년 TED Talk를 시작으로, 로보틱스 분야에서의 GPT Moment가 곧 도래할 것임을 시사하는 발언을 이어가고 있습니다.

"The next frontier of AI is spatial intelligence — making the leap from seeing to doing, from understanding pixels to understanding the physical world."

"AI의 다음 개척지는 공간 지능이다. 보는 것에서 행동하는 것으로, 픽셀을 이해하는 것에서 물리적 세계를 이해하는 것으로 바뀌고 있다."

GPT-1은 2018년에 세상에 등장했습니다. 당시 대부분의 사람들은 GPT라는 이름조차 몰랐습니다. ChatGPT가 세상을 뒤집은 2022년 11월까지는 4년의 격차가 존재했습니다. Quan은 로보틱스도 지금 그 4년 전의 출발선에 서 있다고 주장하고 있습니다. 그리고 이 4년 동안 무엇을 하는가에 따라 승자가 결정될 것이라고 말합니다.

그런데 왜 지금일까요? 로보틱스는 지난 30년간 소프트웨어 스타트업의 무덤과도 같았습니다. 이는 하드웨어라는 진입장벽이 너무 높았기 때문입니다. Quan은 팟캐스트에서 그 이유를 한 문장으로 정리했습니다.

"Robotic is traditionally really hard because it's an extremely vertically integrated business. You need to have your own customer relationship, your own hardware, your autonomy stack, your own safety certification, your own everything."

"전통적으로 로보틱스가 어려웠던 이유는 극단적으로 수직 계열화된 사업 구조 때문이다. 고객 관계, 하드웨어, 자율주행 스택, 안전 인증, 모든 것을 스스로 보유해야만 했다."

하드웨어, 자율주행 스택, 실시간 온디바이스 컴퓨팅. 이 세 가지는 각각 수년의 엔지니어링과 수백억의 자본을 요구하는 일종의 해자였습니다. 그런데 지금 이 해자들이 동시에 무너지고 있습니다.

① Hardware Moat의 붕괴

전통적 로봇 회사의 해자는 특정 하드웨어에 종속된 학습 데이터였습니다. Tesla FSD가 수년간 도로에서 쌓은 주행 데이터, Figure가 텔레오퍼레이션으로 모은 조작 데이터처럼, 각 회사가 자기 하드웨어에만 최적화된 데이터를 독점적으로 쌓아왔습니다.

Quan이 참여한 Open X-Embodiment 프로젝트(ICRA 2024 최우수 논문)는 이론적으로 이 해자를 깨뜨렸습니다. 서로 다른 기관, 서로 다른 로봇에서 수집된 데이터를 하나의 모델에 합쳤더니, 각 하드웨어에 최적화된 Specialist 모델보다 50% 더 잘 작동했습니다.

"If you have many robot platform in your fleet, your model is going to learn something more abstract — which is how do I control a robot, not any particular robot."

"다양한 로봇 플랫폼의 데이터를 합치면, 모델은 특정 로봇의 조작법이 아닌 ‘로봇 자체를 어떻게 제어할 것인가’라는 훨씬 더 본질적이고 추상적인 원리를 학습한다."

즉 특정 하드웨어에 독점적으로 투자한 시간은 오히려 불리하게 작용합니다. 한 플랫폼에서 5년 쌓은 데이터보다, 10개 플랫폼에서 1년 모은 통합 데이터가 더 강하다는 주장입니다.

② Autonomy Stack의 붕괴

두 번째 장벽은 근 10년 간 로보틱스 분야의 혁신을 이끌었던 autonomy stack 그 자체입니다. 전통적으로 perception(인식) → planning(계획) → control(제어)의 3단 스택을 개별 로보틱스 회사가 직접 쌓아올려야 했습니다. 각 단계마다 수십 명의 엔지니어와 수년의 개발 기간이 필요했습니다.

Physical Intelligence는 이 스택 전체를 하나의 foundation model로 흡수했습니다. Physical Intelligence의 π0은 카메라 이미지와 언어 명령을 직접 입력받아 로봇 관절의 low-level action을 출력합니다. 중간 단계를 모두 모델 내부로 합쳐버린 것입니다.

그리고 이 foundation model은 오픈 소스로 공개되었습니다. Physical Intelligence는 π0과 π0.5의 사전 학습된 가중치를 공개했고, 이에 대해 Quan은 이렇게 말했습니다.

"It allows companies to focus on the component that will actually allow them to differentiate themselves — rather than rebuilding the autonomy stack from scratch."

"기업이 자율주행 스택을 밑바닥부터 다시 쌓는 대신, 자신을 차별화할 수 있는 요소에 집중할 수 있게 해준다."

③ Compute Moat의 붕괴

전통적으로 로봇은 On-Device Compute가 필수였습니다. 로봇은 실시간(수십 밀리초 단위)으로 움직여야 하고, 네트워크 지연은 사고로 직결되기 때문입니다. 그래서 모든 로봇 회사는 고성능 온보드 컴퓨터를 탑재해야 했고, 제작 단가는 높아질 수밖에 없었습니다. 게다가 AI 모델이 커질수록 하드웨어 교체 주기가 짧아지는 악순환이 생겼습니다.

Quan은 이에 대한 오늘날의 가장 큰 변화에 대해 언급하고 있습니다.

"People are often really surprised when I tell them that almost all of the robot evaluation that we run at PI today — including the really complicated demos we have shown, making coffee, folding laundry, mobile robots navigating around — the model is actually hosted in the cloud."

"커피 만들기, 빨래 개기, 이동 로봇 주행 등 복잡한 시연을 포함한 PI의 로봇 평가 작업이 실제로는 클라우드에 호스팅된 모델을 통해 이루어진다고 말하면 사람들은 대개 깜짝 놀란다."

"I'm 100% confident that we can make this work with a dumb computer and the robot."

"나는 평범한 컴퓨터와 로봇만으로도 이 모든 과정을 구현할 수 있다는 것을 100% 확신한다."

Physical Intelligence는 'Action Chunking + Real-Time Pipelining'이라는 기법을 개발했습니다. 로봇이 현재 100밀리초짜리 동작을 실행하는 동안, 다음 100밀리초 동작을 클라우드 모델에게 미리 요청해둡니다. 일종의 레이턴시를 움직임 안에 숨기는 방식입니다.

이 같은 기술적 변화로 인해 고성능 GPU 없이도 Physical AI가 구현 가능해지고, 로봇 제작 단가가 극적으로 떨어질 수 있습니다. 그리고 더 중요한 것은, foundation model이 진화해도 하드웨어를 바꿀 필요가 없다는 점입니다. GPT-4에서 GPT-5로 넘어가더라도 사용자가 아이폰을 바꾸지 않는 것과 동일한 상황입니다.

이처럼 전통적인 로보틱스 분야의 장벽들이 동시에 무너지고 있습니다.

‍

그러나, 정말 장벽이 무너진 것일까

Physical Intelligence가 그리는 그림은 명확합니다. 그러나 당연히 학계와 산업계에는 장벽이 무너지는 속도와 폭에 회의적인 시각도 존재합니다.

<Source: Wikipedia> 왼쪽 위부터 시계 방향으로 Rodney Brooks, Yann LeCun, Jensen Huang, Chris Urmson

① Hardware Moat — "Reach까지는 되지만, Dexterity는 별개다"

로봇학계의 세계적 권위자이자 연쇄 창업가인 Rodney Brooks(iRobot 공동창업자, MIT 로봇공학 명예교수)는 Hardware Moat이 무너진다는 주장에 가장 강력하게 반박하는 대표적인 학계 인물입니다. 2025년 9월 그는 자신의 블로그 글 'Why Today's Humanoids Won't Learn Dexterity'에서 오늘날의 휴머노이드 접근 방식으로 인간 수준의 손재주(dexterity)에 도달한다는 것은 'pure fantasy thinking'이라고 비판했습니다.

인간 손가락 끝의 수천 개 촉각 수용체(tactile receptor)가 만드는 접촉 기반의 조작(contact-rich manipulation)은 비전 데이터만 합쳐서는 얻을 수 없다는 것입니다. Open X-Embodiment가 22종의 로봇 데이터를 합쳤다고 하더라도, 그 대부분은 비전 중심이고 힘과 접촉 데이터는 빈약합니다. 로봇이 단순히 물건을 잡는(reach and grasp) 수준에서는 작동해도 정교한 물리적 조작을 해내는 것은 별개의 문제라는 입장입니다.

② Autonomy Stack — "좁은 영역에서의 End-to-end는 작동하지만 일반화되지 않는다"

AI 업계의 세계적 권위자이자 튜링상 수상자인 Yann LeCun(AMI Labs 창업자, 전 메타 수석 AI 과학자)은 Autonomy Stack의 해자가 붕괴되고 있다고 주장에 대해서, 기존의 transformer 기반의 기술만으로는 아직 시기상조라고 이야기 하고 있습니다. 2025년 10월 MIT 행사에서 그는 다음과 같이 발언했습니다.

"The big secret of the humanoid industry is that they have no idea how to make those robots smart enough to be generally useful."

"휴머노이드 산업의 큰 비밀은 회사들이 자신의 로봇을 일상에서 범용적으로 쓸 수 있을만큼 똑똑하게 만드는 방법을 모른다는 것이다."

LeCun은 같은 자리에서 가정용 휴머노이드 로봇이 가능해지기 위해서는 AI 분야에서 비약적인 기술적 발전이 이루어져야 한다고 강조했습니다. 핵심은 LLM/VLA 패러다임 자체가 세계의 물리 법칙, 시공간적 개념, 사물 간의 상호작용을 학습하여 스스로 세상을 시뮬레이션할 수 있는, 이른 바 World Model을 갖지 못하기 때문에 먼 미래를 내다보고 계획을 짜거나(long-horizon planning) 복잡한 물리적 상황을 논리적으로 추론(physical reasoning)하는 데 본질적 한계가 있다는 것입니다. 그는 JEPA(Joint-Embedding Predictive Architecture)를 대안으로 제시합니다. Autonomy stack이 하나의 모델로 흡수된다는 명제는 동의할 수 있어도, 그 모델이 transformer 기반 VLA여서는 안 된다는 논리입니다.

Chris Urmson(Aurora Innovation 공동창업자 & CEO)은 자율주행 진영에서 가장 강한 end-to-end 회의론자입니다. 2025년 HumanX 컨퍼런스에서 그는 다음과 같이 단언했습니다.

"End-to-end systems are a liability when lives are on the line."
‍
"사람의 생명이 걸린 영역에서 end-to-end 시스템은 오히려 불안 요소이다."

Foundation model이 95%의 태스크를 잘 처리해도, 안전이 걸린 5%에서 실패하면 상용화가 불가능합니다. Aurora가 인식(perception), 예측(prediction), 계획(planning)을 분리하는 모듈형 구조를 명시적으로 채택한 이유가 여기에 있습니다. 자율주행보다 예측 불가능한 상황이 훨씬 다양한 general robotics에선 그의 비판이 오히려 더 강하게 적용됩니다.

③ Compute Moat — "Edge compute는 사라지지 않고 진화한다"

Jensen Huang(NVIDIA CEO)은 edge compute에 대해 가장 직접적인 반박을 하고 있습니다. NVIDIA는 2025년 8월 25일 ‘Jetson AGX Thor’를 출시하면서 Physical AI는 밀리초(1000분의 1초) 단위의 초저지연(low-latency) 추론이 필요하므로 edge compute가 필수적이라는 입장을 강조했습니다. NVIDIA의 Project GR00T 전략은 명시적으로 ‘클라우드 학습 및 엣지 추론’ 구조이며, foundation model이 보편화될수록 강건(robust)한 엣지 추론 칩의 가치가 오히려 올라간다는 논리입니다.

Physical Intelligence가 보여준 클라우드 기반의 시연은 일반 가정과 같이 반응 속도에 덜 민감한 단순 조작 환경에서만 유효합니다. 산업용 로봇, 수술용 로봇, 자율주행차는 네트워크 연결이 끊어지는 즉시 사고로 직결되기 때문에 On-device 추론이 사실상 필수입니다. Jensen Huang은 로보틱스를 '데이터 센터 다음으로 큰 기회'로 정의하며 NVIDIA의 차세대 핵심 성장 동력으로 강조하고 있습니다.

회의론자들의 주장을 한 줄로 정리하면, 세 장벽이 무너지는 방향성은 맞지만 그 속도와 범용성에 대한 주장은 과하다는 것입니다. 그럼에도 불구하고, 자본 시장은 Quan의 방향에 더 무게를 싣고 있습니다.

Singularity is Nearer - But How?

Physical AI를 바라보는 매쉬업벤처스의 시각은 이렇습니다. 로보틱스의 GPT-1 Moment를 바라보는 양쪽 진영은 모두 부분적으로 맞습니다. 전통적인 장벽이 무너지는 방향은 분명하나, 회의론자들이 지적하는 정교한 조작 능력(dexterity), 예외 상황(long-tail) 대처, 기기 자체 연산(edge compute) 영역은 실제로 향후 수년간 진짜 격전지가 될 것입니다.

저는 특이점(singularity)을 믿는 사람입니다. 약간의 벡터 오차와 시차는 존재하더라도 Bit에서 시작한 AI 혁명은 결국 Atom의 영역을 완전히 바꿀 것입니다. 그래서 더더욱, 이런 시대에 빌더와 창업자들이 집중해야 하는 것은 '어느 진영이 옳은가'보다 '향후 수년간 무엇을 어떻게 실행해야 하는가'입니다. 결론이 정해져 있다면, 남은 변수는 누가 먼저 도달하느냐 뿐이기 때문입니다.

다음 편에서는 Vertical Playbook과 빌더가 만들어나가야 할 해자에 대해서 구체적으로 다뤄보겠습니다. 저희 매쉬업벤처스와 함께 Physical World의 변화에 대해 깊이 있게 논의하고 싶은 빌더, 그리고 창업자 분들의 많은 관심 부탁 드립니다.

‍

이전 글 읽기

From Bits to Atoms I: Physical World로 향하는 AI와 자본, 그리고 창업자들