콘텐츠 영역
피지컬 AI 세계 1위를 위한 기반을 만들자
.jpg)
국가인공지능전략위원회는 행동 계획안을 통해 2030년 피지컬 AI 분야에서 세계 1위를 달성하겠다는 전략을 발표했다. 배경훈 부총리 겸 과학기술정보통신부 장관은 CES(국제전자제품박람회) 2026을 다녀온 후 밝힌 소감에서 "대한민국은 세계 최고 수준의 제조 현장과 산업 데이터, 반도체 배터리, 모빌리티 로봇 등 피지컬 AI에 최적화된 산업 구조, 빠른 융합과 고도화가 가능한 연구·인재 역량을 갖추고 있다"라고 밝히기도 했다.
미국은 고성능 휴머노이드나 자율주행차 개발과 이를 위한 AI 플랫폼 기반 연구에 집중하고 있고, 중국은 대규모 실증, 빠른 반복, 즉각적인 산업 적용을 강조하고 있다. 우리가 첨단 제조 환경과 경험, 국가 정책적 의지를 갖고 있는 것은 사실이다. 그러나 우리가 피지컬 AI 분야 세계 1위의 국가가 되기 위해서는 반드시 갖추어야 할 기반과 운용 환경에 대해 좀 더 많은 관심과 투자가 이루어져야 한다.
먼저 피지컬 AI를 위한 AI 기반 기술의 현재를 파악해 보면 몇 가지 접근 방식으로 나눌 수 있다. 이번 CES에서 선보인 엔비디아의 전략을 살펴보면 단순히 실세계에 대한 디지털 버전을 넘어서 물리적으로 정확한 디지털 세계를 표현하는 옴니버스, 물리 세계에서는 시간적 전개 예측, 물리적 인과 관계를 추론해 다양한 세계에 대한 확률적 분포를 전개하는 코스모스, 그 위에서 다음 행동을 결정하는 알파마요(자율주행), 그루트(휴머노이드) 같은 VLA(비전-언어-행동) 모델을 추가하고 이 세 가지 계층 간의 데이터를 피드백 루프로 연결한다. 알파마요의 결정을 시뮬레이션 하는 알파심이라는 모듈 또한 내부에서 활용한다.
엔비디아의 기본 철학은 물리적 현실을 정확히 디지털 세계에 표현하는 것과 선택, 전략, 정책을 분리해서 책임과 설명이 좀 더 투명하게 이루어지도록 하는 것이며, 실세계 적용을 위해서는 수많은 시뮬레이션을 통해 로봇이나 자율주행차가 먼저 학습을 하도록 하겠다는 것이다. 또한 국방, 기업, 산업에 따른 다양한 세상을 위한 확장 가능성을 얻고자 한다.

테슬라는 세상에 대한 이해나 모델은 암묵적으로 거대 신경망 학습을 통해 이루어지고, 실제 도로 운행을 통해 학습을 하고 검증은 실제 도로에서의 통계적 성능에 의존한다. 물론 테슬라도 월드 시뮬레이터를 갖고 운행 데이터에서 얻어진 엣지 케이스(자주 일어나지 않는 특수한 상황)를 좀 더 다양하게 합성 데이터로 추가해 학습하게 한다. 종단간(엔드-투-엔드) 방식이라는 테슬라의 방식은 물리 세계에 대한 접근은 실제 세계를 경험하는 인공 신경망이 지속적으로 진화하는 것이고 실세계 자체를 실험실로 쓴다는 방안이다. 중국도 휴머노이드나 자율주행에서 이런 혼돈 속의 세계에서 피지컬 AI가 실제로 경험을 통해 발전하는 전략을 취하고 있다.
이번에 큰 관심을 받은 현대차의 아틀라스 휴머노이드는 구글의 제미나이 로보틱스라는 VLA 모델을 활용했다. 구글의 접근은 모델 중심의 통합형 구조라는 점에서는 테슬라와 유사하지만, 언어, 추론, 계획의 범용성을 더 추구한다. 테슬라가 행동 중심이라면 구글은 인지 중심이라고 볼 수 있다.
팔란티어는 파운드리 온톨로지를 통해 현장에서 이루어지는 주요 의사결정과 데이터 흐름을 반영하는 디지털 트윈을 만들어 내고 있으며 이는 객체, 사건, 관계 중심으로 세계를 구조화된 기록으로 표현한다. 팔란티어에서 AI는 의사 결정의 보조자이며 누가 어떤 결정을 내렸는가를 추적할 수 있는 AI 운영 체제에 가깝다.
이와 같이 주요 기업이 피지컬 AI에 접근하는 방식은 철학이 다르고 기본 플랫폼이 다르다. 우리의 피지컬 AI 전략이 어떤 방향을 선택할 것인가는 매우 중요한 결정이다. 아직 우리에게는 이들과 경쟁 수준의 월드 파운데이션 모델이나 월드 모델, 독자적 VLA 모델 연구가 충분하지 않은 것이 사실이기 때문이다.
엔비디아는 코스모스라는 월드 파운데이션 모델을 2025년 1월 CES에서 발표하면서 여기에 투입한 자원을 소개했는데, 2천만 시간의 영상 데이터, 9천조 개의 토큰, 1만 장 규모의 H100 GPU를 사용해 학습했다고 한다. 엄청난 자원을 투입해야 하는 것이다.
그러나 피지컬 AI가 성공하려면 현장 데이터를 통한 고품질 학습, 현장에 있는 많은 시스템과의 통합 운영, 신뢰성 강화, 실시간 제어를 통한 지연 시간 문제 해결, 실패를 관리할 수 있는 현장 관리 방안, 효율적인 엣지 모델의 개발 등 앞으로 해결한 문제가 매우 많다. 그러나 이런 추가적인 연구 개발이 우리에게는 보다 유리한 측면이 있다고 본다.
첨단 제조 환경을 포함해 다양한 분야의 제조 환경에서 얻을 수 있는 실질적이고 의미 있는 고품질 데이터의 확보, 현장에서 사용하는 수많은 센서와 부품의 다양성과 이에 대한 운영 경험, 공장과 시설 운영에서 얻은 시행착오와 관리 비결, 그리고 통신과 반도체 기술 기반을 모두 갖춘 나라는 별로 없기 때문이다.
그런 뛰어난 잠재성을 세계 최고 수준으로 끌어 올리기 위해서는 실제 환경을 기반으로 하는 피지컬AI 레퍼런스 모델을 만들어 낼 수 있는 모범 사례를 빨리 만들어야 한다. 이는 국내 기술과 외국 기반 기술의 협력을 통할 수도 있으나, 현재 추진하는 국가 대표 파운데이션 모델과 같이 자체적인 '월드 (파운데이션) 모델'의 구현도 빠르게 이루어져야 한다. 또한 혼란한 세상에서 AI가 계속 진화하는 방식을 취할 것인지 아니면 보다 안전하고 체계적인 접근 그리고 다양한 환경으로의 확장을 위한 탄탄한 플랫폼을 기반으로 할 것인지에 대한 전략 결정이 필요하다.
물론 산업 분야별로 독자적인 특화 모델을 만들어 접근하는 방안도 있을 것이다. 그러나 제조 현장만 해도 너무나 다른 환경과 시스템이 있고, 현장의 문제를 하나하나의 독립적인 모델로 해결하는 것은 모델의 파편화를 가져올 것이며 이는 과거 AI가 문제 별로 독립적인 모델이 발전하다가 거대언어모델(LLM) 같은 파운데이션 모델로 통합하게 되는 혁신에 뒤떨어질 가능성이 있다.
자체적인 월드 모델 또는 월드 파운데이션 모델, 경쟁력 있는 VLA 모델 구축이 늦어진다면, 우리는 LLM이 발전하고 3년 뒤에 본격적인 국가 전략을 논의한 것처럼 다시 피지컬 AI를 위한 외국 기술이 세상을 뒤흔들어 놓고 난 다음에 새롭게 도전하자는 이야기를 반복할 수 있다. 정책적 의지는 강하다. 그러나 이제 좀 더 기민하고 구체적인 실천 전략 수립이 필요할 때이며, 현장과 대화, 현장을 통한 문제 해결 방안을 빠르게 세워 나가야 할 시점이다.
◆ 한상기 테크프론티어 대표
서울대 컴퓨터공학과 1회 졸업생으로 1980년대 카이스트에서 인공지능 주제로 석박사 학위를 취득했다. 삼성종합기술원, 삼성전자 등에서 활동했으며 1999년 벤처포트 설립, 2003년 다음커뮤니케이션(현 카카오) 전략대표와 일본 법인장을 역임했다. 카이스트와 세종대 교수를 거쳐 2011년부터 테크프론티어 대표를 맡고 있다. 데이터 경제 포럼 의원, AI챌린지 기획, AI데이터 세트 구축 총괄 기획위원 등을 역임했다. 대표 저서로는 <AGI의 시대>, <AI 전쟁 2.0> 등이 있다.
이 누리집은 대한민국 공식 전자정부 누리집입니다.


