댄스포스트코리아
지난자료보기

로고

무용현장

포커스

[몸 이후의 춤 — AI와 춤추기] 1. AI는 춤을 이해할 수 있을까

['몸 이후의 춤 — AI와 춤추기]는 생성형 AI와 무용 기술의 교차점을 현장의 언어로 탐색하는 시리즈입니다.

포커스 [몸 이후의 몸-AI와 춤추기]

Vol.128-2 (2026.4.20.) 발행


글∙사진제공_ 최석영(서울미디어대학원대학교 특임교수)



AI가 신체 움직임을 데이터로 배우는 방식


 

"Information, like humanity, cannot exist apart from the embodiment that brings it into being." "정보는 인류와 마찬가지로, 그것을 존재하게 하는 구체적인 실재(신체성)와 떨어져 존재할 수 없다." 

캐서린 헤일스(N. Katherine Hayles), 『우리는 어떻게 포스트휴먼이 되었는가』

 

1. 질문의 시작


 

<스틱맨공연의한장면> 

 


내가 무용과 처음 만난 것은 2012년이었다. 한수정 작가, 정석순 안무가와 함께한 미디어아트 프로젝트 〈스틱맨〉에 융합 작업으로 참여하면서, 무대 위의 몸이 기술과 부딪히는 방식을 가까이서 관찰하게 되었다. 그 이후로도 공연과 연극 현장에서 뉴미디어 감독으로 참여하며, 신체와 기술이 만나는 지점을 계속 붙들고 있었다. 

 

 

< 반가: 만인의 사유지(思惟地) 포스터 >

 


2024년에는 창작산실 〈반가: 만인의 사유지(思惟地)〉에 XR 감독으로 참여했고, 현재 홍익대학교 AI실감콘텐츠학과 박사과정에서 움직임을 AI로 데이터화하는 연구를 이어 가고 있다. 이 과정에서 놓지 못하고 붙들게 된 물음이 이 연재의 출발점이다.

AI는 춤을 이해할 수 있을까.


이 물음에 답하려면 '이해'라는 말부터 풀어야 한다. 객석에서 무용수의 몸을 바라볼 때 관객이 감지하는 것은 관절의 각도나 동선의 좌표가 아니다. 호흡의 멈춤, 근육의 긴장과 이완, 시선의 방향, 무용수 사이의 거리감. 이런 것들이 시간 속에서 겹쳐지며 하나의 경험을 만든다.


AI가 춤에 접근하는 경로는 여기서 갈라진다. 영상은 픽셀 배열로, 움직임은 좌표의 시계열(time-series)로, 공연은 확률 분포로 환산된다. 이 과정을 연구자들은 데이터화(datafication)라 부른다.


이 글은 AI가 신체 움직임을 데이터로 배우는 방식을 따라가되, 기술이 무용이라는 예술 형식과 만날 때 생기는 간극을 함께 기록하려 한다. 연재의 출발점을 기술 설명보다는 질문의 지도(map)에 두고 싶었다.


2. 뼈대를 읽다 — 포즈 추정


AI가 춤을 학습하는 가장 기본적인 방법은 포즈 추정(Pose Estimation)이다. 영상 속 인체의 주요 관절 위치를 자동으로 검출하는 기술로, 구글의 MediaPipe, 카네기멜런대학교(CMU)에서 공개한 OpenPose, 메타의 Detectron2가 널리 쓰인다.


이 모델들은 대규모 인체 이미지 데이터를 학습해 어깨, 팔꿈치, 무릎 같은 관절의 위치를 통계적으로 추정한다. 결과물은 사람의 형상이 아니라 17개에서 33개 내외의 키포인트(keypoint)를 연결한 스켈레톤(skeleton) 도식이다. 어떤 지점을 추출할지는 모델마다 다르다. COCO 기반 모델은 17개, MediaPipe Pose는 33개를 기본으로 삼는다.


무용 연구에서 이 기술이 주목받는 이유는 접근성에 있다. 마커가 달린 슈트와 적외선 카메라가 필요했던 기존 모션캡처와 달리, 포즈 추정은 일반 카메라 영상 한 편으로 작동한다. 과거에 촬영된 공연 기록, 리허설 영상, 공연장 공식 아카이브 — 이미 존재하는 영상이 곧 학습 대상이 된다.


그러나 스켈레톤이 포착하는 범위와 포착하지 못하는 범위의 거리는 짧지 않다. 발레의 에폴망(épaulement)처럼 어깨와 시선이 만들어 내는 비틀림, 현대무용에서 무게 중심이 바닥으로 가라앉는 질감, 호흡과 동작의 결합 지점 같은 것들은 관절 좌표만으로는 재구성되지 않는다. 포즈 추정은 신체의 위치를 읽는다. 의미를 읽는 작업은 다른 층위에 있다.


이 간극은 작업 현장에서 더 구체적으로 드러난다. 앞서 언급한 〈반가〉 작업 중 무용수가 '숨을 내쉬며 무게를 떨어뜨린다'고 말하는 장면을 포즈 추정으로 기록하려 했을 때, 카메라는 어깨의 하강을 수치로 잡아냈지만 그 하강이 지니는 결까지는 좀처럼 넘어오지 않았다. 기록된 것은 동작의 뼈대였고, 그 뼈대를 움직이게 하는 힘의 방향은 여전히 바깥에 남아 있었다.


3. 흐름을 기록하다 — 모션캡처와 AI 안무 도구


포즈 추정이 영상에서 뼈대를 뽑아낸다면, 모션캡처(Motion Capture, MoCap)는 3차원 공간에서 움직임을 직접 기록한다. 반사 마커와 다수의 적외선 카메라가 초당 수백 프레임의 3D 좌표를 생성하고, BVH(Biovision Hierarchy) 같은 포맷에 저장된다. 카네기멜런대학교가 공개한 CMU Motion Capture Database는 걷기, 달리기, 춤, 스포츠 등 2,600개 이상의 동작 시퀀스를 무료로 제공하는 공공 자원으로, 지금도 AI 모션 연구의 기반 자료로 사용된다.



나 역시 이 기술을 가까이서 다뤄 본 적이 있다. 전통 무술 택견의 동작과 영화 작업의 움직임을 모션캡처로 기록해 스토리텔링 데이터베이스로 구축하는 작업에 참여하면서, 같은 발차기도 마커를 어디에 붙이느냐에 따라 전혀 다른 데이터로 남는다는 사실을 현장에서 배웠다. 기록 이전에 선택이 먼저 있었고, 그 선택은 이후 AI가 그 움직임을 어떻게 읽을지를 이미 어느 정도 결정하고 있었다.


이 데이터를 학습한 AI는 단일 포즈가 아니라 포즈와 포즈 사이의 전환을 모델링한다. 시계열 패턴(temporal pattern), 속도, 가속도, 리듬이 학습의 대상이 된다. 음악을 입력받아 춤 동작을 생성하는 연구들이 대표적이다. Li Siyao 등의 Bailando(CVPR 2022)는 춤을 작은 동작 단위로 분해해 코드북처럼 학습하는 방식을 제안했고, 스탠포드대학교 연구팀의 EDGE(CVPR 2023)는 확산 모델(diffusion model)을 활용해 편집 가능한 춤 시퀀스를 생성했다. 두 모델 모두 구글 리서치가 공개한 AIST++ 데이터셋(ICCV 2021)을 주요 훈련 기반으로 삼는다. AIST++는 힙합, 하우스, 발레 재즈 등 10개 장르의 3D 춤 동작 5.2시간 분량(1,408개 시퀀스)을 담고 있다.


안무 창작 현장에서 가장 잘 알려진 사례는 웨인 맥그리거(Wayne McGregor)와 구글 아트 앤 컬처 랩(Google Arts & Culture Lab)의 협업 프로젝트 Living Archive다. 2019년 7월 12일 로스앤젤레스 도로시 챈들러 파빌리온에서 작곡가 토마스 아데스(Thomas Adès)의 'In Seven Days'에 맞춰 초연된 이 작업은, 맥그리거의 25년치 영상 아카이브 수백 시간(hundreds of hours) 분량을 머신러닝으로 학습시켜 AI가 그의 안무 어휘를 흡수하고 새로운 동작을 제안하도록 한 실험이었다. 이 도구는 2025년 AISOMA라는 이름으로 대중 공개 버전까지 확장되었다.


이 프로젝트가 남긴 질문은 기술적이기보다 개념적이다. AI가 제안한 동작은 누구의 것인가. 안무가의 것인가, 아카이브의 것인가, 둘 사이에서 생겨난 제3의 무엇인가. 저작권 이전에, 이는 안무가가 자신의 과거 작업과 어떻게 대화할 수 있는가를 묻는 창작 주체성의 문제이기도 하다.


4. 기록의 바깥에 남는 몸


지금까지 살펴본 방식을 정리하면, AI가 춤을 데이터화하는 층위는 대체로 세 가지로 구분된다. 포즈 추정이 제공하는 형태 데이터, 모션캡처가 제공하는 운동 데이터, 그리고 음악이나 공간 같은 환경 정보를 포함하는 맥락 데이터. 최근 연구들은 이 셋을 통합하는 멀티모달(multimodal) 접근을 지향하고 있다.


그러나 어느 층위에도 포함되지 않는 영역이 있다. 의도, 감정, 관계성, 그리고 몸이 축적해 온 시간. 루돌프 라반(Rudolf Laban)이 제안한 LMA(Laban Movement Analysis)가 포착하려 한 움직임의 질(Quality) — 무게감, 공간적 방향성, 시간성, 흐름의 결(Effort) — 은 좌표와 속도만으로는 환산되지 않는다.


 

<모션캡쳐데이터 서비스 – FAB>

 

수행성(performativity)의 관점에서, 춤은 재현되기 이전에 발생하는 사건이다. 특정 공간과 시간, 구체적인 몸들 사이에서 한 번만 일어나는 사건을 데이터로 포획하려는 시도에는 필연적으로 잔여가 남는다. 데이터가 담지 못한 것이 무엇인지를 묻는 작업이, 역설적으로 데이터가 가능하게 하는 것의 윤곽을 보여 준다.


AI가 춤을 이해하지 못한다고 단언하기는 어렵다. 다만 AI의 이해는 인간 관객의 이해와 같은 종류는 아니다. 수많은 공연에서 반복되는 구조적 패턴, 장르를 가로지르는 신체 유형, 한 안무가의 움직임 이력 — 인간의 눈으로는 집계하기 어려운 것들을 AI가 드러낸다. 그것이 감상(鑑賞)은 아닐지라도, 일종의 읽기(reading)로는 기능한다. 이 '다른 읽기'가 무용의 실천에 어떤 결을 남기는지는, 아직 대답보다 질문이 앞선 채 다음 작업을 기다리고 있다.


다음 글 〈몸이 데이터가 되는 순간 — 모션캡처와 움직임 기록〉에서는 이번 글에서 짧게 짚고 넘어간 모션캡처를 본격적으로 들여다본다. 몸이 데이터로 바뀌는 그 구체적 순간에 어떤 선택과 어떤 누락이 작동하는지를, 장치의 안쪽에서 살펴보려 한다.



참고 문헌

Hayles, N. K. (1999). How We Became Posthuman: Virtual Bodies in Cybernetics, Literature, and Informatics. University of Chicago Press.

Li, R., Yang, S., Ross, D. A., & Kanazawa, A. (2021). AI Choreographer: Music Conditioned 3D Dance Generation with AIST++. ICCV 2021. arXiv:2101.08779.

Li, S., Yu, W., Gu, T., Lin, C., Wang, Q., Qian, C., Loy, C. C., & Liu, Z. (2022). Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory. CVPR 2022. arXiv:2203.13055.

Tseng, J., Castellon, R., & Liu, C. K. (2023). EDGE: Editable Dance Generation From Music. CVPR 2023. arXiv:2211.10658.

Carnegie Mellon University Graphics Lab. CMU Motion Capture Database. http://mocap.cs.cmu.edu

Studio Wayne McGregor × Google Arts & Culture Lab. Living Archive: An AI Performance Experiment (2019) / AISOMA (2025).


최석영은 2012년 한수정 작가, 정석순 안무가와 함께한 미디어아트 프로젝트 〈스틱맨〉에 융합 작업으로 참여하며 무용과의 인연을 맺었다. 이후 공연·연극 현장에서 뉴미디어 감독으로 활동했고, 택견 및 영화 작업의 움직임을 모션캡처로 기록해 스토리텔링 데이터베이스를 구축하는 작업에 참여했다. 2024년 창작산실 〈반가: 만인의 사유지(思惟地)〉에서 XR 감독으로 참여했으며, 현재 홍익대학교 AI실감콘텐츠학과 박사과정에서 움직임을 AI로 데이터화하는 연구를 진행하고 있다.

 

 

한국문화예술위원회 공연예술창작산실 비평지원 안내

한국문화예술위원회 로고

웹진 댄스포스트코리아는 2026년 한국문화예술위원회 '공연예술창작주체지원사업'으로부터 제작비 일부를 지원받고 있습니다.