KAIST, 단일 영상으로 1인칭 시점 생성 인공지능 개발

2026-02-24 14:09:38 게재

주재걸 석좌교수 연구팀, 3차원 공간 이해 기반 ‘EgoX’ 공개 … AR·로봇 학습 활용 기대

국내 연구진이 일반 영상만으로도 사용자가 직접 보는 시점의 영상을 생성하는 새로운 인공지능 모델을 개발했다.

KAIST는 김재철AI대학원 주재걸 석좌교수 연구팀이 일반 3인칭 영상 하나만으로 인물의 시야를 재구성해 1인칭 시점 영상을 생성하는 인공지능 모델 ‘에고엑스(EgoX)’를 개발했다고 23일 밝혔다. 관찰자 시점 영상만으로 등장인물이 실제로 보고 있었을 장면을 만들어내는 기술이다.

최근 증강현실과 가상현실, 인공지능 로봇 기술이 발전하면서 1인칭 시점 영상의 활용도가 높아지고 있지만 고가 장비를 착용해야 하는 한계가 있었다. 이미 촬영된 일반 영상을 자연스럽게 1인칭 시점으로 바꾸는 기술도 제약이 많았다.

EgoX는 인물의 위치와 자세, 주변 환경의 3차원 구조를 함께 분석해 시야를 재구성한다. 단순 화면 회전 방식이 아니라 실제 시선 이동을 반영하는 방식이다. 인물의 머리 움직임과 시야 변화의 상관관계를 모델링해 고개를 돌릴 때 화면이 자연스럽게 전환되도록 구현했다. 조명 변화나 움직임이 많은 영상에서도 안정적인 결과를 보였다고 KAIST측은 설명했다.

기존 기술은 정지 이미지 중심이거나 여러 대의 카메라 영상이 필요한 경우가 많았다. EgoX는 단일 영상만으로 고품질 결과를 생성해 활용 범위를 넓혔다. 요리·운동·작업 등 다양한 일상 영상에서도 안정적인 성능을 확인했다.

이 기술은 별도 웨어러블 장치 없이 기존 영상에서 1인칭 데이터를 확보할 수 있다는 점에서 의미가 있다. 로봇이 사람 행동을 보고 학습하는 모방 학습 데이터로 활용될 수 있고 AR·VR 콘텐츠 제작에도 적용 가능하다. 스포츠 중계나 브이로그를 주인공 시점으로 전환하는 서비스에도 활용이 기대된다.

주재걸 교수는 “인공지능이 사람의 시야와 공간 이해를 함께 학습해 영상을 재구성했다는 점에서 의미가 크다”며 “기존 영상만으로 몰입형 콘텐츠를 제작할 수 있는 환경이 열릴 것”이라고 말했다. 이어 “생성형 AI 기반 영상 기술 분야에서 경쟁력을 확보해 나가겠다”고 밝혔다.

이번 연구에는 강태웅·김기남 KAIST 박사과정, 김도현 서울대 학부연구생이 제1저자로 참여했다. 논문은 2025년 12월 사전 공개됐으며 6월 미국에서 열리는 국제 컴퓨터비전 학술대회 CVPR에서 발표될 예정이다. 연구는 과학기술정보통신부와 한국연구재단 지원을 받아 수행됐다.

장세풍 기자 spjang@naeil.com
장세풍 기자 기사 더보기