상세 컨텐츠

본문 제목

구글, AI 실감형 텍스트-비디오 생성기 'Lumiere' 출시

crypto news

by cryptonextgen 2024. 1. 26. 00:32

본문

Google의 최신 컨셉인 Lumiere는 주문형 편집 기능을 통해 텍스트와 이미지를 AI가 생성한 사실적인 비디오로 변환하는 시공간 확산 모델입니다.

 

Google 연구원들은 텍스트나 이미지를 주문형 편집 기능을 통해 인공지능(AI)이 생성한 사실적인 비디오로 변환하는 Lumiere라는 새로운 시공간 확산 모델에 대한 계획을 발표했습니다.

Lumiere는 "Space-Time U-Net 아키텍처"를 통해 "현실적이고 다양하며 일관된 모션"을 묘사하도록 설계되었습니다. 이는 모델의 단일 패스를 통해 비디오의 전체 지속 시간을 즉시 생성합니다.

 

“공간적, (중요하게) 시간적 다운샘플링과 업샘플링을 모두 배포하고 사전 훈련된 텍스트-이미지 확산 모델을 활용함으로써 우리 모델은 이를 처리하여 풀 프레임 속도, 저해상도 비디오를 직접 생성하는 방법을 학습합니다. 다양한 시공간 규모로.”
이는 사용자가 비디오로 보고 싶은 것에 대한 텍스트 설명을 입력하거나 프롬프트와 함께 정지 이미지를 업로드하고 동적 비디오를 생성할 수 있음을 의미합니다.

논문에 따르면 사용자는 Lumiere가 ChatGPT와 비슷하지만 텍스트와 이미지에서 비디오 생성, 스타일화, 편집, 애니메이션 등에 이르기까지 유사점을 만들어 왔습니다.

Pika 및 Runway와 같은 다른 AI 비디오 생성기가 이미 존재했지만 연구원들은 비디오 생성과 관련된 시간 데이터 차원에 대한 단일 패스 접근 방식이 참신하다고 말합니다.

 

Lumiere는 3천만 개의 비디오 및 텍스트 캡션으로 구성된 데이터 세트에 대해 교육을 받았으며 16fps에서 80프레임을 생성하는 기능을 갖추고 있습니다. 하지만 AI와 저작권법 분야에서 뜨거운 화제가 되고 있는 모델 훈련에 구글이 사용한 데이터의 출처에 대해서는 언급이 없다.

생성 AI 모델이 대중적으로 사용 가능해지면서 훈련 중 콘텐츠 오용으로 인해 개발자를 상대로 수십 건의 저작권 침해 관련 소송이 제기되었습니다.

가장 눈에 띄는 사례 중 하나는 New York Times가 ChatGPT와 Microsoft의 창시자인 OpenAI를 상대로 교육 목적으로 작업물을 "불법" 소싱했다는 이유로 제기한 것입니다.

관련글 더보기