엔비디아는 AI 이미지 생성의 가장 큰 과제를 해결하는 데 도움을 줍니다.

AI, 특히 미디어 제작과 같은 작업에서 높은 전력 및 컴퓨팅 요구 사항은 근본적인 과제입니다. 모바일 기기에서 이러한 작업을 로컬로 실행할 경우, 강력한 프로세서를 탑재한 값비싼 기기 몇 대만이 해당 기능을 처리할 수 있습니다. 클라우드에서 대규모로 구현하더라도 비용이 많이 드는 과정입니다.

엔비디아는 MIT 및 칭화대학교와 협력하여 이 문제를 조용히 해결했을 가능성이 있습니다. 해당 팀은 HART (하이브리드 자동 변환)은 가장 널리 사용되는 두 가지 AI 이미지 생성 기술을 본질적으로 결합합니다. 그 결과, 컴퓨팅 요구 사항이 크게 낮아지면서도 매우 빠른 도구가 탄생했습니다.

얼마나 빠른지 보여드리기 위해, 베이스 기타를 치는 앵무새 이미지를 만들어 달라고 요청했습니다. 다음 이미지가 약 1초 만에 나왔습니다. 진행률 표시줄을 따라잡기가 힘들 정도였습니다. 같은 입력을 모델에 사용했을 때 구글 이미지 3 제미니에서는 9Mbps 인터넷 연결로 약 10~200초가 걸렸습니다.

인공지능을 활용한 이미지 생성의 엄청난 도약

AI 이미지가 주목을 받기 시작했을 때, 확산 기술이 그 원동력이었습니다. OpenAI의 Dall-E 이미지 생성기, 구글의 Imagen, 그리고 Stable Diffusion과 같은 제품들이 이러한 확산 기술을 활용했습니다. 이 방식은 고해상도의 세부적인 이미지를 생성할 수 있는 잠재력을 가지고 있습니다. 하지만 AI 이미지를 생성하는 데 여러 단계가 필요하기 때문에 속도가 느리고 컴퓨팅 비용이 많이 듭니다.

최근 인기를 얻고 있는 두 번째 접근법은 자기 회귀 모델입니다. 이 모델은 챗봇과 유사하게 작동하며 픽셀 예측 기술을 사용하여 이미지를 생성합니다. 이 방법은 AI 이미지 생성보다 빠르지만 오류가 발생할 가능성이 더 높습니다.

MIT 연구팀은 두 방법을 HART라는 단일 패키지로 통합했습니다. 이 기술은 자기회귀 모델을 사용하여 압축된 이미지 요소를 이산 토큰으로 예측하는 반면, 작은 확산 모델이 나머지 과정을 처리하여 품질 손실을 보상합니다. 이 접근법은 20개가 넘는 단계 수를 단 8개로 줄입니다.

HART 전문가들은 이 기술이 "최첨단 확산 모델과 동등하거나 그 이상의 품질을 제공하면서도 약 700배 더 빠른 이미지를 생성한다"고 주장합니다. HART는 37억 개의 매개변수를 갖는 자기회귀 모델과 XNUMX만 개의 매개변수를 처리할 수 있는 소규모 확산 모델을 결합합니다.

컴퓨팅 비용 위기 해결

놀랍게도, 이 하이브리드 도구인 HART는 2억 개의 매개변수를 처리할 수 있는 최첨단 모델과 동일한 품질의 이미지를 생성할 수 있었습니다. 더 중요한 것은 HART가 컴퓨팅 리소스를 31% 절감하면서도 이미지 생성 속도를 XNUMX배 빠르게 달성했다는 것입니다.

팀에 따르면, 저계산 방식을 통해 HART를 휴대폰과 노트북에서 로컬로 실행할 수 있게 되어 큰 성공을 거두었습니다. 지금까지 ChatGPT나 Gemini와 같은 시중의 인기 제품들은 클라우드 서버에서 계산이 수행되기 때문에 이미지를 생성하려면 인터넷 연결이 필요했습니다.

테스트 영상에서 팀은 Intel Core 시리즈 프로세서와 Nvidia GeForce RTX 그래픽 카드가 장착된 MSI 노트북에서 네이티브로 실행하는 모습을 보여주었습니다. 이는 시중의 대부분의 게이밍 노트북에서 큰돈을 들이지 않고도 찾아볼 수 있는 조합입니다.

HART는 1 x 1 픽셀의 1024:1024 종횡비 이미지를 생성할 수 있습니다. 이 이미지의 디테일 수준은 인상적이며, 스타일의 다양성과 장면 충실도 또한 뛰어납니다. 테스트 과정에서 연구팀은 이 하이브리드 AI 도구가 XNUMX~XNUMX배 더 빠르고 XNUMX배 이상 높은 처리량을 제공하는 것을 확인했습니다.

미래의 가능성은 매우 흥미진진하며, 특히 HART의 이미지 기능과 언어 모델을 결합할 경우 더욱 그렇습니다. MIT 연구팀은 "미래에는 시각과 언어의 통합된 생성 모델과 상호작용할 수 있을 것입니다. 예를 들어 가구를 조립하는 데 필요한 중간 단계를 보여달라고 요청하는 방식일 수 있습니다."라고 밝혔습니다.

그들은 이미 이 아이디어를 탐구하고 있으며, HART의 오디오 및 비디오 생성 방식을 테스트할 계획도 가지고 있습니다. 웹 제어판 MIT.

몇 가지 단점

품질 논의에 들어가기 전에, HART가 아직 초기 단계의 연구 프로젝트라는 점을 짚고 넘어가야 합니다. 기술적으로, 연구팀은 추론 및 학습 과정에서 발생하는 오버헤드 증가와 같은 몇 가지 문제점을 지적했습니다. 가까운 미래에 상당한 발전이 있을 것으로 예상됩니다.

이러한 과제는 큰 틀에서 보면 사소한 문제이므로 해결하거나 간과할 수 있습니다. 더욱이 HART가 컴퓨팅 효율성, 속도, 지연 시간 측면에서 제공하는 엄청난 이점을 고려하면, 이러한 과제는 심각한 성능 문제를 일으키지 않고 지속될 수 있습니다.

텍스트 프롬프트를 사용하여 HART를 잠깐 테스트해 본 결과, 이미지 생성 속도에 깜짝 놀랐습니다. 무료 소프트웨어가 이미지를 생성하는 데 200초 이상 걸리는 경우는 한 번도 없었습니다. 세 문단(약 XNUMX단어)에 달하는 프롬프트를 사용했음에도 불구하고, HART는 설명과 완벽하게 일치하는 이미지를 생성해 냈습니다.

설명의 정확성 외에도 이미지에는 풍부한 디테일이 담겨 있었습니다. 그러나 HART는 일반적인 AI 이미지 생성 소프트웨어의 단점을 가지고 있습니다. 음식, 캐릭터 정렬, 원근감과 같은 기본적인 형상과 그래픽을 생성하는 데 어려움을 겪습니다.

인간 맥락에서의 사실성은 제가 분명히 발견한 단점 중 하나입니다. 프로그램이 기본적인 사물을 사물로 착각하는 경우가 몇 번 있었습니다. 예를 들어 반지를 목걸이로 착각하는 경우가 있었습니다. 하지만 전반적으로 이러한 오류는 드물었고 예상된 결과였습니다. 오랜 역사에도 불구하고 많은 AI 도구들이 여전히 이 문제를 제대로 해결하지 못하고 있습니다.

전반적으로 HART의 엄청난 잠재력에 매우 기대가 큽니다. MIT와 엔비디아가 HART를 기반으로 새로운 제품을 개발할지, 아니면 기존 제품에 하이브리드 AI 이미지 생성 방식을 도입할지 지켜보는 것도 흥미로울 것 같습니다. 어느 쪽이든, 매우 유망한 미래를 엿볼 수 있는 기회입니다.