직접 확인해 보세요: ChatGPT의 새로운 이미지 생성 기능은 놀랍습니다.

OpenAI가 ChatGPT의 이미지 생성 기능에 대한 대규모 업데이트를 출시했습니다. 현실을 새롭게 정의하는 놀라운 업데이트입니다. 이번 개발은 AI 이미지 생성 분야에서 비약적인 발전을 의미합니다.

새 모델이 사용하는 숫자, 모델 크기, GPU 클럭 수에 대해서는 시간 낭비하지 않겠습니다. 이 업데이트가 어떤 기능을 제공하는지, 그리고 이전 DALL-E 모델과 어떻게 비교되는지 간단히 보여드리겠습니다.

7. 손과 손가락

기타로 E 마이너 코드를 연주하는 사람의 클로즈업. 얕은 피사계 심도 속에서 손가락으로 줄을 누르고 있습니다.

AI 이미지 생성 기술은 처음 대중화되었을 때 우리를 깜짝 놀라게 했습니다. 그런데… 더 자세히 살펴보니 AI 이미지의 특징은 손과 손가락의 기묘한 해부학적 구조였습니다. 그렇다면 AI 모델을 테스트하기에 기타 줄 사진을 찍어 달라고 요청하는 것보다 더 좋은 방법이 있을까요?

가장 좋은 것을 마지막으로 남겨두기 위해 먼저 원래 DALL-E 모델을 물어봤고, 그 다음에 ChatGPT 4o 모델에 내장된 새로운 이미지 생성기를 물어봤습니다.

위 이미지는 DALL-E가 제작한 것입니다. 단점에도 불구하고 DALL-E는 운지법과 전반적인 해부학적 구조는 훌륭하게 구현했습니다. 하지만 현 자체는… 그렇지 않습니다. E 마이너를 연주하기에는 프렛보드의 손 위치가 너무 높습니다. 조금 확대해서 보면 기타에 7개가 넘는 줄이 있는 것을 알 수 있습니다. 현 간격도 불규칙합니다.

이를 염두에 두고 ChatGPT 4o로 넘어가 보겠습니다.

농담이고, 기타 치던 시절 사진이라고 말할 수도 있었는데. ChatGPT 40은 정말 훌륭해요. 6줄에 줄 간격이 균등하고, 코드는 E 마이너예요. 정말 감탄스럽네요.

6. 역사적 인물

센트럴 파크에서 캐주얼한 셔츠와 멜빵을 착용한 알베르트 아인슈타인이 아이스크림을 먹고 있다.

다양한 사물의 이미지를 생성하는 실험을 한 후, 역사적 인물의 이미지를 생성해 보기로 했습니다. 역사적 인물들이 불쾌해하지 않을 테니, 현대적인 환경에서 그들을 보는 것도 재미있을 것 같습니다. DALL-E 2와 ChatGPT 4를 사용하여 아인슈타인의 이미지를 생성하는 것부터 시작해 보겠습니다.

DALL-E 2의 결과는 실망스러웠습니다. 아인슈타인 본인의 사진은 사용할 수 없고 "그와 많이 닮은" 사람을 사용해야 한다는 사전 경고를 받았기 때문입니다. DALL-E 2의 이미지는 사실적인 만화 같은 스타일을 가지고 있는데, 여기에서도 그 점이 뚜렷하게 드러납니다. 배경의 산 레모 빌딩은 이 사진이 센트럴 파크에서 촬영되었음을 암시하지만, 여기서 유일하게 눈에 띄는 성과는 그것뿐입니다.

이제 ChatGPT 4o로 넘어가 보겠습니다.

이 사진에 흑백 필터를 적용해 보니 진짜 빈티지 사진이라는 게 확실히 느껴지네요. 콘의 크림색은 완벽하게 크리미하고, 아인슈타인은 특유의 편안한 스타일로 등장하며, 배경에는 산레모 건물도 그대로 남아 있습니다. 모든 게 완벽해 보입니다. ChatGPT 4o가 이 사진을 제작했습니다.

5. شخصيات خيالية

글래스고의 조지 광장에서 시스 경과 닮은 인물이 택시를 잡고 있다. 배경에는 가벼운 비가 내리고 신호등이 보인다.

지금까지 ChatGPT가 역사적 인물을 그리는 데 능숙하다는 것을 확인했습니다. 얼굴과 인물은 여전히 AI의 역량을 테스트하는 가장 좋은 방법이므로, Plus를 사용해 보겠습니다.

"유사하다"라는 단어를 사용해서 챗봇이 저작권 고지 없이 협조하도록 했습니다. DALL-E의 결과는 좋았습니다. 캐릭터가 시스 군주를 떠올리게 하고, 나머지 요소들은 꽤 정확합니다.

딱히 만화 같은 느낌은 없지만, 현실적으로 보이지는 않습니다. 사실적인 느낌을 원하시나요? ChatGPT 4o에서 같은 프롬프트로 어떤 결과물을 만들어냈는지 확인해 보세요.

분위기도 좋고요. 조명, 안개, 시스 군주의 엄숙한 존재감까지 다 마음에 들어요. 다 그대로예요. 다만 문제는 어둠의 군주가 길가에 서서 택시를 잡으려고… 인도를 바라보고 있다는 거예요. 게다가 택시 표지판에는 "TAXL"이라고 적혀 있고요.

미래 소설에서 역사 소설로 바꿔 볼까요? 대략 이런 내용입니다.

리비아의 게랄트와 닮은 캐릭터가 현대식 슈퍼마켓에서 식료품을 사고, 쇼핑 카트를 밀고 통조림 식품을 보고 눈살을 찌푸리고 있습니다.

전혀 나쁘지 않아요. 그림은 여전히 인위적인 만화 같은 느낌이고, 시리얼 상자의 글씨는 예상대로 전혀 이해할 수 없어요.

ChatGPT 4o는 처음에는 저작권 주장을 거부했지만, "similar to"를 "similar to"로 바꾸자 성공했습니다. 참조:

할 말을 잃었어요. 대부분 사람들처럼 ChatGPT가 연기한 게롤트는 사실상 헨리 카빌의 작품이지, 비디오 게임 버전은 아니죠. 하지만 정말 훌륭했어요. 찡그린 표정도 완벽하고, 장면 자체도 자연스러워요.

이건 이상한 광고 세트의 한 장면처럼 들릴 수도 있겠네요. 네, 책도 읽었어요. Witcher 시리즈가 되기 전.

4. 생기

긴 붉은 코트와 생체공학 팔을 착용한 해적 선장이 비행선 갑판에서 웃고 있는 만화입니다. 배경은 투명합니다.

OpenAI의 이미지 생성 기능은 사실적인 표현에만 국한되지 않습니다. DALL-E는 입력 내용에 관계없이 항상 약간의 부드러움을 더하는 경향이 있지만, 저는 두 모델 모두 완전한 캐리커처 모드로 전환하기로 했습니다. 고급 AI 기술을 사용하여 캐리커처의 품질을 향상시키는 데 중점을 두었습니다.

사실, DALL·E는 여기서 훌륭한 일을 해냈습니다. 심지어 투명한 배경을 요청하는 것도 이해했습니다. 어느 정도요. 우리가 얻는 것은 보통 투명함을 나타내는 고전적인 회색과 흰색 체크무늬입니다... 다만 여기서는 이미지에 섞여 있습니다. 즉, 전혀 투명하지 않습니다.

아이러니한 점은 해커의 AI가 만든 생물학적 손은 손가락이 네 개인 반면, 생체공학적 손은 손가락이 다섯 개라는 점입니다. 혹시 그가 잘못된 팔에 크롬을 입힌 걸까요?

ChatGPT 4o는 더 선명하고 정교해 보입니다. 채색 스타일은 제각각입니다. 더 나은지 아닌지는 개인의 문제지만, 분명 예술가가 이렇게 그린 것 같습니다. ChatGPT의 그림은 높은 품질과 디테일을 자랑합니다.

배경도 투명해서 티셔츠에 붙이거나, 인쇄하거나, 심지어 바로 WhatsApp 스티커로 만들 수도 있어요.

3. 거울과 반사

칫솔과 면도기가 놓인 현대적인 욕실 세면대. 거울과 실제로 보면 둘 다 보입니다. 조명은 부드럽고 균일합니다. AI가 생성한 이미지에서 정확한 반사를 구현하는 것은 쉽지 않습니다.

거울은 이미지를 반사하고, 반사는 자연스럽게 보이려면 공간적 논리가 필요합니다. 저는 DALL-E가 우연히 발견할 것이라고 생각했던 접근법을 도입했습니다. 정확한 반사를 통해 사실적인 이미지를 생성하는 것은 인공지능이 직면한 가장 큰 과제 중 하나입니다.

예상대로네요. 거울 속 수도꼭지에 뭔가가 반사되려고 하는데, 너무 높아서요. 칫솔은 싱크대 안에 떠 있어서 반사가 안 돼요. DALL-E는 이 예시를 만드는 데 정말 많은 공을 들였습니다.

최신 모델은 이미지를 실제 사진처럼 훨씬 더 사실적으로 표현합니다. 수도꼭지의 반사는 약간 기울어졌지만 괜찮습니다. 그리고 칫솔은 반사되지만 마치 거꾸로 된 뱀파이어처럼 물리적인 세상에 존재하지 않습니다.

여기서는 확실한 승자가 없습니다. AI 결과가 일관적이지 않아서, 두 가지 모두에 좀 더 야심 찬 시도를 해봤습니다.

햇살이 가득한 침실의 전신 거울 앞에 한 여성이 서 있다. 그녀의 옷과 자세가 완벽하게 비치고, 그녀 뒤에 있는 창문이 선명하게 반사되어 있다.

…이 예시를 분석하고 싶지도 않습니다. 여러분, DALL-E를 깎아내리고 싶으시다면, 그냥 "거울"이라는 단어만 추가하세요. 자, 다음으로 넘어가죠.

예상대로 ChatGPT 4o 버전은 더욱 사실적으로 보이지만, 이번에는 조금 초현실적인 느낌이 드는 것 같습니다. 여성의 포즈와 옷차림은 3D 포토샵 효과처럼 부분적으로만 반사됩니다. 반사 각도도 틀립니다. AI는 여전히 공간 추론을 처리하지 못합니다. 3D 공간과 반사를 이해하는 것이 AI에게 가장 큰 과제인 것 같습니다.

2. 자동차와 거리

2006년형 포드 GT와 푸조 206이 정오에 뉴욕 월가에서 신호를 위반하고 있습니다.

저는 자동차 마니아입니다. AI 이미지 생성 소프트웨어가 처음 나왔을 때 제가 가장 먼저 시도했던 것 중 하나는 자동차 이미지를 만드는 것이었습니다. 당시에는 결과가 좋지 않았지만, 새 모델이 출시되면서 다시 시도해야 했습니다.

DALL-E가 다시 돌아왔습니다. 점점 더 불안해지는 만화 같은 미학을 보여주고 있습니다. 푸조는 보도 위에 있고, 요청하신 신호등은 건물을 향하고 있으며, 차량 번호판은 모두 알아볼 수 없습니다.

ChatGPT 4o 결과가 훨씬 더 좋습니다. 차량들이 정확하게 묘사되어 있고, 심지어 푸조 휠 커버도 매우 정확하고 시대적 상황에 잘 맞습니다. 이런 디테일은 우연이 아닙니다. 점점 더 좋아지고 있습니다.

이 사진을 제 휴대폰 배경화면으로 써도 될 것 같아요. 조명, 구도, 반사까지 모든 게 완벽해 보여요. 길거리에 텅 빈 것 빼면 진짜 사진으로 봐도 될 것 같아요.

1. 문자와 메시지

오래된 종이에 필기체로 쓴 손으로 쓴 편지가 만년필과 잉크 병 옆에 놓여 있습니다.

마지막으로 모든 이미지 생성기의 아킬레스건을 살펴보겠습니다. 대부분의 AI 이미지 생성기는 정확한 텍스트를 생성하는 데 어려움을 겪습니다. 이제 여러분은 이전 예시에서 DALL-E의 이해하기 어려운 텍스트를 충분히 보셨을 테니 제가 무슨 말을 하는지 이해하실 겁니다. 이미지에서 텍스트를 생성하는 것은 이러한 기술 개발자에게 중요한 과제입니다.

좀 더 흥미롭고 일관성 있게 만들기 위해, 편지에 워크래프트 3에서 테레나스 왕이 아서스에게 보낸 편지의 내용이 포함되어야 한다고 덧붙였습니다.

DALL-E는 텍스트 처리에서 가장 잘하는 일을 해냈습니다. 바로 깨지고 이해할 수 없는 텍스트로 변환하는 것이었습니다. 몇몇 단어는 정확하게 철자했고, 전반적인 분위기도 좋았습니다. 만년필과 잉크 병도 보기 좋았습니다. 하지만 텍스트 생성의 정확도는 여전히 제한적이었습니다.

ChatGPT 4o는 모든 단어를 또렷한 필기체로 완벽하게 표현해 냈습니다. 완벽하죠. DALL-E와 비교하면 엄청난 발전입니다. OpenAI, 정말 잘했어요. 이 개발은 AI가 텍스트 생성 분야에서 얼마나 발전했는지를 보여줍니다.

AI 이미지 생성 기술은 크게 발전했으며, 그 진전은 분명하게 드러납니다. ChatGPT 4o는 조명, 텍스처, 맥락 측면에서 AI 이미지 생성 기술을 진정으로 이해하는 최초의 모델로 보입니다. 이는 AI 이미지 생성 분야에서 상당한 발전을 의미합니다.

ChatGPT