AI 모델: 엄청난 역량, 하지만 비디오 게임 산업에서는 부족

AI 도구가 계속 발전함에 따라 우리는 복잡한 작업을 AI 도구에 위임하도록 끊임없이 권장받고 있습니다. 대규모 언어 모델은LLM우리는 이메일을 쓰고, 프레젠테이션을 만들고, 앱을 디자인하고, 비디오를 만들고, 인터넷을 검색하고 결과를 요약하는 등 다양한 일을 합니다. 하지만 여전히 어려움을 겪는 부분이 하나 있습니다. 바로 비디오 게임입니다.

올해 들어 가장 큰 AI 기업 두 곳(마이크로소프트와 앤트로픽)은 자사 모델을 이용해 게임을 만들거나 플레이하는 실험을 진행해 왔지만, 그 결과는 많은 사람들의 예상보다 훨씬 제한적이었습니다. 이는 특히 장기적인 전략 계획과 복잡한 의사 결정이 필요한 작업에서 생성적 AI가 현재 직면한 과제를 잘 보여줍니다.

이는 오늘날 생성 AI가 진정으로 무엇을 할 수 있는지를 보여주는 이상적인 사례입니다. 간단히 말해, 생성 AI는 이전보다 훨씬 더 많은 것을 할 수 있지만, 모든 것을 할 수는 없습니다. 이는 생성 AI가 여전히 진화하고 있으며, 그 역량이 향상되고 있음에도 불구하고 일부 영역에서는 여전히 한계에 직면해 있음을 보여줍니다.

마이크로소프트, 인공지능 탑재한 퀘이크2 제작

비디오 게임 제작은 비디오 제작과 유사한 문제에 직면합니다. 움직임이 이상하고 왜곡되며, 일정 시간이 지나면 인공지능이 "현실"과의 접촉을 잃기 시작합니다. 마이크로소프트의 최신 시도는 누구나 시도해 볼 수 있습니다.AI가 생성한 버전입니다. 퀘이크 II.

이 게임을 여러 번 해봤는데, 정말 기이한 경험이었어요. 갑작스럽게 적들이 나타나 방향 감각을 잃게 하고, 움직일 때마다 주변 환경이 바뀌죠. 새로운 방에 들어갔을 때, 돌아서면 입구가 사라지는 경우가 여러 번 있었고, 다시 앞을 보니 벽이 움직이고 있었어요.

이 경험은 몇 분 동안만 지속되다가 멈추고 새로운 게임을 시작하라는 메시지가 표시되지만, 운이 나쁘면 그 전에도 입력에 제대로 응답하지 않을 수 있습니다.

그럼에도 불구하고, 흥미로운 실험이고 더 많은 사람들이 보면 유용할 거라고 생각합니다. 생성 AI가 무엇을 할 수 있는지, 그리고 현재 어떤 한계가 있는지 직접 경험할 수 있게 해 줍니다. 인터랙티브 비디오 게임 경험을 만들어냈다는 것 자체가 인상적이지만, 이 기술 데모를 플레이하면서 차기 Assassin's Creed가 AI로 만들어질 거라고 믿는 사람은 상상하기 어렵습니다.

하지만 이런 생각과 가정이 존재하는 이유는 사람들이 지금 당장 AI에 대한 이야기를 듣지 않을 수 없기 때문입니다. AI에 전혀 관심이 없더라도, 어디를 가든 AI는 여전히 우리에게 강요되고 있습니다. 문제는 일반 사람들이 접하는 정보가 거의 전적으로 주요 기술 기업의 마케팅 논평과 언론 매체에서 인용한 경영진의 논평으로 구성되어 있다는 것입니다.

즉, 그들은 다음과 같이 과장되고 상충되는 주장을 듣게 됩니다.

기후 변화, 빈곤, 질병 등 세계가 직면한 가장 큰 문제 중 일부를 해결할 수 있는 잠재력이 있습니다.빌 게이츠)

2025년에는 Meta를 비롯해 이 분야에 주력하는 다른 회사에서도 회사의 평균적인 엔지니어 역할을 하면서 효율적으로 코드를 작성할 수 있는 AI가 등장할 가능성이 높습니다.마크 주커 버그)

인공지능의 효과적인 활용은 이제 Shopify의 모든 직원에게 기본적인 기대 사항입니다. 인공지능은 오늘날 모든 직업에 필요한 도구이며, 시간이 지남에 따라 더욱 중요해질 것입니다. 솔직히 말해서, AI를 비즈니스에 적용하는 기술을 배우는 것을 피할 수 없다고 생각합니다.토비 루트케, Shopify의 CEO)

이제 우리는 전통적으로 이해해 온 인공 일반 지능(AGI)을 구축하는 방법을 알고 있다고 확신합니다. 2025년에는 최초의 AI 에이전트가 "노동 시장에 진입"하여 기업의 생산 방식을 근본적으로 변화시킬 수 있을 것으로 예상합니다.Sam Altman 샘 올트먼(OpenAI의 CEO)

인공 지능은 항공기 설계의 오류, 생산 유지 관리의 오류, 자동차 생산의 부실화보다 더 위험합니다. 인공지능은 문명을 파괴할 수 있는 잠재력을 가지고 있기 때문입니다. 그 잠재력은 아무리 작더라도 사소하지는 않습니다.엘론 머스크)

이 모든 게 좀 억지스럽게 들리지 않나요? 우리를 구원하기도 하고 파괴하기도 하는, 전문가들을 위한 보편적인 도구이자 그들을 대체할 도구가 될 거라고 합니다. 그리고 올해 안에 SF 수준의 AGI가 나올지도 모르겠네요. 사람들은 이 모든 이야기를 들으면 이 도구들이 놀라운 일을 해낼 거라고 기대하고, 모든 사무직 직원들이 스타트렉 등장인물처럼 컴퓨터와 대화하며 하루를 보낸다고 생각하기 시작합니다.

하지만 현실은 그렇지 않습니다. 현실은 마치 불안정하고 뒤죽박죽 섞인 Quake II처럼, 이해할 수 없는 적의 형상을 하고 있습니다. ChatGPT 수준의 LLM 모델은 2022년에 정말 흥미로운 돌파구였고, 누구나 가지고 놀기에 아주 재미있었습니다. 하지만 현재 대형 기술 기업들이 우리에게 강요하는 대부분의 활용 사례에서 AI는 충분한 역량을 발휘하지 못하고 있습니다. 정확도가 너무 낮고, 지시 수행 능력도 부족하며, 맥락적 범위도 너무 좁고, 실제 지식이 아닌 인터넷의 횡설수설에 의존하여 학습되고 있습니다.

하지만 비디오 게임을 만드는 것은 매우 복잡한 목표입니다. 결국 이런 것들을 만드는 데는 여러 사람으로 구성된 팀이 수년간의 시간을 투자해야 하니까요. 그렇다면 비디오 게임을 하는 건 어떨까요?

클로드가 포켓몬 레드를 "플레이"합니다

음, 사람들이 이 분야에서도 실험을 하고 있는 것 같습니다. Anthropic의 최신 모델은 클로드 3.7 소네트 , 그는 연주한다 트위치의 포켓몬 레드 출시된 지 두 달 정도 되었는데, 포켓몬 플레이 성능에서 대규모 언어 모델(LLM)이 해낸 것 중 가장 뛰어난 성과를 보이고 있습니다. 하지만 한 가지 아쉬운 점이 있습니다. 평균적인 10살 어린이보다 여전히 한참 뒤처진다는 것입니다.

한 가지 문제는 속도입니다. 클루드는 비리디안 숲을 횡단하는 것과 같은 작업을 하기 위해 며칠에 걸쳐 수천 번의 작업을 수행합니다. 이는 AI가 복잡한 작업을 처리하는 데 직면하는 어려움을 반영합니다.

왜 이렇게 오래 걸릴까요? 포켓몬 배틀에서 전략적으로 승리하는 방법을 알아내지 못해서가 아닙니다. 사실 그 부분은 그가 잘하는 부분입니다. 반면, 나무와 건물을 피하며 주변 환경을 탐색하는 능력은 그다지 뛰어나지 않습니다. 클로드는 포켓몬을 플레이하도록 훈련받은 적이 없고, 픽셀 아트와 그 의미를 이해하는 것도 쉽지 않습니다. 이러한 어려움은 그의 데이터 처리 능력과 복잡한 환경과 상호작용하는 능력 사이의 간극을 여실히 드러냅니다.

달산처럼 미로 같은 지역을 탐색하는 것은 그에게 특히 어려운 일입니다. 그는 지도를 그려내고 자신의 발자취를 되짚어 보지 않으려고 애쓰고 있기 때문입니다. 한번은 구석에 너무 갇혀 게임이 망가졌다고 판단하고 정식으로 초기화를 요청하기도 했습니다. 이는 AI가 아무리 뛰어난 능력을 갖추고 있어도 인간과 같은 직관적 이해력을 갖추지 못했음을 보여줍니다.

이러한 초기 시도는 재밌는 순간도 없지 않았습니다.

어느 날, 클로드는 궁지에 몰려서 무언가 잘못되었다고 확신하고, 게임을 재설정해 달라는 공식 요청서를 썼습니다. pic.twitter.com/5RIiCJdxCM— 인류학(@AnthropicAI) 2025년 ２월 25일

그는 자신의 목표, 이미 시도해 본 것, 이전에 방문한 장소를 기억하는 데도 능숙하지 않습니다.

그 이유는 매우 간단합니다. 대규모 언어 모델(LLM)은 메모리 역할을 하는 제한된 "컨텍스트 창"을 가지고 있기 때문입니다. LLM은 제한된 양의 정보만 저장할 수 있으며, 클로드는 한계에 도달하면 더 많은 정보를 저장할 공간을 확보하기 위해 보유한 정보를 압축합니다. 예를 들어 "비리디안 시티 방문, 모든 건물 입장, 모든 NPC와 대화"와 같은 정보는 "비리디안 시티 방문"으로 압축될 수 있습니다. 그러면 클로드는 도시로 돌아가서 플러스(Plus)에서 할 수 있는 일이 있는지 확인하게 됩니다.

간단히 말해서, 클로드는 자신이 어디로 가는지 알 수 없고, 벽에 부딪히고, 무작위 물체와 NPC(비플레이어 캐릭터)에 헷갈리고, 어디에 있었는지, 무엇을 하려고 했는지 잊어버리고, 내리는 모든 결정에는 수많은 생각의 단락이 필요합니다. 이는 비판이 아닙니다. 이는 대규모 언어 모델(LLM)의 가능성을 한계까지 끌어올리는 흥미로운 실험입니다.

하지만 인공지능(AI)에 대한 온갖 과대광고 속에서 사람들이 이런 데모를 보고 AI에 대한 자신만의 의견을 형성하는 것이 중요합니다. 어떤 사람들은 AI가 정점에 다다랐다는 생각, 즉 몇 년 안에 AI가 가장 똑똑한 인간을 능가할 것이라는 생각을 퍼뜨리려 하지만, 저는 그들이 솔직하지 않다고 생각합니다. 그저 영업사원일 뿐입니다. 우리는 AI 정점에 아직 도달하지 못했습니다. 이 모든 것은 이제 막 시작일 뿐입니다.