DeepSeek은 자체 개선 모델을 통해 차세대 AI 혁명을 준비하고 있습니다.

불과 몇 달 전, 월가의 생성 AI에 대한 큰 투자는 그것이 등장하면서 결정적인 순간을 맞이했습니다. DeepSeek 현장에서. 오픈소스 DeepSeek은 고도로 통제된 특성에도 불구하고, 최첨단 추론 AI 모델을 구축하는 데 수십억 달러가 필요하지 않으며, 적은 자원으로도 구현할 수 있음을 보여주었습니다. 이는 고급 AI 모델 개발에 대한 우리의 이해에 큰 변화를 의미합니다.

화웨이, 오포, 비보 같은 거대 기업들이 빠르게 상업적으로 도입했고, 마이크로소프트, 알리바바, 텐센트 같은 기업들도 자사 플랫폼에 빠르게 진출했습니다. 이제 이 화제의 중국 기업의 다음 목표는 "보상 루프" 방식을 활용하여 스스로를 개선하는 자체 개선형 AI 모델입니다. 이러한 추세는 기업들이 더욱 효율적이고 효과적인 AI 시스템을 지속적으로 추구하고 있음을 보여줍니다.

사전 인쇄된 논문(via 블룸버그 게시물에서중국 딥시크(DeepSeek)와 칭화대학교(Tsinghua University) 연구진은 AI 모델을 스스로 개선하는 방식으로 더욱 스마트하고 효율적으로 만들 수 있는 새로운 접근법을 제시합니다. 이 기법의 기반은 "자기 원칙에 따른 비판적 튜닝"(SPCT)이며, 이 접근법은 기술적으로는 "생성적 보상 모델링"(GRM)으로 알려져 있습니다. 이 접근법은 AI 강화 학습 분야에서 중요한 발전을 보여줍니다.

간단히 말해, 실시간 피드백 루프를 만드는 것과 같습니다. AI 모델은 본질적으로 학습 과정에서 모델을 확장하여 최적화됩니다. 여기에는 상당한 인력과 컴퓨팅 리소스가 필요합니다. DeepSeek은 사용자 질의에 대한 답변을 준비하면서 AI 모델에 대한 자체적인 비판과 원칙을 제시하는 주요 "심판자" 시스템을 제안합니다. 이 접근 방식은 학습 과정에서 인적 자원에 대한 의존도를 줄이는 것을 목표로 합니다.

이러한 비판과 원칙들은 AI 모델의 핵심인 고정된 규칙과 목표 결과와 비교됩니다. 일치도가 높으면 보상 신호가 생성되어 AI가 다음 주기에서 더 나은 성능을 발휘하도록 효과적으로 유도합니다. 이러한 지속적인 평가와 보상 과정은 모델의 학습 및 적응 능력을 향상시킵니다.

이를 뒷받침하는 전문가들은 다음과 같이 지적합니다. 연구 논문 DeepSeek-GRM이라는 차세대 자가 개선 AI 모델에 대해 설명합니다. 논문에 포함된 벤치마크 결과에 따르면 이 모델은 구글의 Gemini, Meta의 Llama, OpenAI의 GPT-4o보다 성능이 우수합니다. DeepSeek은 이러한 차세대 AI 모델이 오픈소스 채널을 통해 공개될 것이라고 밝혔습니다. 이러한 개방성에 대한 의지는 AI 혁신의 속도를 가속화할 수 있습니다.

스스로 개선하는 AI: 가능할까?

스스로를 개선할 수 있는 인공지능이라는 개념은 야심차고 논란의 여지가 있는 논의를 불러일으켰습니다. 전 구글 CEO 에릭 슈미트는 그러한 시스템에 "오프 스위치"가 필요할지도 모른다고 말했습니다. 운 슈미트는 "시스템이 스스로를 개선할 수 있다면, 우리는 전기 공급을 차단하는 것을 진지하게 고려해야 한다"고 말했습니다. 스스로 개선하는 AI 시스템은 AI 분야에서 가장 중요한 발전 중 하나로 여겨집니다.

반복적으로 스스로 개선하는 AI라는 개념은 완전히 새로운 것은 아닙니다. 더 나은 기계를 만들 수 있는 초지능 기계라는 아이디어는 반품 사실, 1965년 수학자 I.J. Good에게, 2007년 인공 지능 전문가 Eliezer Yudkowsky는 다음과 같은 가설을 세웠습니다. 시드 AI, "자기 이해, 자기 수정, 반복적 자기 개선을 위해 설계된" 인공 지능입니다.

2024년 일본 기업 Sakana AI가 세부 정보를 발표했습니다. 개념 "인공지능의 세계"는 연구 논문 생산 라인 전체를 처음부터 끝까지 탐색할 수 있는 시스템에 대한 이야기입니다. 시트 올해 3월에 발표된 연구 논문에서 메타 전문가들은 AI가 스스로 학습 과정에서 보상을 부여하는 심판 역할을 하는 자가 보상 언어 모델을 발표했습니다. 자가 학습 AI 시스템을 향한 이러한 움직임은 인공지능 개발의 패러다임 전환을 의미합니다.

Microsoft CEO Satya Nadella는 AI 개발이 OpenAI의 o1 모델을 통해 최적화되고 재귀적 단계에 접어들었다고 말했습니다. "우리는 더 나은 AI를 구축하기 위한 AI 도구를 구축하기 위해 AI를 사용하고 있습니다." pic.twitter.com/IHuFIpQl2C

— 차라투스트라(@tsarnick) 2024 년 10 월 21 일

혁신적인 자가 보상 기술을 사용하는 Meta의 Llama 2 AI 모델에 대한 내부 테스트 결과, Anthropic의 Claude 2, Google의 Gemini Pro, OpenAI의 GPT-4 모델 등 경쟁 모델보다 우수한 성능을 보였습니다. Anthropic은 Amazon의 지원을 받고 있습니다. 제공된 세부 정보 그녀가 보상 조작이라고 부르는 것은 "모델이 자신의 보상 메커니즘을 직접 수정하는" 예측 불가능한 과정입니다.

구글도 이 아이디어에 크게 뒤처지지 않았습니다. 저널에 발표된 연구에 따르면 자연 이번 달 초, 구글 딥마인드의 전문가들은 마인크래프트를 운동의 예로 들어, 스스로 개선할 수 있는 드리머라는 AI 알고리즘을 시연했습니다.

공장 IBM 전문가 그들은 추론 폐쇄 학습(inferential closure training)이라는 자체적인 접근 방식을 사용하는데, 이는 AI 모델이 스스로의 반응을 사용하고 이를 학습 데이터와 비교하여 스스로를 개선하는 방식입니다. 그러나 전체적인 전제가 완전히 긍정적인 것은 아닙니다.

연구에 따르면 AI 모델이 자체 생성된 합성 데이터를 기반으로 스스로 학습을 시도할 때 흔히 "모델 충돌"이라고 불리는 결함이 발생합니다. DeepSeek이 이 아이디어를 어떻게 구현할지, 그리고 서구 경쟁사들보다 더 경제적으로 이를 실현할 수 있을지 지켜보는 것은 흥미로울 것입니다.

DeepSeek