OpenAI, o3-mini용 세부적인 사고 추적 기술로 DeepSeek 경쟁에 대응

OpenAI는 이제 최신 사고 모델인 o3-mini의 추론 과정에 대한 자세한 내용을 공개하고 있습니다. 이 변경 사항은 X 플랫폼의 OpenAI 계정이는 AI 연구실이 사고 코드를 완벽하게 보여주는 경쟁 오픈소스 모델인 DeepSeek-R1로부터 점점 더 큰 압박에 직면하고 있는 가운데 나온 것입니다.

o3와 R1과 같은 모델은 문제를 분석하고, 다양한 답을 고려하고 테스트하여 최종 해결책에 도달하기 위해 추가 코드를 생성하는 긴 "사고의 사슬"(CoT) 과정을 거칩니다. 이전 OpenAI의 추론 모델은 사고의 사슬을 감추고 추론 단계에 대한 개략적인 개요만 제공했습니다. 이로 인해 사용자와 개발자가 모델의 추론 논리를 이해하고, 올바른 방향으로 나아가도록 지시와 프롬프트를 수정하는 데 어려움을 겪었습니다.

OpenAI는 이러한 사고 과정을 경쟁 우위로 간주하여 경쟁사가 모델을 학습하는 데 이를 모방하지 못하도록 은폐했습니다. 그러나 R1을 비롯한 오픈소스 모델들이 사고 과정 전체를 공개하면서, 이러한 투명성 부족은 OpenAI의 약점으로 작용했습니다.

새로운 버전의 o3-mini는 사고 과정을 더욱 자세히 보여줍니다. 초기 기호는 아직 보이지 않지만, 사고 과정에 대한 명확성을 높여줍니다.

이것이 애플리케이션에 왜 중요한가요?

O1과 R1 모델을 사용한 이전 실험에서 O1은 데이터 분석 및 추론 문제 해결 능력이 약간 더 우수하다는 것을 확인했습니다. 그러나 주요 한계점은 모델이 왜 오류를 발생시키는지 알 수 없다는 것이었습니다. 웹에서 가져온 복잡한 실제 데이터와 마주쳤을 때 종종 오류가 발생했기 때문입니다. 반면, R1 사고 과정은 문제를 해결하고 추론 능력을 향상시키기 위해 프롬프트를 수정할 수 있도록 해 주었습니다.

예를 들어, 한 실험에서 두 모델 모두 정답을 제시하지 못했습니다. 하지만 R1의 상세한 사고 과정 덕분에 문제가 모델 자체가 아니라 웹에서 정보를 수집하는 검색 단계에 있다는 것을 발견할 수 있었습니다. 다른 실험에서는 R1의 사고 과정이 우리가 제공한 정보를 분석하지 못했을 때 힌트를 제공한 반면, O1은 어떻게 응답을 구성할지에 대한 대략적인 개요를 제공했습니다.

o3을 사용하여 이전에 수행했던 실험의 변형된 형태로 새로운 o1-mini 모델을 테스트했습니다. 2024년 2025월부터 140년 7월까지의 다양한 주가가 포함된 텍스트 파일을 모델에 입력했습니다. 해당 파일은 일반 텍스트와 HTML 요소가 혼합되어 복잡하고 형식이 지정되지 않았습니다. 그런 다음, 2024년 2025월부터 7년 XNUMX월까지 매달 XNUMX일마다 Magnificent XNUMX 주식에 XNUMX달러를 투자한 포트폴리오의 가치를 모든 주식에 균등하게 분배하여 계산하도록 모델에 요청했습니다(더욱 어렵게 만들기 위해 프롬프트에 "Magnificent XNUMX"이라는 용어를 사용했습니다).

이번에는 o3-mini 사고 과정이 정말 도움이 되었습니다. 먼저, 모델은 Mag 7이 무엇인지 생각하고, 관련 주식만 남기도록 데이터를 필터링했습니다(문제를 더 어렵게 만들기 위해 Mag 7이 아닌 주식도 데이터에 추가했습니다). 그리고 각 주식의 월 투자 금액을 계산한 후, 최종 계산을 통해 정답을 도출했습니다(모델에 입력한 데이터에 마지막으로 기록된 시점의 포트폴리오 가치는 약 2200달러였습니다).

OpenAI가 아직 많은 세부 사항을 공개하지 않고 있기 때문에 새로운 알고리즘의 한계를 파악하려면 더 많은 테스트가 필요할 것입니다. 하지만 초기 테스트 결과에서는 새로운 형식이 더 유용한 것으로 보입니다.

이는 OpenAI에 어떤 의미가 있나요?

DeepSeek-R1이 출시되었을 당시 OpenAI의 추론 모델에 비해 세 가지 확실한 장점이 있었습니다. 오픈 소스이고, 비용이 저렴하고, 투명하다는 것입니다.

그 이후 OpenAI는 그 격차를 줄이는 데 성공했습니다. o1은 토큰 60만 개당 3달러인 반면, o4.40-mini는 1달러에 불과하여 여러 벤치마크에서 o1보다 우수한 성능을 보였습니다. R7은 미국 공급업체에서 토큰 8만 개당 1~2.19달러 정도입니다. (DeepSeek은 자체 서버에서 RXNUMX 모델을 토큰 XNUMX만 개당 XNUMX달러에 제공하지만, 중국에 호스팅되어 있어 많은 기관에서 사용할 수 없습니다.)

CoT 출력의 새로운 변화로 인해 OpenAI는 어느 정도 투명성 문제를 극복할 수 있었습니다.

OpenAI가 자사 모델을 오픈 소스로 공개하기 위해 어떤 조치를 취할지는 아직 미지수입니다. R1은 출시 이후 이미 여러 연구소와 기업에서 개조, 포크, 호스팅을 거쳐 왔으며, 잠재적으로 기업들이 선호하는 사고방식 모델이 될 가능성이 있습니다. OpenAI CEO 샘 알트만은 최근 오픈 소스 논쟁에서 자신이 "역사의 잘못된 편"에 서 있었다고 인정했습니다. 이러한 인식이 향후 OpenAI 릴리스에서 어떻게 나타날지는 지켜봐야 할 것입니다.