AI 스타트업, 주요 추론 테스트에서 제미니 3호보다 우수한 성능 보여

나타난 이후로 쌍둥이 자리 3 그는 처음으로 정상 자리를 성공적으로 유지했다. LMArena 리더보드이 목록은 수천 명의 실제 사용자가 모델을 비교한 종합적인 순위입니다. 인공 지능 그들은 다양한 작업에서 서로 치열한 경쟁을 벌이고 최고의 응답에 투표합니다. 하지만 가장 까다로운 추론 기준을 충족하는 데 있어서는 새로운 스타가 등장했는데, 바로 자체 모델 학습 없이도 이미 구글을 능가하는 성능을 보여준 것입니다.

Poetiq이라는 6인 규모 스타트업은 자사가 1위를 차지했다고 밝혔습니다. ARC-AGI-2 준특수 테스트 키트이는 AI 연구원 프랑수아 숄레가 만든 매우 어려운 추론 과제입니다. 해당 스타트업의 시스템은 54%의 점수를 기록하며, 구글의 제미니 3 딥씽크가 이전에 기록했던 약 45%의 점수를 넘어섰습니다.

이를 이해하기 쉽게 설명하자면, 불과 6개월 전만 해도 대부분의 AI 모델은 이 기준에서 5% 미만의 정확도를 보였습니다. 연구자들이 50%를 돌파하는 데는 수년이 걸릴 것으로 예상했던 것이었습니다.

그리고 가장 놀라운 점은 Poetiq의 혁신이 새로운 개척 모델에 기반한 것이 아니라 기존 모델을 더욱 효율적으로 구성하는 방식에 기반했다는 것입니다.

Poetiq은 어떻게 이러한 위업을 달성했을까요?

Poetiq은 거대한 변환기를 처음부터 구축하는 대신, 메타시스템이라고 부르는 것을 개발했습니다. 이는 기본적으로 연결된 모든 모델의 출력을 감독, 평가 및 개선하는 AI 컨트롤러입니다. ARC-AGI-2 프로젝트에서 Poetiq 팀은 Gemini 3 Pro를 기본 모델로 사용했습니다.

Poetiq은 해당 시스템을 엄격하게 제어되는 최적화 루프라고 설명합니다. 생성 > 비판 > 개선 > 검토.

이것이 특별한 이유는 다음과 같습니다.

재교육이 필요하지 않습니다. 이 시스템은 몇 시간 내에 새로운 모델에 적응합니다.
이는 전적으로 대규모의 기성 언어 모델에 기반합니다. 사용자 지정 편집이 불가능합니다.
더 낮은 가격 또는 더 싼: 구글의 딥싱크는 작업당 77달러의 비용이 드는 것으로 알려져 있으며, 포에틱의 시스템은 30달러에 더 가깝습니다.
오픈 소스 : 해당 해결책은 공개적으로 이용 가능하며 검증할 수 있습니다.
자체 평가: 이 시스템은 최종 결과를 반환하기 전에 자체 답변을 평가합니다.

على 웹 사이트 Poetiq 팀은 이 접근 방식이 단순히 컴퓨팅 성능을 확장하는 것이 아니라 기존의 대규모 언어 모델의 추론 능력에서 Plus 기능을 추출하는 방식으로 작동한다고 설명합니다.

ARC-AGI-2 검사가 중요한 이유는 무엇입니까?

대부분의 표준화된 시험은 프로그래밍이나 수학과 같은 제한된 기술을 측정하는 반면, ARC-AGI-2는 패턴 인식, 측정, 추상적 추론, 그리고 인간이 어린 시절에 배우는 일반화 능력과 같은 더 심오한 능력을 측정하도록 설계되었습니다.

이 문제는 의도적으로 어렵게 설계되었으며 현재의 대규모 언어 모델(LLM)에 매우 불리합니다. 심지어 많은 정교한 모델조차도 이 문제에서 처참하게 실패합니다.

이러한 이유로, 반년 만에 한 자릿수 결과에서 54%로 급증한 것은 놀라운 일이었습니다. 이는 단순히 모델의 크기가 커진 것뿐만 아니라 추론 방법론 자체도 발전했음을 보여줍니다.

하지만 포에틱의 결과는 일반에 완전히 공개되지 않은 준공개 테스트 그룹에만 해당됩니다. 회사 웹사이트에 따르면 해당 결과는 벤치마킹 기관의 검증을 거쳤지만, 이처럼 큰 영향을 미치는 벤치마킹 테스트의 경우 독립적인 제3자 검증이 아직 진행 중입니다.

Poetiq의 연구에서 보여주듯이, 차세대 혁신은 더 큰 모델에서 나오지 않을 수도 있습니다. 인공지능 분야에서 점점 더 중요해지고 있는 추세는 발전이 항상 수십억 달러 규모의 인프라나 거대한 연구소를 필요로 하는 것은 아니라는 점입니다.

만약 이러한 시스템이 표준적인 범위를 넘어 계획, 프로그래밍, 연구, 심지어 실제 의사 결정까지 포함하는 데 성공한다면, 인공지능 개발 방식을 완전히 바꿔놓을 수 있을 것입니다. 기업들은 차세대 슈퍼컴퓨터를 기다리는 대신, 오늘날의 모델을 더욱 똑똑하고, 저렴하며, 일관성 있게 만드는 복합적인 지능을 구축하는 데 집중할 수도 있습니다.

결론

Poetiq은 연구자들이 ARC-AGI의 결과를 테스트, 확장 또는 이의를 제기할 수 있도록 오픈 소스 솔루션을 공개했습니다. 이 표준에는 숨겨진 테스트 세트가 포함되어 있으며, 과거 사례를 보면 상당수의 사람들이 독립적인 평가를 수행하면 결과가 바뀔 수 있음을 알 수 있습니다.

포에틱의 수치가 사실이라면, 이는 AI 추론 연구에 있어 중요한 전환점이 될 수 있습니다. 단 6명으로 구성된 팀이 모델 구성 능력이 훨씬 더 큰 규모의 모델 학습과 견줄 만하거나 심지어 능가할 수 있음을 보여준 것입니다. 포에틱은 거대한 연구실이 없어도 성공할 수 있다는 것을 증명해냈습니다.

쌍둥이 자리