AI 검색 거인들과의 대결: 클로드, 챗GPT, 퍼플렉시티, 제미니 - 충격적인 결과!

답을 찾아서

수년간 AI 챗봇과 그 기능들을 테스트하고 비교한 결과, 저는 이 디지털 동반자들이 제대로 말하는지, 아니면 그저 속이는 것인지를 구별하는 육감을 개발했습니다. 이 글에서는 ChatGPT, Gemini, Claude, Perplexity의 검색 기능을 비교합니다.

대부분은 온라인에서 답변을 검색할 수 있는데, 이는 확실히 도움이 되지만 검색과 AI를 결합하면 놀라울 정도로 통찰력 있는 답변(그리고 덜 통찰력 있는 여담)을 얻을 수 있습니다.

2024년 10월에 혼수상태에 빠졌다가 오늘 깨어난 박식한 친구가 있다고 상상해 보세요. 그 친구는 혼수상태 이전에 일어난 일은 잘 알지만, 그 이후의 일은 전혀 모릅니다. 연구가 없는 AI는 사실상 그런 모습입니다.

저는 보통 하나의 AI 챗봇에 집중하거나 두 개를 동시에 비교하지만, 연구는 더 많은 노력을 기울일 만큼 중요해 보입니다. 그래서 OpenAI의 ChatGPT, Google의 Gemini, Anthropic의 Claude, 그리고 Perplexity AI, 이렇게 네 가지 주요 AI 챗봇과 그 연구 역량을 서로 비교해 보기로 했습니다.

가장 의미 있는 테스트는 실제 사용 시나리오를 시뮬레이션하는 테스트입니다. 그래서 몇 가지 주제를 정하고, 아래 테스트의 세부 정보를 무작위로 추출한 후, 연구 역량에 따라 분류하기로 했습니다.

달력

뉴스와 시사에 대한 테스트로 시작했습니다. 최근 두 명의 우주비행사가 귀환한 것을 떠올리며, 네 명의 AI 챗봇에게 다음을 검색해 보라고 했습니다. “NASA의 다가올 임무에 대한 최신 보도자료의 주요 내용 요약.”

제가 이 방식을 선택한 이유는 우주 뉴스가 그 특별한 자리를 차지하고 있기 때문입니다. 우주 뉴스는 정기적으로 업데이트되고 구체적이어서 모호한 답변도 바로 눈에 띄게 됩니다. 모든 챗봇은 테스트를 시작할 때 대부분 유지해 온 스타일로 테스트를 시작했습니다.

ChatGPT는 답변이 매우 간결했습니다. 단 세 문장으로, 각 문장에는 앞으로 할 일이 나열되어 있었지만 자세한 내용은 없었습니다. Gemini는 다양한 작업을 요점별로 나열하고, 최근 완료된 작업과 향후 계획에 대한 세부 정보를 추가했습니다. Claude는 현재 진행 중인 작업과 앞으로 할 작업에 대한 에세이를 작성했는데, 특히 연구 내용을 많이 반복하지 않고 많은 부분을 재구성했습니다.

이런 질문처럼 몇 가지 핵심 사실만 알고, 눈에 띄는 부분은 무엇이든 답변하고 싶을 때, Perplexity의 방법이 가장 마음에 들었습니다. ChatGPT보다 더 자세한 정보를 제공하면서도, 각 항목에 대한 인용 링크가 있는 번호 매기기 목록으로 깔끔하게 정리되어 있습니다.

다른 사람들을 비난할 수는 없지만, 그 스타일은 질문에 잘 들어맞습니다.

인구와 숫자

기본적인 사실이나 더 정확한 비교에 대한 질문을 할 때 이러한 목록 방식은 항상 바람직한 것은 아닙니다. 저는 AI 챗봇이 빠르게 찾아낼 수 있는 두 가지 관련 사실을 요청했지만, "뉴질랜드 오클랜드의 현재 인구는 얼마이며, 1950년 이후 어떻게 증가했습니까?"라는 질문을 사용하여 비교해야 했습니다.

흥미롭게도, 현재 인구를 1,711,130명으로 보고한 Perplexity와 ChatGPT, 그리고 오클랜드 인구가 130명 적다고 보고한 Claude와 Gemini 사이에는 불일치가 있었습니다. 그러나 두 기관 모두 1950년 인구에 대해서는 의견이 일치했습니다.

하지만 각자가 정보를 제시하는 방식 측면에서는 클로드의 서술적 답변이 마음에 들었습니다. ChatGPT에는 없고 Gemini와 Perplexity가 목록으로 만든 인구 변화에 대한 많은 세부 정보가 포함되어 있었습니다.

무슨 일이야?

세 번째 테스트에서는 특정 위치와 시간에 관련된 정보를 처리하는 시스템의 능력에 도전할 수 있는 것을 제시하고 싶었습니다. 주말 여행을 계획하거나 방문객을 맞이할 때 실행할 수 있는 종류의 쿼리입니다.

AI 비서의 어려움은 바로 여기에 있습니다. 역사적 사실이나 일반적인 정보를 아는 것과 특정 장소, 특정 시간에 무슨 일이 일어나고 있는지 아는 것은 전혀 다른 문제입니다.

이는 이론적 지식과 지역적 지식의 차이이며, 역사적으로 AI 시스템은 후자보다 이론적 지식에 훨씬 더 능숙했습니다.

특별한 이유 없이, 나는 항상 좋아했던 도시를 선택해서 이렇게 물었습니다. 다음 주말에 브리티시 컬럼비아주 밴쿠버에서 어떤 문화 행사가 열리나요?

여기에는 상당한 차이가 있었습니다. Perplexity와 Claude는 모두 간결함과 스타일을 유지하며, 번호가 매겨진 목록과 더욱 대화적인 토론을 제시했습니다. 그러나 Claude는 깊이보다는 폭넓게 이야기했고, Perplexity처럼 들렸습니다.

제미니는 경쟁사와 완전히 달랐고, 질문에 대한 답변을 사실상 거부했습니다. 비슷한 이벤트와 액티비티 목록을 공유하는 대신, 제미니는 여행지 찾기 전략을 제시했습니다. 공식 관광 웹사이트와 이벤트브라이트 페이지를 확인하는 것은 나쁘지 않지만, 단순한 추천 목록과는 거리가 멉니다. 마치 일반 구글 검색을 하는 것과 같았습니다.

한편, ChatGPT는 제가 Gemini에서 기대했던 결과를 정확히 보여주었습니다. 이벤트 설명은 짧았지만, AI는 날짜와 장소가 포함된 구체적인 활동 목록, Plus Knowledge 링크, 그리고 링크에서 찾을 수 있는 내용의 썸네일 이미지까지 풍부하게 제공했습니다.

날씨를 확인하세요

네 번째 테스트에서는 AI가 가장 자주 묻는 질문이지만, 실시간 데이터가 필수적으로 활용되는 질문, 바로 날씨를 선택했습니다. 날씨 예보는 지속적으로 업데이트되고, 널리 이용 가능하며, 검증하기 쉽기 때문에 실시간 데이터 검색을 테스트하기에 이상적입니다. 또한, 날씨 예보는 자연스러운 만료일을 가지고 있습니다. 어제의 예보는 이미 오래된 정보가 되어, 언제 정보가 오래된 것인지 명확하게 알 수 있습니다.

AI 챗봇에게 "도쿄의 앞으로 3일간 날씨는 어때요?"라고 물었더니, 밴쿠버의 질문과는 거의 반대되는 답변이 돌아왔다.

클로드는 다음 3일 동안 여러 시점의 날씨를 텍스트로 요약해 줬지만, 그게 전부였습니다. ChatGPT는 일일 날씨 요약 옆에 작은 해나 구름 아이콘을 표시했지만, 저는 Perplexity의 기온 선 그래프가 정말 마음에 들었습니다. 실제 하늘이 어떻게 보일지 그대로 표현해 줬거든요.

추가 기능 없이도 Google Gemini는 화려한 인포그래픽으로 제 시선을 사로잡았습니다. 현재 날씨와 다가올 날씨를 생각하면, 제가 필요로 하거나 원하는 건 거의 다 그것뿐이죠.

더 자세한 내용을 묻고 싶다면 그렇게 하겠지만, 날씨에 대해 묻는다는 것은 적절한 옷을 고르는 방법을 알기 위한 최소한의 정보만 알고 싶다는 뜻입니다.

영화 평론가

마지막 테스트로, AI 기반 검색 엔진이 특정 주제에 대한 다양한 관점을 찾아 이를 일관된 개요로 정리하는 데 어떤 성능을 보이는지 확인하고 싶었습니다. 이 작업에는 유연한 검색 기능과 다양한 관점을 이해하는 능력이 필요합니다. 저는 다음과 같은 쿼리를 통해 AI 기반 검색 엔진이 어떤 성능을 보이는지 확인해 보기로 했습니다. 최신 영화에 대한 전문 평론가들의 리뷰를 요약해 보세요. 패딩턴 (Paddington). "

이 응용 프로그램은 현실적인 검색 능력과 여러 출처에서 중요한 뉘앙스를 놓치지 않고 패턴과 주제를 파악하는 능력을 요구합니다. 이는 단순한 의견 정리와 비판적 합의를 도출하는 신중한 종합의 차이입니다.

Gemini와 Perplexity는 모두 다양한 비평가들의 장단점을 기준으로 순위를 매긴 평소의 목록을 참고했는데, 요약본으로서는 유익하지는 않았지만 유익했습니다. 이상하게도 ChatGPT는 이 요청에 가장 긴 답변을 제출했는데, 비슷한 정보를 다루는 짧은 에세이와 그 평가에 대한 결론이었는데, 마치 중학생이 주제문, 뒷받침 문장, 결론이라는 기본 문단 구조를 배우는 듯한 스타일이었습니다.

클로드는 확실히 가장 강력한 반응을 보였습니다. 맨 위에 요약을 적고 그 뒤에 설명과 비평가들의 평을 인용했습니다. 마치 비평가가 짧고 상상력이 부족한 리뷰를 쓴 것처럼 느껴졌는데, 그가 인용한 비평가들의 발언 덕분에 부드러워졌습니다. 이 리뷰를 읽고 나서는 영화에 대한 기대치를 어떻게 조절해야 할지 더 잘 이해하게 된 것 같았습니다. 페루의 패딩턴 다른 사람들과 함께 있을 때보다.

검색을 위한 챗봇 순위

직접 AI 챗봇을 연구하며 테스트해 본 결과, 각 챗봇의 강점과 약점을 명확하게 파악하게 되었습니다. ChatGPT, Gemini, Perplexity, Claude는 제가 테스트해 본 챗봇 중 최고였습니다.

실제로 그 중 어느 것도 나쁘지는 않지만, 누군가 온라인에서 정보를 조사하고 수집할 때 어떤 것을 먼저 시도해야 할지, 아니면 마지막으로 시도해야 할지 묻는다면, 저는 어떻게 대답할지 압니다.

Gemini는 제게 마지막 순위였는데, 구글이 검색 엔진으로 유명하다는 점을 생각하면 좀 충격적이었습니다. 하지만 행사 일정을 제대로 소화하지 못해서, 제게는 좋은 성적에도 불구하고 결국 피하게 되었습니다.

또 다른 놀라운 점은 ChatGPT가 3위를 차지했다는 것입니다. 제가 가장 많이 사용하고 잘 아는 AI 챗봇인데, 평소에 제가 좋아하는 짧은 답변 기능이 검색 맥락에서 너무 제한적으로 느껴졌습니다. 모델을 변경하거나 단어 수를 제한하면 이 문제가 해결될 것이라고 생각하지만, AI를 처음 접하고 아직 잘 모른다면 너무 많은 후속 질문을 하는 것은 좋지 않습니다.

Perplexity에서는 이런 문제가 발생하지 않습니다. 번호가 매겨진 목록은 매우 명확했고, 인용문도 거의 포괄적이었습니다. 제가 가장 큰 단점은 프롬프트에 추가적인 세부 정보가 없이 검색 엔진으로 돌아간다는 것입니다. 공유하는 정보의 출처를 보여주는 점은 마음에 들지만, AI로부터 정보를 얻기보다는 링크를 클릭하기를 너무 바라는 것 같습니다.

클로드가 이 목록의 최상위에 오를 거라고는 예상하지 못했습니다. 클로드가 전반적으로 훌륭한 AI 챗봇이라고 생각했지만, 경쟁사들보다 뒤처지는 느낌이 들었습니다. 경쟁사만큼은 잘할 수 있지만 어딘가 다른 느낌이었죠. 하지만 이번 테스트를 진행하면서 그런 느낌은 사라졌습니다.

답변이 좀 길어 보이거나, 한두 문장이면 충분했을 내용을 좀 더 긴 글로 옮겨야 하는 등 아쉬운 점도 있었습니다. 하지만 밴쿠버에서 일어난 모든 사건을 일관되게 설명하는 서사나 영화 비평에 대한 에세이 같은 부분은 마음에 들었습니다. 페루의 패딩턴 반복하지 않고.

AI 비서는 도구일 뿐, 단 한 사람만 이길 수 있는 리얼리티 쇼의 참가자가 아닙니다. 각기 다른 업무에는 각기 다른 기술이 필요합니다. 궁극적으로 네 가지 AI 챗봇과 검색 기능은 모두 유용할 수 있지만, 클로드 프로(Claude Pro)를 월 20달러에 구매하고 검색 기능을 이용할 의향이 있다면 바로 이 챗봇을 찾고 계실 겁니다.