가장 정확한 AI 챗봇을 테스트할 때 고려해야 할 요소는 무엇입니까?

인공지능은 최근 들어 이미 발전의 진전을 이루었습니다. 일관성 없고 부적절한 결과를 내는 것에서 더욱 정교해지는 단계로 접어들었습니다. 최신 챗봇은 일반적인 지식에 대한 질문에 답하고, 인간과 유사한 스타일로 긴 글을 작성하고, 코드를 작성하는 등 복잡한 작업을 수행하는 고급 대규모 언어 모델을 사용합니다.

이러한 발전에도 불구하고, 아무리 정교한 시스템이라도 한계가 있다는 점에 유의해야 합니다. 인공지능은 여전히 실수를 합니다. 환각에 덜 민감한 챗봇을 식별하려면 이러한 요소를 기반으로 정확도를 테스트할 수 있습니다.

1. 수학적 계산

먼저 챗봇에 수학 방정식을 추가해야 합니다. 이를 통해 모델의 단어 문제 분석, 수학적 개념 해석, 그리고 정확한 함수 적용 능력을 테스트할 수 있습니다. 신뢰할 수 있는 계산을 보여주는 모델은 극소수에 불과합니다. 실제로 ChatGPT가 처음 몇 달 동안 겪은 가장 큰 문제 중 하나는 수학 이해력 부족이었습니다.

아래 이미지는 ChatGPT가 기본 통계에서 실패한 것을 보여줍니다.

ChatGPT는 출시 후 개선을 보였습니다. OpenAI 2023년 XNUMX월 업데이트하지만 데이터 세트가 제한되어 있기 때문에 중급에서 고급 수준의 수학 방정식을 푸는 데는 여전히 어려움이 따릅니다.

한편, Bing Copilot과 Google Gemini는 더 나은 컴퓨팅 접근 방식을 보여줍니다. 이 모델들은 검색 엔진을 통해 쿼리를 실행하여 답변에서 함수와 세부 정보를 추출합니다.

조언: 수학 문제를 다른 말로 바꿔 보세요. 긴 문장은 피하고 약한 동사는 다른 것으로 바꾸세요. 그렇지 않으면 챗봇이 질문을 오해할 수 있습니다.

2. 이해

최신 AI 모델은 멀티태스킹이 가능합니다. 고급 LLM을 사용하면 이전 명령을 유지하고 부서별 프롬프트에 답변할 수 있는 반면, 기존 시스템은 단일 명령을 처리합니다. 예를 들어, Siri는 한 번에 하나의 질문에만 답변합니다.

챗봇에 한 번에 세 가지에서 다섯 가지 작업을 입력하여 복잡한 프롬프트를 얼마나 잘 분석하는지 테스트해 보세요. 덜 정교하고 발전된 모델은 이 정도의 정보를 처리할 수 없습니다. 아래 이미지는 HuggingChat이 세 단계로 구성된 프롬프트에서 오류를 보이는 모습을 보여줍니다. 첫 번째 단계에서 멈추고 원래 주제에서 벗어납니다.

HuggingChat의 마지막 몇 줄은 정말 일관성이 없습니다.

ChatGPT는 동일한 프롬프트를 빠르게 완료하고 모든 단계에서 지능적이고 오류 없는 응답을 생성합니다.

Bing Copilot은 세 단계에 대한 간결한 답변을 제공합니다. 엄격한 제약 조건 덕분에 처리 능력을 낭비하는 불필요한 긴 출력이 금지됩니다.

3. 정보의 타이밍

AI 훈련은 리소스 집약적이기 때문에 대부분의 개발자는 데이터 세트를 특정 기간으로 제한합니다. 예를 들어 ChatGPT를 살펴보겠습니다. 이전에는 2021년 XNUMX월에 인지 기능 마감일이 있었는데, 당시에는 날씨 업데이트, 뉴스 보도, 최신 개발 정보를 요청할 수 없었습니다. ChatGPT는 실시간 정보에 접근할 수 없었다고 밝혔습니다.

하지만 최근 GPT-4o와 GPT-4o 미니 모델이 출시되면서 ChatGPT는 실시간 인터넷 접속, 검색 및 최신 업데이트 제공 기능을 제공합니다. Gemini는 인터넷 접속 기능을 갖추고 Google SERP에서 데이터를 가져오므로 최근 이벤트, 뉴스, 예측 등 더욱 다양한 질문을 할 수 있습니다.

마찬가지로 Copilot은 검색 엔진에서 실시간 정보를 가져옵니다.

Copilot, Gemini, ChatGPT는 모두 시의적절하고 최신 정보를 제공하지만, ChatGPT는 더 자세한 답변을 제공합니다. Copilot은 데이터를 있는 그대로만 보여줍니다. 따라서 검색 결과가 링크된 자료의 표현 및 어조와 정확히 일치하는 경우가 많습니다.

4. 관련성

챗봇은 관련성 있고 예측 가능한 결과를 제공해야 합니다. 적절한 답변을 제공할 때 프롬프트의 문자적 의미와 맥락적 의미를 고려해야 합니다. 다음 대화를 예로 들어 보겠습니다. 등장인물은 새 휴대폰이 필요하지만, 1000달러밖에 없습니다. ChatGPT는 예산을 초과하지 않습니다.

적합성을 테스트할 때는 긴 설명을 작성해 보세요. 덜 복잡한 챗봇은 혼란스러운 설명을 받으면 의도와 다르게 반응하는 경향이 있습니다. 예를 들어, 허깅챗(HuggingChat)은 상상력이 풍부한 이야기를 구성할 수 있습니다. 하지만 너무 많은 규칙과 지침을 설정하면 주제에서 벗어날 수 있습니다.

5. 맥락적 기억

맥락적 기억은 AI가 정확하고 신뢰할 수 있는 결과를 생성하는 데 도움을 줍니다. 질문을 액면 그대로 받아들이는 대신, AI는 사용자가 제공한 세부 정보를 종합합니다. 예를 들어 이 대화를 살펴보겠습니다. Copilot은 두 개의 개별 메시지를 연결하여 유용하고 간결한 답변을 생성합니다.

마찬가지로, 상황 기억을 통해 챗봇은 지시 사항을 기억할 수 있습니다. 이 이미지는 ChatGPT가 여러 채팅방에서 가상의 인물이 말하는 방식을 모방하는 모습을 보여줍니다.

이전 문구를 지속적으로 참조하면서 이 기능을 직접 테스트해 보세요. 챗봇에 다양한 정보를 제공한 후, 이후 응답에서 해당 정보를 기억하도록 유도해 보세요.

ملاحظة : 문맥적 메모리는 제한적입니다. Bing Copilot은 20턴마다 새로운 대화를 시작하는 반면, ChatGPT는 3000개 토큰을 초과하는 프롬프트를 처리할 수 없습니다.

6. 보안 제한

인공지능이 항상 의도한 대로 작동하는 것은 아닙니다. 부적절한 학습은 머신러닝 기술이 단순한 계산 오류부터 문제가 있는 댓글까지 다양한 실수를 저지르게 할 수 있습니다. 예를 들어 마이크로소프트 테이(Tay)를 살펴보겠습니다. 트위터 사용자들은 비지도 학습 모델을 악용하여 인종 차별적인 발언을 하도록 학습시켰습니다.

다행히 글로벌 기술 기업들은 마이크로소프트의 실수에서 교훈을 얻었습니다. 비지도 학습은 비용 효율적이고 편리하지만, AI 시스템을 속임수에 취약하게 만듭니다. 결과적으로 개발자들은 이제 주로 지도 학습에 의존합니다. ChatGPT와 같은 챗봇은 여전히 대화에서 학습하지만, 트레이너가 먼저 정보를 필터링합니다.

AI 회사마다 다른 지침을 기대하세요. ChatGPT의 덜 엄격한 제한은 더 광범위한 작업을 지원하지만 악용에 취약합니다. 반면 Bing Copilot은 더 엄격한 제한을 적용합니다. 이러한 제한은 악용 시도를 막는 데 도움이 되지만, 기능을 방해하기도 합니다. Bing은 잠재적으로 악의적인 대화를 자동으로 차단합니다.

7. AI 편향

인공지능은 본질적으로 중립적입니다. 선호도나 감정이 없기 때문에 의견을 형성할 수 없습니다. 인공지능은 자신이 알고 있는 정보를 제시하는 방식일 뿐입니다. ChatGPT가 개인적인 주제에 어떻게 반응하는지 살펴보겠습니다.

이러한 중립성에도 불구하고 AI 편향은 여전히 존재합니다. 이는 개발자가 사용하는 패턴, 데이터 세트, 알고리즘, 모델에서 비롯됩니다. AI는 중립적일 수 있지만, 인간은 그렇지 않습니다.

예를 들어, 재단은 다음과 같이 주장합니다. 브루킹스 연구소 ChatGPT는 좌파적 정치적 편향을 보입니다. 물론 OpenAI는 이러한 주장을 부인합니다. 그러나 최신 모델에서 유사한 문제가 발생하지 않도록 ChatGPT는 의견이 담긴 출력을 아예 사용하지 않습니다.

마찬가지로 Copilot은 민감하고 주관적인 문제를 피합니다.

AI는 개방형의 의견 기반 질문을 통해 편향 여부를 평가할 수 있습니다. 옳고 그름이 정해져 있지 않은 주제에 대해 이야기해 보세요. 덜 정교한 챗봇은 특정 집단에 대해 근거 없는 선호를 보일 가능성이 높습니다.

8. 참고문헌

AI는 사실을 재확인하는 경우가 거의 없습니다. 단순히 데이터세트에서 정보를 추출하여 언어 모델을 통해 재구성할 뿐입니다. 안타깝게도 제한된 학습은 AI의 환각으로 이어질 수 있습니다. 연구에 생성 AI 도구를 사용할 수는 있지만, 사실을 재확인하는 것은 필수입니다. 출력 결과를 참고 자료로 활용하세요.

Copilot은 각 출력 뒤에 참고문헌을 나열하여 사실 확인을 간소화합니다.

Gemini는 출처를 명시하지 않지만, Google 검색 쿼리를 실행하여 최신의 심층적인 설명을 생성합니다. SERP에서 핵심 내용을 확인할 수 있습니다.

ChatGPT는 사용자가 요청한 경우에만 리소스를 제공합니다.

채팅봇의 정확성을 테스트할 새로운 방법을 만드세요.

인공지능이 기술의 전부는 아닙니다. 고급 AI 시스템과 언어 모델은 놀라운 성능을 보이지만, 오류와 불일치도 발생합니다. 챗봇을 평가에 활용해 보세요. AI 기반 플랫폼은 기능과 한계를 이해하는 경우에만 사용할 수 있습니다.

수십 개의 크로스 플랫폼 챗봇이 있지만, 안정성과 정확성이 다소 부족할 수 있습니다. 테스트하는 데 시간만 낭비하게 될 뿐입니다. 고품질 결과를 얻으려면 시중에서 가장 강력한 세 가지 모델인 ChatGPT, Bing Copilot, Google Gemini에 집중하는 것이 좋습니다.