AI 솔루션이 예상대로 작동하는지 어떻게 확인하시나요?

AI 평가에 대한 간략한 소개

생성적 AI(GenAI)는 빠르게 발전하고 있으며, 더 이상 재미있는 챗봇이나 인상적인 이미지 생성에만 국한되지 않습니다. 2025년은 AI 열풍을 실질적인 가치로 전환하는 데 중점을 두는 해가 될 것입니다. 전 세계 기업들은 사용자에게 더 나은 서비스를 제공하고, 효율성을 높이고, 경쟁력을 유지하고, 성장을 촉진하기 위해 GenAI를 제품 및 운영에 통합하고 활용할 방법을 모색하고 있습니다. 주요 공급업체의 API와 사전 학습된 모델 덕분에 GenAI 통합이 그 어느 때보다 쉬워졌습니다. 하지만 여기에 함정이 있습니다. 통합이 쉽다고 해서 AI 솔루션이 배포된 후에 의도한 대로 작동한다는 의미는 아닙니다.

예측 모델은 사실 새로운 개념이 아닙니다. 인간은 수년 동안 통계를 기반으로 예측을 해왔습니다. 하지만 GenAI는 여러 가지 이유로 예측 분야에 혁명을 일으키고 있습니다.:

  • AI 솔루션을 구축하는 데 자체 모델을 학습시키거나 데이터 과학자가 될 필요는 없습니다.
  • 이제 AI는 채팅 인터페이스를 통해 사용하기 쉽고 API를 통해 쉽게 통합할 수 있습니다.
  • 이전에는 불가능했거나 하기 정말 어려웠던 많은 일을 가능하게 했습니다.

이 모든 것들이 만들어지죠 GenAI는 매우 흥미롭지만 위험하기도 합니다.기존 소프트웨어나 고전적인 머신러닝과는 달리, GenAI는 새로운 차원의 예측 불가능성을 제시합니다. 결정론적 논리를 구현하는 것이 아니라, 방대한 데이터로 훈련된 모델을 사용하여 필요에 따라 반응하기를 기대하는 것입니다. 그렇다면 AI 시스템이 우리가 의도한 대로 동작하는지 어떻게 알 수 있을까요? AI 시스템이 작동할 준비가 되었는지 어떻게 알 수 있을까요? 정답은 바로 평가입니다. 이 글에서 이 개념을 살펴보겠습니다.

  • Genai 시스템을 기존 소프트웨어나 클래식 머신 러닝(ML)과 같은 방식으로 테스트할 수 없는 이유
  • AI 시스템의 품질을 이해하는 데 평가가 필수적이고 선택 사항이 아닌 이유(놀라움을 좋아하지 않는 한)
  • 다양한 유형의 평가와 이를 실제에 적용하기 위한 기술

여러분이 제품 관리자, 엔지니어 또는 AI와 관련된 일을 하거나 AI에 관심이 있는 사람이라면, 이 글이 AI 시스템의 품질에 대해 비판적으로 생각하는 방법(그리고 그 품질을 달성하는 데 평가가 왜 필수적인지!)을 이해하는 데 도움이 되기를 바랍니다.

 

생성적 AI는 기존 소프트웨어나 고전적인 머신 러닝처럼 테스트할 수 없습니다.

기존 소프트웨어 개발에서시스템은 결정론적 논리를 따릅니다. X가 발생하면 Y도 발생합니다. – 항상 그렇습니다. 플랫폼에 문제가 생기거나 코드에 버그가 생기지 않는 한… 테스트, 모니터링, 알림 기능이 포함된 이유가 바로 여기에 있습니다. 단위 테스트는 작은 코드 블록의 유효성을 검사하고, 통합 테스트는 구성 요소가 서로 잘 작동하는지 확인하고, 모니터링은 프로덕션 환경에서 문제가 있는지 감지하는 데 사용됩니다. 전통적인 소프트웨어 테스트는 계산기가 작동하는지 확인하는 것과 같습니다. 2 + 2를 입력하면 4가 나올 것으로 예상합니다. 이는 명확하고 당연한 결과이며, 참 또는 거짓입니다.

그러나 머신러닝과 인공지능은 불확정성과 확률을 도입합니다. 규칙을 통해 행동을 명확하게 정의하는 대신, 데이터에서 패턴을 학습하도록 모델을 훈련시킵니다. AI에서 X가 발생하면 출력은 더 이상 하드코딩된 Y가 아니라, 모델이 훈련 중에 학습한 내용을 기반으로 한 어느 정도 확률이 있는 예측입니다.이 방법은 매우 강력할 수 있지만 불확실성도 야기합니다. 동일한 입력이 시간이 지남에 따라 다른 출력을 낼 수 있고, 그럴듯한 출력이 실제로는 틀릴 수도 있으며, 드문 시나리오에서 예상치 못한 동작이 나타날 수도 있습니다.

이로 인해 전통적인 시험 방법은 불충분하고, 때로는 실행 불가능할 수도 있습니다. 계산기 예시는 주관식 시험에서 학생의 성적을 평가하는 것과 유사합니다. 각 문제와 그에 대한 여러 가지 가능한 답안을 제시했을 때, 주어진 답이 맞는가? 학생의 지식 수준을 넘어서는가? 학생이 모든 것을 지어냈지만 너무 설득력이 있는가? 시험 답안처럼, AI 시스템을 평가할 수는 있지만, 다양한 입력, 맥락, 사용 사례에 적응할 수 있는 보다 일반적이고 유연한 방법이 필요합니다. (또는 테스트 유형).

기계 학습 전통적으로(ML) 평가는 프로젝트 수명 주기의 확립된 부분입니다.대출 승인이나 질병 탐지와 같은 특정 작업을 위한 모델을 학습할 때는 항상 정밀도, 재현율, RMSE, MAE와 같은 지표를 사용하는 평가 단계가 포함됩니다. 이는 모델의 성능을 측정하고, 다양한 모델 옵션을 비교하고, 모델이 배포 단계로 넘어갈 만큼 충분히 좋은지 판단하는 데 사용됩니다. GenAI에서는 이러한 방식이 일반적으로 변경됩니다. 각 팀은 모델 제공업체의 내부 평가 및 공개 벤치마크를 통해 이미 학습되고 범용 평가를 통과한 모델을 사용합니다. 이러한 모델은 질문에 답하거나 이메일을 작성하는 것과 같은 일반적인 작업에 매우 적합하기 때문에 특정 사용 사례에 대해 과도하게 신뢰하게 될 위험이 있습니다. 하지만 "이 멋진 템플릿이 내 사용 사례에 충분히 적합할까요?"여기서 평가가 시작됩니다." - 예측이나 생성이 특정 사용 사례, 컨텍스트, 입력 및 사용자에게 적합한지 평가합니다.

ML과 GenAI의 또 다른 주요 차이점은 모델 출력의 다양성과 복잡성입니다. 더 이상 범주와 확률(예: 고객의 대출 상환 가능성)이나 숫자(예: 주택의 특성에 따른 예상 가격)를 반환하지 않습니다. GenAI 시스템은 다양한 길이, 톤, 내용 및 형식을 가진 다양한 유형의 출력을 반환할 수 있습니다. 마찬가지로, 이러한 모델은 더 이상 고도로 구조화되고 구체적인 입력을 요구하지 않지만, 일반적으로 텍스트, 이미지, 심지어 오디오나 비디오까지 거의 모든 유형의 입력을 수용합니다. 따라서 평가가 훨씬 더 어려워집니다.

평가가 선택이 아닌 필수인 이유 (불쾌한 놀라움을 선호하지 않는 한)

평가는 AI 시스템이 실제로 의도한 대로 작동하는지 측정하는 데 도움이 됩니다. 당신은 그것을 원한다...그리고 시스템이 운영 준비가 되었는지, 그리고 준비가 되었다면 예상대로 계속 작동하는지 여부도 중요합니다. 평가가 중요한 이유를 분석해 보겠습니다.

  • 품질 평가: 평가는 AI 예측 또는 결과의 품질과 전체 시스템 및 사용 사례에 어떻게 통합될지 이해하는 체계적인 방법을 제공합니다. 응답은 정확하고, 유용하며, 일관성 있고, 관련성이 있습니까?
  • 오류 정량화: 평가는 오류의 비율, 유형 및 규모를 파악하는 데 도움이 됩니다. 오류는 얼마나 자주 발생합니까? 어떤 유형의 오류가 가장 자주 발생합니까(예: 위양성, 환각, 형식 오류)?
  • 공유하기: 이 솔루션은 사용자에게 도달하기 전에 유해하거나 편향된 행동을 감지하고 방지하는 데 도움이 되며, 회사를 평판 위험, 윤리적 문제, 잠재적인 규제 문제로부터 보호합니다.

자유로운 형태의 입출력 관계와 장문 텍스트 생성 기능을 갖춘 생성형 AI는 평가를 더욱 중요하고 복잡하게 만듭니다. 문제가 발생하면 매우 심각한 결과를 초래할 수 있습니다. 위험한 조언을 제공하는 챗봇, 편향된 콘텐츠를 생성하는 모델, 허위 사실을 유포하는 AI 도구 등에 대한 기사가 쏟아져 나오고 있습니다.

 

"AI는 결코 완벽할 수 없지만, 평가를 활용하면 당혹스러운 상황의 위험을 줄일 수 있습니다. 당혹스러운 상황이 발생하면 돈, 신뢰도, 트위터에서 화제가 되는 순간 등이 손실될 수 있습니다."

 

AI 평가 전략을 어떻게 정의하시나요?

그렇다면 AI 평가는 어떻게 결정할까요? 모든 경우에 적용되는 단일 평가 방법은 없습니다. 평가는 특정 사용 사례에 따라 달라지며, AI 애플리케이션의 구체적인 목표와 부합해야 합니다. 예를 들어 검색 엔진을 구축하는 경우 결과의 관련성이 중요할 수 있습니다. 챗봇이라면 유용성과 안전성이 중요할 수 있습니다. 분류기를 구축하는 경우 정확도와 정밀도가 중요할 것입니다. 여러 단계가 포함된 시스템(예: 검색을 수행하고 결과의 우선순위를 정한 후 답변을 생성하는 AI 시스템)의 경우, 각 단계를 평가해야 하는 경우가 많습니다. 여기서 핵심은 각 단계가 전반적인 성공 지표 달성에 도움이 되는지 측정하고, 이를 통해 반복 작업과 개선에 집중해야 할 부분을 파악하는 것입니다.

일반적인 평가 영역은 다음과 같습니다.

  • 정확성 및 환각: 출력 결과가 현실적으로 정확한가? 시스템이 잘못된 정보를 생성하거나 환각을 유발하는가?
  • 관련성: 콘텐츠가 사용자 질의나 제공된 맥락과 일관성이 있나요?
  • 안전, 편견 및 독성
  • 체재: 출력이 예상 형식(예: JSON, 유효한 함수 호출)입니까?
  • 안전, 편견 및 독성: 시스템이 유해하거나 편향적이거나 유해한 콘텐츠를 생성합니까?

업무별 측정항목. 예를 들어, 분류 작업에서는 정확도와 정밀도와 같은 측정 항목이 사용되고, 요약 작업에서는 ROUGE 또는 BLEU가 사용되고, 정규식 코드 생성 및 오류 없는 실행 검증 작업에서는 측정 항목이 사용됩니다.

실제로 평가는 어떻게 계산되나요?

측정할 대상을 결정했다면 다음 단계는 테스트 케이스를 설계하는 것입니다. 테스트 케이스는 다음과 같은 내용을 포함하는 일련의 예시로 구성됩니다(예시가 많을수록 좋지만, 가치와 비용의 균형을 항상 유지해야 합니다).

  • 입력 예:시스템이 생산에 들어간 후의 현실적인 소개입니다.
  • 예상 출력 (해당되는 경우): 원하는 결과에 대한 주요 사실 또는 예.
  • 평가 방법: 결과를 평가하기 위한 기록 메커니즘.
  • 결과 또는 성공/실패: 테스트 사례를 평가하는 계산된 지표입니다.

귀하의 요구 사항, 시간, 예산에 따라 평가 방법으로 사용할 수 있는 여러 가지 기술이 있습니다.

  • 다음과 같은 통계적 기록 도구: BLEU, ROUGE, METEOR 또는 임베딩 간 코사인 유사도 측정 - 생성된 텍스트를 참조 출력과 비교하는 데 좋습니다.
  • 다음과 같은 기존 머신 러닝 측정 항목 정확도, 재현율 및 AUC – 레이블이 지정된 데이터를 사용한 분류에 가장 적합합니다.
  • 판사로서의 대규모 언어 모델(LLM-as-a-Judge) 대규모 언어 모델을 사용하여 출력을 평가합니다(예: "이 답변이 정확하고 도움이 되나요?"). 특히 분류되지 않은 데이터를 사용할 수 없거나 개방형 구조를 평가할 때 유용합니다.

코드 기반 평가 정규 표현식, 논리 규칙 또는 테스트 사례 구현을 사용하여 형식을 검증합니다.

 

결론

구체적인 예를 들어 설명해 보겠습니다. 고객 지원팀이 수신 이메일의 우선순위를 정하는 데 도움이 되는 감정 분석 시스템을 구축한다고 가정해 보겠습니다.

목표는 가장 시급하거나 부정적인 메시지에 더 빠른 응답을 제공하여 고객 불만을 줄이고, 만족도를 높이며, 고객 이탈을 줄이는 것입니다. 비교적 간단한 활용 사례이지만, 이처럼 출력량이 제한적인 시스템에서도 품질은 중요합니다. 잘못된 예측은 이메일 우선순위 지정을 무질서하게 만들어, 결국 비용이 많이 드는 시스템에 시간을 낭비하게 됩니다.

그렇다면 솔루션이 기대하는 만큼 제대로 작동하고 있는지 어떻게 알 수 있을까요? 바로 평가를 통해서입니다. 이 특정 사용 사례에서 평가할 만한 몇 가지 예를 소개합니다.

  • 형식 검증: 이메일 감정을 예측하는 대규모 언어 모델(LLM) 호출의 출력이 예상 JSON 형식으로 반환됩니까? 정규식, 스키마 검증 등 코드 기반 검사를 통해 이를 평가할 수 있습니다.
  • 감정 분류 정확도: 시스템이 짧은 텍스트, 긴 텍스트, 다국어 텍스트 등 다양한 텍스트에서 감정을 정확하게 분류할 수 있을까요? 이는 기존의 머신러닝 지표(ML 지표)를 사용하여 레이블이 지정된 데이터를 통해 평가할 수 있으며, 레이블을 사용할 수 없는 경우 대규모 언어 모델(LLM)을 사용하여 판단할 수 있습니다.

솔루션이 활성화되면 솔루션의 궁극적인 영향과 가장 밀접하게 관련된 측정항목도 포함하고 싶을 것입니다.:

  • 우선순위 효과: 지원 담당자가 실제로 가장 중요한 이메일로 안내받고 있나요? 우선순위 지정이 원하는 비즈니스 효과에 부합하나요?
  • 최종 비즈니스 영향: 시간이 지남에 따라 이 시스템은 응답 시간을 단축하고, 고객 이탈을 줄이며, 만족도 점수를 향상시키는가?

평가는 AI 시스템이 유용하고, 안전하고, 가치 있고, 실제 사용자에게 제공할 준비가 되어 있는지 확인하는 데 필수적입니다. 따라서 간단한 분류기를 사용하든 개방형 챗봇을 사용하든 "충분히 좋은"(최소 실행 가능 품질)이 무엇을 의미하는지 정의하고 이를 측정하기 위한 평가를 구축하는 데 시간을 투자하세요!

 

리뷰어

[1] 귀하의 AI 제품에는 평가가 필요합니다하멜 후세인

[2] LLM 평가 지표: 최고의 LLM 평가 가이드, Confident AI

[3] AI 에이전트 평가, deeplearning.ai + Arize

 

댓글이 닫혔습니다.