AI가 데이터 과학자의 일상 업무를 어떻게 재작성하고 있는가

가치가 낮은 작업을 없애는 것부터 영향력이 큰 프로젝트를 가속화하는 것까지, AI가 데이터 과학 워크플로를 어떻게 변화시키고 있는지 알아보세요.

이전 기사에서 저는 Google의 Data Science Agent를 포함한 여러 AI 도구를 살펴보고 비교했습니다. ChatGPT 대 Claude 대 Gemini 데이터 과학 및 딥시크 V3, 등. 그러나 이것은 사용 가능한 모든 AI 도구의 일부에 불과합니다. 데이터 과학예를 들어, 제가 작업에서 사용한 도구 중 일부는 다음과 같습니다.

  • 오픈AI API: 고객 피드백을 분류하고 요약하며 제품의 약점을 파악하는 데 사용합니다.
  • ChatGPT 그리고 쌍둥이 자리그들은 제가 Slack 메시지와 이메일을 초안하고, 분석 보고서를 작성하고, 심지어 성과 평가까지 하는 데 도움을 줍니다.
  • AI를 모으다:Glean은 AI를 사용하여 문서와 내부 커뮤니케이션에서 빠르게 답변을 찾았습니다.
  • 커서 그리고 부조종사: 저는 탭탭을 눌러 코드와 주석을 자동완성하는 걸 좋아합니다.
  • 헥스 매직저는 직장에서 공동 스프레드시트를 위해 Hex를 사용합니다. 또한 다음과 같은 기능도 제공합니다. 헥스 매직 대화형 AI를 사용하여 코드를 작성하고 버그를 수정합니다.
  • 눈송이 피질Cortex AI를 사용하면 사용자는 Snowflake의 데이터를 사용하여 LLM 엔드포인트를 호출하고, RAG와 텍스트-SQL 서비스를 구축할 수 있습니다.

이 목록에 더 많은 내용을 추가할 수 있을 것 같습니다. 새로운 AI 도구는 매일 출시되고 있습니다. 현재로서는 완전한 목록을 작성하는 것이 거의 불가능합니다. 따라서 이 글에서는 한 걸음 물러나 더 큰 질문에 집중하고자 합니다. 데이터 전문가로서 우리에게 정말 필요한 것은 무엇이고, AI가 어떻게 도움을 줄 수 있을까?؟

아래 섹션에서는 낮은 가치의 업무를 없애고 높은 가치의 업무를 가속화하는 두 가지 주요 추세에 초점을 맞추겠습니다.

 

1. 가치가 낮은 작업 제거

복잡한 데이터에서 비즈니스 인사이트를 발굴하고 이를 바탕으로 비즈니스 의사 결정을 내리는 것이 정말 즐거워서 데이터 과학자가 되었습니다. 하지만 이 분야에서 7년 넘게 일해 온 저는 모든 일이 제가 기대했던 만큼 흥미롭지만은 않다는 것을 인정해야겠습니다. 고급 분석을 수행하거나 머신러닝 모델을 구축하기 전에는 매일 피할 수 없는 저부가가치 워크플로가 많이 있습니다. 많은 경우, 이는 이해관계자에게 셀프서비스 분석을 제공할 적절한 도구가 없기 때문입니다. 현재 상황과 이상적인 사례를 살펴보겠습니다.

현재 상태: 우리는 데이터 해석자 및 게이트키퍼(때로는 "SQL 원숭이") 역할을 합니다.

  • 간단한 데이터 풀 리퀘스트 그녀는 매주 Slack으로 저와 제 팀에 찾아와서 "지난달 총 상품 가치(GMV)는 얼마였나요?"라고 묻습니다. "이 기준을 충족하는 고객 목록을 뽑아주시겠어요?" "내일 발표할 프레젠테이션에 이 숫자를 채워넣는 데 도와주시겠어요?"
  • 비즈니스 인텔리전스(BI) 도구는 셀프 서비스 사용 사례를 잘 지원하지 않습니다.Looker와 Tableau 같은 비즈니스 인텔리전스 도구를 도입하여 이해관계자들이 데이터를 쉽게 탐색하고 지표를 모니터링할 수 있도록 했습니다. 하지만 현실적으로 단순성과 셀프 서비스 기능 사이에는 항상 상충 관계가 존재합니다. 때로는 몇 가지 지표만으로 대시보드를 이해하기 쉽게 만들지만, 실제로는 제한된 수의 사용 사례에만 적용됩니다. 반면, 지표와 기반 데이터를 자유롭게 탐색할 수 있도록 도구를 고도로 맞춤 설정할 수 있도록 만들면 이해관계자들이 도구를 혼란스럽게 느끼고 사용에 대한 자신감을 잃을 수 있습니다. 최악의 경우, 데이터가 추출되어 잘못 해석될 수도 있습니다.
  • 문서가 적거나 오래되었습니다.이는 흔한 상황이지만, 다양한 이유로 발생할 수 있습니다. 예를 들어, 너무 빨리 움직여 결과 도출에만 집중하거나, 탄탄한 데이터 문서화 및 거버넌스 정책이 마련되어 있지 않을 수 있습니다. 결과적으로, 데이터 팀 외부의 사람들이 데이터를 활용하는 데 있어 데이터 부족(tribal) 지식이 병목 현상이 됩니다.

이상적인 사례: 이해관계자가 셀프 서비스를 이용할 수 있도록 하여 가치가 낮은 작업을 줄일 수 있습니다.

  • 이해 관계자는 간단한 데이터를 추출하고 기본 데이터 질문에 쉽고 자신 있게 답할 수 있습니다.
  • 데이터 팀은 반복적인 보고서나 기본적인 일회성 쿼리를 준비하는 데 소요되는 시간을 줄였습니다.
  • 대시보드는 직접적인 도움 없이도 발견, 해석, 실행이 가능합니다.

그렇다면 이상적인 사례에 더 가까워지기 위해, AI는 어떤 역할을 할 수 있을까요? 제가 관찰한 바에 따르면, AI 도구들이 이러한 공백을 메우기 위해 일반적으로 지향하는 방향은 다음과 같습니다.

  1. 자연어 데이터 쿼리(텍스트-SQL)기술 장벽을 낮추는 한 가지 방법은 이해관계자가 자연어로 데이터를 쿼리할 수 있도록 하는 것입니다. 업계에는 Text-to-SQL을 위한 다양한 노력이 있습니다.
    • 예를 들어, 눈송이 많은 진전을 이룬 회사 중 하나입니다. Text2SQL 모델 그리고 해당 기능을 자사 제품에 통합하기 시작했습니다.
    • 많은 회사(저희 회사 포함)에서도 Text2SQL 솔루션을 사내에서 검토해 왔습니다. 예를 들어, 저는 동네 짱 그녀의 여행 우버의 QueryGPT 이 기사에서는 Uber가 운영팀의 데이터 쿼리를 더욱 쉽게 수행할 수 있도록 쿼리 생성을 위한 다중 에이전트 아키텍처를 어떻게 설계했는지 자세히 설명했습니다. 동시에, 사용자 의도를 정확하게 해석하고, 대규모 테이블 스키마를 처리하고, 환각 현상을 피하는 등 이 분야에서 중요한 과제들이 존재함을 보여주었습니다.
    • 솔직히 말해서, Text-to-SQL을 제대로 작동시키려면 매우 엄격한 쿼리 검증이 필요합니다. 도구가 한 번만 실패하더라도 신뢰가 무너질 수 있으며, 결국 이해관계자들이 쿼리 검증을 위해 다시 찾아와야 할 것입니다. (그러면 쿼리를 읽고 다시 작성해야 하므로 작업량이 거의 두 배로 늘어납니다. :)) 지금까지 완벽하게 작동하는 Text-to-SQL 모델이나 도구를 찾지 못했습니다. 특정 표준화된 사용 사례에 대해 잘 문서화된 기반 데이터 세트의 아주 작은 부분집합을 쿼리할 때만 가능하다고 생각하지만, 사용 가능한 모든 데이터와 다양한 비즈니스 시나리오를 포괄하도록 확장하는 것은 매우 어렵습니다.
    • 물론 이 분야에 대한 막대한 투자와 AI의 급속한 발전을 고려하면 정확하고 확장 가능한 텍스트-SQL 솔루션에 점점 더 가까워질 것이라고 확신합니다.
  2. 채팅 기반 비즈니스 인텔리전스(BI) 어시스턴트비즈니스 인텔리전스 도구를 통해 이해관계자 경험을 개선하는 또 다른 인기 있는 방법은 채팅 기반 비즈니스 인텔리전스 어시스턴트를 활용하는 것입니다. 이 기능은 Text-to-SQL 방식을 한 단계 더 발전시킵니다. 사용자의 요청에 따라 SQL 쿼리를 생성하는 대신, 텍스트 요약과 함께 시각화 형식으로 응답합니다.
    • 루커의 쌍둥이자리 예를 들어 보겠습니다. Looker는 Google 소유이므로 Gemini와 통합하는 것이 자연스럽습니다. Looker가 AI를 구축하는 데 있어 또 다른 장점은 데이터 필드가 LookML 시맨틱 계층에 이미 문서화되어 있고, 대시보드에 공통 매핑과 공통 지표가 내장되어 있다는 것입니다. 따라서 학습할 수 있는 유용한 데이터가 풍부합니다. Gemini를 사용하면 사용자가 Looker 대시보드를 미세 조정하고, 데이터에 대해 질문하고, 대화형 분석을 위한 맞춤형 데이터 에이전트를 구축할 수 있습니다. 하지만 이 도구를 사용해 본 경험이 부족해서 간단한 질문에 대한 답변이 부족한 경우가 종종 있습니다. 다른 경험을 하셨고 제대로 작동하셨다면 알려주세요.
    • Tableau도 비슷한 기능을 출시했습니다. 태블로 AI직접 사용해 본 적은 없지만 데모에 따르면 데이터 팀이 데이터를 준비하고, 자연어를 사용하여 대시보드를 빠르게 만들고, 이해 관계자가 지표 변화와 비정상적인 추세를 쉽게 파악할 수 있도록 Tableau Pulse에서 데이터 통찰력을 요약하는 데 도움이 됩니다.
  3. 데이터 인덱싱 도구AI는 데이터 문서가 거의 없거나 전혀 없는 문제를 극복하는 데에도 도움이 될 수 있습니다.
    • 내부 해커톤에서 데이터 엔지니어들이 진행하던 프로젝트 중 하나가 LLM을 활용하여 테이블 문서의 커버리지를 늘리는 것이었던 기억이 납니다. AI는 대부분의 경우 코드 베이스를 읽고 그에 따라 열을 높은 정확도로 설명할 수 있기 때문에, 사람의 검증 및 수정을 최소화하면서 문서화를 빠르게 개선할 수 있습니다.
    • 마찬가지로, 제 팀이 새로운 테이블을 만들 때, 우리는 Cursor에게 테이블 문서화를 위한 YAML 파일을 작성해 달라고 요청하기 시작했는데, 이를 통해 고품질의 출력으로 시간을 절약할 수 있었습니다.
    • AI와 통합된 데이터 인덱스와 거버넌스 도구도 많이 있습니다. "AI 데이터 인덱스"를 구글에 검색하면 Atlan, Alation, Collibra, Informatica 등의 데이터 인덱싱 도구 로고가 나옵니다(참고: 저는 이 도구들을 사용해 본 적이 없습니다). 이는 분명한 업계 추세입니다.

 

2. 고부가가치 작업 가속화

AI가 저부가가치 업무를 제거하는 데 어떻게 도움이 될 수 있는지 살펴보았으니, 이제 고부가가치 데이터 프로젝트를 어떻게 가속화할 수 있는지 살펴보겠습니다. 여기서 "고부가가치 업무"란 기술적 우수성과 비즈니스 맥락을 결합하고 기능 간 협업을 통해 의미 있는 성과를 달성하는 데이터 프로젝트를 의미합니다. 예를 들어, 제품 사용 패턴을 파악하고 제품 변경으로 이어지는 심층 분석이나, 이탈 위험이 있는 고객을 파악하고 이탈 방지 이니셔티브를 구축하는 고객 이탈 예측 모델 등이 있습니다. 현재 상황과 이상적인 미래를 비교해 보겠습니다.

현재 상태: 병목 현상이 있습니다. 생산력 일상 업무 흐름에서 

  • 탐색적 데이터 분석(EDA)은 시간이 많이 걸립니다.이 단계는 데이터에 대한 초기 이해를 얻는 데 필수적이지만, 모든 단변량 및 다변량 분석을 수행하는 데는 시간이 많이 걸릴 수 있습니다.
  • 코딩과 디버깅에 시간 낭비솔직히 말해서, 누구도 numpy, pandas, sklearn 모델 매개변수를 모두 기억할 수는 없습니다. 코딩하는 동안 끊임없이 문서를 찾아봐야 하니까요.
  • 구조화되지 않은 풍부한 데이터가 충분히 활용되지 않고 있습니다.기업들은 설문조사, 지원 티켓, 리뷰 등을 통해 매일 막대한 양의 텍스트 데이터를 생성합니다. 하지만 확장 가능한 인사이트를 어떻게 추출할지는 여전히 어려운 과제입니다.

이상적인 경우: 데이터 과학자는 구문이 아닌 심층적 사고에 집중합니다. 

  • 구문을 찾아보지 않고도 코드를 작성하는 것이 더 빠르게 느껴집니다.
  • 분석가는 결과를 해석하는 데 더 많은 시간을 할애하고, 데이터 작업에 소요되는 시간은 줄입니다.
  • 구조화되지 않은 데이터는 더 이상 장벽이 아니며 빠르게 분석될 수 있습니다.

이상적인 사례를 보면 이미 몇 가지 AI 도구가 떠오를 겁니다. AI가 실제로 어떤 영향을 미치고 변화를 가져올 수 있는지 살펴보겠습니다.

  1. 코딩 및 디버깅을 위한 AI 어시스턴트제 생각에 이게 코딩하는 모든 사람을 위한 AI 도구 중 단연 가장 널리 채택된 유형입니다. 그리고 이미 복제되고 있는 모습을 보고 있습니다.
    • LLM 챗봇이 다음과 같은 경우 ChatGPT 그리고 클로드엔지니어들은 챗봇에 구문 관련 질문이나 오류 메시지를 간단히 묻기만 하면 매우 정확한 답변을 받을 수 있다는 사실을 깨달았습니다. 이는 코딩 워크플로우에 지장을 주긴 했지만, 수십 개의 StackOverflow 탭을 클릭하는 것보다 훨씬 나았습니다. 마치 지난 세기처럼 느껴졌습니다.
    • 이후 통합 AI 코딩 도구의 Plus와 Plus가 등장합니다. GitHub 부조종사 그리고 커서 코드 편집기를 사용하면 코드베이스를 읽고 IDE 내에서 코드 완성을 적극적으로 제안하고 문제를 디버깅할 수 있습니다.
    • 처음에 간략하게 언급했듯이 다음과 같은 데이터 도구 눈송이 그리고 마녀 또한 데이터 분석가와 데이터 과학자가 쉽게 코드를 작성할 수 있도록 돕는 AI 코딩 어시스턴트도 포함되어 있습니다.
  2. 탐색적 데이터 분석 및 분석을 위한 인공 지능이는 위에서 언급한 채팅 기반 BI 어시스턴트 도구와 다소 유사하지만, 그 목표는 더욱 야심적입니다. 원시 데이터셋에서 시작하여 데이터 정리, 전처리, 탐색적 분석, 그리고 때로는 모델링까지 전체 분석 주기를 자동화하는 것을 목표로 합니다. 이러한 도구들은 종종 "데이터 분석가를 대체한다"고 광고되지만, 과연 그럴까요?
    • Google 데이터 과학 에이전트 간단한 프롬프트로 Jupyter Notebook 전체를 생성할 수 있는 매우 인상적인 새 도구입니다. 저는 최근에 다음과 같이 썼습니다. 기사 이 기능은 무엇을 할 수 있고 무엇을 할 수 없는지 설명합니다. 간단히 말해, 사용자 지정 가능한 실행 계획을 기반으로 작동하는 체계적인 Jupyter Notebook을 빠르게 생성할 수 있습니다. 하지만 후속 질문에 따라 Jupyter Notebook을 수정하는 기능은 부족하고, 여전히 데이터 과학에 대한 깊은 지식을 갖춘 사람이 방법을 검토하고 수동 반복 작업을 수행해야 하며, 명확하고 잘 문서화된 데이터 세트를 사용하여 데이터 문제를 명확하게 정의해야 합니다. 따라서 초기 코드 작성 시간을 절약하고 업무를 위험에 빠뜨리지 않는 훌륭한 도구라고 생각합니다.
    • 또한 다음과 같이 분류될 수 있습니다. ChatGPT 데이터 분석 도구 이 영역에서는 사용자가 데이터 세트를 업로드하고 채팅을 통해 분석을 완료하고, 시각화를 생성하고, 질문에 답변할 수 있습니다. 이 기능에 대한 자세한 내용은 이전 글에서 확인하실 수 있습니다. 여기이 제품 역시 비슷한 과제에 직면해 있으며, 데이터 분석을 대체하기보다는 EDA 보조 도구로 더 잘 작동합니다.
  3. NLP 기능은 사용하기 쉽고 확장 가능합니다.LLM은 대화에 매우 효과적입니다. 따라서 오늘날의 LLM 덕분에 NLP가 훨씬 쉬워졌습니다.
    • 저희 회사는 매년 사내 해커톤을 개최합니다. 3년 전 해커톤 프로젝트는 BERT와 기타 전통적인 토픽 모델링 방법을 사용하여 NPS 설문조사 응답을 분석하는 것이었는데, 재밌긴 했지만 솔직히 말해서 정확하고 의미 있는 결과를 얻기가 매우 어려웠습니다. 2년 전 해커톤에서 저희는 오픈AI API 피드백 데이터 자체를 분류하고 요약하는 작업은 매우 효과적이었습니다. 단 한 번의 API 호출로 고충실도 주제 모델링, 감정 분석, 피드백 분류를 모두 처리할 수 있었고, 시스템 프롬프트를 기반으로 한 결과값은 저희 비즈니스 환경에 잘 부합했습니다. 이후 설문조사 응답, 지원 티켓, 영업 전화, 사용자 조사 노트 등 다양한 텍스트 데이터를 쉽게 포함할 수 있도록 내부 파이프라인을 구축했습니다. 이는 고객 피드백의 중심 허브가 되었고, 저희 제품 로드맵에 중요한 정보를 제공했습니다. Plus는 다음에서 확인하실 수 있습니다. 이 기술 블로그.
    • AI 기반 고객 피드백 분석 도구, 제품 리뷰 분석 도구, 고객 서비스 지원 도구 등을 개발하는 새로운 회사도 많이 있습니다. 아이디어는 모두 비슷합니다. 즉, LLM이 텍스트 맥락을 이해하고 대화를 진행하여 텍스트 분석을 전문으로 하는 AI 에이전트를 만드는 방식을 활용하는 것입니다.

 

결론

최신 인공지능(AI) 도구를 쫓는 데 얽매이기 쉽습니다. 하지만 궁극적으로 중요한 것은 AI를 활용하여 우리의 속도를 늦추는 요소를 제거하고 앞으로 나아가는 데 박차를 가하는 것입니다. 핵심은 실용성을 유지하는 것입니다. 현재 효과적인 것을 채택하고, 새롭게 등장하는 것에 대한 호기심을 잃지 않고, 데이터 과학의 핵심 목표, 즉 더 나은 이해를 통해 더 나은 의사 결정을 내리는 것을 절대 잊지 마십시오.

 

댓글이 닫혔습니다.