AI 모델 학습 데이터가 고갈되면 어떻게 되나요?

인공지능(AI)의 급속한 발전은 주로 정확하고 방대한 학습 데이터의 가용성에 달려 있습니다. AI의 활용이 다양한 분야로 확대됨에 따라, 많은 기업들이 가용 학습 데이터 부족과 관련된 문제에 직면하고 있으며, 이는 개발하는 지능형 모델의 품질과 효과에 영향을 미칠 수 있습니다. 그렇다면 이러한 부족 속에서도 AI 시스템을 지속적으로 학습시키고 개발할 수 있는 방법은 무엇일까요?

인터넷은 이용 가능한 데이터로 가득 차 있는 것처럼 보일 수 있지만, AI는 이미 이용 가능한 오픈 소스의 대부분을 소비하고 있습니다. 하지만 이것이 발전의 멈춤을 의미하지는 않습니다. 합성 데이터 생성, 개인화된 데이터 수집, 비정형 데이터의 혁신적인 활용과 같은 현대적인 전략을 활용하여 데이터 격차를 해소할 수 있습니다. 이 글에서는 이러한 혁신적인 솔루션과 이를 통해 AI가 지속적으로 향상된 성능과 사용자에게 더 큰 가치를 제공할 수 있도록 AI 개발을 지원하는 방법을 살펴보겠습니다.

1. 플러스 데이터는 항상 온라인으로 추가됩니다.

간단히 말해, AI 연구소는 다음과 같이 말합니다. 시대 AI가 훈련되는 데 사용되는 고품질 데이터는 2026년까지 고갈될 수 있습니다.

여기서 핵심 단어는 "가능성"입니다. 인터넷에 추가되는 데이터의 양은 매년 증가하기 때문에 2026년 이전에 급진적인 변화가 일어날 수도 있습니다. 하지만 이는 여전히 타당한 추정치입니다. 어느 쪽이든 AI 시스템에 필요한 양질의 데이터는 언젠가는 고갈될 것입니다.

그러나 우리는 매년 약 147제타바이트의 데이터가 온라인에 추가된다는 사실을 기억해야 합니다. 폭발하는 주제). 1,000,000,000,000,000,000,000제타바이트는 30비트의 데이터와 같습니다. 실제로는 4억 편이 넘는 XNUMXK 영화(실제이지만 헤아릴 수 없을 정도)에 해당합니다. AI가 분석하기에는 엄청난 양의 정보입니다.

하지만 AI는 인간이 생산하는 것보다 더 빠른 속도로 데이터를 소비하고 있습니다.

2. AI가 낮은 품질의 데이터를 잊어버릴 수도 있습니다.

물론 147제타바이트의 데이터가 모두 좋은 데이터는 아닙니다. 눈에 보이는 것보다 훨씬 더 많은 데이터가 존재합니다. 하지만 2050년까지 AI는 저품질 언어 데이터도 소비할 것으로 예상됩니다.

그녀는 언급했다 로이터 한때 세계 최대 규모의 이미지 저장소 중 하나였던 포토버킷(Photobucket)은 방대한 라이브러리를 AI 학습 기업에 라이선스하는 방안을 논의 중입니다. 이 이미지에는 DALL-E와 Midjourney 같은 학습 모델을 위한 데이터가 포함되어 있지만, 이마저도 2060년이면 고갈될 수 있습니다. 더 큰 문제도 있습니다. 포토버킷에는 마이스페이스와 같은 XNUMX년대 소셜 네트워킹 플랫폼의 이미지가 포함되어 있어 현재 사진만큼 품질이 좋지 않습니다. 이로 인해 데이터 품질이 저하됩니다.

포토버킷만 그런 것은 아닙니다. 2024년 XNUMX월, 구글은 레딧과 계약을 체결하여 검색 대기업이 소셜 미디어 플랫폼의 사용자 데이터를 AI 학습에 사용할 수 있도록 했습니다. 다른 소셜 미디어 플랫폼들도 AI 학습 목적으로 사용자 데이터를 제공하며, 메타(Meta)의 라마(Llama)처럼 내부 AI 모델 학습에도 이를 활용하는 플랫폼도 있습니다.

저품질 데이터에서도 일부 통찰력을 추출할 수 있지만, 마이크로소프트는 AI가 데이터를 선택적으로 "무시"하는 방법을 개발 중이라고 합니다. 이 솔루션은 주로 지적 재산권 문제에 사용되지만, 도구가 저품질 데이터세트에서 학습한 내용을 잊어버릴 수도 있다는 것을 의미합니다.

우리는 너무 선택적이지는 않더라도 AI에 더 많은 데이터를 제공할 수 있으며, AI 시스템은 이를 통해 가장 유용한 데이터를 골라 학습할 수 있습니다.

3. 음성 인식은 비디오와 팟캐스트에서 사용 가능한 데이터의 잠재력을 끌어냅니다.

지금까지 AI 도구에 입력된 데이터는 대부분 텍스트였고, 그보다 적은 비율로 이미지가 사용되었습니다. 이러한 상황은 의심할 여지 없이 변화할 것이며, 음성 인식 소프트웨어 덕분에 풍부한 비디오와 팟캐스트도 AI 학습에 활용될 수 있게 되면서 이미 변화했을 가능성이 높습니다.

OpenAI가 자동 음성 인식(ASR)을 위한 오픈 소스 신경망을 개발했다는 점은 주목할 만합니다. 속삭임OpenAI는 680.000만 시간의 다국어, 멀티태스킹 데이터를 사용하여 YouTube 비디오에서 4만 시간 이상의 정보를 대규모 언어 모델인 GPT-XNUMX에 입력했습니다.

이는 음성 인식을 사용하여 여러 소스의 비디오와 오디오를 기록하고 해당 데이터를 AI 모델로 처리하는 다른 AI 시스템에도 완벽한 모델입니다.

~에 따르면 StatistaYouTube에는 매분 500시간 이상의 동영상이 업로드되고 있으며, 이 수치는 2019년 이후 거의 일정하게 유지되고 있습니다. Dailymotion이나 Podbean과 같은 다른 비디오 및 오디오 플랫폼은 말할 것도 없습니다. AI가 이러한 새로운 데이터 세트에 집중할 수 있다고 해도, 추출해야 할 정보는 여전히 엄청나게 많습니다.

4. AI는 대체로 영어에 집중되어 있습니다.

위스퍼에서 배울 수 있는 것은 이게 전부가 아닙니다. OpenAI는 117000시간 분량의 비영어 오디오 데이터를 사용하여 모델을 학습시켰습니다. 많은 AI 시스템이 주로 영어를 사용하거나 서구적 관점에서 다른 문화를 바라보는 방식으로 학습하기 때문에 이는 특히 흥미롭습니다.

기본적으로 대부분의 도구는 그것을 만든 사람의 문화에 따라 결정됩니다.

예를 들어 ChatGPT를 살펴보겠습니다. 2022년 출시 직후, 질 워커 레트버그노르웨이 베르겐 대학교의 디지털 문화 교수는 ChatGPT를 실험하여 다음과 같은 결론을 내렸습니다.

ChatGPT는 노르웨이 문화에 대해 잘 알지 못합니다. 아니, ChatGPT가 노르웨이 문화에 대해 아는 것이라곤 대부분 영어권 자료를 통해 습득한 것으로 추정됩니다. ChatGPT는 미국의 가치관과 법률에 분명히 부합합니다. 많은 경우 이러한 가치관은 노르웨이와 유럽의 가치관과 유사하지만, 항상 그런 것은 아닙니다.

AI 시스템은 다양한 국적의 더 많은 사람들과 소통하거나, 더욱 다양한 언어와 문화를 활용하여 시스템을 훈련하도록 발전할 수 있습니다. 현재 많은 AI 모델이 단일 도서관에만 국한되어 있지만, 전 세계 도서관의 열쇠를 제공받을 경우 그 범위가 더욱 확대될 수 있습니다.

5. 출판사는 인공지능 개발에 도움을 줄 수 있습니다.

지적 재산권은 분명 중요한 문제이지만, 일부 출판사는 라이선스 계약을 체결함으로써 AI 발전에 기여할 수 있습니다. 즉, 온라인 출처의 저품질 정보가 아닌, 고품질, 즉 신뢰할 수 있는 서적 데이터를 제공하는 도구를 제공하는 것입니다.

실제로 페이스북, 인스타그램, 왓츠앱을 소유한 메타(Meta)는 "빅 5" 출판사 중 하나인 사이먼 앤 슈스터(Simon & Schuster) 인수를 검토한 것으로 알려졌습니다. 이 회사의 출판 자료를 활용하여 메타의 AI를 훈련시키려는 의도였습니다. 하지만 이 거래는 결국 무산되었는데, 아마도 회사가 저자의 사전 동의 없이 IP 주소를 조작했다는 윤리적 모호성 때문일 것입니다.

고려 중인 또 다른 옵션은 신작에 대한 개별 라이선스 권리를 구매하는 것입니다. 이는 제작자들에게 상당한 우려를 야기할 수 있지만, 사용 가능한 데이터가 고갈될 경우 AI 도구를 개발하는 데 여전히 흥미로운 방법이 될 것입니다.

6. 합성 데이터가 미래입니다.

다른 모든 해결책은 아직 제한적이지만, 인공지능의 미래를 이끌어갈 수 있는 한 가지 옵션이 있습니다. 바로 합성 데이터입니다. 이는 이미 매우 현실적인 가능성으로 연구되고 있습니다.

그렇다면 합성 데이터란 무엇일까요? 인공 지능이 생성한 데이터입니다. 사람이 데이터를 생성하는 것처럼, 이 방법을 사용하면 AI가 학습 목적으로 데이터를 생성합니다.

실제로 AI는 설득력 있는 딥페이크 영상을 제작할 수 있습니다. 이 딥페이크 영상은 AI에 피드백되어 사실상 허구적인 시나리오에서 학습할 수 있도록 합니다. 결국 이는 인간이 학습하는 주요 방식 중 하나입니다. 우리는 주변 세계를 이해하기 위해 무언가를 읽거나 시청합니다.

AI 시스템이 이미 합성 정보를 소비했을 가능성이 높습니다. 딥페이크 기술은 온라인에 허위 정보와 가짜 정보를 유포해 왔기 때문에, AI 시스템이 인터넷 콘텐츠를 검색할 때 일부 사용자가 가짜 콘텐츠에 노출되었을 가능성이 높습니다.

네, 여기에는 악의적인 측면이 있습니다. 또한 AI 시스템을 손상시키거나 제한하여 해당 도구들이 저지르는 오류를 더욱 심화시키고 확산시킬 수도 있습니다. 기업들은 이 문제를 해결하기 위해 노력하고 있지만, "AI가 서로에게서 배우고 실수를 한다"는 표현은 많은 SF 악몽 시나리오의 줄거리 소재가 됩니다.

7. 인공지능의 더 나은 활용

인공지능 도구는 논란의 여지가 있습니다. 단점도 많지만, 비판론자들은 그 장점을 무시합니다. 예를 들어, 감사자문네트워크(Audit and Advisory Network)는 다음과 같이 지적합니다. PwC의 [PDF] 인공지능은 15.7년까지 세계 경제에 최대 2030조 XNUMX천억 달러를 기여할 수 있습니다.

더욱이 인공지능은 이미 전 세계적으로 활용되고 있습니다. 여러분도 모르는 사이에 어떤 형태로든 인공지능을 사용해 왔을 것입니다. 이제 인공지능의 마법이 풀렸습니다. 핵심은 인공지능을 제대로 활용할 수 있도록 신뢰할 수 있는 고품질 데이터를 기반으로 인공지능을 훈련시키는 것입니다.

인공지능에는 장단점이 있습니다. 하지만 분명히 균형을 찾아야 합니다.

인공지능 도구는 가용 학습 데이터 부족으로 인해 점점 더 큰 어려움에 직면하고 있으며, 이는 도구의 발전과 발전을 저해할 위험이 있습니다. 이러한 어려움을 극복하기 위해 합성 데이터 활용, 비지도 학습 활용, 그리고 조직 간 데이터 공유를 위한 협업 촉진과 같은 혁신적인 솔루션이 도입되고 있습니다. 이러한 솔루션은 새로운 데이터 소스를 제공하여 지능형 모델의 지속적인 개선 및 개발을 효율적이고 효과적으로 보장합니다.