AI 학습 데이터가 고갈된다고? 데이터 고갈 원인과 AI에 미치는 영향은? [AI가 보낸 편지 ①]

AI 학습 데이터가 고갈된다고? 데이터 고갈 원인과 AI에 미치는 영향은? [AI가 보낸 편지 ①]

작성자 뉴닉

데일리 뉴스

AI 학습 데이터가 고갈된다고? 데이터 고갈 원인과 AI에 미치는 영향은? [AI가 보낸 편지 ①]

뉴닉
뉴닉
@newneek
읽음 265

AI가 보낸 편지 ① 학습 데이터 고갈을 앞둔 AI

우린 이제껏 AI에게 수많은 질문을 던져왔잖아요. 그런 AI가 갑자기 뉴니커에게 말을 건넨다면 어떤 내용일까요? AI 활용법이나 투자 방법이 아니라, AI 시대에 AI와 공존하는 방법에 대해 궁금한 적 없었나요? 이를 묻고 답하기 위해 준비한 콘텐츠 ‘AI가 보낸 편지’, 첫 번째 편지가 도착했어요 💌.

앞으로 계속 똑똑해질 것 같던 AI. 근데 AI가 더 이상 배울 게 없어질지도 모른다는 걱정이 계속되고 있어요. 왜 이런 말이 나오고 있는 건지, 앞으로 어떻게 되는 건지 살펴볼게요.

1. AI가 배울 게 없다니... 지금 무슨 일이 벌어진 거야?

뉴니커, 요즘 AI와 얘기를 주고받다 보면 이런 느낌을 받을 때가 있지 않나요?

  • 뭘 물어도 답변 스타일이 비슷비슷하고 🌀

  • 구체적으로 질문해도 답변이 두루뭉술하고 🌫️

  • 틀리지 않으려고 애매한 답변만 하고 ❓

“내가 질문을 던지는 능력이 부족한가?” 생각할 수 있지만 사실 진짜 이유는 따로 있을지도 몰라요. 바로 오늘 이야기할 주제 ‘AI 학습 데이터 고갈’이 문제의 근본적인 원인이라고. 우리가 평소에 늘 쓰는 AI의 답변 품질과 발전 속도가 직결된 문제라, 지금 AI 산업에서 가장 뜨거운 감자고요 ♨️.

사실 AI 학습용 데이터가 바닥날 거라는 걱정은 전문가들로부터 최근 몇 년간 이어져왔어요. 테슬라 CEO 일론 머스크는 지난 2025년 1월 “우리는 AI가 학습에 쓸 인간 지식을 이미 다 써버렸어!”라는 말로 많은 이들을 충격에 빠뜨렸어요 😨. 비영리 연구단체인 ‘에포크AI’에서 2024년 발표된 논문에는 “AI가 공개적으로 학습할 수 있는 고품질의 텍스트 데이터의 양은는 2026~2032년 사이 한계에 부딪힐 거야!” 라는 전망이 담겨 있고요.

2. 인터넷에 자료가 이렇게 많은데 데이터가 어떻게 고갈된다는 거야?

AI가 학습할 데이터가 없다는 말은 단순히 ‘데이터가 없다’는 게 아니에요. ‘사람이 생산한 질 좋은 데이터’가 부족하다는 뜻. 이게 무슨 의미인지 차근차근 살펴볼게요.

1️⃣ AI는 원래 어떤 데이터로 학습해?

우리가 학창시절 공부할 때 다양한 교재를 보잖아요. 하지만 학습의 중심으로 자리하는 건 교과서고요. AI는 디지털 상에 사람들이 남긴 텍스트, 책, 논문 등을 교재 삼아 학습해요. 그 과정에서 글자나 이미지의 패턴을 학습하면서 ‘음, 누군가 물어보면 이런 식으로 답하면 되겠군 🤔’하면서 똑똑해지는 거고요. 하지만 ‘교과서’가 될 수 있는 지식은 한정적이에요. 몇 가지 선별 과정을 거치기 때문.

2️⃣ AI 학습 데이터는 어떤 선별 과정을 거쳐?

AI의 교과서로 쓸 데이터를 정할 땐 이런 선별 과정을 거쳐요:

  • 중복 내용은 없애고 🙅: 같은 문서・문장이 반복되면 학습 효율이 떨어지고 특정 문구를 ‘외우는’ 방향으로 치우칠 수 있어서, 문서 단위·구문 단위로 중복을 제거하는 작업을 해요.

  • 저품질은 걸러내고 🗑️: 스팸, 의미 없는 나열, 자동 생성된 저품질 문서 등을 걸러내요. 

  • 민감・유해 콘텐츠 필터링하고 🚨: 혐오·폭력·성적 착취 등 유해 콘텐츠를 필터링해요.

  • 저작권 문제 없나 살펴보고 ⚖️: 요즘 인터넷에서 기사를 열람하면 ‘AI 학습에 이용하지 마세요’라는 문구를 본 적 있을 거예요. AI 학습에 이용하면 저작권 침해 우려가 있는 건데요. 이런 저작권 침해의 우려가 있는 데이터도 학습에서서 제외해요.

이렇게 선별 과정을 거치고 나면 실제 활용 가능한 데이터의 양은 크게 줄어들어요. “인터넷상에 그 많은 데이터를 언제 다 배웠지?” 싶겠지만, 선별 과정을 보니까까 실제로 더 배울 양이 부족한 상태일 수 있겠다는 생각이 들죠?

3️⃣ 이젠 AI 학습도 양보다 품질이 중요

그렇기 때문에 AI 학습의 패러다임도 달라지고 있어요. 과거엔 단순히 학습량이 많은 게 중요했는데, 이젠 소량이더라도 좋은 품질의 데이터를 골라 학습시키는 게 성능 향상에 더 큰 영향을 미치는 시기를 맞이한 거예요. 일종의 ‘한계효용 체감의 법칙*’에 도달한 것. 구글 딥마인드의 CEO, 챗GPT를 서비스하는 오픈AI의 연구자들도 “양에 의존한 기존의 학습 방식엔 한계가 있어 🙅!”라고 지적하고 있어요.

* 한계효용 체감의 법칙: 재화나 서비스를 계속 소비할수록 추가로 얻는 만족감(=한계효용)의 증가분이 점점 줄어드는 걸 뜻하는 말이에요.

3. 그럼 학습 데이터가 고갈되면 어떤 일이 생겨?

앞에서 AI가 보낸 편지 내용 기억나요? “발전이 없을까 봐 두렵다”고 했잖아요. 학습할 데이터가 바닥나서 성능 향상에 어려움을 겪을 것 같다는 소리예요. “그럼 AI가 만든 데이터로 학습하면 되는 거 아냐 🧐?” 할 수 있는데요. 이렇게 되면 AI의 성능, 즉 답변 품질이 떨어지고 극단적으로는 ‘모델 붕괴’까지 이어질 수도 있다고 전문가들은 경고하고 있어요.

1️⃣ AI가 AI 생성 데이터로 학습하면 성능이 떨어진다고?

스마트폰 여러 대로 음성 AI를 켜고, 서로 대화를 시켜본 적 있나요 🗣? 처음엔 마치 사람처럼 서로 대화를 주고받지만 어느 순간이 되면 둘이 하는 얘기가 비슷해지면서 대화가 겉돌게 되잖아요. AI 생성 데이터로 AI를 학습하면 비슷한 일이 벌어져요.

세계적인 과학 학술지 네이처의 한 논문에서 흥미로운 실험이 소개됐는데요. 실험 내용은 이래요. 언어 모델에 처음에만 특정 데이터를 주고 학습하게 한 뒤 → 이후로는 스스로 생성한 데이터를 교재 삼아 여러 세대에 걸쳐 반복 학습하도록 했어요 ✍️.

이미지 출처: 가족오락관

마치 제시어를 듣고 귀를 막은 채 앞사람에게 단어를 전달하는 게임 ‘고요속의 외침’과 같은데요. 최초 데이터를 학습한 모델 1, 모델 1이 최초 데이터와 비슷하게 만든 학습용 샘플 데이터로 학습한 모델 2, 그 모델 2가 만든 샘플 데이터로 모델 3이 계속 계속 학습해본 것. 그리고 나선 각 모델의 성능을 테스트했어요. 그 결과:

  • 점점 답변은 비슷해지고 🦜: 세대를 반복할수록 답변의 다양성이 떨어졌어요.

  • 현실 세상과는 동떨어지고 🚀: 원본 데이터에 비해 현실성이 왜곡되어 답변의 정확도가 떨어졌어요.

왜 그렇게 됐는지를 살펴보려면 우리가 쓰는 거대 언어 모델(LLM) 기반 AI의 작동 원리를 알아야 하는데요. AI는 수많은 데이터를 학습할 때 기본적으로 단어를 잘게 쪼개서 ‘이 단어 다음에 확률적으로 많이 등장한 단어나 표현’을 익혀요. ‘날씨가’라는 말 뒤에 ‘좋다’라고 표현된 데이터가 많을 수록, “날씨는 보통 좋다고 표현하는 게 확률적으로 좋다 💡” 생각하게 되는 것. 그렇게 되면 “현실 세계에서도 날씨가 더 좋은 날이 많겠군” 생각하게 될 수 있고요.

이렇게 한 번 학습한 모델이 만든 문장을 다시 긁어 와서 다음 세대 모델을 가르치면, 처음에 사람이 쓴 다양하고 날 것 같은 표현보다 ‘모델이 좋아하던 말투’가 점점 더 많아져요 🤖. 그 결과, 1) 틀에 박힌 표현은 더 강조되고 2) 드물지만 중요한 정보나 예외적인 사례(데이터의 ‘꼬리’ 부분)는 점점 사라지는 현상이 나타나요. 연구자들은 이를 ‘모델 붕괴(model collapse)’라고 불러요. 문제는 이미 우리가 쓰는 AI의 학습 데이터에도 의도치 않게 AI 생성 데이터가 흘러들고 있다는 점이에요.

​2️⃣ AI 생성 데이터가 이미 흘러들고 있다고?

요즘 인터넷에 올라오는 글, 이미지, 코드 중 상당수가 이미 AI가 만든 결과물이잖아요. 미국의 한 마케팅 회사(Ahrefs)가 2025년 4월 한 달간 새로 생긴 영문 웹 페이지를 조사해보니 74%가 AI를 통해 생성했거나 도움을 받아 만들어진 거로 보인다는 연구 결과를 내놨어요. 사람이 최종 편집을 했더라도 AI가 틀을 잡거나 상당 부분 집필한 ‘교과서’로 AI가 다시 학습하는 상황이 벌어지는 것. 전문가들은 이 상황을 두고 모델이 자기 숙제를 베끼기 시작했다 🤓고 표현하고 있어요.

물론 AI 기업들도 이런 위험을 알고 있어요. 그래서 사람 데이터와 AI 데이터 비율을 조절하고 필터링을 강화하는 등 대책을 찾고 있고요. 하지만 웹 전체에서 AI 생성물이 빠르게 늘어나는 상황이라, “AI가 만든 내용을 다시 학습하게 되는 악순환”을 완전히 피하기는 점점 더 어려워지고 있다고.

4. 학습 데이터 고갈을 해결하는 방법은 없어?

가장 간단한 해결 방법은 ‘새로운 고품질의 인간 생성 데이터를 더 모으는 것’이에요. 하지만 저작권 등 현실적인 한계가 있기 때문에 업계와 연구자들은 새로운 방법을 찾고 있어요. 새로운 데이터를 더 모으기보다 지금 가진 데이터를 어떻게 보완하고 확장할 수 있을지에 주목하는 것. 그 과정에서 가장 많이 얘기 나오는 해법이 바로 합성 데이터(synthetic data)예요 📑.

1️⃣ 합성 데이터가 뭐야?

합성 데이터는 실제 데이터를 그대로 복제하지 않고, 기존 데이터의 통계적 특성과 구조를 학습해 인위적으로 생성한 데이터를 말해요. 마치 실제 사람들의 정보를 그대로 쓰지 않고, 나이·직업·소비 패턴 같은 특징만 가져와 ‘가상의 사람들’을 새로 만들어 쓰는 것과 비슷해요. AI가 생성한 데이터지만, 인터넷에 무작위로 돌아다니는 데이터와 달리, 학습을 보완하거나 기존 학습용 데이터를 대체할 목적으로 치밀하게 설계된 데이터 꾸러미인 것 📊.

​2️⃣ 합성 데이터의 장점은 뭐야?

합성 데이터는 실제 데이터를 확보하기 어려운 분야에서 주목받고 있는데요. 실제 세상에는 존재하지만 데이터가 없어 AI가 “확률이 낮군” 하면서 배제하는 사례를 보완할 수 있는 것. 게다가 특정 개인이나 사건을 직접적으로 식별할 수 없도록 설계되기 때문에 개인정보·저작권 문제를 줄이는 효과도 있어요.

이런 이유로 의료, 금융, 자율주행 같은 분야에서는 이미 합성 데이터가 실험적으로 활용되고 있고, 학계에서도 데이터 부족을 ‘완화’하는 데는 효과가 있다는 평가가 나와요. 실제 글로벌 합성 데이터 시장은 2025년부터 2029년까지 연평균 35% 성장이 예상된다고 📈.

3️⃣ 합성 데이터, 문제는 없어?

물론 합성 데이터가 만능 해결책은 아니라는 점도 업계와 학계에서 꾸준히 지적돼요. 합성 데이터는 완전히 새로운 현실을 만들어내는 게 아니라, 지금까지 AI가 학습한 데이터의 범위와 경향을 바탕으로 생성되기 때문이에요.

그래서 자주 등장했던 패턴이나 부족한 카테고리를 보완하는 데는 도움이 되지만, 현실에서 발생 가능성이 있음에도 참고 삼을 데이터 자체가 없는 경우나, 인간 사회의 맥락·판단·가치가 중요한 영역에서 현실을 충실히 반영하지 못한다는 평가가 나와요. 자율주행의 경우, 도로 구분이 명확하지 않은 골목길에서 보행자가 “지나가세요 🙋”하는 손짓을 하더라도 “보행자가 있으니 멈추는 게 당연해”하고 움직이지 않는다거나, 의료 분야에서 환자의 복합 질환이나 구체적 생활 습관을 고려하지 못하고 진단을 내리는 경우 등이 대표적이에요.

또한 앞서 네이처 연구에서 살펴봤듯, ‘모델 붕괴’의 위험이 있어요. 아무리 잘 짜여진 합성 데이터라도 지속적으로 학습할 경우 답변의 품질이 떨어지고 다양성이 줄어드는 부작용은 언제든 나타날 수 있는 것. 무엇보다 인간이 생성한 데이터조차 편향과 오류가 많아, 합성 데이터를 만드는 데 참고할 원본 데이터가 충분히 선별되지 않으면 기존 데이터에 내재된 편향이 그대로, 경우에 따라서는 더 강화될 위험도 있어요 🤦.

5. 그럼 AI는 앞으로 발전이 어려운 걸까?

AI에게 데이터는 ‘교과서’이자 ‘식사’나 다름없잖아요. 다만 ‘AI 학습 데이터 고갈 = 성장의 정체’를 의미하진 않아요. 지금도 품질 좋은 합성 데이터를 만들려는 시도는 계속되고 있고, AI가 힘을 발휘하는 특정 산업군에서의 데이터 확보 노력도 이어지고 있으니까요.

중요한 건 AI의 발전에 대해 다시 생각해봐야 하는 때를 맞았다는 거예요. 인터넷의 무궁무진해보이던 자료를 똑똑한 모델로 빠르게 학습하며 AI를 성장시켰던 기존의 문법이 곧 힘을 잃게 될 걸로 보이기 때문. 

그럼 AI와 함께해야 하는 우리의 삶도 영향을 받을 수밖에 없어요. 그 선두에 놓일 걸로 보이는 건 ‘데이터’에 대한 접근이에요. 방대하지 않더라도 인간의 오리지널리티가 담긴 데이터의 가치가 크게 귀해질 수 있고요. AI의 성장을 위해 인간의 기록과 경험을 더 넓게 개방해야 할 수도 있어요. 아니면, 지금의 속도와 성장 방식에 대해 먼저 사회의 합의가 필요할지도 몰라요. 뉴니커는 어떻게 생각하나요? 

by. 콘텐츠 PM 슌 ☔

이 아티클 얼마나 유익했나요?

🔮오늘의 행운 메시지 도착!