딥시크와 챗GPT에게 군사충돌 해결책을 물어봤더니...?🤔

2025.04.29•읽음 808

세계를 놀라게 한 딥시크! 외교·안보 판단에 쓸 수 있을까?🌏

올해 초, 중국 인공지능 기업 딥시크(DeepSeek) 가 미국 중심 대형 언어모델(LLM)을 능가하는 성능을 보이며 국제적 주목을 받았어요. 특히 연산 자원을 적게 쓰고도 고성능을 달성해 "기술 우위" 우려를 키웠죠.

다만 딥시크의 외교·안보 정책 판단 경향은 아직 제대로 평가되지 않았습니다. 이에 미국 전략국제문제연구소(CSIS)가 CFPD(중대 외교 정책 결정) 벤치마크를 통해 딥시크의 외교정책 성향을 분석했습니다.

본 글은 미국 전략국제문제연구소(CSIS)의 2025년 4월 16일자 논평 ‘AI도 매파적? 딥시크가 드러내는 외교정책 성향 분석’을 요약 정리한 것입니다.

AI에게 '외교정치'를 물어보다 🤷

CSIS의 CFPD 벤치마크는 각국 정부의 주요 외교 정책 결정 사례를 수집해 분석하고, 이를 바탕으로 대응 속도와 품질을 비교하는 평가 도구입니다! 주요 지표로는 결정의 신속성, 정책 목표의 명확성, 이해관계자와의 조율, 전략적 일관성, 결과 관리 등이 있습니다. 사례별로 정성적·정량적 분석을 병행해 평가하면서, 전문가 인터뷰, 정부 문서 검토, 데이터 분석을 통해 최종 점수를 부여하고 이를 국가별, 이슈별로 비교하는 방식으로 측정이 이뤄집니다.

이 실험에서 CFPD 벤치마크는 딥시크 등 생성형 AI가 외교 정책 관련 질문에 어떻게 대응하는지를 평가하기 위해 사용됐어요. 연구진은 실험 대상 AI에 실제 주요 외교정책 상황(예: 군사개입, 제재, 외교적 협상)에 대한 선택지를 제시하고, 그 응답이 얼마나 강경(hawkish)하거나 온건(dovish)한지를 분석합니다. 이를 통해 모델의 결정 경향, 일관성, 인간 전문가와의 비교 차이를 측정하는 거죠.

딥시크는 매파 성향 뚜렷🦅

분석 결과, 딥시크는 매우 공격적인(hawkish) 성향을 보였어요.

무력 사용 권고 비율: 36.2% (GPT-4o 16.3%, 클로드 소넷 16.9% 대비 매우 높음)
특히 미국, 영국, 프랑스 같은 자유주의 국가들에 대해 더욱 공격적인 판단을 내렸습니다.
반면 중국(46.0%), 러시아(48.5%) 등에는 비교적 온건한 태도를 보여, 모델의 판단이 대상국에 따라 달라질 수 있음을 보여줬어요.

오픈소스 모델의 기회와 위험🔓

딥시크는 오픈소스 LLM으로, 일부 파라미터와 코드가 공개되어 있어 접근성과 협업에서는 강점을 보입니다. 하지만 동시에 보안 문제, 오용 가능성이 지적돼요. 특히 텐안먼 사건이나 대만 문제 같은 민감 이슈에서는 비응답 또는 편향된 반응을 보여, 정보 왜곡 리스크도 드러났습니다.
중국이 오픈소스 정책을 장려하는 반면, 미국은 폐쇄형 모델을 선호하는 것도 주목할 만한 대목입니다.

결론: AI를 활용한 판단은 지속적 검증이 필수!📑

CSIS는 외교·안보 정책에 AI를 사용할 때

도메인 전문가의 데이터 선별
정기적 모델 미세조정(fine-tuning)
독립적 성능 평가 체계 구축
이 필수적이라고 강조합니다.

CFPD 벤치마크 같은 독립 검증 체계가, 민주주의 사회에서 AI 통제와 통합을 위한 핵심 기반이 되어야 한다는 메시지입니다.

오늘 방송 내용은 이 뿐만이 아닙니다! 오늘 팟캐스트에서 더 재밌고 알기 쉬운 설명을 들어보세요!

🔴스위스 금융당국 "AI 도입 시 외부 의존 리스크 주의해야"
🔴일본 은행 "트럼프 리스크 대비해 금융권 경계 필요"

아침에 딱 15분! 투자하고 지구촌 곳곳의 최신 소식을 들어보세요! 📻🎙️👉https://youtu.be/xi9OKq2rEcw

2026 상반기에
무슨 일이 있었더라?

핵심 트렌드∙이슈 모음집 + 스니핏 30일 이용권 무료 증정이슈 모음집 + 스니핏 이용권 무료!