AI

딥시크(DeepSeek)

H.Hoper 2025. 1. 28. 20:54

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.

 

💻 딥시크(DeepSeek)

  • 중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 오픈 소스 기반의 인공지능 언어모델
  •  OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
    • 최근 공개 모델: DeepSeek -R1
    • 671B 파라미터, 37B 활성 파라미터
    • MIT 라이선스 하에 상업적 이용 가능
  • 세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 수준으로 구축했으나, 성능은 오픈AI 추론 모델인 o1과 유사한 정확도 확보
    • 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
  • 2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극

 

💻 주요 기술적 특징

1. 효율적인 모델 아키텍처

  • Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화

2. 혁신적인 기술 적용

  • Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처
  • 하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식

3. 자원 최적화

  • 구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감
  • 에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화

 

💻 MoE(Mixture-of-Experts) 아키텍처 특징

  1. 효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
  2. Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
  3. 혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
  4. 멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
  5. DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담

 

💻 성능 및 시장 영향

1. 벤치마크 성능

  • 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준
  • MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능
  • AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립

2. 시장 경쟁력

  • OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성
  • 생성 속도 200% 향상으로 사용자 경험 개선
  • 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'

3. 글로벌 AI 시장 영향

  • Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록
  • OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중
  • Google, Microsoft: 기존 AI 전략에 도전
  • Amazon, Apple, AMD, Meta: 시장 역학 변화로 인한 불확실성 증가

 

🤔 한계

  • 중국정부에 의한 특정 주제별 검열 내용 존재

 

🛠️ 참고