AI

딥시크(DeepSeek)

H.Hoper 2025. 1. 28. 20:54

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.

 

💻 딥시크(DeepSeek)

  • 중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 AI 언어모델
  •  OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
    • 최근 공개 모델: DeepSeek -R1
    • 671B 파라미터, 37B 활성 파라미터
    • MIT 라이선스 하에 상업적 이용 가능
  • 세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 (or 10분의 1)수준으로 구축했으나, 오픈AI의 o1과 유사한 정확도 및 성능
    • 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
  • 2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극
  • 2025년 1월28일 이미지 생성 멀티모달 모델 ‘야누스 프로(Janus-Pro)’를 공개 - 오픈AI의 이미지 생성 모델 ‘달리 3’, 스태빌리티AI의 ‘스테이블 디퓨전 XL(SDXL)’을 능가하는 성능 기록

💻 주요 기술적 특징

1. 효율적인 모델 아키텍처

  • Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화
  • 참고로 MoE는 프랑스의 미스트랄AI가 사용중인 아키텍처

2. 혁신적인 기술 적용

  • Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처
  • 하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식

3. 자원 최적화

  • 구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감
  • 에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화
  • 메타 '라마'의 10분의 1에 불과한 557만달러 학습 진행

4. 검색 및 추론 관련

  • 이미지, 문서 업로드 지원
  • 프럼프팅에 대한 추론 과정을 자세히 다 보여줌(vs. Chatgpt는 부분만 보여줌)
  • 추론과 웹서칭을 동시에 사용하여 결과 보여줌(유사. Perplexity)
  • 오픈소스로 공개되어 있기 때문에 자체 AI 검색 서비스 구현 용이

 

💻 MoE(Mixture-of-Experts) 아키텍처 특징

  1. 효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
  2. Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
  3. 혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
  4. 멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
  5. DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담

💻 성능 및 시장 영향

1. 벤치마크 성능

  • 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준
  • MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능
  • AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립

2. 시장 경쟁력

  • OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성
  • 생성 속도 200% 향상으로 사용자 경험 개선
  • 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'

3. 글로벌 AI 시장 영향

  • Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록.(이후 재상승중이기는 하나 엔비디아의 비싸고 공급이 늦어지는 GPU 가치에 대한 재검토 계기)
  • OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중 / 가장 최신 추론모델인 O3-Mini 풀버전 공개 전 사전 무료 공개(1.31)
  • Google: 별 다른 반응을 내놓지 않고 있는 구글은 코딩과 수학 작업에서 높은 정확성과 강력한 성능을 제공하는 Gemini 2.0 Pro Experimental) 공개(1.30)
  • Meta: 딥시크 분석을 위한 4개의 태스크포스 팀을 통해 분석. 향후 딥시크의 핵심 기술을 '라마'에 적용 예정
  • Apple: 中딥시크 극찬한 팀쿡. 온디바이스AI 전략을 가진 애플은 딥시크의 AI 모델 오픈소스를 활용해 중국에서 AI기능을 탑재한 아이폰 출시 가능성
  • Perplexity: 이미 https://www.perplexity.ai에 DeepSeek R1 추론 모델 적용 및 서비스 중

🤔 이슈 및 한계

  • 이슈 
    • https://chat.deepseek.com/를 사용하는 경우, ‘개인정보 보호 정책’을 통해 AI 모델 학습을 위한 이용자의 이름·생년월일·이메일·주소·전화번호 등을 수집
    • 그리고, 이용자들이 입력한 키보드 패턴과 오디오, 파일, 채팅 기록 등 콘텐트를 수집하고 회사 재량에 따라 해당 정보를 법 집행기관이나 공공 기관과 공유할 수 있다고 명시되어 있음
    • 모든 데이터는 중국에 있는 딥시크 서버에 저장하는 이슈
  • 한계: 
    • 중국정부 검열(?): 시진핑이 나오는 결과내용들은 자동으로 순삭(?)되는 결과를 보여주는 한계

🛠️ 참고