최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.
💻 딥시크(DeepSeek)
- 중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 오픈 소스 기반의 인공지능 언어모델
- OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
- 최근 공개 모델: DeepSeek -R1
- 671B 파라미터, 37B 활성 파라미터
- MIT 라이선스 하에 상업적 이용 가능
- 세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 수준으로 구축했으나, 성능은 오픈AI 추론 모델인 o1과 유사한 정확도 확보
- 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
- 2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극
💻 주요 기술적 특징
1. 효율적인 모델 아키텍처
- Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화
2. 혁신적인 기술 적용
- Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처
- 하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식
3. 자원 최적화
- 구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감
- 에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화
💻 MoE(Mixture-of-Experts) 아키텍처 특징
- 효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
- Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
- 혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
- 멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
- DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담
💻 성능 및 시장 영향
1. 벤치마크 성능
- 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준
- MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능
- AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립
2. 시장 경쟁력
- OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성
- 생성 속도 200% 향상으로 사용자 경험 개선
- 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'
3. 글로벌 AI 시장 영향
- Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록
- OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중
- Google, Microsoft: 기존 AI 전략에 도전
- Amazon, Apple, AMD, Meta: 시장 역학 변화로 인한 불확실성 증가
🤔 한계
- 중국정부에 의한 특정 주제별 검열 내용 존재
🛠️ 참고
- https://www.deepseek.com/
- https://github.com/deepseek-ai/DeepSeek-R1
- https://openrouter.ai/deepseek/deepseek-r1
- DeepSeek: all the news about the startup that’s shaking up AI stocks - https://www.theverge.com/24353060/deepseek-ai-china-nvidia-openai
'AI' 카테고리의 다른 글
[자격증] Microsoft Azure AI Engineer Associate(AI-102) (2) | 2025.01.23 |
---|---|
[자격증]NVIDIA-Generative AI LLMs(NCA-GENL) (0) | 2025.01.21 |
[ 자격증] AWS 공인 ML 전문가 시험 관련 정보 (0) | 2025.01.21 |
[IEEE] 지금 바로 사용할 수 있는 5가지 AI 동영상 생성기 (0) | 2025.01.19 |
[IEEE] 101개 언어로 실시간 음성 번역이 가능한 메타의 번역AI (2) | 2025.01.19 |