딥시크(DeepSeek)

H.Hoper 2025. 1. 28. 20:54

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.

💻 딥시크(DeepSeek)

중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 오픈 소스 기반의 인공지능 언어모델
OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
- 최근 공개 모델: DeepSeek -R1
- 671B 파라미터, 37B 활성 파라미터
- MIT 라이선스 하에 상업적 이용 가능
세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 수준으로 구축했으나, 성능은 오픈AI 추론 모델인 o1과 유사한 정확도 확보
- 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극

💻 주요 기술적 특징

1. 효율적인 모델 아키텍처

2. 혁신적인 기술 적용

3. 자원 최적화

💻 MoE(Mixture-of-Experts) 아키텍처 특징

효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담

💻 성능 및 시장 영향

1. 벤치마크 성능

2. 시장 경쟁력

3. 글로벌 AI 시장 영향

Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록
OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중
Google, Microsoft: 기존 AI 전략에 도전
Amazon, Apple, AMD, Meta: 시장 역학 변화로 인한 불확실성 증가

🤔 한계

🛠️ 참고

[자격증] Microsoft Azure AI Engineer Associate(AI-102) (2)	2025.01.23
[자격증]NVIDIA-Generative AI LLMs(NCA-GENL) (0)	2025.01.21
[ 자격증] AWS 공인 ML 전문가 시험 관련 정보 (0)	2025.01.21
[IEEE] 지금 바로 사용할 수 있는 5가지 AI 동영상 생성기 (0)	2025.01.19
[IEEE] 101개 언어로 실시간 음성 번역이 가능한 메타의 번역AI (2)	2025.01.19

IT를 여행하는 히치하이커를 위한 안내서

최신 IT관련 정보들

AI윤리, 생성형AI, LLM, 나는리뷰어다, 양자컴퓨팅, GenAI, openAI, AI자격증, ai거버넌스, ChatGPT, 서평, 딥페이크, Ai, langchain, AI에이전트, 엔비디아, pytorch, 랭체인, 한빛미디어, 강화학습,

IT를 여행하는 히치하이커를 위한 안내서