최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.
💻 딥시크(DeepSeek)
- 중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 AI 언어모델
- OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
- 최근 공개 모델: DeepSeek -R1
- 671B 파라미터, 37B 활성 파라미터
- MIT 라이선스 하에 상업적 이용 가능
- 세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 (or 10분의 1)수준으로 구축했으나, 오픈AI의 o1과 유사한 정확도 및 성능
- 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
- 2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극
- 2025년 1월28일 이미지 생성 멀티모달 모델 ‘야누스 프로(Janus-Pro)’를 공개 - 오픈AI의 이미지 생성 모델 ‘달리 3’, 스태빌리티AI의 ‘스테이블 디퓨전 XL(SDXL)’을 능가하는 성능 기록
💻 주요 기술적 특징
1. 효율적인 모델 아키텍처
- Mixture of Experts(MoE) 아키텍처를 채택하여 모델의 효율성을 극대화
- 참고로 MoE는 프랑스의 미스트랄AI가 사용중인 아키텍처
2. 혁신적인 기술 적용
- Multi-Head Latent Attention(MLA): 효율적인 훈련과 추론을 가능하게 하는 아키텍처
- 하이브리드 접근: 강화 학습과 일련의 사고 추론을 결합한 방식
3. 자원 최적화
- 구형 칩 사용: 최신 Nvidia H100 대신 성능이 떨어지는 H800 모델 사용으로 비용 절감
- 에너지 효율성: 클라우드 의존도를 줄이고 전력 소비를 최적화
- 메타 '라마'의 10분의 1에 불과한 557만달러 학습 진행
4. 검색 및 추론 관련
- 이미지, 문서 업로드 지원
- 프럼프팅에 대한 추론 과정을 자세히 다 보여줌(vs. Chatgpt는 부분만 보여줌)
- 추론과 웹서칭을 동시에 사용하여 결과 보여줌(유사. Perplexity)
- 오픈소스로 공개되어 있기 때문에 자체 AI 검색 서비스 구현 용이
💻 MoE(Mixture-of-Experts) 아키텍처 특징
- 효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
- Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
- 혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
- 멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
- DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담
💻 성능 및 시장 영향
1. 벤치마크 성능
- 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성, 수학적 기능 등에서 업계 최고 수준
- MMLU, GPQA 등의 지식 작업에서 Claude-3.5-Sonnet에 근접한 성능
- AIME 2024, CNMO 2024 등의 수학 테스트에서 새로운 기록 수립
2. 시장 경쟁력
- OpenAI의 o1 모델 대비 90% 비용 절감하면서도 우수한 성능 달성
- 생성 속도 200% 향상으로 사용자 경험 개선
- 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'
3. 글로벌 AI 시장 영향
- Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록.(이후 재상승중이기는 하나 엔비디아의 비싸고 공급이 늦어지는 GPU 가치에 대한 재검토 계기)
- OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중 / 가장 최신 추론모델인 O3-Mini 풀버전 공개 전 사전 무료 공개(1.31)
- Google: 별 다른 반응을 내놓지 않고 있는 구글은 코딩과 수학 작업에서 높은 정확성과 강력한 성능을 제공하는 Gemini 2.0 Pro Experimental) 공개(1.30)
- Meta: 딥시크 분석을 위한 4개의 태스크포스 팀을 통해 분석. 향후 딥시크의 핵심 기술을 '라마'에 적용 예정
- Apple: 中딥시크 극찬한 팀쿡. 온디바이스AI 전략을 가진 애플은 딥시크의 AI 모델 오픈소스를 활용해 중국에서 AI기능을 탑재한 아이폰 출시 가능성
- Perplexity: 이미 https://www.perplexity.ai에 DeepSeek R1 추론 모델 적용 및 서비스 중
🤔 이슈 및 한계
- 이슈
- https://chat.deepseek.com/를 사용하는 경우, ‘개인정보 보호 정책’을 통해 AI 모델 학습을 위한 이용자의 이름·생년월일·이메일·주소·전화번호 등을 수집
- 그리고, 이용자들이 입력한 키보드 패턴과 오디오, 파일, 채팅 기록 등 콘텐트를 수집하고 회사 재량에 따라 해당 정보를 법 집행기관이나 공공 기관과 공유할 수 있다고 명시되어 있음
- 모든 데이터는 중국에 있는 딥시크 서버에 저장하는 이슈
- 한계:
- 중국정부 검열(?): 시진핑이 나오는 결과내용들은 자동으로 순삭(?)되는 결과를 보여주는 한계
🛠️ 참고
- https://www.deepseek.com/
- https://github.com/deepseek-ai/DeepSeek-R1
- https://openrouter.ai/deepseek/deepseek-r1
- https://apps.apple.com/kr/app/deepseek-ai-%EC%96%B4%EC%8B%9C%EC%8A%A4%ED%84%B4%ED%8A%B8/id6737597349
- DeepSeek: all the news about the startup that’s shaking up AI stocks - https://www.theverge.com/24353060/deepseek-ai-china-nvidia-openai
'AI' 카테고리의 다른 글
OpenAI의 반격의 시작(?) - Deep Research (1) | 2025.02.03 |
---|---|
[Dev.to]DeepSeek를 사용하기 전에 두 번 생각해야 하는 이유 (0) | 2025.02.01 |
[자격증] Microsoft Azure AI Engineer Associate(AI-102) (2) | 2025.01.23 |
[자격증]NVIDIA-Generative AI LLMs(NCA-GENL) (0) | 2025.01.21 |
[ 자격증] AWS 공인 ML 전문가 시험 관련 정보 (0) | 2025.01.21 |