딥시크(DeepSeek)

H.Hoper 2025. 1. 28. 20:54

최근 AI업계의 가장 핫한 딥시크에 대해서 정리해 본 내용입니다.

💻 딥시크(DeepSeek)

중국의 헤지펀드 매니저 량원평이 하이플라이어 캐피탈을 통해 만든 AI 언어모델
OpenAI의 모델과 비슷한 성능을 가진 오픈소스 대규모 언어 모델
- 최근 공개 모델: DeepSeek -R1
- 671B 파라미터, 37B 활성 파라미터
- MIT 라이선스 하에 상업적 이용 가능
세계 최대 AI 기업인 오픈AI와 클라우드 기업인 아마존 등 주요 기업들이 대형 언어모델 지출 비용의 20분의 1 (or 10분의 1)수준으로 구축했으나, 오픈AI의 o1과 유사한 정확도 및 성능
- 모델 훈련비용: 560만 달러 추정(vs OpenAI의 GPT-4는 1억 달러, vs Anthropic 1억 ~ 10억 달러)
2025년 1웍25일 주말 사이 애플 북미 무료 앱 다운로드 순위 1위 등극
2025년 1월28일 이미지 생성 멀티모달 모델 ‘야누스 프로(Janus-Pro)’를 공개 - 오픈AI의 이미지 생성 모델 ‘달리 3’, 스태빌리티AI의 ‘스테이블 디퓨전 XL(SDXL)’을 능가하는 성능 기록

💻 주요 기술적 특징

1. 효율적인 모델 아키텍처

2. 혁신적인 기술 적용

3. 자원 최적화

4. 검색 및 추론 관련

💻 MoE(Mixture-of-Experts) 아키텍처 특징

효율적인 파라미터 활용: DeepSeek-V3는 총 6710억 개의 파라미터. 각 토큰 처리시 단 370억 개의 파라미터만 활성화 >> 이는 계산 비용을 크게 줄이면서도 높은 성능 유지
Multi-head Latent Attention (MLA): 이 구조는 키(Key)와 값(Value)을 효율적으로 압축하여 KV 캐시 사용량을 줄입니다. 이를 통해 메모리 사용량을 크게 절감하면서도 기존 Multi-Head Attention(MHA)과 유사한 성능을 유지합니다.
혁신적인 부하 균형 전략: DeepSeek-V3는 부가 손실(auxiliary loss) 없이 작업 부하를 균등하게 나누는 새로운 전략을 도입으로 모델의 안정성과 성능을 동시에 향상
멀티 토큰 예측(Multi-Token Prediction, MTP): 한 번에 여러 토큰을 예측하도록 설계되어 데이터 처리 능력 강화
DeepSeekMoE: 이 구조는 여러 "전문가(Experts)" 모듈로 구성되어 있으며, 각 데이터 토큰을 처리할 때 가장 적합한 전문가들만을 선택하여 작업 분담

💻 성능 및 시장 영향

1. 벤치마크 성능

2. 시장 경쟁력

3. 글로벌 AI 시장 영향

Nvidia: 엔비디아 주가 17% 하락으로 846조 증발 - 미국 주식 역사상 가장 큰 하락 기록.(이후 재상승중이기는 하나 엔비디아의 비싸고 공급이 늦어지는 GPU 가치에 대한 재검토 계기)
OpenAI & Microsoft : ChatGPT와 직접적인 경쟁 관계 형성. OpenAI의 AI 모델을 DeepSeek모델에서 학습했는지 조사 중 / 가장 최신 추론모델인 O3-Mini 풀버전 공개 전 사전 무료 공개(1.31)
Google: 별 다른 반응을 내놓지 않고 있는 구글은 코딩과 수학 작업에서 높은 정확성과 강력한 성능을 제공하는 Gemini 2.0 Pro Experimental) 공개(1.30)
Meta: 딥시크 분석을 위한 4개의 태스크포스 팀을 통해 분석. 향후 딥시크의 핵심 기술을 '라마'에 적용 예정
Apple: 中딥시크 극찬한 팀쿡. 온디바이스AI 전략을 가진 애플은 딥시크의 AI 모델 오픈소스를 활용해 중국에서 AI기능을 탑재한 아이폰 출시 가능성
Perplexity: 이미 https://www.perplexity.ai에 DeepSeek R1 추론 모델 적용 및 서비스 중

🤔 이슈 및 한계

이슈
- https://chat.deepseek.com/를 사용하는 경우, ‘개인정보 보호 정책’을 통해 AI 모델 학습을 위한 이용자의 이름·생년월일·이메일·주소·전화번호 등을 수집
- 그리고, 이용자들이 입력한 키보드 패턴과 오디오, 파일, 채팅 기록 등 콘텐트를 수집하고 회사 재량에 따라 해당 정보를 법 집행기관이나 공공 기관과 공유할 수 있다고 명시되어 있음
- 모든 데이터는 중국에 있는 딥시크 서버에 저장하는 이슈
한계:
- 중국정부 검열(?): 시진핑이 나오는 결과내용들은 자동으로 순삭(?)되는 결과를 보여주는 한계

🛠️ 참고

OpenAI의 반격의 시작(?) - Deep Research (1)	2025.02.03
[Dev.to]DeepSeek를 사용하기 전에 두 번 생각해야 하는 이유 (0)	2025.02.01
[자격증] Microsoft Azure AI Engineer Associate(AI-102) (2)	2025.01.23
[자격증]NVIDIA-Generative AI LLMs(NCA-GENL) (1)	2025.01.21
[ 자격증] AWS 공인 ML 전문가 시험 관련 정보 (0)	2025.01.21

IT를 여행하는 히치하이커를 위한 안내서

최신 IT관련 정보들

딥시크, 랭체인, openAI, AI윤리, LLM, 생성형AI, 서평, AI자격증, GenAI, 한빛미디어, Chatgpt4, ChatGPT, AI에이전트, 나는리뷰어다, langchain, 엔비디아, deepseek, 에이전트ai, Ai, ai거버넌스,

IT를 여행하는 히치하이커를 위한 안내서