모두의 연구소에서 정리한 라마3가 나오면서 최근 핫한 여러 모델들에 대한 깔끔한 비교 설명 내용입니다.
- 2024 AI 전쟁의 서막 : 메타의 라마3(Llama 3)
- Llama3 주요 특징 (개선사항): Llama3 vs Llama2
- 학습데이터셋 크기: 15조개 토큰 vs 2조개 토큰
- 컨텍스트 길이: 8K(8192) vs 4K(4096)
- 모델 종류: 8B, 70B, 400B vs 7B, 13B, 70B
- 아키텍처: GQA vs 7B, 13B 버전: MHA(Multi-Head Attention) + 34B, 70B 버전: GQA(Grouped Query Attention)
- 토크나이저: 128K 토큰 vs 32K 토큰(BPE SentencePiece)
2. 라마 3와 함께 주목할 LLMs(대형 언어 모델)
- 오픈AI:GPT-4 Turbo
- 2023년 3월
- 128000 토큰, 함수 호출(Function calling), JSON 모드
- 달리(DALL・E) 3와 TTS 모델 API 지원
- 파인튜닝(Fine-tuning)과 사용자 정의(Custom) 모델 학습 기능
- 입력 토큰과 출력 토큰의 비용 두세배 저렴 설계
- 메타: Llama2
- 2023년 7월
- 2조 개의 토큰, 4096 컨텍스트 길이
- 라마-2-7B, 13B, 70B’의 세 가지 모델 제공
- 허깅페이스의 ‘오픈소스 LLM 리더보드’에서도 70B 모델은 1위 기록
- UAE 기술혁신연구소: Falcon 180B
- 2023년 9월
- 180B, 40B, 75B, 1.3B 모델 제공
- 11개 언어와 잘 작동, 미세조정(Fine-tuning)
- 팔콘 40B: 연구자와 상업 이용자 모두 로열티 없이 사용할 수 있는 모델
- 팔콘 180B: 파라미터 수가 1800억 개, 토큰수는 3조 5천억 개
- 구글: Gemini 1.5
- 2024년 2월
- 최대 1백만 토큰 처리
- Mixture-of-Experts(MoE) 아키텍처: 다양한 입력에 대해 뛰어난 이해력과 추론 능력 제공
- 앤트로픽: Claude3
- 2024년 3월
- 하이쿠(Haiku), 소넷(Sonnet), 오푸스(Opus)의 세 가지 모델
- 여러 벤치마크 테스트에서 GPT-4, 제미나이 울트라(Gemini Ultra) 등의 모델들보다도 더 높은 점수 기록
- 소넷 모델은 기존의 클로드 2, 클로드 2.1보다 두 배 빠르고 성능 향상
- 미스트랄 A:Mistral 8x22B
- 2024년 4월
- Mixture-of-Experts(MoE) 기법 사용
- 여러 개의 전문가(Expert) 모듈 중 일부만 사용해 비용을 적게 소모한다는 장점
- 전체 파라미터 수는 141B(1410억 개), 한번에 활성화되는 파라미터가 39B
- 영어, 프랑스어, 이탈리아어 등 5개 언어를 이해
- 라마 2 70B 모델보다 벤치마크 테스트에서 높은 점수
3. 라마3의 향후 계획
- 라마 3 400B를 학습 중, GPT-4-터보를 뛰어 넘을 것으로 예측
- 추가 모델들 공개 예정 : 멀티모달(Multimodality) / 여러 언어로 대화할 수 있는 기능 / 훨씬 더 긴 컨텍스트 윈도우(Context window) / 전반적으로 더 강력한 능력
보다 상세한 내용과 라마3의 사용법과 허깅페이스에서 테스트하는 방법등은 아래 원문에서 함께 보시길 추천합니다.