카테고리 없음

[모두의연구소] Llama3 출시 : AI 전쟁의 서막

H.Hoper 2024. 4. 30. 18:49

모두의 연구소에서 정리한 라마3가 나오면서 최근 핫한 여러 모델들에 대한 깔끔한 비교 설명 내용입니다.

 

  1. 2024 AI 전쟁의 서막 :  메타의 라마3(Llama 3)
  2. Llama3 주요 특징 (개선사항): Llama3 vs Llama2
  • 학습데이터셋 크기: 15조개 토큰 vs 2조개 토큰
  • 컨텍스트 길이: 8K(8192) vs 4K(4096)
  • 모델 종류: 8B, 70B, 400B vs 7B, 13B, 70B
  • 아키텍처: GQA vs 7B, 13B 버전: MHA(Multi-Head Attention) + 34B, 70B 버전: GQA(Grouped Query Attention)
  • 토크나이저: 128K 토큰 vs 32K 토큰(BPE SentencePiece)

2. 라마 3와 함께 주목할 LLMs(대형 언어 모델)

  • 오픈AI:GPT-4 Turbo
    • 2023년 3월
    • 128000 토큰, 함수 호출(Function calling), JSON 모드
    • 달리(DALL・E) 3와 TTS 모델 API 지원
    • 파인튜닝(Fine-tuning)과 사용자 정의(Custom) 모델 학습 기능
    • 입력 토큰과 출력 토큰의 비용 두세배 저렴 설계
  • 메타: Llama2
    • 2023년 7월
    • 2조 개의 토큰, 4096 컨텍스트 길이
    • 라마-2-7B, 13B, 70B’의 세 가지 모델 제공
    • 허깅페이스의 ‘오픈소스 LLM 리더보드’에서도 70B 모델은 1위 기록
  • UAE 기술혁신연구소: Falcon 180B
    • 2023년 9월
    • 180B, 40B, 75B, 1.3B 모델 제공
    • 11개 언어와 잘 작동, 미세조정(Fine-tuning)
    • 팔콘 40B: 연구자와 상업 이용자 모두 로열티 없이 사용할 수 있는 모델
    • 팔콘  180B: 파라미터 수가 1800억 개, 토큰수는 3조 5천억 개
  • 구글: Gemini 1.5
    • 2024년 2월
    • 최대 1백만 토큰 처리
    • Mixture-of-Experts(MoE) 아키텍처: 다양한 입력에 대해 뛰어난 이해력과 추론 능력 제공
  • 앤트로픽: Claude3
    • 2024년 3월
    • 하이쿠(Haiku), 소넷(Sonnet), 오푸스(Opus)의 세 가지 모델
    • 여러 벤치마크 테스트에서 GPT-4, 제미나이 울트라(Gemini Ultra) 등의 모델들보다도 더 높은 점수 기록
    • 소넷 모델은 기존의 클로드 2, 클로드 2.1보다 두 배 빠르고 성능 향상
  • 미스트랄 A:Mistral 8x22B
    • 2024년 4월
    • Mixture-of-Experts(MoE) 기법 사용
    • 여러 개의 전문가(Expert) 모듈 중 일부만 사용해 비용을 적게 소모한다는 장점
    • 전체 파라미터 수는 141B(1410억 개), 한번에 활성화되는 파라미터가 39B
    • 영어, 프랑스어, 이탈리아어 등 5개 언어를 이해
    • 라마 2 70B 모델보다 벤치마크 테스트에서 높은 점수

3. 라마3의 향후 계획

  • 라마 3 400B를 학습 중, GPT-4-터보를 뛰어 넘을 것으로 예측
  • 추가 모델들 공개 예정 : 멀티모달(Multimodality) / 여러 언어로 대화할 수 있는 기능 / 훨씬 더 긴 컨텍스트 윈도우(Context window) / 전반적으로 더 강력한 능력

 

보다 상세한 내용과 라마3의 사용법과 허깅페이스에서 테스트하는 방법등은 아래 원문에서 함께 보시길 추천합니다.