AI

[Nvidia]음악,사운드 모든 조합을 생성할 수 있는 New AI모델

H.Hoper 2024. 12. 2. 23:47

텍스트와 오디오를 입력으로 사용하여 음악, 음성 및 소리를 결합하는 NVIDIA의 새로운 생성형 AI 모델을 내놓았습니다.

 

🍅 Fugatto(Foundational Generative Audio Transformer Opus 1)

  • 텍스트와 오디오 파일의 조합으로 설명된 프롬프트를 기반으로 음악, 음성 및 소리를 생성하거나 변환하는 생성형 AI 모델
  • 텍스트 프롬프트를 기반으로 음악을 생성하거나, 기존 곡에서 악기를 제거하거나 추가하고, 음성의 억양이나 감정 변경도 가능
  • 다양한 오디오 생성 및 변환 작업을 지원하며, 여러 학습된 능력의 상호작용에서 새로운 기능이 나타나는 발현적 특성(emergent properties)과 자유로운 지시를 결합하는 능력을 보여주는 최초의 생성형 AI 모델
  • 오디오 합성과 변환에서 비지도 다중 작업 학습이 데이터와 모델 규모로부터 자연스럽게 발전하는 형태
  • 세부 조정과 소량의 노래 데이터를 활용한 연구를 통해 Fugatto는 텍스트 프롬프트를 기반으로 고품질의 노래를 생성하는 등 사전 훈련되지 않은 작업도 수행

 

🍊 Fugatto의 내부 작동 원리

  • 음성 모델링, 오디오 보코딩 및 오디오 이해와 같은 이전 작업을 기반으로 한 생성형 변환기(transformer) 모델
  • 완전한 버전은 25억 개의 매개변수를 사용
  • 32개의 NVIDIA H100 텐서 코어 GPU가 장착된 NVIDIA DGX 시스템으로 학습
  • 인도, 브라질, 중국, 요르단, 한국 등 다양한 국가의 사람들이 협력해 만들었으며, 이 협력은 Fugatto의 다중 억양 및 다국어 기능을 강화
  • 팀은 다각적인 전략을 사용해 데이터를 생성하고 지시를 작성함으로써 모델의 작업 범위를 크게 확장했으며, 더 높은 정확도를 달성하고 추가 데이터 없이도 새로운 작업을 가능케

 

🍏 주요 특징

  • 사용 사례의 샘플 플레이리스트
    • 음악 프로듀서는 Fugatto를 사용해 곡 아이디어를 빠르게 프로토타입으로 만들거나 편집하고, 다양한 스타일, 음성 및 악기를 시도할 수 있습니다.
    • 또한 효과를 추가하거나 기존 트랙의 오디오 품질을 개선할 수도 있습니다.
    • 광고 에이전시는 Fugatto를 활용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있습니다.
    • 언어 학습 도구는 사용자가 원하는 목소리를 사용할 수 있도록 개인화할 수 있습니다. 예를 들어, 온라인 강의가 가족이나 친구의 목소리로 진행된다고 상상해 보세요.
    • 비디오 게임 개발자는 게임 플레이 중 변화하는 액션에 맞게 미리 녹음된 자산을 수정하거나, 텍스트 지시와 선택적 오디오 입력을 통해 즉석에서 새로운 자산을 생성할 수 있습니다.
  • 사용자에게 창작 통제권 제공
    • 추론 과정에서 Fugatto는 ComposableART라는 기술을 사용해 훈련 중에 별도로 학습된 지시를 결합합니다. 예를 들어, 슬픈 감정의 프랑스 억양으로 텍스트를 말하도록 요청할 수 있습니다.
    • 모델이 지시를 보간(interpolation)하는 능력은 사용자에게 세부적인 제어 권한을 제공합니다. 예를 들어, 억양의 강도나 슬픔의 정도를 조정할 수 있습니다.