[Nvidia]음악,사운드 모든 조합을 생성할 수 있는 New AI모델

H.Hoper 2024. 12. 2. 23:47

텍스트와 오디오를 입력으로 사용하여 음악, 음성 및 소리를 결합하는 NVIDIA의 새로운 생성형 AI 모델을 내놓았습니다.

🍅 Fugatto(Foundational Generative Audio Transformer Opus 1)

텍스트와 오디오 파일의 조합으로 설명된 프롬프트를 기반으로 음악, 음성 및 소리를 생성하거나 변환하는 생성형 AI 모델
텍스트 프롬프트를 기반으로 음악을 생성하거나, 기존 곡에서 악기를 제거하거나 추가하고, 음성의 억양이나 감정 변경도 가능
다양한 오디오 생성 및 변환 작업을 지원하며, 여러 학습된 능력의 상호작용에서 새로운 기능이 나타나는 발현적 특성(emergent properties)과 자유로운 지시를 결합하는 능력을 보여주는 최초의 생성형 AI 모델
오디오 합성과 변환에서 비지도 다중 작업 학습이 데이터와 모델 규모로부터 자연스럽게 발전하는 형태
세부 조정과 소량의 노래 데이터를 활용한 연구를 통해 Fugatto는 텍스트 프롬프트를 기반으로 고품질의 노래를 생성하는 등 사전 훈련되지 않은 작업도 수행

🍊 Fugatto의 내부 작동 원리

음성 모델링, 오디오 보코딩 및 오디오 이해와 같은 이전 작업을 기반으로 한 생성형 변환기(transformer) 모델
완전한 버전은 25억 개의 매개변수를 사용
32개의 NVIDIA H100 텐서 코어 GPU가 장착된 NVIDIA DGX 시스템으로 학습
인도, 브라질, 중국, 요르단, 한국 등 다양한 국가의 사람들이 협력해 만들었으며, 이 협력은 Fugatto의 다중 억양 및 다국어 기능을 강화
팀은 다각적인 전략을 사용해 데이터를 생성하고 지시를 작성함으로써 모델의 작업 범위를 크게 확장했으며, 더 높은 정확도를 달성하고 추가 데이터 없이도 새로운 작업을 가능케

🍏 주요 특징

사용 사례의 샘플 플레이리스트
- 음악 프로듀서는 Fugatto를 사용해 곡 아이디어를 빠르게 프로토타입으로 만들거나 편집하고, 다양한 스타일, 음성 및 악기를 시도할 수 있습니다.
- 또한 효과를 추가하거나 기존 트랙의 오디오 품질을 개선할 수도 있습니다.
- 광고 에이전시는 Fugatto를 활용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있습니다.
- 언어 학습 도구는 사용자가 원하는 목소리를 사용할 수 있도록 개인화할 수 있습니다. 예를 들어, 온라인 강의가 가족이나 친구의 목소리로 진행된다고 상상해 보세요.
- 비디오 게임 개발자는 게임 플레이 중 변화하는 액션에 맞게 미리 녹음된 자산을 수정하거나, 텍스트 지시와 선택적 오디오 입력을 통해 즉석에서 새로운 자산을 생성할 수 있습니다.
사용자에게 창작 통제권 제공
- 추론 과정에서 Fugatto는 ComposableART라는 기술을 사용해 훈련 중에 별도로 학습된 지시를 결합합니다. 예를 들어, 슬픈 감정의 프랑스 억양으로 텍스트를 말하도록 요청할 수 있습니다.
- 모델이 지시를 보간(interpolation)하는 능력은 사용자에게 세부적인 제어 권한을 제공합니다. 예를 들어, 억양의 강도나 슬픔의 정도를 조정할 수 있습니다.

출처: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

저작자표시 비영리 동일조건

'AI' 카테고리의 다른 글

[금융위원회] 금융권 생성형 AI 활용 지원 방안(12/12) (1)	2024.12.17
OpenAI의 12일 간의 "Shipmas" 이벤트 (완료) (2)	2024.12.11
[Dev]모든 개발자가 마스터해야 할 7가지 AI 프레임워크! (3)	2024.12.01
[Elec4] 엔비디아 AI 전문가들이 말하는 2025년 AI 핵심트렌드 (10)	2024.12.01
[Dev] 오픈 소스 AI 프로젝트를 통한 학습 (1)	2024.12.01

현재글[Nvidia]음악,사운드 모든 조합을 생성할 수 있는 New AI모델

IT를 여행하는 히치하이커를 위한 안내서

최신 IT관련 정보들

에이전트ai, 서평, deepseek, AI자격증, AI윤리, ChatGPT, 나는리뷰어다, AI에이전트, 생성형AI, langchain, ai거버넌스, 한빛미디어, 랭체인, Ai, Chatgpt4, 딥시크, openAI, 엔비디아, GenAI, LLM,

Today :
Yesterday :

IT를 여행하는 히치하이커를 위한 안내서

[Nvidia]음악,사운드 모든 조합을 생성할 수 있는 New AI모델

'AI' 카테고리의 다른 글

'AI'의 다른글

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

[Nvidia]음악,사운드 모든 조합을 생성할 수 있는 New AI모델

'AI' 카테고리의 다른 글

'AI'의 다른글

관련글

티스토리툴바