[나는 리뷰어다] 멀티모달 생성AI 인사이드

H.Hoper 2024. 3. 24. 15:54

이번에 두번째로 읽게 된 '멀티모달 생성AI인사이드'는 최근 챗GPT4.0에서 지원해주고 있는, 텍스트 to 텍스트/이미지/음성등의 멀티모달이 본격화되면서 향후 이에 대한 다양한 분야의 발전 가능성이 있을거 같아 신청했었다.

책을 읽고 난 소감을 결론부터 얘기하자면, 개인적으로 작년부터 올해까지 LLM과 생성형AI 관련 책들도 생성형AI 전체를 조망하는데 가장 좋은 책으로 꼽을수 있을 거 같다. 참고로, 작년 도서들은 개인적으로 구매했었던 책들이었다.

그 이유중의 하나는 기존의 다른책들 역시 이런 내용들을 포함하고는 있으나 어느 한쪽에 치우치는 경향들이 있었다. 그러나, 이 책에서는 관련 내용을 쉽게 설명하고, 도표등을 통해서 핵심요약까지 해주어 내용을 이해하기 쉬울 뿐만 아니라 정리까지 깔끔하게 마무리 해준다.

특히, 이 책에서는 AI의 역사부터 주요 멀티모달AI기술들의 발전사, 생성AI의 다양한 활용 방안 및 비지니스 모델, AI주도권을 가지고 치열한 경쟁을 하는 글로벌 빅테크 기업들의 다양한 AI서비스들과 향후 경쟁 분야 뿐만 아니라 윤리적AI와 저작권, AI신뢰성등을 포함하는 AI관련 이슈, 각국의 AI 관련 전략과 규제 정책들을 총망라하고 있다. 그래서, 오히려, 메인 제목보다 부제인 '멀티모달 생성AI의 개념부터 활용 전략과 미래 전망까지'가 더 적합해보인다.

전체를 조망하면서도 세부적인 부분의 설명에 있어서도 꼼꼼하다.

예를 들어, 음성변환 부터 언어처리를 가는 과정에 있어, 음성변환도 다시 음석인식를 통한 언어 이해와 음성합성을 통한 언어 생성이 되고, 이 2가지의 음성 변환이 대화관리로 가는 언어처리 과정을 거쳐 대화DB 또는 외부 DB로 가게 되는 이러한 상세 설명은 그 세부내용들을 제대로 이해할 수 있도록 쉽게 설명해주고 있다.

당연히 이 책에서는 AI의 활성화의 근간이 되는 머신러닝과 딥러닝도 다루고 있다. 다만, 이번 책을 통해서 머신러닝과 딥러닝의 차이점을 좀 더 명확히 이해하는 계기가 되었다.

사실 인공지능을 제대로 배우지 않았거나 데이터 사이언티스트등의 업무를 하지 않은 사람들 입장에서는 머신러닝과 딥러닝이 비슷하게 느껴지는게 사실이다.

그런데, 위의 도표를 통해서 머신러닝과 딥러닝의 차이점을 보다 쉽게 이해할 수 있도록 명시해준 것이 개인적으로는 큰 도움이 되었다.

또한, 제프리힐튼같은 교수님의 역전파에 대한 해결책 제시등의 지대한 공헌을 비롯해서, CNN신경망등의 알고리즘과 딥러닝 모델 발달과 인터넷과 스마트폰으로 급격하게 늘어난 무수한 데이터들, 그리고, 이에 대한 연산을 가능케 하는 NVIDIA의 A100 또는 H100과 같은 GPU 기술의 발전과 더불어 메타의 파이토치, 구글의 텐서플로우, 쉽게 프로그래밍 접근을 가능케했던 파이썬, 메타의 LLAMA와 같은 오픈기반의 모델들, 그리고, 허깅페이스등의 발전이 동시에 가능했기에 멀티모달(Multi-Modal) AI가 나올 수 있었다는데 아주 깊은 공감을 하게 되었다.

또한, 요즘의 생성형AI가 기존의 AI와 어떻게 다른지 한눈에 쉽게 볼 수 있도록 아래와 같은 도표는 정말 유용한 정보였다. 이런 부분의 기존의 다른 책들과도 차별되는 요소이기도 하다.

주어진 학습데이터를 활용한다는 측면에서는 유사할 수 있으나 데이터의 분류/예측보다 생성/변형이, 지도학습보다 비지도 학습이 이루어진다는 측면에서 그 구분점을 확실히 다르다.

그리고, 주요 분야의 멀티모달 생성AI기술을 상세히 다루고, 이에 대한 활용분야까지 명시한 점은 이 책이 원래 지향하는 멀티모달AI 인사이드의 코어로 봐도 무방할 거 같다.

2013년 비지도학습방식의 VAE(변이자동인코더)
2017년 살리맨스에 의한 확산모델
구글브레인에서 2019년에 만든 비전트랜스포머
오픈AI의 멀티모달AI모델로 ViT기반 사전학습모델로 2021년 등장한 CLIP
2022년 스테이블AI가 공개한 텍스트, 이미지, 음성을 모두 지원하는 스테이블디퓨전
2022년 OpenAI가 공개한 Dall-E2
2023년 메타(구 페이스북)가 오픈한 자기지도학습방식의 LLAMA
2023년 3월 ChatGPT4
트랜스포머와 PaLM2방식을 결합하여 2023년1월 오픈한 구글의 Bard
2023년 ViT기반 이미지 모델인 메타의 SAM과 멀티모달 생성AI모델인 메타의 ImageBind

개인적인 용도이자 업무용도로 현재 ChatGPT4.0을 쓰고 있는데, 이러한 멀티모달AI가 향후 어떤 비지니스나 산업에 어떻게 영향을 미칠것인지 늘 궁금한 것이 사실이다. 가장 인상깊었던 것은 이러한 멀티모달AI가 음악, 영상 분야 뿐만 아니라 금융, 의료, 제조분야에 충분히 활용될 수 있는 다양한 기술이 될 수 있음을 알게되어 향후 기대가 된다. 개인적으로는 자율주행 기술과 접목을 통해서 우리 일상에 보다 빨린 편이성과 효율성을 가져다 주길 기대한다.

아직 생성형AI의 갈 길이 멀고, 여전히 무주공산이다. 다만, 인간들의 자리를 위협하기보다는 새로운 일자리 창출에 더 큰 도움과 기여가 되고, 인간세상에 더 편리함을 제공해주는 그로 인하여 정보와 소득의 불평등과 격차가 해소되는 인류를 위한 기술로 활용되기를 간절히 기대해본다.

이번 기회를 통해서 이 책을 읽을수 있게 된 것은 개인적으로 큰 기회이자 큰 도움이 되었던 거 같다. 아무쪼록 생성형AI에 대한 현재와 앞으로를 고민하시는 분들께 강추해본다.

* 이 글은 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

저작자표시 비영리 동일조건