카테고리 없음

[서평]월 20달러로 고용하는 데이터 분석가 with 챗GPT, 코드 한 줄 없이 기초 통계부터 분석, 예측까지

H.Hoper 2024. 11. 27. 08:09

이 책은 AI 특히, 생성형AI나 LLM을 잘 모르거나 들었다 하더라도 챗GPT만 잠깐 사용하는 초보자라면 그리고, 챗GPT를 여전히 번역이나 자료 정리 용도로 사용하는 AI왕초보자라면 이 책을 강력히 강력히 추천합니다.

왜냐하면, 이 책은 ChatGPT에 대한 개념이나 원리 내부 로직, 아키텍처를 설명하지 않습니다. 만약, 여러분이 GPTs를 만들고 API호출을 해서 구현할 수 있다면 이 책은 skip하셔도 좋습니다. 오히려, ChatGPT를 어떻게 우리 일상생활에 쉽게 활용할 수 있는지를 알려주는 활용서입니다.  그래서, 옆에다 두고두고 보면서 사용하기에 가장 알맞은 책이라 생각합니다. 509페이지에 달하는 방대한(?) 책이지만 내용은 너무도 쉽게 읽고 이해할수 있도록 잘 만들어졌습니다. 

 

이 책은 크게 보면 3가지 챕터로 볼 수 있을거 같습니다. 

 

1. 챗GPT의 기본 개념 잡기

초반 도입부분에서는 챗GPT의 개념과 사용방법에 대해서 알려줍니다. 챗GPT 유료버전에 가입해서 질의 응답, 그림 그리기 뿐만 아니라 사용자 맞춤형 환경설정하는 방법, 다양한 GPTs, 그리고, 최신 ChatGPT의 기능중에 하나인 음성채팅 활용하는 방법, 프롬프링 방법등 초보자들을 위한 다양한 가이드와 내용을 명시하고 있습니다. 이외에도 Pdf파일을 ppt 보고서로 만들거나, 코드파일 코드 리뷰, CSV 파일로 데이터 분석하는 가이드등은 챗gpt로 이런것까지 할 수 있구나 하는 방법을 알 수 있습니다. 

 

그리고, 맨뒤에 있는 ChatGPT API를 연동하거나 사용하여 분석하기의 내용도 크게 보면 ChatGPT의 기본 활용으로 볼 수 있을거 같습니다.

 

개인적으로는 명확하고 구체적으로 질문하기, 필요한 배경정보 제공하기, 청중 설정하기, 임부와 역할 부여하기, 직업 세분화 몇 단계별로 생각 , Chain of thought 작성하기, 긍정지시문 사용하기, 키워드 제시가하기, 편견 제거하기등의 다양한 프롬프팅 노하우를 알려주고 있어 초보자들에게 특히 도움 될 거 같다는 생각이 들었습니다. 그리고,특히, 아래의 도표처럼 ChatGPT의 사고의 폭을 넓힐 수 있는 다양한 단계별 접근 및 문제 해결기법은 기존 다른 책에서는 보지못한 부분일뿐만 아니라 다른 업무에도 적용해볼 수 있어서 더욱 의미가 있는거 같습니다. 

 

2. 데이터 분석의 기본 개념 잡기

대부분의 데이터분석가나 데이터 과학자들은 알 수 있는 데이터나 데이터베이스, SQL, 원시데이터, 그리고, 분석 주제 선정을 위한 분석과제 도출방법으로 상향식, 하향식 접근 방법은 흥미롭게 읽은 부분중에 하나였습니다. 데이터 분석을 잘 모르는 저와 같은 초보자들에게는 데이터분석을 위해서는 이런 기본지식들이 필요하구나 하는 내용을 이해하는 장이기도 하였습니다.

  • 하향식 접근방법: 회사의 비전이나 전략 또는 특정 비즈니스 목표와 전략을 세우고 이를 달성할 수 있는 프로젝트와 연계시키고, 과제를 찾는 방식
  • 상향식 접근방법: 데이터를 바탕으로 인사이트를 도출하거나 문제를 해결하는 분석과제로써 데이터의 특성을 최대한 활용하여 가치 창출에 집중

3. 챗GPT로 데이터 분석하기 & 고급데이터 분석 도전

사실 이 책의 핵심적인 내용은 바로 3장과 4장으로 고급 프럼프팅 기술의 향연(?)이 펼쳐집니다.

 

챗GPT에서 원천소스가 되는 엑셀데이터를 업로드해서 데이터의 타입, 용량, 수량, 출처, 중복데이터 체크, 샘플데이터의 확인등의 데이터 검증 과정을 시작으로 표기반의 데이터 통계 요약 및 결측값 처리, 데이터 시각화나 샘플링, 이상치 찾아서 제거하거나 숫자형 범주형 데이터 분석, 통계 검정 및 데이터 변환 및 취합, 상관관계 분석등의 내용을 배우게 됩니다. 

  • 결측값(Missing Value): 데이터에 있는 빈 값은 기록되지 않거나 잘못 입력했을때 발생하는 값
  • 이상치(outlier): 데이터 분포에서 벗어난 극단적인 값
  • 통계검정: 데이터를 기반으로 가설을 검증하는 과정으로 예를 들어 2개 이상의 집단 사이에 어떤 연관성이나 차이나 있는지 검증하는 형태

그리고, 머신러닝 알고리즘에 대해서도 체계적으로 설명을 해주고 있으나, 보다 깊이 있는 이해가 필요하신분들은 머신러닝 알고리즘 전문 서적을 별도로 읽으시면 좋을거 같습니다. 🙂

 

고급 기술로써 트리모형으로 모델링하거나 트리구조로 시각화 및 텍스트화하기, 의사결정트리로 시각화하거나 타기팅 분석을 위해 회귀분석과 모델링 하는 내용들은 데이터분석을 잘 모르거나 초보자에게 이런 개념도 있어하고 알려줍니다. 물론, 파이썬이나 Panda, R등을 잘 모르는 초보자들에게는 중간중간 막히는 부분이 있을수도 있으나 이런 부분들은 skip하고 넘어가면 됩니다. ^^

 

다만, 한가지 우려는 챗GPT의 강력한 기능에 집중한 나머지, ChatGPT의 환각증세등의 한계에 대한 논의는 다소 부족하게 느껴집니다. 특히 챗GPT의 답변은 가끔씩 불완전하거나 틀릴 수 있다는 점, 그리고 데이터 품질이 낮을 경우 결과의 신뢰성 역시 떨어질 수 있다는 문제점에 대해서도 인지할 필요가 있습니다. 따라서, 데이터 분석의 신뢰성을 높이기 위해서는 챗GPT의 답변을 맹신하기보다는 결과를 검토하고, 다른 방법과 비교하는 등의 보완이이 필요하다고 생각됩니다.

 

그럼에도 불구하고, 데이터 사이언티스트들이 기존에 하고 있는 데이터 분석 및 모델링등의 업무를 챗GPT를 이용해서 하는 방법을 이렇게 쉽게 가이드하고 이해할 수 있도록 한 책은 이 책밖에 없는거 같습니다. 데이터 분석의 과정이 어떻게 이루어지고 있고, 데이터 사이언티스트 전문 기술이나 업무를 배우지 않은 사람들도 이제 ChatGPT만 있으면 할 수 있습니다.

 

저 역시도 사실 데이터 사이언티스트 관련 내용을 체계적으로 배우지 않아서 온/오프라인의 몇달짜리 과정을 알아보다가 만적도 있었는데, 이번 기회를 통해서 데이터 분석 업무의 실체(?)와 이론에 대한 활용등을 알게되었습니다. 챗GPT의 여러 효능(?)중에 하나로 데이터 분석을 하고자 하시는분들은 필독을 권합니다!!! 


"한빛미디어 서평단 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."