부트캠프/패스트캠퍼스 데이터 분석

[패스트캠퍼스/내일배움카드] 데이터 분석 부트 캠프 BDA 15기 | 1주차

엘레나림 2024. 6. 21. 12:25
728x90

패스트캠퍼스 데이터 분석 부트캠프 15기

데이터 분석 부트 캠프 1주차 일정

월: OT
화: zoom 강의 - 빅데이터 이해 & 데이터 리터러시 함양하기 by 오수은 강사님
수: 온라인 강의 - 실무 엑셀 데이터 분석 강의
목: zoom 강의 - 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 by 이동훈 강사님 & 1회차 피어세션
금: zoom 강의 - 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 by 이동훈 강사님

 

더보기

데이터 분석 부트 캠프 1주차 3줄 후기

- 얻어가는 지식이 꽤 많다. 자료들도 깔끔하고 강사님들의 내공이 느껴져서 매우 만족하며 수강중이다 :)

- 아직 내용은 너무 쉽지만 의외로 엑셀 꿀팁이 많아서 굉장히 유용했다.

- 다만, 출석체크가 좀 귀찮다 ㅎㅎ.. 그래도 온라인이라 약간의 자유(?)가 생기니 오프라인보다는 온라인 부트캠프를 추천한다! (아직까지는)

 

 

OT 

 

[패스트캠퍼스/내일배움카드] 데이터 분석 부트 캠프 BDA 15기 | OT 후기

회사 퇴직일과 함께 내일배움카드로 패스트캠퍼스에서 주최하는 부트캠프를 시작했다.(사실 신청하기 전까지 데이터분석과 AI 둘 중에 엄청 고민했다... 그래도 바로 취업하기위해선 데이터 분

imgeeae.tistory.com

 

 

빅데이터 이해 & 데이터 리터러시 함양하기 by 오수은 강사님

 

DT. 디지털 전환 이라는 말 많이 함. 일상에서 깊게 들어와있음

기존사업에서 디지털로 마이 그레이션 하고 싶은데, 새로운 먹거리로써 뭔가를 해보려고 함. 분석한 결과가 가져오는 임팩트, 그 가치가 뭔지가 정말 중요하다!! 가치 창출을 위해 DT를 한다.

그 중에서 빅데이터가 가장 좋은 요소

기업 기술에서 많은 데이터가 쌓이고 있음. 서비스 사업으로 돈을 어떻게 벌수있을까

 

데이터 드리븐

그전에는 현업 담당자가 감으로 의사결정 하곤 했다.

이제는 의사결정을 데이터로 하겠다. 데이터로 모든 의사결정을 좌지우지 한다는 의미

실험의 반복적인 사이클 = 분석 을 반복하며 의사결정하는 것

 

데이터드리븐 경영은 데이터가 일단 많아야하고, 정확히 수집 되어야하는데 잘못 수집하는 경우 많음. 그냥 쌓는다고 다가 아니고 분석에 알맞게 '잘' 쌓아야함

분석이라는 것은 다양한 분야가 섞여있는 짬뽕 분야. 수학, 통계, 컴퓨터, 커뮤니케이션 등등 넓은 방향으로 cross build를 요구함

 

앞으로 뉴스를 볼때는 상상하며 봐라. 이런식의 데이터가 필요했겟다. input은 뭐고, output이 뭐고, 어떤 방식을 썼다. 어떻게 유통을 했고? 등등

언제부터 데이터 드리븐이 중요했고, 언제까지 갈것인가?

 

빅데이터

  • 빅데이터 가장 중요한 개념: 3V volume 대용량, velocity(배치,실시간처리), variety(다양성, 정형/반정형/비정형)
  • 빅데이터를 처리하는 시스템. 하둡=분산. 큰 데이터를 나눠서 독립적으로 병렬처리하는

빅데이터로부터 인사이트를 발굴하는 것이 가치 창출의 핵심. 항상 목적을 적어야함.!


통계관점에서는 통계/마이닝 모형, 기술관점에서는 빅데이터처리분석기술, 비즈니스 관점에서는 새로운 가치 창출
-> 데이터유형/기술 발전으로 분석 기법이 달라지고있음

크기 - 시계열 데이터

속도 - 85% 성능을 1분만에 확인하는 것, 89% 성능인데 10분이 걸린다면 전자를 선택하기도 함…

유형 - 텍스트 자체에 대한 분석. 텍스트 마이닝, 분류가 다양하다면 데이터 분류를 할수도 있고

 

AI

인공지능을 학습시키려면 데이터가 필요함. 인공지능을 통해 가치를 창출하려면 데이터가 또 필요함. 

빅데이터와 인공지능은 공생관계다!

최근 gpt4 omni 는 2023년도 데이터로 학습이 된 새로운 버전

 

모든 회사에서는 지금 거의 다 ai 다~

도전해봄직한 도메인/산업군에서 어떤 분석주제를 갖고 공부할지가 중요함.

 

ai가 많을 일을 커버하게 됨. 프로그래밍 인재도 중요하지않아짐

지금 현상황에서 어떤 데이터를 봐야하고, ai가 한 말이 맞는지 검증하는 일들이 사람이 해야할 일!

학습데이터가 잘못되엇을때 어떻게 바로잡을 것인지. 윤리적인걸 어떻게 관리할지 등등 리스크 관리

 

생성형 AI

  • gpt는 검색시장의 패러다임을 바꿨다! 구글에서 필요한 정보를 얻을때까지는 검색경험이 필요했는데, 이제는 생성형이 그것을 대신하고 검색생성경험을 제공한다
  • 산업별로 ai를 활용함. 마케팅도, cs도 고객 문의에 대한 응답을 기존 문의내용을 참고해서 해준다던지
  • Ai 플러그인 생태계. 앱스토어처럼.
    익스피디아에 있는 고객정보 데이터를 가지고 챗gpt스럽게 선호도에 따라서 리스트업을 해준다던지 개인비서처럼

 

실제 비즈니스 사례

산업군별로 관심있는 주제들이 정해져있음. 제조는 불량을 잡아주는 것들. 유통/물류는 재고나 수요예측, 이상탐지 등등

1) 데이터를 수집하고 정합성에 대한 퀄리티 체크가 먼저다. eda를 함으로써 데이터에 대한 이해를 해야함

2) 그 다음 적절한 전처리해야함. 데이터 보완 등 의사결정을 하고 데이터를 결정해야함

3) 데이터분석내용을 제공해야하는 시기, 너무 무겁지않게 셋팅해야한다 라던지 조건들이 있음

4) 어떻게 제공하면 좋을지도 시각화 능력
진행했던 기술, 과정을 다 설명할 수 있어야함! 커뮤니케이션

 

데이터 직군

데이터 엔지니어: 데이터 인프라 구축, 데이터 파이프라인을 잘 관리하고 인프라 안정적으로 운영하는 것, 클라우드 환경에서 dw 구축

데이터 분석가: 분석의 기준이 되는 지표 개발.

Ml/dl 엔지니어: ml을 검증하고 적용하는 루프를 거침

사이언티스트: 논문,, 연구,,

 

데이터를 잘 이해하는 것도 중요하고, 그걸 잘 표현하는 것도 중요하다

 

PA 유저 행동데이터 위주, 사업과 밀접한 부분.. 서비스/제품에 대한 성장과정

BA 회사의 비즈니스를 분석함. 재무지표, 매출 비용 등.. 재무데이터들이 많음.

Performance marketer 광고와 관련된 효과를 어떻게 극대화할까. 광고 최적화, 채널별로 광고효과 분석

데싸 분석뿐만 아니라 모델링 자체에 대한 연구, pt, 컨설팅 역량도 요구함

 

 

직무 역량

프로그래밍 역량. 데이터 처리하려면 읽기 쉬운형태로

통계 기법에 대한 이해. 예측까지 하고싶다면 머신러닝 딥러닝 방법론에 대한 절차.. 

도메인 지식.. 여러 산업에 대한. 고객들의 pain point 등 문제 발굴 능력

커뮤니케이션 스킬. Pt, 제안, 시각화 등 데이터 기반 스토리텔링 능력을 면접때 확인할수도 있음.

 

Python 쓰면 딥러닝 라이브러리 테스트해봐라 텐서플로, PyTorch

sql은 추출이 목적

 

 

채용공고 분석

상품데이터나 유저행동데이터가 쌓이는 플랫폼회사!

산업이 어떻게 흘러가고 있는지 리서치를 해라.

시행착오, 해결방법 등. 전반적 프로세스들, 왜 이런문제를 정의했고, 왜 그렇게 했는지. 다른 방법은 없었는지.

평소에 블로그나 메모장에 한줄로 라도 정리하는식으로 해봐라

 

 

데이터분석 업무

비즈니스 이해. 문제정의. 러프한 아이디어가 분석과제로

데이터 수집

데이터 클렌징

데이터 살펴보기 exploration eda

Feature 엔지니어링 모델링

예측모델 머신러닝

시각화. 이과정으로 어떤 가치를 얻엇는지

 

기존의 일을 쉽게, 최적화하는 습관. 이게 맞나? 하면서

 

금융은 특히 마이데이터로 확보되었다. 그런데 보안에 신경을씀

제조는 데이터에 대한 신뢰가 없는편이라 설득이 좀 어렵. 현재 외부 전문가의 의존도가 높음. 컨설팅.. 

바이오 헬스케어, 게임, o2o 등등 전반적으로 관심 많음

 

각 회사의 기술블로그! 트렌드 기술, 어떻게 적용했는지 

 

 

친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 by 이동훈 강사님

(이동훈 강사님의 온라인 강의를 좀더 깊게 배우고 실습해보면서 zoom 강의 진행)

 

4차 산업혁명 시대

디지털 트윈. 오프라인 세계와 똑같이 생긴 쌍둥이 처럼 같은 세계가 온라인에 구현, 두 세계를 자유롭게 넘나드는 세상

가장 중요한 핵심가치는 데이터!
데이터를 잘 다루는 능력 => 데이터 리터러시(단순 읽고 쓰기가 아닌 다양한 관점에서 이해하고 활용할수 있는 역량)

 

Soft skill 로써의 데이터 리터러시

  • 기술적 데이터 리터러시: 수치 기반으로 데이터를 어떻게 빠르게 추출해낼 수 있냐
  • 해석적 데이터 리터러시: 데이터로 어떻게 해석할 수 있냐

 

Hard skill 데이터 분석

데이터 분석은 의사결정을 대신해주지는 않는다. 의사결정을 더 과학적으로 만들어주는 것

Ai 도래로 인해 필요없어지는게 아님. 빠르게 다양한 정보를 얻게 된것이고 이를 검토해서 검증하는 것이 인간의 고유 영역이다.

 

→ 데이터분석 : 현실에 살고있는 우리를 더 나은 미래로 나아가게 할 key. 장기적 관점에서의 비전도 나와야함

 

데이터사이언스 자료과학

수학, 통계 + “도메인 지식”

Citizen data scientist…! 데이터 분석을 할 수 있는 직무/산업 전문가. 다른 주업무에서 데이터 분석을 활용하는 사람.

 

 

엑셀

엑셀 잘한다는 것은? 

사용자 입장에서… 누가 받을 건지. 대리님인지 임원인지 직급에 맞게 사용자의 니즈에 따라

목적에 부합하도록…. 이 자료가 왜 필요한지. 어떤 관점에서 작성해야하는지. Output은 어떤 형태로?

자료 구성하는 것!

 

엑셀 기초

1. 서식

엑셀 내 모든 셀에는 기본서식이 적용되어있다. 맑은 고딕, 글자크기 등

수식, 값, 서식을 따로 붙여넣을 수 있어야함.

 

2. 참조

기본은 상대참조, F4(fn+F4)로 절대참조와, 혼합참조, 상대참조로 순환 변경가능

 

3. 단축키 (다시정리예정)

행전체선택 shift + space, 열선택은 cmd+space? 안되네…

Cf. 행전체선택이 된다하더라도 주인공은 그 셀이다.! 열고정에서는 쓸수없다.

틀고정.. 회의할때나 편하게 보고싶을때! cmd+z로 되돌릴수없다

 

셀 삽입 cmd + ‘+’, 삭제는 cmd + ‘-‘

 

셀 범위 선택은 cmd+shift+방향키, 셀 전체 범위 선택은 cmd+shift+space

값 있는 셀까지 cmd+방향키

 

첫번째에서 맨아래값까지 선택하려면 cmd+shift+아래방향

맨아래는 제외하려면 shift+위방향

맨아래에서 첫번째까지 선택하려면 cmd+shift+위방향

맨위는 제외하는 것도 동일하게 shift+아래방향

 

행숨기기 cmd+9, 행숨기기취소는 cmd+shift+9

열숨기기 cmd+0, 열숨기기취소는 cmd+shift+0

숨긴부분은 제외하고 복붙하려면 보이는셀만 선택!

 

셀서식창 cmd+1 > 맞춤탭 > 가로맞춤: 선택 영역의 가운데로 로 선택!! 하면 병합되지 않고, 맨 앞셀에 값있는데 가운데 인것처럼 보여짐

 

4. 빠른 실행 도구 모음

맥북에서는 단축키가 먹히지 않지만 윈도우에서는 alt+숫자키로 매우 강력한 기능! 

잘 활용하면 진짜 일잘러

 

  • 합계 <- 자동합계기능!!
  • 수식붙여넣기
  • 값붙여넣기
  • 서식붙여넣기
  • 화면에 보이는 셀 선택
  • 틀고정
  • 병합하고 가운데 맞춤