데이터 분석 부트 캠프 2주차 일정
월: 온라인 강의 - 통계 기초, 엑셀 데이터 탐색 등 & 부트캠프 활용법 특강 by 부트캠프 수료하신 데이터분석가
화: zoom 강의 - 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 by 이동훈 강사님
수: 온라인 강의 - 통계 기초, 엑셀 데이터 탐색 등
목: zoom 강의 - 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 by 이동훈 강사님 & 1회차 퀴즈
금: 온라인 강의 - 엑셀을 활용한 기술통계, 추론통계, 데이터 탐색 실습 등
데이터 분석 부트 캠프 2주차 3줄 후기
- 이제 좀 적응 되어가는 것 같다. 출첵이나 일정 관리, 공부 루틴도 정착하는 중이고 블로그 정리도 나름 하는중,,,
- 온라인 강의와 zoom 강의 커리큘럼이 다른 듯 내용이 겹쳐서 처음에는 답답한 감이 있었는데, 반복적으로 노출이 되니까 확실히 내용 습득에 효과가 있다. 물론 강사님께서 설명을 잘 해주시는 것도 있고..!
- 강의량이 엄청 많다... 언제 다 정리하지 😵💫
2주차에 배운 내용과 느낀점을 있는 그대로 써내려나간 글이라 보기 어려울 수 있습니다...!
온라인 강의와 함께 내용 취합해서 다시 게시물로 정리할 예정입니다.
부트캠프 활용법 특강
이전에 부트캠프를 수료하시고 데이터 분석가로 취업하신 선배님의 특강이었다. 전체적으로 어떤 과정을 거쳤는지 직접 참여하신 입장에서참여하시게 된 배경부터 프로젝트 내용, 그리고 취업준비까지의 흐름을 볼 수 있어서 좋았다.
일단 강의량이 매우 많다는 건 나만 느낀게 아니였다보다...ㅎ 그래도 패캠에서 들어보고 싶었던 강의들도 있었고 다 활용하면 너무너무 좋겠다만,, 부지런히 공부해야지 모ㅜㅜ
어쨋든 취업을 하기 위한 프로그램이니까 미리미리 이력서/포폴/면접 준비를 해야한다는 조언을 해주셨다.
적극적으로 팀리더 역할을 하면서 어려움도 있었지만 그것들을 면접에서의 아이템으로 사용했다고 하셨다. (좋은 방법인 것 같다! ㅎㅎ)
블로그도 잘 정리해서 작성했더니 취업에 플러스 요인이 되었다고 하셨다.
멘토님에 대한 칭찬도 하셨는데, 부트캠프 기간 내 도움을 많이 받을 수 있을 지 걱정이다.
그만큼 나도 준비가 어느정도 이뤄져야 도움도 받을 수 있을 테니..
부지런히 공부하고 준비해야겠다.! 자극을 받게 된 특강이었다.
친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 by 이동훈 강사님
EDA 탐색적 데이터 분석
내 입맛대로 수집되는 예쁘게 생긴 데이터셋은 없다. 수집된 데이터의 특성, 분포를 파악해야한다
결측치, 이상치 유무 파악 후 분석에 필요한 데이터 전처리 진행.
엑셀의 데이터 분석 도구
평균, 최대, 최소, 중앙값, 표준편차 등을 쉽게 계산
예전에는 spss, r을 사용해야했다.
엑셀 개발 도구 > excel 추가기능 선택 시 데이터 탭에 분석도구
“기술통계법”
평균보다 중앙값이 더 유용할 때가 있다. 한명이 유난히 튀는 값을 갖고있다면, 평균이 올라가게됨.
이상치가 많이 등장하는 경우, 평균보다 중앙값이 더 대표하는 값이 될 수가 있다
중위소득기준, 수치가 중간에 있는 사람의..
최빈값
분산,표준편차: 평균을 기준으로 넓게 분포되어있다.
실제 데이터 - 평균 의 제곱의 합계 = 분산… 제곱을 하는 이유는 음수, 양수를 없애기 위해
분산에 루트를 씌움 = 표준편차… 루트씌우는 이유는 제곱했으니
"상관분석"
엑셀의 또다른 EDA 방법
"피벗테이블"
피벗테이블 만드는게 어려운 이유 = 내가 어떻게 구성할지 생각을 안해봤기 때문
문자는 보통 행으로 값, 숫자는 합계로 감
문자데이터를 값에 넣으면 갯수가 나옴. Order id의 갯수는 주문건수. 매출액은 같은데 주문건수는 낮다면 뭐가 잇다라던지
값 필드 설정 -> 값 표시 형식은 열 합계 비율
필터로 사용해도되고
피벗테이블 분석 슬라이서 삽입하면 필터로 할 항목들 버튼처럼 바뀜
강사님의 tip
데이터를 처음봤을때는
연도별로 월별로 한번 봐라
행에는 리전 세그먼트 분류데이터를 넣어서봐라
카테고리 서브테이블 넣어보고
-> 피벗테이블 만들어보면서 데이터 파악해가는 과정 자체가 EDA다
결측치 = 비어있는값. 피벗테이블 상 비어있음.
파악하는 법 -> 최상단 열마다 countblank 라는 함수를 쓴다. 0이면 결측치 없다
처리하는 법 ->
1 결측치 포함된 행,열 삭제 = 제거.. 데이터 크기의 손실이 없는지 고려. 제거 전후 차이 비교
2 중앙값/최빈값 등 적당한 값으로 대체 = 치환.. 지표의 편향성을 높일 수 있고 상관 관계 왜곡될 수 있음. 도메인 지식 필요
이상치 이상하다는 기준이 필요함.
정규분포! 확률적성질을 가지는 분포. 평균과 가까운 값들이 나올 확률이 높고, 먼 값들이 나올 확률이 적음. 평균에서 데이터들이 모여있는
표준편차만큼 떨어져있을 확률이 가장 높고, 표준편차의 2배만큼 떨어져있을 확률이 몇퍼,,,
사분위수
“IQR” inter quartile range 사분위수 간의 거리….. 에 1.5배 한 값의 범위 밖에 있는 것이 이상치
이것을 박스플랏 (상자도표) 으로 이를 표현함. 1.5배한 것이 최소/최대값
그 박스 바깥 가로선 위/아래 범위 밖에 점이 있으면 이상치가 있다.
상관 분석
두 변수가 선형적 관계를 갖고있는지 분석기법.
광고비에 따른 매출액이 우상향인 것이 제일 이상적임. 두 변수 사이의 상관성을 판단하는 상관계수 r
(relation)
r이 최소 -1, 최대 1 이고 1에 가까울 수록 양의 상관관계, -1에 가까울수록 음의 상관관계, 0에 가까울수록 상관관계가 없다. +-0.3이하면 상관관계 없다….!
강한 상관관계가 있다고 해서 인과관계를 가지는 것은 아니다. 우연한 계기로 같은 방향으로 움직일 수도 있다!
매출액과 광고비… 매출이 많아서 광고비를 증가시킬수있었던 것일수도
상관관계가 강한 것들 중에 인과관계가 높을 수 있으니…
데이터 전처리 기능
텍스트 나누기
엑셀 하나의 셀에 한가지 정보만 들어있는 것이 제일 좋은 데이터!
연월일 -> 연별 월별 일별 로 볼 수 있어야하니 연 / 월 / 일 로 나눠야한다
날짜
엑셀에서 yyyy-mm-dd 가 일반적인 날짜 표시 형식.
데이터 분석 / 모델링
모델링 = 모델을 만든다! 우리만의 모형, 공식을 만든다
통계학
표본집단으로 모집단을 추론하는 것. 전체를 파악하려는 노력
- 기술통계학
합계, 평균, 최대최소, 추세, 데이터를 보고 흐름이 어떻게 되는지 - 추론통계학
가설 검정, 귀무가설(널리 알고있는 가설. 틀렸다고 주장해야함), 대립가설(주장)
귀무가설을 기각할 때 쓰는 지표가 있어야함. 가설 검정의 기준인 p 밸류….!
P-value
P-value는 귀무가설이 맞다는 전제하에 절대 일어나서는 안될 유의 수준(0.05 = 5%) 이하의 일이 나오게 되면!
귀무가설이 틀렸다고 주장할 수 있다는 개념. 귀무가설이 틀렸다는 것이 대립가설이 맞다는 것은 또 아님. 그냥 대립가설이 맞을 확률이 높아진다는 것일뿐
T-test
T-test 는 평균에 유의미한 차이가 있는지를 검정
두 집단(또는 집단의 전,후) 의 평균의 차이를 검정. 세개 이상이 되면 분산..으로 검정해야함.
분산이 같은지 다른지 먼저 검정해야해서 F-검정이 필요!
어떤 t-test를 써야할지, P >= 0.05 라면 같으면 등분산 가정 t-test, p < 0.05 라면 다르니까 이분산 가정 t-test를 결정.
p가 0.05보다 크면 두 집단의 평균에 유의미한 차이 없고, 작으면 유의미한 차이 있다!
=> 결정계수와 상관계수를 고려해서 종합적으로 판단해야한다
회귀분석
x라는 독립변수에 따라 결정되는 y 종속변수가 어떻게 달라지는지 관계식을 찾는 것
단순 선형 회귀 분석
분포를 설명하기에 가장 가까운 직선을 찾는 것. y와 x 사이의 1차 방정식
최소제곱법.. 오차 제곱의 합계(오차가 음수일 수도 있으니 제곱을 한다) 가 가장 작은 수식을 알려줌.
결정계수 R squared (상관계수 r의 제곱값)…. 0~1 사이의 값. 1에 가까울 수록 직선이 우리가 만든 회귀 모형식에 가깝다
유의한 F도 p와 같음. 0.05보다 작아야함
1.1E-14 = 1.1에서 왼쪽으로 14칸간다는 뜻. 겁나 작은 수!
다중 선형 회귀 분석
조정된 결정계수로 해석한다!
p값이 0.05미만인 독립변수들만 종속변수를 결정하는데 유의미한 영향을 준 변수다
나머지 독립변수는 영향을 주지못한 쓸모없는 변수니까 일단은 제외시켜야함… 쓸모없는 독립변수가 늘어나면 결정계수가 늘어날수밖에 없다…!
조정된 결정계수는 쓸모없는 독립변수들을 제외하고 좀 낮게됨.
회귀분석 하는 과정 (feat. 강사님의 tip)
- 상관분석을 수행하여 종속변수와 강한 상관관계를 갖는 변수를 16개 이하 선정
- 모든 독립변수를 포함한 다중선형회귀분석을 먼저 진행 ( len(x) <= 16개 )
- 유의미한 독립변수들만으로 다시 다중선형회귀분석 진행
- 유의미한 독립변수들을 각각 종속변수와 단순선형회귀분석
시계열데이터
정상성 = 추세를 갖고있느냐. 오르는/내리는…. 어떤 시즌에 따라 오르고 내리는
정상 시계열 데이터는 추세도 없어야하고 계절성을 띄지도 않아야함.
비정상을 정상으로 만들어주는 방법 -> 지수평활법
지수평활법 exponential smoothing
Forecast.ets 라는 엑셀에서 사용할 수 있는 예측함수
예측하고자하는 날짜, 이미 알고있는데이터, 그 데이터의 날짜, 계절성주기를 알면 쓰고 모르면 알아서 채워줌.
결측치가 있다면 1로 없으면 0을 쓰는게 맞다
시계열 데이터는 보통 시각화가 꼭 필요하다..!
과거 데이터만을 기반으로 만들어진 예상치이기 때문에 다른 변수가 생긴다면 함께 메모하는 것이 좋음.
데이터 시각화
표만으로 스토리텔링,,, 나이팅게일의 로즈 다이어그램처럼
그래프는 내 주장을 강화시켜줄수잇는 전략이 담겨있어야한다! 단순 도구가 되어서는 안됨
어떤 숫자로 차트를 그릴지 결정
숫자를 잘 표현할 수 있는 차트 결정
버블차트
숫자의 크기나 비율을 거품으로 나타냄…!
조건부서식
데이터 막대는 프로젝트 진척울, 이익율, 신장율, 달성율, % 지표들에서 주로 사용
수식을 사용하여 서식을 지정할 셀 결정 (서식으로 커스터마이징 할 수 있다!!!)
1월에 수치가 가장 높은 지역만 칠하려면…? =$O5=MAX($O5:$R5)
vlookup에서 참조하는 데이터에는 중복되는 값이 없어야한다.
cf.
머신러닝
(1)지도학습
지도하고자하는 학습이 뭐냐에 따라 종류가 달라짐. 정답있는 데이터 학습해서 얼마나 잘 맞추는지 학습함
Regression: 다음달 수치를 정확히 예측하는 것. 한 점을 예측
Classification: 새로운 것이 어디에 분류되는지. 어떤 구간에 속할지 예측
(2)비지도학습
정답이 없는 데이터를 활용해서 데이터를 학습함
군집화: 비슷한 것끼리 먼저 분류. 군집을 나누는 기준을 다르게
(3)강화학습: 정책을 정하고 행동에 대한 보상/벌점을 주고 보상을 받는 방향으로 유도
책 추천
엑셀로 이해하는 데이터 과학 입문 DATA SMART - 존 포먼 지음 / 에이콘
Practical Statistics for Data Scientists 데이터 과학을 위한 통계 2판 - 피터 브루스, 앤드루 브루스, 피터 게테크 지음 / 한빛미디어
데이터 분석가가 반드시 알아야할 모든 것 - 황세웅 지음 / 위키북스
코세라강의 추천
IBM 데이터분석가 - 전문 인증서
구글 데이터 애널리틱스 - 전문 인증서
1회차 퀴즈
수업 잘 듣고 이해했으면 큰 문제없이 풀 수 있던 퀴즈. 간혹 헷갈리는 문제 있었고 처음 들어본 단어(ex. 로버스트) 있었지만, 잘 찍었고(?) 15/15 만점으로 퀴즈까지 완료! 후후
'부트캠프 > 패스트캠퍼스 데이터 분석' 카테고리의 다른 글
[패스트캠퍼스/내일배움카드] 데이터 분석 부트 캠프 BDA 15기 | 7주차 (0) | 2024.08.02 |
---|---|
[패스트캠퍼스/내일배움카드] 데이터 분석 부트 캠프 BDA 15기 | 3주차 (0) | 2024.07.05 |
[데이터분석부트캠프] 데이터분석 #1. 데이터 분석과 데이터 리터러시 (0) | 2024.06.25 |
[패스트캠퍼스/내일배움카드] 데이터 분석 부트 캠프 BDA 15기 | 1주차 (1) | 2024.06.21 |
[패스트캠퍼스/내일배움카드] 데이터 분석 부트 캠프 BDA 15기 | OT 후기 (0) | 2024.06.20 |