포스팅 목차
데이터 리터러시가 필요한 이유
Digital Transformation 시대가 도래하면서 그 기반인 데이터를 알아야 한다.
전혀 관련이 없어보이는 것도 데이터 분석을 통해 알 수 있다.
예시
나이키가 모든 외부 판매처에서 제품을 회수하고, 직영몰이나 매장에서만 판매하는 방식으로 변경
-> 고객이 구매하는 과정의 데이터를 수집하여 정교하게 고객을 세분화하여 맞춤형 서비스를 제공하기 위함
데이터의 종류
데이터를 구분하는 기준은 여러가지이지만 분석을 해야하는 입장에서 중요한 기준은 심층적, 피상적 데이터이다.
1. 심층적 데이터
: 원인을 설명할 수 있는 데이터
2. 피상적 데이터
: 결과를 모아놓은 데이터
데이터가 필요한 이유
출처: https://itwiki.kr/images/e/e4/DIKW_%ED%94%BC%EB%9D%BC%EB%AF%B8%EB%93%9C.png
데이터를 통해 정보를 만들고 정보를 통해 지식을 쌓고, 지식을 통해 통찰을 얻을 수 있다.
이렇게 데이터를 통해 통찰을 얼마나 얻느냐에 따라 조금 더 정확한 미래를 얻을 수 있다.
데이터 분석적 시각
목표 달성에 영향을 주는 요인을 찾는다.
특정 인물의 소비패턴을 보고 나이, 성별, 가구형태, 원하는 선물을 예측하는 실습을 간단하게 해봤다.
종류 | 예측 | 이유 |
나이 | 20대 후반 ~ 30대 | 네이버페이나 온라인 몰을 사용하는 걸로 보아 디지털에 익숙한 세대인 20, 30대로 예상되며, 아파트에 거주하며, 명품을 구매하는 등 어느 정도 능력을 갖춘 것으로 보아 사회적으로 자리를 잡았을 것으로 예상됨 |
성별 | 여자 | 올리브영, AHC 등 화장품을 구매했으므로 남성보다는 여성의 확률이 높음 |
가구형태 | 1인가구 | 아파트 관리비가 상당히 적은 편이며, 음식 결제 금액이 1인용 메뉴에 가까움 |
생일선물 | 백화점 상품권 | 롯데백화점에서 명품을 구매하고, 화장품을 쇼핑몰로 구매하는 것으로 보아 용이하게 사용할 것으로 보임 |
데이터기반 문제해결을 위한 5가지 요소
기획 - 수집 - 이해 및 관리 - 가공 및 분석 - 시각화
기획
원하는 정보에 대해 어떤 문제가 있을지? 어떤 원인들이 있을지? 고민해보고, 어떤 데이터를 수집하고, 분석할지 정의하는 단계
표면적인 문제에만 집중하지 않고 5Why를 통해 근본적인 문제를 찾자
수집
- 문제에 필요한 데이터를 알고, 데이터 유형별 장단점을 이해
- 업무에 필요한 데이터를 빠른 시간 내에 검색, 확인을 통해 확보
- 비정형적인 데이터 소스로부터 필요한 데이터를 선별하여 추출
북극성 지표
팀의 목표와 방향, 그리고 성공을 가늠하는 주요 척도.
좋은 북극성 지표는 고객 가치를 반영.
선행지표가 좋은 북극성 지표.
이해 및 관리
- 수집한 데이터의 출처가 사용 가능한 것인지 확인
- 데이터에 오류, 변수를 체크하고 누락된 데이터 검토
- 확보, 정리된 데이터를 분석 목적에 맞는 데이터 세트로 가공
관리 및 분석
분석방법에는 4가지가 있다
- 현상파악 -> 기술통계, 시각화
- 정의: 대상의 상태나 상황을 지속적으로 확인하여 예상치 못한 상황과 오류를 대비하고 극복
- 인과관계 -> 회귀분석, 경로분석, 구조방정식
- 정의: 원인과 결과를 찾기 위해 조건 간 차이를 찾는 것
- 유사도분석 -> 상관분석, 군집 분석
- 정의: 비슷한 부류끼리 묶어서 분석하는 기법, 클러스터링(Clustering)이라고도 부름
- 예측*분류 -> 회귀 분석, 결정 트리, 서포트 벡터 머신(SVM)
- 정의: 정통적인 통계에서 회귀분석이라 부르며, 일어나지 않은 미래에 대한 예측, 정해진 범주대로 구분하는 분류가 있음
[적절한 분석방법 선택하기]
쇼핑몰 상품 추천하기 - 유사도분석
스팸메일 걸러내기 - 예측, 분류
게임 해킹 유저 - 예측분류
고객 segmentation - 유사도분석
페이스북과 유튜브 중 광고효과 - 인과관계
1년 후 오늘 s전자 주가 - 예측, 분류
사람의 손글씨 인식하기 - 예측, 분류 & 유사도 분석
데이터 시각화
데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정
그래프, 차트, 인포그래픽 등 직관적인 방식으로 데이터를 표현.
방대한 데이터에서 빠르게 특징적인 패턴이나 특이사항을 추출할 수 있게 함.
통계학 용어
용어 | 뜻 | 예시 | 비고 |
모집단 | 타겟으로 하는 | 대한민국 국민 전체 | |
표본 | 대한민국 국민 중 1000명 | ||
전수조사 | 모집단 전체를 조사하는 것 | ||
표본조사 | 표본만 조사하는 것 | ||
귀무가설 | 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설 | 교육 수준과 임금은 관련이 없다 | P-Value >= 0.05일 경우 귀무가설 기각하지 않음 (통계적으로 비유의적) |
대립가설 | 귀무 가설의 반대. 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용으로 연구가설이라고도 함. 즉, 새로운 사실이나 현상에 대한 주장 |
교육 수준과 임금은 관련이 있다. | P-Value < 0.05일 경우 귀무가설 기각 (통계적으로 유의적) |
P-value(유의확률) | 귀무가설이 참일 때도 이를 기각할 확률 | 유의확률이 0.02라면 귀무가설을 기각했을 때 이 결정이 잘못될 확률이 2%라는 것 | |
유의수준 | 귀무가설의 기각 여부를 결정하는데 사용하는 기준이 되는 확률 즉, 제 1종 오류를 범할 확률의 허용 단계 |
유의 수준이 0.02이고, 유의확률이 0.021이라면 귀무가설이 기각되지 않는다 | (p-value <= 유의수준)일 때 귀무가설을 기각하고 연구가설 지지 (p-value > 유의수준)일 때 귀무가설을 기각하지 못하고, 연구가설을 지지하지 못함. |
제 1종 오류 | 귀무가설이 옳음에도 불구하고 대립가설을 택하는 경우에 발생하는 오류 | ||
제 2종 오류 | 귀무가설이 거짓인데 기각하지 않을 때 발생하는 경우 | ||
상관계수 | -1 ~ 1의 범위로 나타내고, 1에 가까울 수록 같은 추세, -1에 가까울수록 반대 추세 | 상관계수의 절대값이 높다고 두 요소 사이에 연관이 있는 것은 아님. 그냥 추세가 같은 것 | |
잔차(residual) | 표본으로 추정한 회귀식과 실제 관측값의 차이 | ||
결정계수(R^2, Coefficient of Determination) | [이해가 잘 되지 않는다. 이해시켜주실 분 구함] | ||
F값(F ratio, F-statistic) | [이 또한 잘 모르겠다] | ||
변동계수(Coefficient of Variation, 변이계수) | 표준편차를 평균으로 나눈 값. 서로 다른 아이템의 편차를 비교할 때 어느 것이 더 평균에 가까이 집중되어 있는지 알 수 있음 |
||
왜도 | 정규분포를 기준으로 데이터가 좌, 우 중 어느 방향으로 치우쳤는지 나타내는 지표. 대칭을 이룰수록 0에 가깝고, 오른쪽으로 치우칠수록 음수, 왼쪽으로 치우칠수록 양수이다. |
||
첨도 | 정규분포를 기준으로 데이터가 얼마나 중앙값에 모여있는지 보여주는 지표. 정규분포와 가까울수록 0, 분포의 중앙이 정규분포보다 높으면 양수, 낮으면 음수이다. |
출처: https://m.blog.naver.com/moses3650/221217938069
Excel로 상관관계 찾기
회귀분석은 원인과 결과를 보는 건데 어떤 데이터를 먼저 분석할지 순서를 정할 때 상관분석을 통해 결정
[상관분석 사진]
상관계수가 높을수록 연관이 있을 확률이 높기 때문에 높은 순서대로 회귀분석을 통해 연관이 있는지 확인한다.
절대 상관계수가 높다고, 연관이 있는 것은 아니다.
회귀분석 조건
1. 유의미한 F값 파악: 0.05 미만
2. P-Value: 0.05 미만
3. 결정계수(R): 0.6 이상
4. 잔차분석: 다 더해서 0
'서비스기획' 카테고리의 다른 글
[TIL] 데이터 기반 밀키트 아이템 기획 실습 - 6/28 (0) | 2023.06.29 |
---|---|
[TIL] 데이터 리터러시(2), 디자인 씽킹 - 6/27 (0) | 2023.06.27 |
[TIL] 포트폴리오 1차 피드백 - 6/23 (0) | 2023.06.23 |
[TIL] 실무진 2차 인터뷰 - 6/21 (0) | 2023.06.21 |
[TIL] 실무진 2차 인터뷰 준비 - 6/20 (0) | 2023.06.20 |