서비스기획

[TIL] 데이터 리터러시(1) - 6/26

TeoJeon 2023. 6. 26. 16:48

포스팅 목차

     

     

    데이터 리터러시가 필요한 이유

    Digital Transformation 시대가 도래하면서 그 기반인 데이터를 알아야 한다.

    전혀 관련이 없어보이는 것도 데이터 분석을 통해 알 수 있다.

     

     

    예시
    나이키가 모든 외부 판매처에서 제품을 회수하고, 직영몰이나 매장에서만 판매하는 방식으로 변경
    -> 고객이 구매하는 과정의 데이터를 수집하여 정교하게 고객을 세분화하여 맞춤형 서비스를 제공하기 위함

     

     

    데이터의 종류

    데이터를 구분하는 기준은 여러가지이지만 분석을 해야하는 입장에서 중요한 기준은 심층적, 피상적 데이터이다.

    1. 심층적 데이터

    : 원인을 설명할 수 있는 데이터

    2. 피상적 데이터

    : 결과를 모아놓은 데이터

     

    데이터가 필요한 이유

    DIKW 피라미드

    출처: https://itwiki.kr/images/e/e4/DIKW_%ED%94%BC%EB%9D%BC%EB%AF%B8%EB%93%9C.png

     

    데이터를 통해 정보를 만들고 정보를 통해 지식을 쌓고, 지식을 통해 통찰을 얻을 수 있다.

     

    이렇게 데이터를 통해 통찰을 얼마나 얻느냐에 따라 조금 더 정확한 미래를 얻을 수 있다.

     

     

    데이터 분석적 시각

    목표 달성에 영향을 주는 요인을 찾는다.

     

     

    특정 인물의 소비패턴을 보고 나이, 성별, 가구형태, 원하는 선물을 예측하는 실습을 간단하게 해봤다.

    종류 예측 이유
    나이 20대 후반 ~ 30대 네이버페이나 온라인 몰을 사용하는 걸로 보아 디지털에 익숙한 세대인 20, 30대로 예상되며, 아파트에 거주하며, 명품을 구매하는 등 어느 정도 능력을 갖춘 것으로 보아 사회적으로 자리를 잡았을 것으로 예상됨
    성별 여자 올리브영, AHC 등 화장품을 구매했으므로 남성보다는 여성의 확률이 높음
    가구형태 1인가구 아파트 관리비가 상당히 적은 편이며, 음식 결제 금액이 1인용 메뉴에 가까움
    생일선물 백화점 상품권 롯데백화점에서 명품을 구매하고, 화장품을 쇼핑몰로 구매하는 것으로 보아 용이하게 사용할 것으로 보임

     

    데이터기반 문제해결을 위한 5가지 요소

    기획 - 수집 - 이해 및 관리 - 가공 및 분석 - 시각화

     

    기획

    원하는 정보에 대해 어떤 문제가 있을지? 어떤 원인들이 있을지? 고민해보고, 어떤 데이터를 수집하고, 분석할지 정의하는 단계

     

    표면적인 문제에만 집중하지 않고 5Why를 통해 근본적인 문제를 찾자

     

     

    수집

    • 문제에 필요한 데이터를 알고, 데이터 유형별 장단점을 이해
    • 업무에 필요한 데이터를 빠른 시간 내에 검색, 확인을 통해 확보
    • 비정형적인 데이터 소스로부터 필요한 데이터를 선별하여 추출

     

    북극성 지표

    팀의 목표와 방향, 그리고 성공을 가늠하는 주요 척도.

    좋은 북극성 지표는 고객 가치를 반영.

    선행지표가 좋은 북극성 지표.

     

     

    이해 및 관리

    • 수집한 데이터의 출처가 사용 가능한 것인지 확인
    • 데이터에 오류, 변수를 체크하고 누락된 데이터 검토
    • 확보, 정리된 데이터를 분석 목적에 맞는 데이터 세트로 가공

     

    관리 및 분석

    분석방법에는 4가지가 있다

    • 현상파악 -> 기술통계, 시각화
      • 정의: 대상의 상태나 상황을 지속적으로 확인하여 예상치 못한 상황과 오류를 대비하고 극복
    • 인과관계 -> 회귀분석, 경로분석, 구조방정식
      • 정의: 원인과 결과를 찾기 위해 조건 간 차이를 찾는 것
    • 유사도분석 -> 상관분석, 군집 분석
      • 정의: 비슷한 부류끼리 묶어서 분석하는 기법, 클러스터링(Clustering)이라고도 부름
    • 예측*분류 -> 회귀 분석, 결정 트리, 서포트 벡터 머신(SVM)
      • 정의: 정통적인 통계에서 회귀분석이라 부르며, 일어나지 않은 미래에 대한 예측, 정해진 범주대로 구분하는 분류가 있음

     

    [적절한 분석방법 선택하기]

    쇼핑몰 상품 추천하기 - 유사도분석

    스팸메일 걸러내기 - 예측, 분류

    게임 해킹 유저 - 예측분류

    고객 segmentation - 유사도분석

    페이스북과 유튜브 중 광고효과 - 인과관계

    1년 후 오늘 s전자 주가 - 예측, 분류

    사람의 손글씨 인식하기 - 예측, 분류 & 유사도 분석

     

    데이터 시각화

    데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

    그래프, 차트, 인포그래픽 등 직관적인 방식으로 데이터를 표현.

    방대한 데이터에서 빠르게 특징적인 패턴이나 특이사항을 추출할 수 있게 함.

     

     

    통계학 용어

    용어 예시 비고
    모집단 타겟으로 하는 대한민국 국민 전체  
    표본   대한민국 국민 중 1000명  
    전수조사   모집단 전체를 조사하는 것  
    표본조사   표본만 조사하는 것  
    귀무가설 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설 교육 수준과 임금은 관련이 없다 P-Value >= 0.05일 경우 귀무가설 기각하지 않음
    (통계적으로 비유의적)
    대립가설 귀무 가설의 반대.
    연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용으로 연구가설이라고도 함.
    즉, 새로운 사실이나 현상에 대한 주장
    교육 수준과 임금은 관련이 있다. P-Value < 0.05일 경우 귀무가설 기각
    (통계적으로 유의적)
    P-value(유의확률) 귀무가설이 참일 때도 이를 기각할 확률 유의확률이 0.02라면 귀무가설을 기각했을 때 이 결정이 잘못될 확률이 2%라는 것  
    유의수준 귀무가설의 기각 여부를 결정하는데 사용하는 기준이 되는 확률
    즉, 제 1종 오류를 범할 확률의 허용 단계
    유의 수준이 0.02이고, 유의확률이 0.021이라면 귀무가설이 기각되지 않는다 (p-value <= 유의수준)일 때 귀무가설을 기각하고 연구가설 지지

    (p-value > 유의수준)일 때 귀무가설을 기각하지 못하고, 연구가설을 지지하지 못함.
    제 1종 오류 귀무가설이 옳음에도 불구하고 대립가설을 택하는 경우에 발생하는 오류    
    제 2종 오류 귀무가설이 거짓인데 기각하지 않을 때 발생하는 경우    
    상관계수 -1 ~ 1의 범위로 나타내고, 1에 가까울 수록 같은 추세, -1에 가까울수록 반대 추세   상관계수의 절대값이 높다고 두 요소 사이에 연관이 있는 것은 아님. 그냥 추세가 같은 것
    잔차(residual) 표본으로 추정한 회귀식과 실제 관측값의 차이    
    결정계수(R^2, Coefficient of Determination) [이해가 잘 되지 않는다. 이해시켜주실 분 구함]    
    F값(F ratio, F-statistic) [이 또한 잘 모르겠다]    
    변동계수(Coefficient of Variation, 변이계수) 표준편차를 평균으로 나눈 값.
    서로 다른 아이템의 편차를 비교할 때 어느 것이 더 평균에 가까이 집중되어 있는지 알 수 있음
       
    왜도 정규분포를 기준으로 데이터가 좌, 우 중 어느 방향으로 치우쳤는지 나타내는 지표.
    대칭을 이룰수록 0에 가깝고, 오른쪽으로 치우칠수록 음수, 왼쪽으로 치우칠수록 양수이다.
       
    첨도 정규분포를 기준으로 데이터가 얼마나 중앙값에 모여있는지 보여주는 지표.
    정규분포와 가까울수록 0, 분포의 중앙이 정규분포보다 높으면 양수, 낮으면 음수이다.
       

     

    출처: https://m.blog.naver.com/moses3650/221217938069

     

     

     

    Excel로 상관관계 찾기

    이 데이터를 기반으로 상관관계를 분석해봤다.

     

    회귀분석은 원인과 결과를 보는 건데 어떤 데이터를 먼저 분석할지 순서를 정할 때 상관분석을 통해 결정

    [상관분석 사진]

    상관계수가 높을수록 연관이 있을 확률이 높기 때문에 높은 순서대로 회귀분석을 통해 연관이 있는지 확인한다.

    절대 상관계수가 높다고, 연관이 있는 것은 아니다.

    회귀분석 조건

    1. 유의미한 F값 파악: 0.05 미만

    2. P-Value: 0.05 미만

    3. 결정계수(R): 0.6 이상

    4. 잔차분석: 다 더해서 0