Home 다시 시작하는 데이터 분석(feat.SQL, Python) [0]
Post
Cancel

다시 시작하는 데이터 분석(feat.SQL, Python) [0]

ABSTRACT.

먼저, 이전 환경에서는 아래와 같은 구성으로 분석환경을 구축해두었습니다.

flowchart LR;
    A[(Database)] --> B;
    B[data pipeline using python] --> C;
    C[Data Lake on S3];

주로 Python을 이용해 S3로 구축되어 있는 Data Lake 내 파일 단위로 접근해 로컬 환경에서 Python을 이용한 분석 작업이 이루어졌고, 이후 대시보드 등 각각 데이터 활용처에 필요한 형태로 가공하는 것도 Python을 사용해 이루어졌습니다.

그러다 보니, SQL과 점점 멀어지게 되었고 최근 구직활동을 진행하며 다시금 역량을 키워야겠다는 들어 이번 포스트를 통해 기존 작업 진행과 비교해보겠습니다. 또한 분석 프로젝트를 진행하며, 데이터 범위를 User들의 Action log로만 제한해 진행해보려고 합니다.

INTRODUCTION.

아래 데이터는 프로젝트 진행을 위해 임의로 만들어진 데이터입니다.

namedtypedescription
idINT 
user_idINTUser들의 구분자
opening_idINT신청 게시글의 구분자
action_typeSTRUser들의 행동 타입 (booking/selection/cancel 중 택1)
dateDATETIMEUser의 action log 생성일
1
2
3
4
5
{"id":0,"user_id":796,"opening_id":153,"action_type":"booking","date":"2017-01-01 02:26:08+00:00"}
{"id":1,"user_id":796,"opening_id":151,"action_type":"booking","date":"2017-01-01 02:26:35+00:00"}
{"id":2,"user_id":796,"opening_id":150,"action_type":"booking","date":"2017-01-01 02:26:53+00:00"}
{"id":3,"user_id":6308,"opening_id":151,"action_type":"booking","date":"2017-01-01 03:00:42+00:00"}
...

위 데이터는 2017년01월01일 이후부터 지금까지 약 136만 건을 가지고 있습니다. 또한 이 로그는 AS-IS의 환경과는 다소 차이가 있지만, 이번 프로젝트에서 그 부분에 대한 언급은 최소화해 진행하겠습니다.

MILE STONE

위 내용을 가지고 앞으로 아래와 같은 분석들을 진행해보려고 합니다.

gantt
    title Progress of Analysis
    dateFormat YYYY-MM-DD
    section EDA
        회원별 신청/선정 수 : a1, 2024-01-08, 2d
        기간별 추이 : after a1, 2d
    section Analysis
        최근 7일간 활성유저 집계 : b1, 2024-01-12, 7d
        코호트 : b2, after b1, 7d
        AARRR : b3, after b2, 7d
        기타 서비스 현황 파악용 지표 기획 : after b3, 14d
    section Visualization
        Looker & spreadsheet를 활용한 대시보드 : 2024-01-28, 21d

WRAP UP

위 데이터를 가지고, EDA부터 Cohort 및 활성유저 수 카운트 등의 분석과 시각화까지의 프로젝트를 AS-IS인 Python.ver와 TO-BE인 SQL.ver을 모두 진행해보며 비교하는 시리즈를 작성해보려고 합니다. 위 과정들의 내용은 홀로 스터디를 진행하며 작성된 것으로 분명 보안점이나 부족한 부분이 많을 것입니다. 다양한 분들께서 피드백과 배움을 공유해주실 수 있다면, 정말 좋을 것 같습니다.

This post is licensed under CC BY 4.0 by the author.