[열정페이 - SQL] 썸네일형 리스트형 [열정페이 - SQL] 5장 텍스트 분석 정리 - 텍스트 분석이란?텍스트 데이터에서 의미와 인사이트를 도출하는 과정 정성적 분석(원문 분석) : 별도의 지식을 기반으로 텍스트에 내재된 의미를 탐색한다. 주로 저널리스트나 역사학자, 사용자 경험 연구자들이 많이 사용한다. 정량적 분석 : 카테고리화, 단어 출연 횟수, 빈도 같은 숫자 형태로 나타남 텍스트 분석은 다양한 도구를 사용할 수 있는데데이터가 데이터베이스 저장되어있거나 데이터가 큰 경우에는 SQL로 하는 것이 적절하다.다른 경우는 파이썬 같은 도구를 사용하는 것이 좋다. 데이터 셋: UFO 목격보고- 데이터 프로파일링UFO 목격 보고 데이터 셋을 사용한다. 칼럼은 sighting_report와 description 두개로 이루어져 있는 95,463개의 데이터이다.sighting_report .. 더보기 [열정페이 - SQL] LTV 분석 LTV 분석이란?LTV(Lifetime Value) Lifetime은 고객이 서비스를 사용하는 기간이다.그러니까 Lifetime Value란, 고객이 서비스를 사용하기 시작해서 이탈하기까지 기간 동안 서비스에 얼마의 수익(Value)를 가져다주었느냐를 의미한다. 4장에서 배운 코호트- 리텐션 분석을 이용해서 실습으로 LTV 분석을 해볼 것이다. 실습데이터 두가지 데이터 테이블이 존재한다하나는 first_ord_table_ltv3가지 칼럼이 존재하며 각 회원번호별로 처음 구매한 날짜와 고객의 연령대가 기록되어있다.총 500명의 고객의 데이터가 존재한다.데이터의 특징으로는 모든 첫주문이 1월달에 존재한다는 점, 각 연령대별로 100명의 고객이 존재한다는 점이다. 다음 테이블은 order_master_ltv .. 더보기 [열정페이 - SQL] RMF 분석 실습 RMF 분석이란?Recency : 얼마나 최근에 구매했는가 Frequency : 얼마나 자주 구매했는가 Monetary : 얼마나 많은 금액을 지출했는가 이 세가지를 이용해 사용자들의 분포를 확인하거나 사용자 그룹(또는 등급)을 나누어 분류하는 분석 기법이다.기업입장에서는 최근에 자주 그리고 많이 구매한 고객들을 충성고객으로 인식할 것이다.하지만 모든 고객들이 충성고객은 아니다. 고객 A : 최근에 접속했지만 구매는 많이 없는 고객고객 B : 과거에 구매를 자주 많이 한 고객고객 C : 충성고객 이런식으로 여러가지 고객 세그먼트가 존재할 수 있고 이에 맞는 마케팅 전략을 수립할 수 있다.예를들어 충성고객을 유지하고 싶은 기업이라면 고객C에서 감사쿠폰을 발급해주고, 신규 고객의 유입을 바라는 기업이라면 .. 더보기 [열정페이 - SQL] 4장 코호트 분석 정리(생존자 분석, 리턴십 분석) - 생존자 분석이란?고객 이탈이나 탈퇴 같은 특정 이벤트가 발생하기전까지의 기간 등을 파악하는 데 활용한다.개체가 일정 시간 뒤에 남아있을 비율을 예측하거나, 생존 분석에 코호트를 이용해 생존 비율을 증가시키거나 감소하는 특성 및 환경 등을 찾아내기도 한다. 리텐션 분석과 비슷하지만 생존 분석에서는 해당 구간 및 그 이후 구간 내 지속적인 개체 존재 여부가 중요하다. - 생존자 분석 실습1. 구간 설정select id_bioguide,date_part('century',min(term_start)) as first_century,min(term_start) as first_term,max(term_start) as last_term,date_part('year',age(max(term_start),mi.. 더보기 [열정페이 - SQL] 4장 코호트 분석 정리(리텐션 분석) 코호트 분석이란?코호트(cohort) : 시작하는 시간 기준으로 동일한 특징을 지닌 집단(사람, 회사 등등) 코호트라는 단어는 코로나가 유행할때 코호트 격리 때문에 어느정도 익숙한 단어이다. 코호트 분석: 특정 행동(구매, 회원가입, 사이트 방문 등)에 기반해 그룹을 나누고 그 행동의 변화를 분석.코호트 격리: 특정 상황(감염, 질병 노출 등)에 기반해 그룹을 나누고 그 집단의 상태 변화를 추적.둘 다 특정 시점을 기준으로 비슷한 집단을 묶어 변화를 파악한다는 점이 비슷하다. 코호트에서 각 개인은 스스로가 속한 집단이 무엇인지 인지하고 있을 수도 있고 모르는 상태에서 분석하기도 한다. 코호트 분석의 목적은?집단별 행동 패턴이 어떻게 변화하는지 비교.Ex) 광고로 유입된 고객과 지인 추천으로 유입된 .. 더보기 [열정페이 - SQL] 3장 시계열 분석 실습 https://github.com/sql-for-data-analysis-kr/book GitHub - sql-for-data-analysis-kr/bookContribute to sql-for-data-analysis-kr/book development by creating an account on GitHub.github.com여기에 있는 소매업 매출 데이터 셋을 가지고 실습을 진행 원래는 csv 파일 다운받고 테이블 생성 코드 실행해서 테이블 생성해야하는데 버전이 안맞는건지 실행이 안됨 그래서이런식으로 Schemas > public > table에서 직접 테이블을 만들고 데이터 임폴트를 하였다. 처음에 이 방식을 찾기까지 오랜시간이 걸렸지만 앞으로 실습 데이터 셋은 이렇게 생성하지 않을까 싶다... 더보기 [열정페이 - SQL] 3장 시계열 분석 기초 정리 2024.10.2열정페이 SQL 데이터 분석 3주차 기초 정리입니다.데이터를 이용한 실습은 따로 올릴 예정 시계열 분석이란?시간 순으로 재정렬된 데이터의 배열을 의미하며 일정한 시간 간격을 두고 저장한다.시간에 따른 데이터 변화를 이해하고 정량화 하는 것이 목적 날짜 및 타임스탬프 형식 변환날짜 및 시간 데이터는 시계열 분석에 중요한 요소이다. 시계열 분석에서 날짜 형식 변환은 피할 수 없는 숙명이다. 현재 날짜나 시간을 가져오는 방법SELECT current_date;SELECT current_timestamp;SELECT now();서버의 시스템 기준으로 결정되며 current_date는 시간은 반환하지 않는다. 날짜 또는 타임스탬프 값을 그대로 사용하기보다는 특정 단위 값만 추출해 사용할 수 .. 더보기 이전 1 다음