A. 데이터 변수의 이름, 설명 확인하기
- Spotify 사용자 행동 데이터 세트
- 고객 개인정보, 사용장치, 행동에 대한 데이터 존재
- 각 컬럼별 이름 설명
번호 | 컬럼명 | 설명 |
1 | Age | 사용자의 연령층은 어떻게 되는가 |
2 | Gender | 사용자의 성별은 어떻게 되는가 |
3 | spotify_usage_period | Spotify를 사용한 지 얼마나 되는가 |
4 | spotify_listening_device | Spotify를 청취할 때 주로 사용하는 장치는 무엇인가 |
5 | spotify_subscription_plan | 현재 어떤 Spotify 구독 계획을 갖고 있는가 |
6 | premium_sub_willingness | 프리미엄 구독을 하겠는가 혹은 앞으로도 프리미엄 구독을 계속할 의향이 있는가 |
7 | prefered_premium_plan | 프리미엄이거나 프리미엄을 구독할 의향이 있는 경우 구독료를 얼마를 지불하겠는가 |
8 | preferred_listening_content | 무엇을 더 듣고 싶은가 |
9 | fav_music_genre | 어떤 장르의 음악을 가장 좋아하는가 |
10 | music_time_slot | 가장 좋아하는 음악 감상 시간은 언제인가 |
11 | music_Influencial_mood | 음악을 들을 때 다음 중 어떤 기분이나 상황이 음악 선택에 가장 큰 영향을 미치는가 |
12 | music_lis_frequency | 언제 음악을 더 자주 듣는가 |
13 | music_expl_method | Spotify에서 새로운 음악을 어떤 방법으로 접하는가 |
14 | music_recc_rating | Spotify 음악 추천은 몇 점인가 |
15 | pod_lis_frequency | 팟캐스트를 얼마나 자주 듣는가 |
16 | fav_pod_genre | 팟캐스트 중 어떤 장르를 가장 좋아하는가 |
17 | preffered_pod_format | 일반적으로 선호하는 팟캐스트 형식은 무엇인가 |
18 | pod_host_preference | 무명인이 호스팅하는 팟캐스트 혹은 유명인이 호스팅하는 팟캐스트를 선호하는가 |
19 | prefered_pod_duration | 짧은 팟캐스트 에피소드(30분 미만) 또는 긴 에피소드(30분 이상)를 선호하는가 |
20 | pod_variety_satisfaction | Spotify의 팟캐스트의 다양성과 가용성에 만족하는가 |
B. Spotify 데이터 구성 확인
df.info()
df.isnull().sum()
![]() |
![]() |
- value_counts() 함수를 사용하면 아래와 같이 모든 정보가 뜨지만 티스토리에서 보기 어려움으로 한 행만 불러오기로 한다.
df.value_counts()
- 50번째 행의 데이터를 보면 다음과 같다.
df.iloc[50, :]
- 'preffered_premium_plan', 'fav_pod_genre', 'preffered_pod_format' , 'pod_host_preference', 'preffered_pod_duration' 은 null 값을 포함하고 있다.
- podcast 의 경우 결측치가 많고, 이를 대신할 수 있는 데이터가 없으므로 관련 열은 제외하고 데이터 분석에 임한다.
- 'prefferd_premium_plan'의 null값은 어떤 값을 의미하는지 아직 알 수 없으므로 문자 'NA'로 대체하는 방법을 고려한다.
df.describe()
- 위와 같이 'music_recc_rating' 음악 추천과 관련된 점수의 기초통계를 확인할 수 있다.
- describe() 의 경우, 수치형 데이터를 기반으로 기초 통계를 출력한다.
- 다만 info()에서 확인하였듯 수치형 데이터는 음악 추천 점수열 밖에 없다.
df.describe(include=object)
- object type의 기초 통계도 출력하면 아래와 같다.
- 열이 너무 많아 분할하여 올린다.
- 기초 통계에서 알 수 있는 사항은 다음과 같다.
- 20-35세의 응답자가 422명으로 가장 많으며, Spotify의 주요 소비층이다.
- 음악 스트리밍 서비스가 젊은 세대에게 특히 인기가 있음을 나타낸다.
- 그 중 여성 소비자가 391명으로 전체의 75%를 차지하고 있다.
- 2년 이상 사용한 응답자가 169명으로, 오랜 기간 동안 서비스를 이용하고 있는 사람이 32.5%이다.
- 스마트폰을 사용하는 응답자가 300명으로, 해당 기기가 음악 소비의 주요 플랫폼임을 알 수 있다.
- 무료(광고지원) 구독을 사용하는 응답자가 424명으로, 유료 구독자가 상대적으로 적다.
- 여기서 이끌어낼 수 있는 인사이트는 아래와 같다.
- 젊은 소비자들은 최신음악과 트랜드에 민감하게 반응하며, 디지털 플랫폼을 적극적으로 활용하기에 이들의 선호도를 충족시키는 것이 중요하다.
- 여성 소비자가 선호하는 콘텐츠나 특정 장르에 맞춘 마케팅 전략이 필요하다.
- 사용자의 충성도 및 서비스에 대한 만족도가 높으므로 장기적인 사용자 확보를 위해 지속적인 서비스 개선과 사용자 경험 향상이 중요하다.
- 모바일 중심의 서비스 제공이 필수적이다.
- 약 82%에 달하는 사용자가 무료 서비스를 선호하기에 유료 구독으로의 전환을 유도하기 위해서는 추가적인 가치 제안을 고려해야 한다.
'Project' 카테고리의 다른 글
[3차 프로젝트] 회귀 예측을 활용한 최적 승객 탑승 위치 추천 (1) | 2024.09.20 |
---|---|
[2차 프로젝트] 전자상거래 데이터분석 및 마케팅 전략 제시 (0) | 2024.09.09 |
[1차 프로젝트] 데이터 시각화 및 인사이트 도출 (4) | 2024.08.12 |
[1차 프로젝트] 데이터 전처리 (0) | 2024.07.31 |
[1차 프로젝트] 프로젝트 계획서 (0) | 2024.07.30 |