Data Visualization

Data Visualization - 구글 플레이스토어 데이터 분석 및 시각화하기 Part2

electronicprogrammer 2020. 11. 5. 13:32

데이터 출처 : www.kaggle.com/lava18/google-play-store-apps

 

Google Play Store Apps

Web scraped data of 10k Play Store apps for analysing the Android market.

www.kaggle.com

 

github 주소 : github.com/sangHa0411/DataScience/blob/main/GooglePlayStore_Plotly.ipynb

 

sangHa0411/DataScience

Contribute to sangHa0411/DataScience development by creating an account on GitHub.

github.com

 

Part1 에서는 구글 플레이스토어 데이터를 가지고 각 종류에 대해서 평점 , 어플의 갯수 그리고 장르를 파악해서 원그래프 , 막대그래프 , 선그래프를 Plotly를 그려보았습니다.

 

이번 Part2에서는 GooglePlayStore의 리뷰와 평가 데이터를 이용해서 각 어플에 대한 평가를 시각화해보겠습니다.

데이터를 확인해본결과 각 어플에 대한 글로 쓴 리뷰와 어떻게 평가하는지에 대한 정보가 들어있습니다.

그리고 Pandas 데이터에 null 데이터가 있는지 확인해보고 null 데이터를 제거하겠습니다.

 

그리고 각 카테고리 별로 어떤 어플의 다운로드 수가 많은지 확인해보겠습니다.

Family 카테고리에는 Google Play Games 어플의 다운로드 수가 가장 많습니다. 그리고 Game 카테고리에는 Subway Surfers 어플이 다운로드 수가 가장 많은 것을 확인할 수 있습니다.

 

Tools 카테고리에는 Google 앱의 다운로드 수가 가장 많은 것을 확인할 수 있는데 해당 어플을 아래 데이터의 리뷰 및 평가 데이터를 찾아서 모은 다음에 wordcloud 및 평가 데이터를 원 그래프로 그려보겠습니다.

 

코드는 아래와 같습니다.

위 평가 및 리뷰 데이터에서 어플과 관련된 평가 및 리뷰 만을 추출하고 해당 리뷰를 모아서 wordcloud을 만듭니다. 그리고 평가 데이터의 항목에 따른 갯수를 파악해서 원 그래프를 그립니다.

 

10 Best Foods for You 어플의 wordcloud를 확인해본 결과 good , healthy information thank 등의 단어를 확인할 수 있습니다.

또한 긍정적인 평가가 전체의 83.5%를 차지한 것을 확인할 수 있었습니다.

 

이를 통해서 구글 플레이스토어 앱에 따라서 평가가 어떻게 되는지 그리고 리뷰가 주로 어떠한 내용이 이루는 지에 대해서 파악을 해볼수 있었습니다.