Category 74

Python - Seaborn 을 이용한 Boxplot , Violinplot 그리기

이번 포스팅에서는 .csv 파일을 Pandas를 이용해서 불러온 데이터에 대해서 Boxplot , ViolinPlot을 그리는 방법에 대해서 정리하도록 하겠습니다. 먼저 데이터를 불러오겠습니다. 먼저 Seaborn을 이용하기 이전에 matplotlib을 이용해서 seaborn을 그려보도록 하겠습니다. 데이터의 시각화는 성별에 따라서 보험비용의 청구 비용을 비교하기 위한 것으로 정해보겠습니다. 따라서 먼저 성별별로 데이터를 분류해보겠습니다. male_Flag = [sex == 'male' for sex in insurance['sex']] male_DF = insurance.loc[insurance[male_Flag].index] male_DF = male_DF.reset_index(drop=True) f..

Python 2020.11.01

Python - 상관행렬을 이용한 각 속성간의 연관성 파악하기

이번 포스팅에서는 Pandas를 이용해서 불러온 데이터프레임에서 각 속성간의 관계를 파악하기 위해서 상관행렬을 구하고 이를 이용해보는 과정을 정리해보겠습니다. 상관행렬에 대한 이론을 간단하게 정리하자면 아래와 같습니다. 먼저 각 속성에 대한 분산과 속성들간의 공분산을 구해서 분산 - 공분산 행렬을 만듭니다. 근데 여기서 공분산 값을 최솟값 = -1 , 최댓값 = 1 로 만듬으로써 표준화하는 것이 상관행렬이고 이를 이용하는 것이 피어슨 상관계수입니다. 이제 이를 파이썬을 이용해 구현해보겠습니다. 먼저 Pandas를 이용해서 데이터를 불러오고 데이터 구조를 확인해보겠습니다. 이제 이 데이터를 기반으로 상관행렬을 구해보겠습니다. corr_Info = insurance.corr() df.corr() 함수를 이용..

Python 2020.11.01

Python - Opencv 를 이용한 얼굴 검출하기

얼굴 검출은 원래 대표적인 머신러닝분야의 adaboost 알고리즘으로 유명합니다. Opencv에는 이러한 얼굴검출 함수가 주어져있기 때문에 저희가 구현할 필요없이 바로바로 사용할 수 있습니다. 이번 포스팅에서는 그 사용방법에 대해서 정리하고자 합니다. 먼저 얼굴이 있는 사진을 하나를 가져오겠습니다. 먼저 얼굴 검출을 하기 위해서는 기존 이미지를 흑백으로 변경해주어야 합니다. 아래 코드에서 확인 하실 수 있다시피 저희는 cv2.cvtColor() 함수를 이용해서 기존의 사진(BGR)을 GRAY로 변경을 해주었습니다. def getImageData(path) : orgImage_File = [] grayImage_File = [] for i in range(220) : image_Path = basic_Pa..

Python 2020.11.01

Python - 데이터프레임에서 바로 그래프 그리기

이번 포스팅에서는 .csv 파일을 Pandas로 불러와서 만든 데이터프레임에서 간단하게 그래프를 Pie Chart(원 그래프) , Bar Chart (막대 그래프) 를 그리는 방법에 대해서 정리해보겠습니다. 먼저 데이터를 pandas를 이용해서 불러오겠습니다. 그 다음 데이터 구조를 한 번 확인해보겠습니다. 여기서 저희는 이산적인 속성인 sex 속성에 대해서 데이터를 시각화해보고자 합니다. 먼저 value_counts() 함수를 이용해서 각 속성의 갯수를 파악할 수 있습니다. 이를 이용해서 각 속성과 해당 속성의 대한 갯수를 값으로 해서 그래프를 그릴 수 있습니다. plt.figure(figsize=(12,5)) plt.title('Data Sex Rate' , fontsize=20) plt.ylabel..

Python 2020.11.01

Statistics - Scipy를 이용한 통계적 가설 검정하기

데이터 출처 : www.kaggle.com/mustafaali96/weight-height weight-height.csv weights and heights. www.kaggle.com github 주소 : github.com/sangHa0411/DataScience/blob/main/Statistics_Part2.ipynb sangHa0411/DataScience Contribute to sangHa0411/DataScience development by creating an account on GitHub. github.com 이번 포스팅을 통해서는 기초 통계학에서 배우는 가설 검정에 대해서 Python의 Scipy 라이브러리를 이용해서 구현해보고 가설검정의 과정과 원리에 대해서 이해해보도록 하겠습..

Statistics 2020.11.01

DataVisualization - Seaborn 을 이용해서 스타벅스 설문조사 데이터 시각화하기

데이터 출처 : www.kaggle.com/mahirahmzh/starbucks-customer-retention-malaysia-survey Starbucks Customer Survey Survey from Malaysia on Starbucks Customer Behaviour www.kaggle.com github 주소 : github.com/sangHa0411/DataScience/blob/main/Starbucks_Survey.ipynb sangHa0411/DataScience Contribute to sangHa0411/DataScience development by creating an account on GitHub. github.com 참고자료 : towardsdatascience.co..

Data Visualization 2020.10.26

Statistics - Scipy 을 이용해서 표본 통계량 활용해 모수 추정하기

데이터 출처 : www.kaggle.com/mustafaali96/weight-height weight-height.csv weights and heights. www.kaggle.com github 주소 : github.com/sangHa0411/DataScience/blob/main/Statistics_Part1.ipynb sangHa0411/DataScience Contribute to sangHa0411/DataScience development by creating an account on GitHub. github.com 저번 포스팅에서는 Scipy 라이브러리를 이용해서 모집단 및 표본에서 통계량을 구해보았습니다. 이제는 이를 활용하여서 표본과 확률 및 통계 이론을 활용해서 모집단의 모수 (평..

Statistics 2020.10.26

Statistics - Scipy를 이용한 통계량 구하기

데이터 출처 : www.kaggle.com/mustafaali96/weight-height weight-height.csv weights and heights. www.kaggle.com github 주소 : github.com/sangHa0411/DataScience/blob/main/Statistics_Part1.ipynb sangHa0411/DataScience Contribute to sangHa0411/DataScience development by creating an account on GitHub. github.com 이번 포스팅에서는 Python의 Scipy 라이브러리를 이용해서 모집단 및 표본에서의 통계량을 구하는 방법 및 모집단 및 표본의 통계량의 관계에 대해서 정리해보고자 합니다. ..

Statistics 2020.10.26

Data Visualization - GeoPandas 이용해서 샌프란시스코 범죄 데이터 시각화하기 Part2

데이터 출처 : www.kaggle.com/roshansharma/sanfranciso-crime-dataset Sanfranciso Crime Dataset Analyzing Crime in San Francisco www.kaggle.com github 주소 : github.com/sangHa0411/DataScience/blob/main/Crime%20Analysis%20Part2.ipynb sangHa0411/DataScience Contribute to sangHa0411/DataScience development by creating an account on GitHub. github.com Part1 에서는 위 샌프란시스코 범죄 데이터에서 위치 정보를 제외한 속성에 대해서 분석을 하였습니다...

Data Visualization 2020.10.20

Data Visualization - 샌프란시스코 범죄 데이터 시각화하기 Part1

데이터 출처 : www.kaggle.com/roshansharma/sanfranciso-crime-dataset Sanfranciso Crime Dataset Analyzing Crime in San Francisco www.kaggle.com github 주소 : github.com/sangHa0411/DataScience/blob/main/Crime%20Analysis%20Part1.ipynb sangHa0411/DataScience Contribute to sangHa0411/DataScience development by creating an account on GitHub. github.com 이번 포스팅에서는 위 데이터인 Sanfranciso 범죄 데이터에 대해서 분석을 해보고 시각화 해보도록..

Data Visualization 2020.10.20