데이터 출처 : www.kaggle.com/lodetomasi1995/income-classification
Income classification
Prediction task is to determine whether a person makes over 50K a year.
www.kaggle.com
Ipynb File : github.com/sangHa0411/DataScience/blob/main/Income_Prediction_Part2.ipynb
sangHa0411/DataScience
Contribute to sangHa0411/DataScience development by creating an account on GitHub.
github.com
Part2 에서는 Logistic Regression 에 대해서 알아보고 이를 구현해보았습니다.
Part3 에서는 Scikit - Learn에 있는 Logistic Regression 함수를 이용해보는 방법을 살펴보겠습니다.
Part1 에서 데이터 분석을 마치고
Part2에서 특성 선택 및 데이터 전처리를 마쳤습니다.
이제 이를 Scikit learn 의 LogisticRegression 을이용해서 학습 및 예측할 것입니다.
먼저 훈련 데이터로 Logistic Regression 을 학습시킬 것입니다.
그리고 이를 이용해서 테스트 데이터를 예측하고 이를 정답과 비교해서 성능을 측정해보겠습니다.
성능 측정해본 결과 실제 Income 이 50k가 넘는 경우 이를 예측에 성공하는 확률은 대략 46%이지만 Income이 50k가 안되는데 50k가 넘는다고 예측한는 경우는 5%정도로 낮은 것을 확인할 수 있습니다.
전체적인 정확도는 대략 83% 인 것을 확인할 수 있습니다.
'Machine Learning' 카테고리의 다른 글
Machine Learning - Random Forest 집값 예측하기 Part1 (0) | 2020.10.06 |
---|---|
Machine Learning - SVM 마스크 착용 여부 검사하기 (0) | 2020.10.06 |
Machine Learning - Logistic Regression 연봉 예측하기 Part2 (0) | 2020.10.05 |
Machine Learning - Logistic Regression 연봉 예측하기 Part1 (0) | 2020.10.05 |
MachineLearning - Decision Tree 타이타닉 생존자 예측하기 Part3 (0) | 2020.10.05 |