-
Machine Learning 실습 (7)Machine Learning 2022. 7. 13. 12:27
4-6. 데이터 탐색
- train 데이터를 기준으로 탐색 : 모델 학습에 도움이 되는 데이터이기때문
- test를 탐색하는 것은 모델 일반화에 도움이 되지 않음
4.6.1 범주형 데이터 시각화
- Cabin 시각화
# Cabin 컬럼과 생존/사망의 관계 확인해보기 train_cabin = train[['Cabin', 'Survived', 'Name']].groupby(['Cabin', 'Survived']).count() train_cabin
# sns 라이브러리로 시각화 sns.countplot(data = train, x = 'Cabin', hue = 'Survived')
4.6.2 Pclass 시각화
- 승객 등급과 사망/생존의 관계 확인해보기
sns.countplot(data = train, x = 'Pclass', hue = 'Survived') # 등급이 높을수록 생존율이 높음
4.6.3 Cabin과 Pclass 시각화
- M층에서 왜 사람이 많이 죽었는지 확인해보기
- 등급과 연관이 있는 것인지 확인해보기
sns.countplot(data = train, x = 'Cabin', hue = 'Pclass') # M층에서 사망율이 높은 이유는 승객의 등급이 3등급인 사람이 많이 있었을 뿐
4.6.4 Sex, Embarked 시각화
# 성별이 사망/생존과 얼마나 연관이 있는지 확인 sns.countplot(data = train, x = 'Sex', hue = 'Survived')
# 승선항이 사망/생존과 얼마나 연관이 있는지 확인 sns.countplot(data = train, x = 'Embarked', hue = 'Survived')
'Machine Learning' 카테고리의 다른 글
머신러닝 이론(5) (0) 2022.07.14 Machine Learning 실습 (8) (0) 2022.07.13 Machine Learning 실습 (6) (0) 2022.07.13 Machine Learning 실습 (5) (0) 2022.07.13 Machine Learning 실습 (4) (0) 2022.07.13