-
Machine Learning 실습 (9)Machine Learning 2022. 7. 14. 17:39
4.6.6 특성공학 : 새로운 컬럼을 추가해보자
- Parch, Sibsp 를 더하면 가족의 수가 됨 -> 가족의 수라는 새 컬럼을 추가
- train에 추가하면 test도 동일하게 추가해야 함
# train train['Family_Size'] = train['Parch'] + train['SibSp'] + 1 # test test['Family_Size'] = test['Parch'] + test['SibSp'] + 1 train.info() test.info()
# 가족의 수와 생존/사망 여부 관계 확인 sns.countplot(data = train, x = 'Family_Size', hue = 'Survived')
# 1일때는 사망율이 높고, 2~4명일때는 생존율이 높고, 5~ 사망율이 높아짐 # 사소한 관찰의 오류를 줄이기위해 범주의 크기를 줄여보자!
- 가족의 수가 1이면 Alone, 2-4면 Small, 5-11 Large
- train, test 동일하게 변경
bins = [0,1,4,11] labels = ['Alone','Small','Large'] # 구간에 대한 이름 train['Family_Size'] = pd.cut(train['Family_Size'], bins = bins, labels = labels)
# test도 적용해보기 test['Family_Size'] = pd.cut(test['Family_Size'], bins = bins, labels = labels) test.info()
test['Family_Size']
sns.countplot(data = train, x = 'Family_Size', hue = 'Survived')
'Machine Learning' 카테고리의 다른 글
Machine Learning 실습 (11) (0) 2022.07.14 Machine Learning 실습 (10) (0) 2022.07.14 머신러닝 이론(5) (0) 2022.07.14 Machine Learning 실습 (8) (0) 2022.07.13 Machine Learning 실습 (7) (0) 2022.07.13