ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Machine Learning 실습 (9)
    Machine Learning 2022. 7. 14. 17:39

    4.6.6  특성공학 : 새로운 컬럼을 추가해보자

    - Parch, Sibsp 를 더하면 가족의 수가 됨 -> 가족의 수라는 새 컬럼을 추가

    - train에 추가하면 test도 동일하게 추가해야 함

    # train
    train['Family_Size'] = train['Parch'] + train['SibSp'] + 1
    # test
    test['Family_Size'] = test['Parch'] + test['SibSp'] + 1
    train.info()
    test.info()

     

    # 가족의 수와 생존/사망 여부 관계 확인
    sns.countplot(data = train, x = 'Family_Size', hue = 'Survived')

     

    # 1일때는 사망율이 높고, 2~4명일때는 생존율이 높고, 5~ 사망율이 높아짐
    # 사소한 관찰의 오류를 줄이기위해 범주의 크기를 줄여보자!

    - 가족의 수가 1이면 Alone, 2-4면 Small, 5-11 Large

    - train, test 동일하게 변경

     

    bins = [0,1,4,11]
    labels = ['Alone','Small','Large'] # 구간에 대한 이름
    train['Family_Size'] = pd.cut(train['Family_Size'], bins = bins, labels = labels)
    # test도 적용해보기
    test['Family_Size'] = pd.cut(test['Family_Size'], bins = bins, labels = labels)
    test.info()

     

    test['Family_Size']

     

    sns.countplot(data = train, x = 'Family_Size', hue = 'Survived')

    'Machine Learning' 카테고리의 다른 글

    Machine Learning 실습 (11)  (0) 2022.07.14
    Machine Learning 실습 (10)  (0) 2022.07.14
    머신러닝 이론(5)  (0) 2022.07.14
    Machine Learning 실습 (8)  (0) 2022.07.13
    Machine Learning 실습 (7)  (0) 2022.07.13

    댓글

Designed by Tistory.