ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Machine Learning 실습 (7)
    Machine Learning 2022. 7. 13. 12:27

    4-6. 데이터 탐색

    - train 데이터를 기준으로 탐색 : 모델 학습에 도움이 되는 데이터이기때문

    - test를 탐색하는 것은 모델 일반화에 도움이 되지 않음

     

    4.6.1 범주형 데이터 시각화

    - Cabin 시각화

    # Cabin 컬럼과 생존/사망의 관계 확인해보기
    train_cabin = train[['Cabin', 'Survived', 'Name']].groupby(['Cabin', 'Survived']).count()
    train_cabin

     

    # sns 라이브러리로 시각화
    sns.countplot(data = train, x = 'Cabin', hue = 'Survived')

     

    4.6.2  Pclass 시각화

    - 승객 등급과 사망/생존의 관계 확인해보기

    sns.countplot(data = train, x = 'Pclass', hue = 'Survived')
    # 등급이 높을수록 생존율이 높음

     

    4.6.3  Cabin과 Pclass 시각화

    - M층에서 왜 사람이 많이 죽었는지 확인해보기

    - 등급과 연관이 있는 것인지 확인해보기

    sns.countplot(data = train, x = 'Cabin', hue = 'Pclass')
    # M층에서 사망율이 높은 이유는 승객의 등급이 3등급인 사람이 많이 있었을 뿐

     

    4.6.4 Sex, Embarked 시각화

    # 성별이 사망/생존과 얼마나 연관이 있는지 확인
    sns.countplot(data = train, x = 'Sex', hue = 'Survived')

     

    # 승선항이 사망/생존과 얼마나 연관이 있는지 확인
    sns.countplot(data = train, x = 'Embarked', hue = 'Survived')

    'Machine Learning' 카테고리의 다른 글

    머신러닝 이론(5)  (0) 2022.07.14
    Machine Learning 실습 (8)  (0) 2022.07.13
    Machine Learning 실습 (6)  (0) 2022.07.13
    Machine Learning 실습 (5)  (0) 2022.07.13
    Machine Learning 실습 (4)  (0) 2022.07.13

    댓글

Designed by Tistory.