ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Machine Learning 실습 (5)
    Machine Learning 2022. 7. 13. 11:01

    4-3. test-Fare 결측치처리(채우기)

    # Fare 컬럼과 상관관계가 높은 컬럼을 기준으로 데이터를 살펴보기
    # 그 컬럼에 관계해서 기술통계량 확인
    # 평균값 확인
    # 상관관계 확인하는 함수 : corr()
    # 상관계수 출력
    # -1 ~ 1 : -1, 1 상관관계가 높음 / 0 상관관계가 낮음
    train.corr()['Fare'].abs().sort_values(ascending = False)
    # Pclass가 Fare 컬럼이랑 가장 상관관계가 높음

     

    # Pclass, Fare 컬럼만 train에서 인덱싱해보기
    train[['Pclass','Fare']].groupby('Pclass').mean()

     

    # 성별 컬럼까지 연관해서 요금 평균 확인해보기
    train[['Pclass','Fare','Sex']].groupby(['Pclass','Sex']).mean()

     

    # test - Fare 결측치 있는 행 확인하기
    test[test['Fare'].isnull()]
    # 값 채워보기
    # 12.661633
    test['Fare'] = test['Fare'].fillna(12.661633)
    test[test['Fare'].isnull()]

     

    test.info()

     

    4-4. Age 결측치 처리(채우기)

    - 다른 컬럼과의 상관관계를 확인 후 결측치를 채워보자

    - corr() 함수를 이용해보자

    # train 기준으로 살펴보기
    train.corr()['Age'].abs().sort_values(ascending=False)
    # Pclass 컬럼이 상관관계가 가장 높음 -> 등급으로 그룹화하여 나이의 평균값 확인
    gb1 = train[['Pclass','Age','Sex']].groupby(['Pclass','Sex']).mean()
    gb1

     

    # 멀티 인덱스 인덱싱
    gb1.loc[(3,'female')]

     

    # 1등급이고 남성인 데이터 접근해보기
    gb1.loc[(1,'male')]

     

    # train - Age 컬럼 결측치 행 모두 확인하기
    train[train['Age'].isnull()]

    'Machine Learning' 카테고리의 다른 글

    Machine Learning 실습 (7)  (0) 2022.07.13
    Machine Learning 실습 (6)  (0) 2022.07.13
    Machine Learning 실습 (4)  (0) 2022.07.13
    Machine Learning 실습 (3)  (0) 2022.07.12
    Machine Learning 실습 (2)  (0) 2022.07.12

    댓글

Designed by Tistory.