ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Machine Learning 실습 (11)
    Machine Learning 2022. 7. 14. 17:48

    4.6.8  불필요한 컬럼 삭제

    train.columns
    # 'Name', 'Ticket' 삭제

     

    # del
    # drop, inplace = True 실제 데이터 변수에 반영(초기화)
    train.drop(['Name','Ticket'],axis=1, inplace = True)
    train.info()

     

    test.drop(['Name','Ticket'],axis=1, inplace = True)
    test.info()

    4.7 문제, 답으로 분리

    train.head()

    .

    X_train = train.drop('Survived', axis = 1) # 훈련용 문제 -> fit 데이터에 맞춰서 학습할때 사용
    y_train = train['Survived'] # 훈련용 답 -> fit 데이터에 맞춰서 학습할때 사용
    X_test = test # 테스트용 문제 -> predict 예측할때 사용
    
    print('훈련용 문제 : ', X_train.shape)
    print('훈련용 답 : ', y_train.shape)
    print('테스트용 문제 : ', X_test.shape)

     

    4.7.1 특성 값 수치화: 인코딩

    - 값이 크고 작음의 의미가 없을때 사용하는 인코딩 : 원핫인코딩(One-Hot-Encoding)

    X_train.head()

     

    # 범주형 데이터 선택하여 인코딩 적용
    cat_feature = ['Sex','Embarked','Cabin','Family_Size','Title']
    # pd.get_dummies(train['Sex'], prefix = 'Sex') # 원핫인코딩해주는 함수
    for cat_name in cat_feature :
        dummy = pd.get_dummies(train[cat_name], prefix = cat_name)
        # 기존 X_train에 병합
        X_train = pd.concat([X_train,dummy], axis = 1)
        #  기존의 컬럼은 삭제
        X_train.drop(cat_name, axis = 1, inplace = True)
    X_train.info()

    'Machine Learning' 카테고리의 다른 글

    Machine Learning 실습 (13)  (0) 2022.07.15
    Machine Learning 실습 (12)  (0) 2022.07.14
    Machine Learning 실습 (10)  (0) 2022.07.14
    Machine Learning 실습 (9)  (0) 2022.07.14
    머신러닝 이론(5)  (0) 2022.07.14

    댓글

Designed by Tistory.