-
Machine Learning 실습 (11)Machine Learning 2022. 7. 14. 17:48
4.6.8 불필요한 컬럼 삭제
train.columns # 'Name', 'Ticket' 삭제
# del # drop, inplace = True 실제 데이터 변수에 반영(초기화) train.drop(['Name','Ticket'],axis=1, inplace = True)
train.info()
test.drop(['Name','Ticket'],axis=1, inplace = True) test.info()
4.7 문제, 답으로 분리
train.head()
.
X_train = train.drop('Survived', axis = 1) # 훈련용 문제 -> fit 데이터에 맞춰서 학습할때 사용 y_train = train['Survived'] # 훈련용 답 -> fit 데이터에 맞춰서 학습할때 사용 X_test = test # 테스트용 문제 -> predict 예측할때 사용 print('훈련용 문제 : ', X_train.shape) print('훈련용 답 : ', y_train.shape) print('테스트용 문제 : ', X_test.shape)
4.7.1 특성 값 수치화: 인코딩
- 값이 크고 작음의 의미가 없을때 사용하는 인코딩 : 원핫인코딩(One-Hot-Encoding)
X_train.head()
# 범주형 데이터 선택하여 인코딩 적용 cat_feature = ['Sex','Embarked','Cabin','Family_Size','Title'] # pd.get_dummies(train['Sex'], prefix = 'Sex') # 원핫인코딩해주는 함수 for cat_name in cat_feature : dummy = pd.get_dummies(train[cat_name], prefix = cat_name) # 기존 X_train에 병합 X_train = pd.concat([X_train,dummy], axis = 1) # 기존의 컬럼은 삭제 X_train.drop(cat_name, axis = 1, inplace = True)
X_train.info()
'Machine Learning' 카테고리의 다른 글
Machine Learning 실습 (13) (0) 2022.07.15 Machine Learning 실습 (12) (0) 2022.07.14 Machine Learning 실습 (10) (0) 2022.07.14 Machine Learning 실습 (9) (0) 2022.07.14 머신러닝 이론(5) (0) 2022.07.14