-
Machine Learning 실습 (10)Machine Learning 2022. 7. 14. 17:43
3.6.7 Text 데이터 다뤄보기
- Name 컬럼 사용해보기 : 중간 호칭 추출
# 1. 사용자 정의 함수 : 문자열 호칭 추출하는 기능을 만들어보자 def split_title(s) : return s.split(',')[1].split('.')[0].strip()
train['Title'] = train['Name'].apply(split_title) test['Title'] = test['Name'].apply(split_title)
plt.figure(figsize=(15,5)) # x,y sns.countplot(data=train,x='Title',hue='Survived')
train['Title'].unique().size
17
# 호칭의 개수 정리해보기 title = ['Mr','Mrs','Miss','Master','Rev','Don','Dr', 'Mme', 'Ms', 'Major', 'Lady', 'Sir', 'Mlle', 'Col', 'Capt', 'the Countess', 'Jonkheer'] len(title) # 변환될 호칭 정리 cvt_title = ['Mr','Mrs','Miss','Master','Rev'] + ['Other']*12 # zip 함수 - 같은 위치에 있는 요소끼리 묶음 title_dict = dict(zip(title,cvt_title))
train['Title']
train['Title'].map(title_dict).unique()
train['Title'] = train['Title'].map(title_dict)
# test 데이터도 적용해야함 test['Title'].unique().size
9
title_dict['Dona'] = 'Other' title_dict
test['Title'] = test['Title'].map(title_dict)
'Machine Learning' 카테고리의 다른 글
Machine Learning 실습 (12) (0) 2022.07.14 Machine Learning 실습 (11) (0) 2022.07.14 Machine Learning 실습 (9) (0) 2022.07.14 머신러닝 이론(5) (0) 2022.07.14 Machine Learning 실습 (8) (0) 2022.07.13