ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Machine Learning 실습 (10)
    Machine Learning 2022. 7. 14. 17:43

    3.6.7  Text 데이터 다뤄보기

    - Name 컬럼 사용해보기 : 중간 호칭 추출

    # 1. 사용자 정의 함수 : 문자열 호칭 추출하는 기능을 만들어보자
    def split_title(s) :
        return s.split(',')[1].split('.')[0].strip()
    train['Title'] = train['Name'].apply(split_title)
    test['Title'] = test['Name'].apply(split_title)
    plt.figure(figsize=(15,5)) # x,y
    sns.countplot(data=train,x='Title',hue='Survived')

     

    train['Title'].unique().size

    17

     

    # 호칭의 개수 정리해보기
    title = ['Mr','Mrs','Miss','Master','Rev','Don','Dr', 'Mme', 'Ms',
           'Major', 'Lady', 'Sir', 'Mlle', 'Col', 'Capt', 'the Countess',
           'Jonkheer']
    len(title)
    # 변환될 호칭 정리
    cvt_title = ['Mr','Mrs','Miss','Master','Rev'] + ['Other']*12
    # zip 함수 - 같은 위치에 있는 요소끼리 묶음
    title_dict = dict(zip(title,cvt_title))
    train['Title']

     

    train['Title'].map(title_dict).unique()

     

    train['Title'] = train['Title'].map(title_dict)
    # test 데이터도 적용해야함
    test['Title'].unique().size

    9

     

    title_dict['Dona'] = 'Other'
    title_dict

     

    test['Title'] = test['Title'].map(title_dict)

    'Machine Learning' 카테고리의 다른 글

    Machine Learning 실습 (12)  (0) 2022.07.14
    Machine Learning 실습 (11)  (0) 2022.07.14
    Machine Learning 실습 (9)  (0) 2022.07.14
    머신러닝 이론(5)  (0) 2022.07.14
    Machine Learning 실습 (8)  (0) 2022.07.13

    댓글

Designed by Tistory.