-
Machine Learning 실습 (5)Machine Learning 2022. 7. 13. 11:01
4-3. test-Fare 결측치처리(채우기)
# Fare 컬럼과 상관관계가 높은 컬럼을 기준으로 데이터를 살펴보기 # 그 컬럼에 관계해서 기술통계량 확인 # 평균값 확인
# 상관관계 확인하는 함수 : corr() # 상관계수 출력 # -1 ~ 1 : -1, 1 상관관계가 높음 / 0 상관관계가 낮음 train.corr()['Fare'].abs().sort_values(ascending = False) # Pclass가 Fare 컬럼이랑 가장 상관관계가 높음
# Pclass, Fare 컬럼만 train에서 인덱싱해보기 train[['Pclass','Fare']].groupby('Pclass').mean()
# 성별 컬럼까지 연관해서 요금 평균 확인해보기 train[['Pclass','Fare','Sex']].groupby(['Pclass','Sex']).mean()
# test - Fare 결측치 있는 행 확인하기 test[test['Fare'].isnull()] # 값 채워보기 # 12.661633 test['Fare'] = test['Fare'].fillna(12.661633)
test[test['Fare'].isnull()]
test.info()
4-4. Age 결측치 처리(채우기)
- 다른 컬럼과의 상관관계를 확인 후 결측치를 채워보자
- corr() 함수를 이용해보자
# train 기준으로 살펴보기 train.corr()['Age'].abs().sort_values(ascending=False) # Pclass 컬럼이 상관관계가 가장 높음 -> 등급으로 그룹화하여 나이의 평균값 확인 gb1 = train[['Pclass','Age','Sex']].groupby(['Pclass','Sex']).mean()
gb1
# 멀티 인덱스 인덱싱 gb1.loc[(3,'female')]
# 1등급이고 남성인 데이터 접근해보기 gb1.loc[(1,'male')]
# train - Age 컬럼 결측치 행 모두 확인하기 train[train['Age'].isnull()]
'Machine Learning' 카테고리의 다른 글
Machine Learning 실습 (7) (0) 2022.07.13 Machine Learning 실습 (6) (0) 2022.07.13 Machine Learning 실습 (4) (0) 2022.07.13 Machine Learning 실습 (3) (0) 2022.07.12 Machine Learning 실습 (2) (0) 2022.07.12