-
머신러닝 이론 (4)Machine Learning 2022. 7. 6. 16:05
머신러닝(Machine Learning) 학습 과정
1. Problem Identification(문제정의)
- 비즈니스 목적 정의
: 모델을 어떻게 사용해 이익을 얻을까?
- 현재 솔루션의 구성 파악
- 지도 vs 비지도 vs 강화
- 분류 vs 회귀
2. Data Collect(데이터 수집)
- File (CSV, XML, JSON)
- Database
- Web Crawler (뉴스, SNS, 블로그)
- IoT 센서를 통한 수집
- Survey
3. Data Preprocessing(데이터 전처리)
- 결측치 처리 (삭제 or 대체 (중간, 평균, 예측값 등))
- 이상치(outlier) 처리 (삭제 or 대체 (중간, 평균, 예측값, 범주화 등))
- Cleaning (오류 수정)
- Feature Engineering (특성공학)
Scaling (단위 변환)
Transform (새로운 속성 추출)
Encoding (범주형 -> 수치형)
Binning (수치형 -> 범주형)
Normalization (정규분포화)
범주형 데이터 통합
4. EDA (탐색적 데이터분석)
- 기술통계, 변수간 상관관계
- 시각화
pandas, matplotlib, seaborn
- Feature Selection (사용할 특성 선택)
- 단변수 시각화 : Histogram(빈도수), Boxplot(평균, 중간값 등)
- 이변수 시각화 : Scatter plot (수치, 상관관계), 누적막대그래프 ( 범주, 독립성 분석), 범주별 Histogram
- 다변수 시각화 : Violin plot, 3차원 그래프 등
5. Model 선택, Hyper Parameter 조정
- 목적에 맞는 적절한 모델 선택
- KNN, SVM, Linear Regression, Ridge, Lasso, Decision Tree, Random forest, CNN, RNN ..
- Hyper Parameter
model의 성능을 개선하기 위해 사람이 직접 넣는 parameter
6. Model Training (학습)
- model.fit(X_train, y_train)
train 데이터와 test 데이터를 7:3 정도로 나눔
- model.predict (X_test)
7. Evaluation (평가)
- MSE / RMSE
- R2 Score
- accuracy (정확도)
- recall (재현율)
- precision (정밀도)
- f1 score
'Machine Learning' 카테고리의 다른 글
Machine Learning 실습 (2) (0) 2022.07.12 Machine Learning 실습 (1) (0) 2022.07.12 머신러닝 이론 (3) (0) 2022.07.06 머신러닝 이론 (2) (0) 2022.07.06 머신러닝 이론 (1) (0) 2022.07.06