ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 머신러닝 이론 (4)
    Machine Learning 2022. 7. 6. 16:05

    머신러닝(Machine Learning) 학습 과정

     

    1. Problem Identification(문제정의)

    - 비즈니스 목적 정의

      : 모델을 어떻게 사용해 이익을 얻을까?

    - 현재 솔루션의 구성 파악

    - 지도 vs 비지도 vs 강화

    - 분류 vs 회귀

     

    2. Data Collect(데이터 수집)

    - File (CSV, XML, JSON)

    - Database

    - Web Crawler (뉴스, SNS, 블로그)

    - IoT 센서를 통한 수집

    - Survey

     

    3. Data Preprocessing(데이터 전처리)

    - 결측치 처리 (삭제 or 대체 (중간, 평균, 예측값 등))

    - 이상치(outlier) 처리 (삭제 or 대체 (중간, 평균, 예측값, 범주화 등))

    - Cleaning (오류 수정)

    - Feature Engineering (특성공학)

      Scaling (단위 변환)

      Transform (새로운 속성 추출)

      Encoding (범주형 -> 수치형)

      Binning (수치형 -> 범주형)

      Normalization (정규분포화)

      범주형 데이터 통합

     

    4. EDA (탐색적 데이터분석)

    - 기술통계, 변수간 상관관계

    - 시각화

      pandas, matplotlib, seaborn

    - Feature Selection (사용할 특성 선택)

    - 단변수 시각화 : Histogram(빈도수), Boxplot(평균, 중간값 등)

    - 이변수 시각화 : Scatter plot (수치, 상관관계), 누적막대그래프 ( 범주, 독립성 분석), 범주별 Histogram

    - 다변수 시각화 : Violin plot, 3차원 그래프 등

     

    5. Model 선택, Hyper Parameter 조정

    - 목적에 맞는 적절한 모델 선택

    - KNN, SVM, Linear Regression, Ridge, Lasso, Decision Tree, Random forest, CNN, RNN ..

    - Hyper Parameter

      model의 성능을 개선하기 위해 사람이 직접 넣는 parameter

     

    6. Model Training (학습)

    - model.fit(X_train, y_train)

      train 데이터와 test 데이터를 7:3 정도로 나눔

    - model.predict (X_test)

    7. Evaluation (평가)

    - MSE / RMSE

    - R2 Score

    - accuracy (정확도)

    - recall (재현율)

    - precision (정밀도)

    - f1 score

     

    'Machine Learning' 카테고리의 다른 글

    Machine Learning 실습 (2)  (0) 2022.07.12
    Machine Learning 실습 (1)  (0) 2022.07.12
    머신러닝 이론 (3)  (0) 2022.07.06
    머신러닝 이론 (2)  (0) 2022.07.06
    머신러닝 이론 (1)  (0) 2022.07.06

    댓글

Designed by Tistory.