gambae programing

머신러닝 학습 과정 본문

AI/MachineLearning

머신러닝 학습 과정

gambae 2022. 9. 15. 21:22

1. 문제 정의

  • 비즈니스 목적 정의 (모델을 어떻게 사용해 이익을 얻을까?)
  • 현재 솔루션의 구성 파악
  • 지도 vs 비지도 vs 강화
  • 분류 vs 회귀

2. 데이터 수집

  • File (CSV,XML,JSON)
  • Database
  • Crawling (뉴스,SNS,블로그)
  • IoT 센서를 통한 수집

3. 데이터 전처리

  • 결측치 처리 (삭제 or 대체 (중간,평균,예측값 등))
  • 이상치 처리 (삭제 or 대체 (중간,평균,예측값,범주화 등))
  • Cleanig (오류수정)
  • Feature Engineering (특성공학)
  • Scaling (단위 변환)
  • Transform (새로운 속성 추출)
  • Encoding (범주형 -> 수치형)
  • Binning (수치형 -> 범주형)
  • Normalization (정규분포화)
  • 범주형 데이터 통합

4. 데이터 분석

  • 기술통계,변수간 상관관계
  • 시각화 (pandas,matplotlib,seaborn)
  • 사용 할 특성 선택
  • 단변수 시각화 : Histogram (빈도수),Boxplot(평균,중간값 등)
  • 이변수 시각화 : Scatter plot (수치,상관관계),누적막대그래프 (범주,독립성 분석)
  • 다변수 시각화 : Violin plot,3차원 그래프 등

5. Model 선택,Hyper Parameter 조정

  • 목적에 맞는 적절한 모델 선택
  • KNN,SVM 등등
  • Hyper Parameter (model의 성능을 개선하기위해 사람이 직접 넣는 parameter)

6.학습

  • model.fit(X_train,y_train) // train 데이터와 test 데이터를 7:3 정도로 나눔
  • model.predict(X_test)

7.평가

  • accuracy (정확도)
  • recall (재현율)
  • precision (정밀도)

 

'AI > MachineLearning' 카테고리의 다른 글

일반화,과대적합,과소적합  (1) 2022.09.16
머신러닝 분류  (0) 2022.09.15
머신러닝  (1) 2022.09.15
Comments