gambae programing
머신러닝 학습 과정 본문
1. 문제 정의
- 비즈니스 목적 정의 (모델을 어떻게 사용해 이익을 얻을까?)
- 현재 솔루션의 구성 파악
- 지도 vs 비지도 vs 강화
- 분류 vs 회귀
2. 데이터 수집
- File (CSV,XML,JSON)
- Database
- Crawling (뉴스,SNS,블로그)
- IoT 센서를 통한 수집
3. 데이터 전처리
- 결측치 처리 (삭제 or 대체 (중간,평균,예측값 등))
- 이상치 처리 (삭제 or 대체 (중간,평균,예측값,범주화 등))
- Cleanig (오류수정)
- Feature Engineering (특성공학)
- Scaling (단위 변환)
- Transform (새로운 속성 추출)
- Encoding (범주형 -> 수치형)
- Binning (수치형 -> 범주형)
- Normalization (정규분포화)
- 범주형 데이터 통합
4. 데이터 분석
- 기술통계,변수간 상관관계
- 시각화 (pandas,matplotlib,seaborn)
- 사용 할 특성 선택
- 단변수 시각화 : Histogram (빈도수),Boxplot(평균,중간값 등)
- 이변수 시각화 : Scatter plot (수치,상관관계),누적막대그래프 (범주,독립성 분석)
- 다변수 시각화 : Violin plot,3차원 그래프 등
5. Model 선택,Hyper Parameter 조정
- 목적에 맞는 적절한 모델 선택
- KNN,SVM 등등
- Hyper Parameter (model의 성능을 개선하기위해 사람이 직접 넣는 parameter)
6.학습
- model.fit(X_train,y_train) // train 데이터와 test 데이터를 7:3 정도로 나눔
- model.predict(X_test)
7.평가
- accuracy (정확도)
- recall (재현율)
- precision (정밀도)
'AI > MachineLearning' 카테고리의 다른 글
일반화,과대적합,과소적합 (1) | 2022.09.16 |
---|---|
머신러닝 분류 (0) | 2022.09.15 |
머신러닝 (1) | 2022.09.15 |
Comments