목록AI/MachineLearning (4)
gambae programing
일반화 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측 하도록 하는 것 과대적합 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하 과소적합 훈련 세트를 충분히 반영하지 못해 훈련 세트,테스트 세트에서 모두 성능이 저하 모델 복잡도 곡선 해결방법 주어진 훈련데이터의 다양성 보장 -> 다양한 데이터포인터를 골고루 나타내야 함 일반적으로 데이터 양이 많으면 일반화에 도움이 된다 하지만 편중된 데이터를 많이 모으는 것은 도움이 되지 않음 규제를 통해 모델의 복잡도를 적정선으로 설정
1. 문제 정의 비즈니스 목적 정의 (모델을 어떻게 사용해 이익을 얻을까?) 현재 솔루션의 구성 파악 지도 vs 비지도 vs 강화 분류 vs 회귀 2. 데이터 수집 File (CSV,XML,JSON) Database Crawling (뉴스,SNS,블로그) IoT 센서를 통한 수집 3. 데이터 전처리 결측치 처리 (삭제 or 대체 (중간,평균,예측값 등)) 이상치 처리 (삭제 or 대체 (중간,평균,예측값,범주화 등)) Cleanig (오류수정) Feature Engineering (특성공학) Scaling (단위 변환) Transform (새로운 속성 추출) Encoding (범주형 -> 수치형) Binning (수치형 -> 범주형) Normalization (정규분포화) 범주형 데이터 통합 4. 데이터..
지도 학습 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법 분류와 회귀로 나뉘어짐 분류 (Classification) 미리 정의된 여러 클래스 레이블 (정답) 중 하나를 예측하는 것 속성 값을 입력,클래스 값을 출력으로 하는 모델 회귀 (Regression) 연속적인 숫자를 예측하는 것 속성 값을 입력,연속적인 실수 값을 출력으로 하는 모델 예측 값의 미묘한 차이가 크게 중요하지 않음 비지도 학습 데이터에 대한 Lable(명시적인 답)이 없는 상태에서 컴퓨터를 학습시키는 방법 데이터의 숨겨진 특징,구조,패턴을 파악하는데 사용 데이터를 비슷한 특성끼리 묶는 클러스터링과 차원축소등이 있다 강화학습 지도학습과 비슷하지만 완전한 답(Label)을 제공하지 않는 특징이 있다. 기..