Skip to content

Commit

Permalink
edit : post title
Browse files Browse the repository at this point in the history
  • Loading branch information
AshHyun committed Aug 31, 2020
1 parent 781ccaa commit 8666de0
Showing 1 changed file with 2 additions and 2 deletions.
4 changes: 2 additions & 2 deletions _posts/2020-08-31-ML_splitting_dataset.md
Original file line number Diff line number Diff line change
Expand Up @@ -33,9 +33,9 @@ toc_label: "목차"
## 훈련 세트와 테스트 세트


1. **훈련 세트**는 말 그대로 머신러닝 모델이 데이터의 경향성을 학습하기 위해 사용하는 데이터 세트입니다. 모델이 훈련 데이터셋 내에서의 최적점을 찾는 알고리즘으로 움직이기 때문에, 훈련 데이터에서의 이상치, 스케일, 측정 오차 등은 모델의 완성도에 민감한 영향을 끼칩니다. <br> 또한, 전체 데이터 자체에는 문제가 없더라도, 만약 대한민국 전체 인구의 키에 관련된 모델을 만들기 위해 데이터를 가져왔는데 남성의 키를 훈련 세트로, 여성의 키를 테스트 세트로 쓰게 된다면 모델도 개판, 평가도 개판일 것입니다. 이는 극단적인 예시지만, 이런 중요한 feature의 분배에 오류가 생긴다면 모델의 성능도 그에 따라 과대적합 or 과소적합 되게 됩니다.<br>
**훈련 세트**는 말 그대로 머신러닝 모델이 데이터의 경향성을 학습하기 위해 사용하는 데이터 세트입니다. 모델이 훈련 데이터셋 내에서의 최적점을 찾는 알고리즘으로 움직이기 때문에, 훈련 데이터에서의 이상치, 스케일, 측정 오차 등은 모델의 완성도에 민감한 영향을 끼칩니다. <br> 또한, 전체 데이터 자체에는 문제가 없더라도, 만약 대한민국 전체 인구의 키에 관련된 모델을 만들기 위해 데이터를 가져왔는데 남성의 키를 훈련 세트로, 여성의 키를 테스트 세트로 쓰게 된다면 모델도 개판, 평가도 개판일 것입니다. 이는 극단적인 예시지만, 이런 중요한 feature의 분배에 오류가 생긴다면 모델의 성능도 그에 따라 과대적합 or 과소적합 되게 됩니다.<br><br>

2. **테스트 세트** 또한 말 그대로 완성된 모델을 평가하기 위해 사용하는 세트입니다. 지도 학습일 경우 정답이 표시된 레이블(Label)을 따로 분리시켜놓고, 모델이 도출한 정답과 따로 분리해놓은 레이블을 비교하며 평가하게 됩니다. 보통 전체 데이터가 100이라면 80정도를 훈련 세트, 20정도를 테스트 세트로 사용하는 편입니다.
**테스트 세트** 또한 말 그대로 완성된 모델을 평가하기 위해 사용하는 세트입니다. 지도 학습일 경우 정답이 표시된 레이블(Label)을 따로 분리시켜놓고, 모델이 도출한 정답과 따로 분리해놓은 레이블을 비교하며 평가하게 됩니다. 보통 전체 데이터가 100이라면 80정도를 훈련 세트, 20정도를 테스트 세트로 사용하는 편입니다.

---

Expand Down

0 comments on commit 8666de0

Please sign in to comment.