데이터분석 혹은 머신러닝을 공부하게 되면 꼭 배우는 것이 학습 방법론에 따른 데이터 분류법이다. 데이터 분석을 처음으로 배우는 경우, 모델을 배우고 너무 들뜬 나머지 자신이 가진 데이터 100% 를 전부 활용하여 모델을 학습하고 분석하기 바쁜데 이는 굉장히 큰 오류이다. Train 데이터를 활용하여 학습한 모델은 해당 데이터의 특성을 이미 반영하고 있으므로, 똑같은 데이터로 예측을 하는 것은 당연히 '실제 대비 더 좋은' 결과를 낼 것이기 때문이다. (이러한 경우를 과적합 이라고 한다) 예를 들어, A문제집으로 시험 공부를 한 학생(모델)이 있다고 하자. 이 학생이 '비슷하지만 새로운 유형의 문제'로 구성된 시험을 치루는 경우와, '문제집과 완벽히 동일한 문제'로 구성된 시험을 치루는 경우를 비교 한다면..