데이터분석 6

SVM 서포트 벡터 머신 알고리즘 개념 정리 (2): 불완전한 분류편

전 장에서 SVM 알고리즘의 특정 예시, 모든 점을 완벽하게 분리할 수 있는 경우를 살펴보았다. 그러나 현실 속에서 데이터는 100% 정확히 분류하기 어려운 경우가 더 많을 것이다. 사과와 수박을 부피 및 무게에 따라 분류하는 것은 상대적으로 쉬울테지만, 사과와 오렌지를 분류한다고 하는 경우는 난이도가 더 높을 것으로 예상되지 않는가? 이번 장에서는 두 데이터를 깔끔하게 분리할 수 없는, 즉 어느정도의 오류가 불가피한 경우의 SVM 알고리즘에 대해 살펴보고자 한다. 그 전에, 간단히 Support Vector Machine 알고리즘의 명칭에 대한 유래를 소개하고자 한다. 지탱하는 Support Vector, 그 사이의 분류기 서포트 벡터의 개념을 이해하기 위해서는 볼록포, 혹은 Convex hull 에 ..

SVM 서포트 벡터 머신 알고리즘 개념 정리 (1): 완벽한 분류편

이번 장에서는 이론적으로 가장 논의가 활발하고, 또한 가장 효과적인 분류 알고리즘으로 평가받는 SVM, 서포트 벡터 머신에 대해 알아보겠습니다. 편의 상 SVM 으로 통칭하겠습니다. 우선 '분류'라는 문제 상황에 대해 좀 더 자세히 알아본 후, 마진에 기반한 SVM 의 이론적 기반을 간단히 제시할 예정입니다. 선형 분류의 문제란? X 가 N개의 차원을 갖는 공간이고, Y = {-1, +1} 그리고 f: X→ Y 라고 정의하자. 쉽게 말해, N차원의 변수 X 를 함수 f 에 대입 하였을 때 +1 또는 -1 을 결과값으로 갖는 관계라는 말이다. 예를 들어, 과일의 무게 및 부피를 입력했을 때 이 과일이 수박인지 (+1), 사과인지 (-1) 를 알려주는 함수를 생각해 볼 수 있다. 우리의 목표는 실제 데이터의..

꼭 알아야 하는 머신러닝 필수 개념 (2): K-fold CV 교차검증

데이터분석 혹은 머신러닝을 공부하게 되면 꼭 배우는 것이 학습 방법론에 따른 데이터 분류법이다. 데이터 분석을 처음으로 배우는 경우, 모델을 배우고 너무 들뜬 나머지 자신이 가진 데이터 100% 를 전부 활용하여 모델을 학습하고 분석하기 바쁜데 이는 굉장히 큰 오류이다. Train 데이터를 활용하여 학습한 모델은 해당 데이터의 특성을 이미 반영하고 있으므로, 똑같은 데이터로 예측을 하는 것은 당연히 '실제 대비 더 좋은' 결과를 낼 것이기 때문이다. (이러한 경우를 과적합 이라고 한다) 예를 들어, A문제집으로 시험 공부를 한 학생(모델)이 있다고 하자. 이 학생이 '비슷하지만 새로운 유형의 문제'로 구성된 시험을 치루는 경우와, '문제집과 완벽히 동일한 문제'로 구성된 시험을 치루는 경우를 비교 한다면..

꼭 알아야 하는 머신러닝 필수 개념 (1): 기초용어 및 활용분야 예시

머신러닝이 대세다! 라고 들었을때 공부했어야 했는데, 라고 생각했을때 공부했어야 했는데... 라는 생각이 많이 드는 요즘이다. 마냥 외국어 같던 머신러닝도 어느덧 석사 중반에 접어들며 '익숙한' 개념이 되었지만, '정확히 알고 있는' 개념은 아닌지라 짬을 내어 정리해 두고자 한다. MIT Press 에서 발간한 '머신러닝 기초'를 보조 서적으로 읽고 있다. 나름 머신러닝 주류 개념에 대한 정리가 잘 되어있는 자료라고 들어 보고 있는데, 무엇보다도 평소 혼용해서 사용하고 있던 여러 용어에 대한 스스로의 부족함을 뼈저리게 느낄 수 있었다. '어중간하게 아는게 가장 무섭다'는 말이 있듯이 돈만 쓴 바보 석사생이 되면 안되겠다는 결심으로 한두장씩 거북이처럼 읽어가고 있다. 머신러닝이란? 머신러닝이란, 경험에 기..

SQL보다 먼저 배워야 하는 데이터 전처리 3단계 (빅데이터 분석기사 자격증 준비)

안녕하세요 IT 범생이 Finn 입니다 ~ ! ​ 오늘은 데이터 분석의 핵심적인 과정인 데이터 전처리에 대해 정리해 보고자 합니다. ​ ​ 빅데이터, 데이터베이스 등의 개념이 보편화되며 많은 분들이 SQL, 빅데이터 분석기사 자격증 등을 공부하고있는데요. 어쩌면 데이터 분석의 전 과정 중에서 가장 생소하고 또 접해보지 못하셨을 영역이 바로 데이터 클리닝, 혹은 데이터 전처리 일 것으로 생각됩니다. ​ 빅데이터 분석기사 시험 영역에서도 중요한 부분을 차지할 만큼 SQL, DB를 배우기 전에 꼭 알아야 하는 개념입니다! ​ 그렇다면 데이터 전처리가 무엇이고, 어떻게 접근해 나가야 하는지 함께 알아보아요! ​ ​ 데이터 전처리가 중요한 이유 우리는 일상 속에서 다양한 형태로 데이터를 발생시키고 수집합니다. 기..

문과 마케터가 데이터 과학 석사를 지원한 이유 (데이터 사이언스 석사)

머신러닝, 인공지능, 딥러닝... 바야흐로 데이터가 경쟁력이 되는 시대다. 학부시절 빅데이터라는 단어를 처음 접한 후 꾸준히 데이터에 대한 관심은 있었으나, 딱히 깊이있게 공부할 엄두는 나지 않았다. 그러던 내가 3년차 브랜드 마케터가 아래 세가지 이유로 데이터 과학, 그것도 석사 과정을 지원하게 되었다. 하나. 데이터는 앞으로 더더욱 중요해 질 것이다 마케팅에서 앱서비스, 디지털 매체를 관리하며 소비자에 대한 정보를 소름돋을 수준까지 획득할 수 있음에 적잖은 충격을 받았다. 광고를 집행한 후 잘되면 내 덕, 안되면 다른 “논리적인” 이유를 찾기 급급했던 전통 마케팅?의 시대를 지나, 이제는 바로 다음날 (떨리는 마음으로) 실시간 반응/결과를 확인할 수 있는 퍼포먼스 마케팅의 시대가 아닌가! 백날 회의실..