🧑‍💻 IT 범생이 Finn/🤖 데이터 석사 생존기 11

미국 조지아텍 OMSA 온라인 석사, 이 학점으로도 가능한가요? (데이터 사이언스 석사 Q&A)

안녕하세요, IT 범생이 Finn 입니다! 많은분들이 제가 일과 병행중인 조지아텍 온라인 석사 과정에 관심을 갖고 질문해 주셔서 별도 포스팅으로 주요 질문사항을 정리 답변 드리고자 합니다 1. OMSCS 와의 주요 차이점은 무엇인가요? OMSCS는 컴퓨터공학을 전공으로 하는 과정입니다 OMSA와 OMSCS 모두 조지아텍에서 제공하는 온라인 석사 과정으로 OMSCS가 더 일찍부터 시행되었습니다 OMSA와도 다수의 커리큘럼과 수업을 공유하고 있는 자매 프로그램으로 특이한 점은 OMSCS에도 머신러닝 특화 과정이 있다는 겁니다 재학생 커뮤니티를 통해 문의한 결과 컴퓨터 응용 프로그램 접목 등 머신러닝 엔지니어링, 즉 개발이 목표라면 OMSCS가 더 적합하지만 주요 통계/머신러닝 기법을 통한 현상 분석, 즉 데..

SVM 서포트 벡터 머신 알고리즘 개념 정리 (2): 불완전한 분류편

전 장에서 SVM 알고리즘의 특정 예시, 모든 점을 완벽하게 분리할 수 있는 경우를 살펴보았다. 그러나 현실 속에서 데이터는 100% 정확히 분류하기 어려운 경우가 더 많을 것이다. 사과와 수박을 부피 및 무게에 따라 분류하는 것은 상대적으로 쉬울테지만, 사과와 오렌지를 분류한다고 하는 경우는 난이도가 더 높을 것으로 예상되지 않는가? 이번 장에서는 두 데이터를 깔끔하게 분리할 수 없는, 즉 어느정도의 오류가 불가피한 경우의 SVM 알고리즘에 대해 살펴보고자 한다. 그 전에, 간단히 Support Vector Machine 알고리즘의 명칭에 대한 유래를 소개하고자 한다. 지탱하는 Support Vector, 그 사이의 분류기 서포트 벡터의 개념을 이해하기 위해서는 볼록포, 혹은 Convex hull 에 ..

SVM 서포트 벡터 머신 알고리즘 개념 정리 (1): 완벽한 분류편

이번 장에서는 이론적으로 가장 논의가 활발하고, 또한 가장 효과적인 분류 알고리즘으로 평가받는 SVM, 서포트 벡터 머신에 대해 알아보겠습니다. 편의 상 SVM 으로 통칭하겠습니다. 우선 '분류'라는 문제 상황에 대해 좀 더 자세히 알아본 후, 마진에 기반한 SVM 의 이론적 기반을 간단히 제시할 예정입니다. 선형 분류의 문제란? X 가 N개의 차원을 갖는 공간이고, Y = {-1, +1} 그리고 f: X→ Y 라고 정의하자. 쉽게 말해, N차원의 변수 X 를 함수 f 에 대입 하였을 때 +1 또는 -1 을 결과값으로 갖는 관계라는 말이다. 예를 들어, 과일의 무게 및 부피를 입력했을 때 이 과일이 수박인지 (+1), 사과인지 (-1) 를 알려주는 함수를 생각해 볼 수 있다. 우리의 목표는 실제 데이터의..

꼭 알아야 하는 머신러닝 필수 개념 (3): 학습방법 편

학생별로 알맞은 교육법이 모두 다르듯이, 머신러닝 또한 당면한 문제를 효과적으로 해결하기 위해 여러 '학습'방법 중 하나로 데이터를 받아들인다. 즉, 학습 알고리즘 별로 Training/Test 데이터를 활용하는 순서 및 방법에 차이가 있는 것이다. 이번 장에서는 머신러닝의 주요 학습방법들을 소개하고, 간단한 예시를 통해 이해를 돕고자 한다. Supervised Learning: 기출 문제를 열심히 푸는 학생 Supervised learning 또는 지도학습은 레이블이 포함된 학습 데이터를 바탕으로 모델을 구축하여, 알려지지 않은 새로운 값에 대한 예측을 스스로 해 내는 학습 방법이다. 공부법에 비유하자면, 사전에 정답이 주어진 기출문제를 바탕으로 공부를 한 뒤, 시험을 치루는 공부법이다. 따라서 기출문..

꼭 알아야 하는 머신러닝 필수 개념 (2): K-fold CV 교차검증

데이터분석 혹은 머신러닝을 공부하게 되면 꼭 배우는 것이 학습 방법론에 따른 데이터 분류법이다. 데이터 분석을 처음으로 배우는 경우, 모델을 배우고 너무 들뜬 나머지 자신이 가진 데이터 100% 를 전부 활용하여 모델을 학습하고 분석하기 바쁜데 이는 굉장히 큰 오류이다. Train 데이터를 활용하여 학습한 모델은 해당 데이터의 특성을 이미 반영하고 있으므로, 똑같은 데이터로 예측을 하는 것은 당연히 '실제 대비 더 좋은' 결과를 낼 것이기 때문이다. (이러한 경우를 과적합 이라고 한다) 예를 들어, A문제집으로 시험 공부를 한 학생(모델)이 있다고 하자. 이 학생이 '비슷하지만 새로운 유형의 문제'로 구성된 시험을 치루는 경우와, '문제집과 완벽히 동일한 문제'로 구성된 시험을 치루는 경우를 비교 한다면..

꼭 알아야 하는 머신러닝 필수 개념 (1): 기초용어 및 활용분야 예시

머신러닝이 대세다! 라고 들었을때 공부했어야 했는데, 라고 생각했을때 공부했어야 했는데... 라는 생각이 많이 드는 요즘이다. 마냥 외국어 같던 머신러닝도 어느덧 석사 중반에 접어들며 '익숙한' 개념이 되었지만, '정확히 알고 있는' 개념은 아닌지라 짬을 내어 정리해 두고자 한다. MIT Press 에서 발간한 '머신러닝 기초'를 보조 서적으로 읽고 있다. 나름 머신러닝 주류 개념에 대한 정리가 잘 되어있는 자료라고 들어 보고 있는데, 무엇보다도 평소 혼용해서 사용하고 있던 여러 용어에 대한 스스로의 부족함을 뼈저리게 느낄 수 있었다. '어중간하게 아는게 가장 무섭다'는 말이 있듯이 돈만 쓴 바보 석사생이 되면 안되겠다는 결심으로 한두장씩 거북이처럼 읽어가고 있다. 머신러닝이란? 머신러닝이란, 경험에 기..

빅데이터 분석기사 정보 및 필기 시험 후기 분석 (기출 문제 정리)

안녕하세요 IT 범생이 Finn 입니다~! ​ 최근 4차 산업혁명 및 데이터에 대한 관심이 높아지며 자기계발 혹은 취업의 목적으로 데이터 관련 자격증을 알아보시는 분들이 많은데요, ​ ​ 오늘은 요즘 많은 분들이 관심을 갖고 준비하시는 빅데이터 분석기사 시험에 대한 정보 및 1회 시험에 대한 후기를 분석하고자 합니다. ​ ​ '빅데이터 분석기사' 란? ​ 한국데이터산업진흥원에서 시행하는 빅데이터분석기사 시험에 합격한 자를 말합니다. ​ 기존의 데이터 자격증 하면 흔히 데이터분석 준전문가(ADsP)를 많이 떠올리실 텐데요, ​ ADsP는 국가 공인 민간자격증인 반면, 빅데이터 분석기사는 국가기술자격증으로 분류되어 보다 높은 수준의 공신력을 보유하고 있습니다. ​ ​ 필기시험은 '과목 당 40점 이상' 그리..

딥러닝 필수개념: 텐서 TENSOR 이해하기

​ 안녕하세요 IT 범생이 Finn 입니다~! ​ 오늘은 다차원 데이터 형태 중에서도 악명이 높은 텐서 (Tensor) 데이터에 대해 정리해 보고자 합니다. 사실 텐서는 텐서플로우가 유명해지며 데이터를 공부하는 사람들 사이에서 유명해진 단어인데요. 정작 텐서가 무엇인지 모르면서 텐서플로우를 사용하는 경우가 잦은것 같아, 정리를 위해 포스팅을 하게 되었습니다. 텐서는 물리학에서도 함께 사용되는 만큼 본 포스팅은 데이터의 영역에 국한하여 최대한 쉽게 정리해 보고자 합니다. ​ ​ 텐서란 무엇인가? 컴퓨터 과학에서 배열 (array)는 번호 (index)와 각 번호에 대응하는 값들로 이루어진 데이터 형태를 말합니다. Numpy 혹은 Pandas를 사용해 보신 분들이라면 가장 기본적으로, 또 많이 다루어 보셨을..

SQL보다 먼저 배워야 하는 데이터 전처리 3단계 (빅데이터 분석기사 자격증 준비)

안녕하세요 IT 범생이 Finn 입니다 ~ ! ​ 오늘은 데이터 분석의 핵심적인 과정인 데이터 전처리에 대해 정리해 보고자 합니다. ​ ​ 빅데이터, 데이터베이스 등의 개념이 보편화되며 많은 분들이 SQL, 빅데이터 분석기사 자격증 등을 공부하고있는데요. 어쩌면 데이터 분석의 전 과정 중에서 가장 생소하고 또 접해보지 못하셨을 영역이 바로 데이터 클리닝, 혹은 데이터 전처리 일 것으로 생각됩니다. ​ 빅데이터 분석기사 시험 영역에서도 중요한 부분을 차지할 만큼 SQL, DB를 배우기 전에 꼭 알아야 하는 개념입니다! ​ 그렇다면 데이터 전처리가 무엇이고, 어떻게 접근해 나가야 하는지 함께 알아보아요! ​ ​ 데이터 전처리가 중요한 이유 우리는 일상 속에서 다양한 형태로 데이터를 발생시키고 수집합니다. 기..

미국 조지아텍 OMSA 온라인 석사를 선택한 이유 (데이터 사이언스 석사)

작년 8월에 입학하여 일과 석사생활을 병행 중이다. 이제 선형 대수학은 제법 익숙한데, 아직 많이 부족한 미적분 실력을 다듬기 위해 '수능특강 - 미적분'을 풀고 ebs로 해설을 듣고 있다. 회사 다닐때의 대략적인 생활 패턴은 아래와 같지 않을까...? 다행히 퇴사하고 입사 전 자유시간이 있어 편하게 공부하는 중이다. 오후 6시 - 퇴근 오후 7시 - 저녁 먹고 낮잠 시작 오후 9시 - 공부를 위해 기상 새벽 2시까지 공부하고 취침 각설하고, 왜 수많은 과정 중에서 조지아텍 OMSA 과정을 선택했는지 적어보고자 한다. OMSA or OMS Analytics: Online Masters of Science in Analytics Georgia Institute of Technology, 줄여서 조지아텍은 ..