머신러닝

    Machine Learning with Python -1주차-

    Machine Learning with Python -1주차-

    Machine Learning 공부를 위해 coursera에서 강의를 듣기 시작하였습니다. 1주차 부터 ~ 7주차까지 공부한 내용들을 정리하기 위해 블로그 글을 작성합니다. Data의 종류 숫자와 범주형으로 나뉜다. 범주형은 분류를 위해 문자로 쓰여진 경우가 있는데, 학습하기 용이하도록 데이터 전처리과정에서 숫자형으로 변경하는 것이 일반적이다. Supervised vs Unsupervised Supervised learning 지도학습은 정답데이터와 학습데이터가 주어진 상태에서 학습을 진행하는 것이다. classification : 불연속 클래스 label을 예측 Regression : 연속적인 데이터를 예측 Unsupervised learning 비지도학습은 정답데이터가 주어지지 않은 상태에서 학습을 ..

    Titanic - Predict survival on the Titanic and get familiar with ML basics (kaggle) 1부 (데이터 전처리)

    Titanic - Predict survival on the Titanic and get familiar with ML basics (kaggle) 1부 (데이터 전처리)

    Titanic data 카테고리 Passenger : 승객 ID Survived : 생존하였는지 (0 = No, 1 = Yes) Pclass : Ticket Class (1 = 1st, 2 = 2nd, 3 = 3rd) Name : 사람 이름 Sex : 성별 Age : 나이 SibSp : 타이타닉 호에 탑승한 형제와 배우자 수 Parch : 타이타닉 호에 탑승한 자녀와 부모의 수 Ticket : 티켓 번호 Fare : 여객 운임 Cabin : 객실 번호 Embarked : 승선항 (C = Cherbourg, Q = Queenstown, S = Southapmton) Data 전처리 1. 누락된 데이터 처리 (결측 데이터) 2. 데이터 평활 위의 데이터에서 티켓번호와 사람이름, 객실번호는 데이터 전처리가 어..