1. 대회의 시작 (1) 참가 규칙, 평가 기준 살펴보기
- 캐글 들어가서 가입하고, 대회 살펴보기
- RMSE(Root Mean Squared Error) : 실제 정답과 예측한 값의 차이의 제곱을 평균한 값의 제곱근을 말함.
- 이 대회의 평가 기준이 RMSE이다.
2. 대회의 시작 (2) 데이터 살펴보기
- 캐글 대회에서 분석하고자 하는 데이터 변수등 데이터 살펴보기
3. 일단 제출하고 시작해! Baseline 모델 (1) Baseline 셋팅하기
- 이번 대회는 주체자 차원에서 Baseline을 제공했다.
- 이것을 일단 무작정 따라해보면서 캐글을 알아가는 것이 이번 노드의 내용이다.
4. 일단 제출하고 시작해! Baseline 모델 (2) 라이브러리, 데이터 가져오기
- 라이브러리를 로딩하고, 데이터 경로를 설정한 후 데이터를 읽어온다.
5. 일단 제출하고 시작해! Baseline 모델 (3) 데이터 이해하기
- 데이터의 각 변수의 의미를 파악하기
- label를 만들고, 불필요한 변수를 제거한 뒤 변수들을 시각화하여 데이터의 분포를 파악한다.
6. 일단 제출하고 시작해! Baseline 모델 (4) 모델 설계
- 앙상블이란 무엇인가, 앙상블 기법 중 보팅과 에버리징이 무엇인가
1) 앙상블(Ensemble)학습은 여러 개의 학습 알고리즘을 사용하고, 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법이다.
2) 보팅(Voting)은 여러 모델이 분류해 낸 결과들로부터 말 그대로 다수결 투표를 통해 최종 결과를 선택하는 방법으로, 분류 문제에 사용된다.
3) 에버리징(Averaging)은 각 모델이 계산해 낸 실숫값들을 평균 혹은 가중평균하여 사용하는 방법으로, 회귀 문제에서 사용된다.
7. 일단 제출하고 시작해! Baseline 모델 (5) 캐글에 결과 제출하기
- 결과값을 제출하면 스코어와 내 등수가 뜬다. 오늘 한 것은 이미 종료된 캐글이라 점수만 뜨는듯 하다.
8. 랭킹을 올리고 싶다면? : 총 4개 노드가 있지만 요약하여 썼다.
- 먼저 데이터를 다르게 전처리 할 방법이 있는지 찾는다 : 보다 모델이 잘 학습할 수 있는 방향으로?
- 다양한 실험을 위해 함수를 만든다 : 여러 모델을 가지고 실험을 하면 같은 코드를 반복적으로 써야하므로 함수를 만들면 편하게 실험할 수 있다.
- 하이퍼 파라미터 튜닝의 최강자인 그리드 검색을 이용한다 : sklearn패키지에 있는 GridSearchCV는 원하는 하이퍼 파라미터를 가지고 모델에 적용시켜 최적의 파라미터를 찾아준다.
- 위 과정으로 좀 더 괜찮은 결과값을 얻었다고 생각이 된다면 캐글에 제출하여 점수와 등수를 확인한다.
9. 프로젝트 : 좋은 결과값 얻기
- 위의 배운 내용을 바탕으로 루브릭 평가를 만족하면 된다.
1) 데이터 전처리, 모델학습, 예측의 전체 과정을 거쳐 캐글 submission까지 전과정이 성공적으로 진행되었는가?
2) 제출된 노트북이 캐글 커널로 사용될 수 있을 만큼 전처리, 학습, 최적화 진행 과정이 체계적으로 기술되었는가?
3) 캐글 리더보드의 점수 기준 110000이하의 점수를 얻었는가?
'공부 > AIFFEL' 카테고리의 다른 글
FUNDAMENTAL 18. 딥러닝 들여다보기 (0) | 2021.02.08 |
---|---|
FUNDAMENTAL 17. 어라, 이 시계열 데이터 이상한데? - Anomaly Detection (0) | 2021.02.05 |
FUNDAMENTAL 16. 컴퓨터 파워 UP (0) | 2021.02.03 |
Exploration 8 : 아이유팬이 좋아할 만한 다른 아티스트 찾기 (0) | 2021.02.03 |
풀잎스쿨 - DeepML(CS231N) Lec. 06 (0) | 2021.02.01 |