공부/AIFFEL

Exploration 9 : 나의 첫 번째 캐글 경진대회, 무작정 따라해보기

dong_dong_2 2021. 2. 5. 16:39

1. 대회의 시작 (1) 참가 규칙, 평가 기준 살펴보기
    - 캐글 들어가서 가입하고, 대회 살펴보기
    - RMSE(Root Mean Squared Error) : 실제 정답과 예측한 값의 차이의 제곱을 평균한 값의 제곱근을 말함.
    - 이 대회의 평가 기준이 RMSE이다.
2. 대회의 시작 (2) 데이터 살펴보기
    - 캐글 대회에서 분석하고자 하는 데이터 변수등 데이터 살펴보기
3. 일단 제출하고 시작해! Baseline 모델 (1) Baseline 셋팅하기
    - 이번 대회는 주체자 차원에서 Baseline을 제공했다.
    - 이것을 일단 무작정 따라해보면서 캐글을 알아가는 것이 이번 노드의 내용이다.
4. 일단 제출하고 시작해! Baseline 모델 (2) 라이브러리, 데이터 가져오기
    - 라이브러리를 로딩하고, 데이터 경로를 설정한 후 데이터를 읽어온다.
5. 일단 제출하고 시작해! Baseline 모델 (3) 데이터 이해하기
    - 데이터의 각 변수의 의미를 파악하기
    - label를 만들고, 불필요한 변수를 제거한 뒤 변수들을 시각화하여 데이터의 분포를 파악한다.
6. 일단 제출하고 시작해! Baseline 모델 (4) 모델 설계
    - 앙상블이란 무엇인가, 앙상블 기법 중 보팅과 에버리징이 무엇인가
       1) 앙상블(Ensemble)학습은 여러 개의 학습 알고리즘을 사용하고, 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법이다.
       2) 보팅(Voting)은 여러 모델이 분류해 낸 결과들로부터 말 그대로 다수결 투표를 통해 최종 결과를 선택하는 방법으로, 분류 문제에 사용된다.
       3) 에버리징(Averaging)은 각 모델이 계산해 낸 실숫값들을 평균 혹은 가중평균하여 사용하는 방법으로, 회귀 문제에서 사용된다.
7. 일단 제출하고 시작해! Baseline 모델 (5) 캐글에 결과 제출하기
    - 결과값을 제출하면 스코어와 내 등수가 뜬다. 오늘 한 것은 이미 종료된 캐글이라 점수만 뜨는듯 하다.
8. 랭킹을 올리고 싶다면? : 총 4개 노드가 있지만 요약하여 썼다.
    - 먼저 데이터를 다르게 전처리 할 방법이 있는지 찾는다 : 보다 모델이 잘 학습할 수 있는 방향으로?
    - 다양한 실험을 위해 함수를 만든다 : 여러 모델을 가지고 실험을 하면 같은 코드를 반복적으로 써야하므로 함수를 만들면 편하게 실험할 수 있다.
    - 하이퍼 파라미터 튜닝의 최강자인 그리드 검색을 이용한다 : sklearn패키지에 있는 GridSearchCV는 원하는 하이퍼 파라미터를 가지고 모델에 적용시켜 최적의 파라미터를 찾아준다.
    - 위 과정으로 좀 더 괜찮은 결과값을 얻었다고 생각이 된다면 캐글에 제출하여 점수와 등수를 확인한다.
9. 프로젝트 : 좋은 결과값 얻기
    - 위의 배운 내용을 바탕으로 루브릭 평가를 만족하면 된다.
       1) 데이터 전처리, 모델학습, 예측의 전체 과정을 거쳐 캐글 submission까지 전과정이 성공적으로 진행되었는가?
       2) 제출된 노트북이 캐글 커널로 사용될 수 있을 만큼 전처리, 학습, 최적화 진행 과정이 체계적으로 기술되었는가?
       3) 캐글 리더보드의 점수 기준 110000이하의 점수를 얻었는가?