Exploration 6 : 작사가 인공지능 만들기
1. 시퀀스? 스퀀스!
- Sequence : 나열된 데이터, 각 요소들이 동일한 속성을 띌 필요는 없다. 어떤 기준에 따라 정렬되어 있지 않아도 된다.
2. I 다음 am을 쓰면 반 이상은 맞더라
- 인공지능이 글을 이해하는 방식은 수많은 글을 읽게 하는 것이다. 즉, 많은 데이터가 곧 좋은 결과를 만들어 낸다.
- 이 방식을 가장 잘 처리하는 인공지능 중 하나로 순환신경망(RNN)이 있다.
- 순환신경망 : 데이터를 입력 받은 신경망이 결과값을 다시 입력으로 사용하는 것.
3. 실습 (1) 데이터 다듬기
- 데이터에 필요없는 게 있는지? : 불필요한 특수기호, 공백 등을 가공하기
- 토큰화(Tokenize)
- 소스 문장과 타켓 문장으로 분류하기
- 벡터화를 하여 텐서만들기
4. 실습 (2) 인공지능 학습시키기
- RNN을 활용하여 모델을 만들고 학습시키기
5. 실습 (3) 잘 만들어졌는기 평가하기
- "I am" 이란 단어를 주고 모델에게 작문해보라고 시키기
6. 프로젝트 : 멋진 작사가 만들기
- 데이터는 Song Lyrics을 이용한다.
- 데이터를 읽어오고 정제하기 : 토큰의 개수가 15개를 넘어가는 문장은 학습데이터에서 제외한다.
- 평가 데이터셋 분리하기 : 단어장 크기는 12,000이상으로 하고, 총 데이터의 20%를 평가 데이터셋으로 사용한다.
- 인공지능 만들기 : 10 Epoch 안에 val_loss 값을 2.2 수준으로 줄일 수 있는 모델을 설계한다.