오늘은 Lec.07의 나머지 부분과 Lec.09의 일부분을 공부했다. (Lec.08은 건너뛰었다.) Lec.07 1. learning rate에 대해 봤다. - learning rate decay : Adam보다는 SGD + Momentum에서 많이 쓴다. - First-Order Optimization : 기울기를 사용하여 선형으로 근사시켰다. 근사치를 minimize 하는 단계이다. - Second-order Optimization : 기울기와 Hessian 행렬을 사용하여 2차적으로 근사시켰다. 근사치를 minima하는 단계 - Second-order에서 BGFS와 L-BFGS가 있는데 딥러닝에서는 잘 사용되지 않는다. - 만약 full batch가 가능하면 잘 작동할 수 있으나, mini batc..