신경망 학습에 필요한 함수들

지금까지 퍼셉트론, 신경망에 대해 배우고 이제 신경망 학습의 대략적인 방향에 대해 배웠다.

신경망 학습을 위해 중요한 사실들이 많지만, 그건 다른 페이지에서 정리해보도록 하고 큰 흐름은 아래와 같다.

"미니배치로 데이터 뽑기 → 손실함수로 기울기 계산 → 경사하강법으로 가중치 갱신 → 반복"

여기에선 신경망 학습을 코드로 구현함에 있어 필요한 함수들을 총 정리해 보려고 한다.

get_mini_batch()
- 데이터셋에서 무작위로 일부 데이터를 뽑아오는 함수
- 입력: 전체 데이터 (x, t), 배치 크기
- 출력: x_batch, t_batch

predict(x)
- 입력 데이터를 넣었을 때 출력 y를 계산
- 내부적으로: A=XW+B → Z=f(A) →Y = softmax(Z)
loss(x, t)
- 현재 파라미터로 예측한 값과 정답 사이의 손실값 계산
- 내부적으로: predict(x) 호출 + 손실 함수(cross_entropy_error())

numerical_gradient(f, W)
- 수치미분으로 기울기 계산
- f: 손실 함수, W: 파라미터
gradient(x, t)
- 신경망 전체 파라미터(W, b)에 대한 손실 함수의 기울기 계산
- 내부적으로: numerical_gradient()를 각 레이어 파라미터에 적용
- (5장에서는 이게 역전파 버전으로 대체)

train()
- 전체 데이터 반복 학습
- 절차:
  1. get_mini_batch()
  2. gradient()
  3. SGD() : 매개변수 갱신
  4. 손실/정확도 기록

즉, 정리하면:

이걸 합쳐서 TwoLayerNet 같은 클래스가 만들어지고, 학습 루프에서 계속 반복하는 구조가 된다.

마지막으로 해당 과정을 아래와 같이 간단하게 다이어그램으로 그려보았다!

밑바닥부터 시작하는 딥러닝1권의 4장의 흐름은 아래 다이어그램으로 설명 가능하다.

👩🏻‍💻 Stack Up!