[인공지능] SP06-Fitting Models

Computer Science/인공지능

[인공지능] SP06-Fitting Models

하이람 2023. 12. 19. 22:28

[1] non-convex 함수에서의 문제와 해결 방법

비선형 함수에서 loss function은 두 가지 함정을 갖는다.

(1) local minima

이는 기울기가 0인 지점이며, 어느 방향으로 움직이든 loss가 증가하는 지점이다. 하지만 이 지점은 전체 함수에서 가장 작은 값, 즉 global minimum은 아니다.

(2) saddle point

이것 또한 기울기가 0이지만, 어떤 방향에서는 증가하고 다른 방향으로는 감소하는 특징을 가지고 있다.

이런 특성으로 인해 최적화 과정에서 종종 문제가 발생한다. 기울기가 0에 가까워지면서 loss가 업데이트되지 않기 때문이다.

saddle point와 같은 문제가 발생했을 때, 확률적 경사 하강법(Stochastic Gradient Descent, SGD)을 사용하면 문제를 해결할 수 있다.

Stochastic gradient descent,SGD(확률적 경사 하강법)이란?

각 반복에서 gradient를 계산할 때, 무작위로 선택한 데이터의 부분집합을 사용한다. 이로 인해 noise가 추가되며, 이 noise가 알고리즘이 잘못된 골짜기, 즉 local minima나 saddle point에 갇히지 않도록 막아준다. 이러한 SGD는 데이터의 일부분만 사용하여 계산량이 적다는 장점도 있다.

[2] Momentum

Momentum이란?

현재 배치에서 계산된 기울기와 이전 단계에서 이동한 방향의 가중 조합으로 파라미터를 업데이트하는 방법이다.

Momentum을 사용하면 수렴 속도가 증가하고 진동과 같은 현상을 감소시킬 수 있다.

위 수식을 바탕으로 파이썬 코드를 작성하면 다음과 같을 것이다.

# 변수 초기화
m = 0
beta = 0.9  # 모멘텀 계수
alpha = 0.01  # 학습률
phi = np.random.randn()  # 임의의 시작점

# 반복문을 통한 최적화
for i in range(iterations):
  # 기울기 계산 (여기서는 임의의 함수 'gradient'를 사용하였습니다.)
  gradient = gradient(phi)

  # 모멘텀 업데이트
  m = beta * m + (1 - beta) * gradient

  # 파라미터 업데이트
  phi = phi - alpha * m

[3] Optimizer 알고리즘

AdaGrad, AdaDelta, RMSProp, Adam 4가지의 공통점과 차이점에 대해서 알아보자.

먼저 AdaGrad는 Adaptive Gradient의 줄임말로, 각 파라미터에 서로 다른 학습률을 적용하는 방법이다.

gradient가 큰 경우, 손실에 크게 기여하고 있다는 의미이므로 파라미터가 너무 크게 변하지 않게 학습률을 빠르게 감소시킨다.

gradient가 작은 경우, 학습률이 상대적으로 작게 감소하며, 파라미터를 더욱 대담하게 업데이트시킨다.

이러한 과정을 통해 최적의 솔루션에 더 빠르게 도달할 수 있게 된다.

다음으로 AdaDelta는 AdaGrad의 한계인 학습률이 지나치게 감소하여 학습이 멈추는 문제를 보완한 방법이다.

AdaGrad가 gradient 전체 단계를 누적하는 반면, AdaDelta는 누적하는 단계 수를 moving window의 크기인 w로 제한한다.

RMSProp는 Root Mean Square Propagation의 약자로, AdaGrad의 단점을 보완한 또다른 방법이다.

gradient의 누적을 'exponentially weighted moving average(지수 가중 이동 평균)'로 변경하여, 비볼록 함수에서의 성능을 향상시킨 것이 특징이다. 이 방법을 사용하면, 극단적인 과거의 이력은 제거되며, 볼록한 구조를 찾아낸 후에는 빠르게 그 방향으로 학습률을 조정하고 수렴할 수 있다.

Adam은 RMSProp과 Momentum을 결합한 방법으로, 하이퍼파라미터를 세밀하게 조정하지 않아도 대체적으로 우수한 성능을 보여주는알고리즘이다.