딥러닝에서 미분이 왜 필요해? (선형대수라며?)

딥러닝에서 '미분'이 왜 필요해? (선형대수라며?)

딥러닝을 공부하다 보면 '선형대수(Linear Algebra)'와 '미분(Calculus)'이라는 두 수학 대장들을 만나게 됩니다. 여기서 개발자라면 한 번쯤 고개를 갸웃하게 되는 지점이 있습니다.

"아니, 이름부터가 '선형(Linear)' 대수잖아. y = ax + b 꼴이라는 건데... 1차 함수는 미분하면 그냥 상수(a) 남는 거 아니야? 미분이랄 게 있어? 그냥 방정식 풀면 답 나오는 거 아냐?"

맞습니다. 만약 딥러닝 모델이 정말로 완벽한 '선형'이라면 미분이고 자시고 할 것 없이 행렬 역연산 한 방이면 정답(x)을 찾을 수 있습니다.

하지만 우리가 다루는 현실의 문제는 그렇게 호락호락하지 않죠. 오늘은 왜 우리가 굳이 이 복잡한 '미분'이라는 도구를 꺼내들어야 하는지, 그 찐 이유를 개발자의 언어로 풀어봅니다.

미분을 수학 공식이 아니라 시스템 운영 관점에서 바라봅시다.

여러분이 수천 개의 설정 노브(Knob)가 달린 거대한 블랙박스 서버를 튜닝하고 있다고 상상해 보세요.

이때 '미분을 한다'는 건 아주 단순한 행위입니다.

"1번 노브를 오른쪽으로 0.001mm 살짝 돌렸을 때, 응답 속도가 줄었어? 늘었어?"

이 질문에 대한 대답이 바로 미분값(기울기)입니다.

결국 딥러닝에서 미분은 수학 문제를 푸는 게 아니라, "오차를 줄이기 위해 어느 방향으로 파라미터를 수정해야 할지 알려주는 나침반" 역할을 합니다.

앞서 가졌던 의문, "선형이면 그냥 풀면 되잖아?" 로 돌아가 봅시다.

딥러닝이 강력한 이유는 선형 연산(행렬 곱) 사이에 ReLU나 Sigmoid 같은 '비선형 함수(Activation Function)'를 샌드위치처럼 끼워 넣기 때문입니다.

선형만 있을 때: 아무리 레이어를 깊게 쌓아도 결국은 그냥 큰 행렬 하나 곱하는 것과 똑같습니다. (y = a(b(cx))는 결국 y = abcx 니까요.)
비선형이 섞일 때: 이제 그래프는 직선이 아니라 구불구불한 산맥이 됩니다. 방정식 하나로 '짠' 하고 최적의 해를 구할 수 없는 복잡한 지형이 되어버리죠.

그래서 우리는 수학적으로 해를 한 방에 찾는 것을 포기하고, 미분이라는 지팡이를 짚고 산을 조금씩 내려가는 방법(경사 하강법) 을 택한 것입니다. 이것이 딥러닝 학습의 본질입니다.

"벡터를 미분한다"는 말이 어렵게 들리나요? 개발자식으로 해석하면 Batch Processing입니다.

파라미터(설정값)가 1개라면 그냥 스칼라 미분이지만, 요즘 모델은 파라미터가 수십억 개입니다(LLM 등). 이 수십억 개의 노브를 하나씩 돌려보며 테스트할 순 없습니다.

벡터/행렬 미분(Gradient) 은 이 수십억 개의 질문을 한 번의 연산으로 처리합니다.

"야, 지금 있는 파라미터 70억 개 전부 다! 각자 자기 위치에서 조금 움직이면 결과가 어떻게 되는지 리포트 제출해."

이 리포트 뭉치가 바로 그라디언트 벡터(Gradient Vector) 입니다. 파이토치가 GPU를 써서 하는 일이 바로 이 거대한 리포트를 순식간에 계산해 내는 것이죠.

자, 이제 미분이 "오차를 줄이는 방향을 알려주는 나침반" 이라는 건 알았습니다. 그런데 딥러닝 모델은 레이어가 수십, 수백 층으로 쌓여 있죠?

이 꼬리에 꼬리를 무는 미분의 연쇄 작용, 이것을 효율적으로 계산하는 알고리즘이 바로 그 유명한 역전파(Backpropagation) 입니다.

다음 글에서는 이 역전파가 어떻게 '미분의 연쇄 법칙(Chain Rule)' 하나로 이 깊은 신경망을 뚫고 지나가는지, 그 우아한 메커니즘에 대해 다뤄보겠습니다.