Programmers/데브코스 인공지능

[프로그래머스 스쿨 AI] Weak 6 머신러닝 기초 수학

1.  기본 표기법 (Basic Notation)

Deep learning을 이해하기 위해서 반드시 선형대수 + 행렬미분 + 확률의 탄탄한 기초가 필요하다

transformer의 attention matrix:

$ {Att}_{\leftrightarrow}(Q, K, V) = D^{-1}AV, ~A = \exp(QK^T/\sqrt{d}), ~D = \mathrm{diag}(A1_L) $

1. 자료구조 

내적 (뒤에가 세로로(차원이많음) 되있음) : 서로 곱해서 1개가됨

외적 (앞에가 세로로(차원이 많음) 되있음) :  서로 곱해서 nXm이됨 (두개 크기 서로 곱함)

 

 

2. 코드