1. 기본 표기법 (Basic Notation)
Deep learning을 이해하기 위해서 반드시 선형대수 + 행렬미분 + 확률의 탄탄한 기초가 필요하다
transformer의 attention matrix:
$ {Att}_{\leftrightarrow}(Q, K, V) = D^{-1}AV, ~A = \exp(QK^T/\sqrt{d}), ~D = \mathrm{diag}(A1_L) $
1. 자료구조
내적 (뒤에가 세로로(차원이많음) 되있음) : 서로 곱해서 1개가됨
외적 (앞에가 세로로(차원이 많음) 되있음) : 서로 곱해서 nXm이됨 (두개 크기 서로 곱함)
2. 코드
'Programmers > 데브코스 인공지능' 카테고리의 다른 글
| [프로그래머스 스쿨 AI] Weak 7 확률 분포 (0) | 2021.06.08 |
|---|---|
| [프로그래머스 스쿨 AI] Weak 6 E2E 실습 집값에 따른 분석 (0) | 2021.06.06 |
| [프로그래머스 스쿨 AI] Weak 6 선형회귀 실습 (0) | 2021.06.03 |
| [프로그래머스 스쿨 AI] Weak6 결정이론 (0) | 2021.06.01 |
| [프로그래머스 스쿨 AI] Weak 6 확률이론 (0) | 2021.05.28 |