"A survey of Transformer" paper study @DSBA Lab
π Paper : Lin, Tianyang, et al. "A Survey of Transformers." arXiv preprint arXiv:2106.04554 (2021) [Link]
κ³ λ €λνκ΅ μ°μ κ²½μ곡νκ³Ό Data Science & Business Analytics Lab [HomePage] [Youtube]
: Transformerμ NLPλ₯Ό μ¬λνλ μ°κ΅¬μ€ νμλ€λ‘ ꡬμ±λ μ€ν°λ μ λλ€ π
yukyung | myeongsup | hoonsang | jina | jaehyuk | subin |
---|---|---|---|---|---|
Github | Github | Github | Github | Github | Github |
: μ΄ μ€ν°λλ μλ² μ΄ λ Όλ¬Έμμ λμ€λ λͺ¨λ λ Όλ¬Έμ€μμ λ ΈλμμΌλ‘ νμλ λ Όλ¬Έμ λ€λ£Ήλλ€ (μ΄λ‘μ: μ°κ΅¬μ€ μΈλ―Έλμμ λ€λ£¬ μ μμ)
: μ΄ μ€ν°λλ λ Όλ¬Έμ λμ€λ λͺ¨λ Transformerμ ꡬ쑰λ₯Ό μ΄ν΄νκΈ° μν κ²μ΄ μλλ©°, λ Όλ¬Έμ ν΅ν΄ κΈ°μ‘΄ Transformer λλΉ Module level - Arch level, Pretrain levelμμ μ΄λ€ λ³νκ° μλμ§ νλ¦μ μ΄ν΄λ³΄λ κ²μ λͺ©μ μΌλ‘ ν©λλ€.
- λͺ¨λ μΈμμ΄ ν΄λΉ λ Όλ¬Έμ 1νλ ν΄μΌν©λλ€.
- κ° μ±ν°λ³λ‘ μΈμμ λ°°μ νμ¬ ν΄λΉ ννΈλ₯Ό coreνκ² κ³΅λΆν μ¬λμ μ νκ³ , λ°νμλ£ μ μκ³Ό μ€ν°λ λ°νλ₯Ό λ΄λΉν©λλ€.
- λ°ν μλ£λ₯Ό μ μνλ μ΄μ : 곡λΆν λ΄μ©μ μ 리νλ κ³Όμ μ ν΅ν΄ μ΄ν΄ν λ΄μ©μ ꡬ쑰ν νκΈ° μν¨μ λλ€.
- κ° μ±ν°λ³λ‘ λ Όλ¬Έ λ΄μ©μ μ νμ΄μ€ ν λλλκ²μ΄ μλλΌ, ν΄λΉ λΆλΆμμ μ€μν κ² κ°μ 'ν΅μ¬'κ°λ μ μ°Ύμ κ·Έ κ°λ μ μμΈν μ€λͺ ν΄μ£Όμλ©΄ λ©λλ€
- μΆν μμ μ μ±ν°λ‘ λ°νμμμ μ μν ν μ°κ΅¬μ€ μ νλΈμ μ λ‘λ ν΄μΌν©λλ€
- 7/7 ~ 7/18 : λ Όλ¬Έ κ°μΈ 곡λΆ
- 7/19 ~ 7/29 : μ€ν°λ μ§ν
- 7/30 : μ€ν°λ μμ μ λ‘λ (μμ , DSBA Youtube channel)
00) Introduction
- μμ / λ°νμλ£
- λ°νμ : μ΄μ κ²½ λ°μ¬κ³Όμ
- νΈμ§ : μ€νμ μμ¬κ³Όμ , νμ¬ν μμ¬κ³Όμ
01) Transformer basic (1~6 Page)
- μμ / λ°νμλ£
- μ£Όμ : Vanilla Transformer
- μ€ν°λ μ§ν : 7/20
- λ°νμ : κΉμλΉ μμ¬κ³Όμ
02) Module-level : Attention 1 (6~11 Page)
- μμ / λ°νμλ£
- μ£Όμ : Sparse Attention
- μ€ν°λ μ§ν : 7/21
- λ°νμ : μ€νμ μμ¬κ³Όμ
03) Module-level : Attention 2 (11~15 Page)
- μμ / λ°νμλ£
- μ£Όμ : Linearized / Prototype / Memory Compress Attention
- μ€ν°λ μ§ν : 7/27
- λ°νμ : κΉμ§λ μλ°ν΅ν©κ³Όμ
04) Module-level : Attention 3 (15~20 Page)
- μμ / λ°νμλ£
- μ£Όμ : LowRank SeltAttention / Attention with Prior / Improved Multi-Head Mechanism
- μ€ν°λ μ§ν : 7/28
- λ°νμ : μ΄μ κ²½ μλ°ν΅ν©κ³Όμ
05) Module-level : Others (20~26 Page)
- μμ / λ°νμλ£
- μ£Όμ : Position Encoding / LayerNorm / FFN
- μ€ν°λ μ§ν : 7/29
- λ°νμ : νμ¬ν μμ¬κ³Όμ
06) Arch.-level ~ end (26~33 Page)
- μμ / λ°νμλ£
- μ£Όμ : Architecture-level variant
- μ€ν°λ μ§ν : 7/30
- λ°νμ : κΉλͺ μ μμ¬κ³Όμ
07) Appendix : λΉμ μ΄ λͺ¨λ₯΄λ transformerμ 3κ°μ§ μ¬μ€
- μμ / λ°νμλ£
- μ£Όμ : [Transformer] Complexity, Parameters, and Scaling
- μ€ν°λ μ§ν : 7/28
- λ°νμ : κΉλͺ μ μμ¬κ³Όμ
- μ΄λ€ μ§λ¬Έμ΄λ ν μ μμ΅λλ€
- λͺ¨λ₯΄λ λΆλΆμ μ±μ°κΈ° μν΄ κΈ°λ³Έμ μ΄κ³ μ¬μ΄ μ§λ¬Έλ μ£Όκ³ λ°μ μ μμ΅λλ€
- μ΄λ€ μ¬μ΄ μ§λ¬Έμ νλλΌλ μ§μ§νκ² λ Όμν©λλ€
- μ§λ¬Έμ λνλ νλ
- μ§λ¬Έμ μ΅λν μμλ₯Ό κ°μΆμ΄ μ§λ¬Έν©λλ€
- λ°ν μλ£ ν리ν°
- λ°νμλ£λ μΈλ―Έλμ²λΌ μ±μλ₯Ό λ΄μ ꡬμ±ν©λλ€
- λ€λ§ λ무 κΈΈκ² λ§λ€ νμλ μμ΅λλ€
- μΆν 보κ°
- μ€ν°λμμ λ
Όμν λ΄μ©μ ν΄λΉ μ±ν° λ΄λΉμκ° μ 리νμ¬ κ³΅μ ν©λλ€
- ν¨κ» λλμλ μ§λ¬Έ λ° λλ΅λ€
- μ€ν°λ μ€κ°μ λλ΅νμ§ λͺ»νλ μ 보λ€μ μ€ν°λ μ’
λ£ ν μ 리νμ¬ κ³΅μ ν©λλ€
- μ΄ λν μμΉ΄μ΄λΉ ν΄μ£ΌμΈμ !
- μ€ν°λμμ λ
Όμν λ΄μ©μ ν΄λΉ μ±ν° λ΄λΉμκ° μ 리νμ¬ κ³΅μ ν©λλ€