일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- R
- CV
- RESNET
- RidgeRegression
- attention
- glmnet
- 라쏘회귀
- rnn
- Cross-Validation
- BERT
- nlp
- VIT
- 선형회귀
- LassoRegression
- 좌표하강알고리즘
- Residual learning
- CDA
- Inductive bias
- Encoder
- transfer learning
- 릿지회귀
- 통계학
- lasso
- image classification
- vision transformer
- Identity mapping
- self-attention
- decoder
- TRANSFORMER
- Today
- Total
목록Encoder (2)
통계 이야기

1. Introduction 기존의 사전학습 모델의 전략으로는 크게 두 가지가 있다. 하나는 feature-based 모델이고 다른 하나는 fine-tuning모델이다. 전자의 예시로는 ELMo가 있으며 Bi-lstm모델을 사용하지만, 양방향구조가 얕은 층에서만 작동하지 않고 모든 층 간의 양방향 정보 교환이 이루어지지는 않는다. 후자의 대표적인 예시로는 GPT가 있으며 이 모델은 사전훈련과정에서 단방향 언어 모델을 사용하여 문맥을 고려한 임베딩을 생성한다. 즉, 왼쪽에서 오른쪽(left-to-right architecture)으로 생성하는 방식으로 작동한다. 뒤에 위치한 단어들의 정보는 예측에 직접적인 영향을 미치지 않는다. 이러한 ELMo와 GPT의 공통점으로, 사전훈련모델이 모두 unidirecti..

Transformer Background 기존의 기계 번역 모델로는 seq2seq모델이 존재했다. 인코더와 디코더 안의 구조가 주로 RNN 구조 혹은 LSTM구조를 사용하였다. 이러한 seq2seq모델의 문제점으로는 인코더를 통해 나온 하나의 context vector로 입력된 문장의 정보를 압축하기 때문에, 병목 현상 문제가 발생된다는 점이 있었다. 이는 모델의 성능을 떨어뜨리게 하는 문제를 야기한다. 이러한 단점의 대안으로 seq2seq모델에 attention mechanism이 추가 되었고 여기에 더 나아가 어떠한 RNN, LSTM구조를 사용하지 않고 attention mechanism만을 통한 모델링을 하는 transformer구조가 개발되었다. Transformer Architecture 트랜스..