일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 좌표하강알고리즘
- Residual learning
- transfer learning
- RESNET
- TRANSFORMER
- glmnet
- CV
- self-attention
- 선형회귀
- 릿지회귀
- R
- VIT
- Identity mapping
- decoder
- vision transformer
- LassoRegression
- nlp
- rnn
- Inductive bias
- lasso
- BERT
- image classification
- 라쏘회귀
- attention
- 통계학
- Cross-Validation
- RidgeRegression
- Encoder
- CDA
- Today
- Total
목록TRANSFORMER (3)
통계 이야기

1. Introduction 기존의 사전학습 모델의 전략으로는 크게 두 가지가 있다. 하나는 feature-based 모델이고 다른 하나는 fine-tuning모델이다. 전자의 예시로는 ELMo가 있으며 Bi-lstm모델을 사용하지만, 양방향구조가 얕은 층에서만 작동하지 않고 모든 층 간의 양방향 정보 교환이 이루어지지는 않는다. 후자의 대표적인 예시로는 GPT가 있으며 이 모델은 사전훈련과정에서 단방향 언어 모델을 사용하여 문맥을 고려한 임베딩을 생성한다. 즉, 왼쪽에서 오른쪽(left-to-right architecture)으로 생성하는 방식으로 작동한다. 뒤에 위치한 단어들의 정보는 예측에 직접적인 영향을 미치지 않는다. 이러한 ELMo와 GPT의 공통점으로, 사전훈련모델이 모두 unidirecti..

Transformer Background 기존의 기계 번역 모델로는 seq2seq모델이 존재했다. 인코더와 디코더 안의 구조가 주로 RNN 구조 혹은 LSTM구조를 사용하였다. 이러한 seq2seq모델의 문제점으로는 인코더를 통해 나온 하나의 context vector로 입력된 문장의 정보를 압축하기 때문에, 병목 현상 문제가 발생된다는 점이 있었다. 이는 모델의 성능을 떨어뜨리게 하는 문제를 야기한다. 이러한 단점의 대안으로 seq2seq모델에 attention mechanism이 추가 되었고 여기에 더 나아가 어떠한 RNN, LSTM구조를 사용하지 않고 attention mechanism만을 통한 모델링을 하는 transformer구조가 개발되었다. Transformer Architecture 트랜스..

1. Introduction self attention에 기반한 Transformer구조는 NLP분야에서 지배적인 위치를 차지하게 되었다. 반면 컴퓨터 비전 분야에서는 컨볼루션 구조가 아직까지 지배적이었다. CNN 구조와 self attention을 조합한 모델들의 시도와 한계가 있었으며, 대규모 이미지 인식에서는 전통적인 ResNet과 같은 아키텍처가 여전히 뛰어난 성능을 보이고 있다. NLP 분야에서 Transformer 구조를 이미지에 그대로 적용을 해보았다. 이미지를 여러 패치들로 분해하였고 이는 NLP에서의 토큰과도 같이 여겨졌다. 우리는 이미지 분류 모델을 지도 학습 방식으로 훈련시켰다. 데이터가 충분하지 않을 경우, 트랜스포머 구조는 CNN에 내재된 inductive bias에 대해서 부족한..