일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 통계학
- Cross-Validation
- Residual learning
- self-attention
- vision transformer
- Inductive bias
- nlp
- Identity mapping
- glmnet
- CV
- VIT
- BERT
- RidgeRegression
- R
- rnn
- CDA
- 좌표하강알고리즘
- 라쏘회귀
- lasso
- Encoder
- TRANSFORMER
- RESNET
- image classification
- decoder
- LassoRegression
- 릿지회귀
- transfer learning
- attention
- 선형회귀
- Today
- Total
목록자연어처리/논문리뷰 (5)
통계 이야기

1. Introduction CNN은 이미지 분류 문제에서 아주 강력한 해결책 중 하나였다. 최근의 연구들은 이러한 인공 신경망 네트워크의 깊이가 성능에 매우 중요하다는 것을 밝혀내고 있다. 하지만 다음과 같은 문제가 대두된다. 층을 더 깊이 쌓을수록 네트워크들이 더 학습을 잘하는가? 이 질문에 대한 대답의 장애로 악명높은 문제인 gradient의 소실, 증폭 문제가 있다. 하지만 이 문제는 또한, normalized initialization과 intermediate normalization layers로 해결이 되었다. 깊은 신경망들이 수렴을 시작할 때 degradation 문제에 노출된다. 네트워크의 깊이가 깊어질수록 정확도는 포화되고 그 후에는 오히려 급격하게 성능이 저하된다. 그리고 의도치않게 ..

1. Introduction 머신러닝과 인공지능 분야에서 sequential data prediction은 매우 중요한 문제로 고려되어왔다. Statistical language modeling의 목표는 문맥을 고려하여 다음 단어를 예측하는 것이다. 이와 같은 자연어처리 분야에서는 해당 목표를 달성하기 위한 대표적인 방법으로는 N-gram 모델이 존재한다. 더 성능을 높이기 위해 다양한 방법들이 고안되었지만 cache models와 class-based models과 성능이 비슷했다. 실제로 발달된 언어 모델 technique들은 아주 이전의 것들보다 조금 개선이 되었고, 일상 생활에서 아주 드물게 사용이 되었다. 2. Model description 우리는 연속적인 데이터를 다루기 위한 방법으로 RNN..

1. Introduction 기존의 사전학습 모델의 전략으로는 크게 두 가지가 있다. 하나는 feature-based 모델이고 다른 하나는 fine-tuning모델이다. 전자의 예시로는 ELMo가 있으며 Bi-lstm모델을 사용하지만, 양방향구조가 얕은 층에서만 작동하지 않고 모든 층 간의 양방향 정보 교환이 이루어지지는 않는다. 후자의 대표적인 예시로는 GPT가 있으며 이 모델은 사전훈련과정에서 단방향 언어 모델을 사용하여 문맥을 고려한 임베딩을 생성한다. 즉, 왼쪽에서 오른쪽(left-to-right architecture)으로 생성하는 방식으로 작동한다. 뒤에 위치한 단어들의 정보는 예측에 직접적인 영향을 미치지 않는다. 이러한 ELMo와 GPT의 공통점으로, 사전훈련모델이 모두 unidirecti..

Transformer Background 기존의 기계 번역 모델로는 seq2seq모델이 존재했다. 인코더와 디코더 안의 구조가 주로 RNN 구조 혹은 LSTM구조를 사용하였다. 이러한 seq2seq모델의 문제점으로는 인코더를 통해 나온 하나의 context vector로 입력된 문장의 정보를 압축하기 때문에, 병목 현상 문제가 발생된다는 점이 있었다. 이는 모델의 성능을 떨어뜨리게 하는 문제를 야기한다. 이러한 단점의 대안으로 seq2seq모델에 attention mechanism이 추가 되었고 여기에 더 나아가 어떠한 RNN, LSTM구조를 사용하지 않고 attention mechanism만을 통한 모델링을 하는 transformer구조가 개발되었다. Transformer Architecture 트랜스..

1. Introduction self attention에 기반한 Transformer구조는 NLP분야에서 지배적인 위치를 차지하게 되었다. 반면 컴퓨터 비전 분야에서는 컨볼루션 구조가 아직까지 지배적이었다. CNN 구조와 self attention을 조합한 모델들의 시도와 한계가 있었으며, 대규모 이미지 인식에서는 전통적인 ResNet과 같은 아키텍처가 여전히 뛰어난 성능을 보이고 있다. NLP 분야에서 Transformer 구조를 이미지에 그대로 적용을 해보았다. 이미지를 여러 패치들로 분해하였고 이는 NLP에서의 토큰과도 같이 여겨졌다. 우리는 이미지 분류 모델을 지도 학습 방식으로 훈련시켰다. 데이터가 충분하지 않을 경우, 트랜스포머 구조는 CNN에 내재된 inductive bias에 대해서 부족한..