일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- image classification
- CDA
- RidgeRegression
- 통계학
- R
- RESNET
- CV
- VIT
- Cross-Validation
- decoder
- BERT
- glmnet
- TRANSFORMER
- Identity mapping
- vision transformer
- 릿지회귀
- LassoRegression
- Encoder
- self-attention
- transfer learning
- rnn
- 라쏘회귀
- nlp
- Inductive bias
- 선형회귀
- attention
- lasso
- Residual learning
- 좌표하강알고리즘
- Today
- Total
목록분류 전체보기 (17)
통계 이야기

1. Introduction CNN은 이미지 분류 문제에서 아주 강력한 해결책 중 하나였다. 최근의 연구들은 이러한 인공 신경망 네트워크의 깊이가 성능에 매우 중요하다는 것을 밝혀내고 있다. 하지만 다음과 같은 문제가 대두된다. 층을 더 깊이 쌓을수록 네트워크들이 더 학습을 잘하는가? 이 질문에 대한 대답의 장애로 악명높은 문제인 gradient의 소실, 증폭 문제가 있다. 하지만 이 문제는 또한, normalized initialization과 intermediate normalization layers로 해결이 되었다. 깊은 신경망들이 수렴을 시작할 때 degradation 문제에 노출된다. 네트워크의 깊이가 깊어질수록 정확도는 포화되고 그 후에는 오히려 급격하게 성능이 저하된다. 그리고 의도치않게 ..

1. Introduction 머신러닝과 인공지능 분야에서 sequential data prediction은 매우 중요한 문제로 고려되어왔다. Statistical language modeling의 목표는 문맥을 고려하여 다음 단어를 예측하는 것이다. 이와 같은 자연어처리 분야에서는 해당 목표를 달성하기 위한 대표적인 방법으로는 N-gram 모델이 존재한다. 더 성능을 높이기 위해 다양한 방법들이 고안되었지만 cache models와 class-based models과 성능이 비슷했다. 실제로 발달된 언어 모델 technique들은 아주 이전의 것들보다 조금 개선이 되었고, 일상 생활에서 아주 드물게 사용이 되었다. 2. Model description 우리는 연속적인 데이터를 다루기 위한 방법으로 RNN..

1. Introduction 기존의 사전학습 모델의 전략으로는 크게 두 가지가 있다. 하나는 feature-based 모델이고 다른 하나는 fine-tuning모델이다. 전자의 예시로는 ELMo가 있으며 Bi-lstm모델을 사용하지만, 양방향구조가 얕은 층에서만 작동하지 않고 모든 층 간의 양방향 정보 교환이 이루어지지는 않는다. 후자의 대표적인 예시로는 GPT가 있으며 이 모델은 사전훈련과정에서 단방향 언어 모델을 사용하여 문맥을 고려한 임베딩을 생성한다. 즉, 왼쪽에서 오른쪽(left-to-right architecture)으로 생성하는 방식으로 작동한다. 뒤에 위치한 단어들의 정보는 예측에 직접적인 영향을 미치지 않는다. 이러한 ELMo와 GPT의 공통점으로, 사전훈련모델이 모두 unidirecti..

Transformer Background 기존의 기계 번역 모델로는 seq2seq모델이 존재했다. 인코더와 디코더 안의 구조가 주로 RNN 구조 혹은 LSTM구조를 사용하였다. 이러한 seq2seq모델의 문제점으로는 인코더를 통해 나온 하나의 context vector로 입력된 문장의 정보를 압축하기 때문에, 병목 현상 문제가 발생된다는 점이 있었다. 이는 모델의 성능을 떨어뜨리게 하는 문제를 야기한다. 이러한 단점의 대안으로 seq2seq모델에 attention mechanism이 추가 되었고 여기에 더 나아가 어떠한 RNN, LSTM구조를 사용하지 않고 attention mechanism만을 통한 모델링을 하는 transformer구조가 개발되었다. Transformer Architecture 트랜스..

1. Introduction self attention에 기반한 Transformer구조는 NLP분야에서 지배적인 위치를 차지하게 되었다. 반면 컴퓨터 비전 분야에서는 컨볼루션 구조가 아직까지 지배적이었다. CNN 구조와 self attention을 조합한 모델들의 시도와 한계가 있었으며, 대규모 이미지 인식에서는 전통적인 ResNet과 같은 아키텍처가 여전히 뛰어난 성능을 보이고 있다. NLP 분야에서 Transformer 구조를 이미지에 그대로 적용을 해보았다. 이미지를 여러 패치들로 분해하였고 이는 NLP에서의 토큰과도 같이 여겨졌다. 우리는 이미지 분류 모델을 지도 학습 방식으로 훈련시켰다. 데이터가 충분하지 않을 경우, 트랜스포머 구조는 CNN에 내재된 inductive bias에 대해서 부족한..

0. 다양한 함수평활 앞선 글에서 살펴보았듯, 기저함수방법론을 통해 다양한 형태의 함수들을 적합할 수 있었다. 함수의 형태는 스플라인 기저함수들을 차수에 따라, 혹은 매듭점의 위치와 개수에 따라 달라지곤 했는데, 오늘은 이렇게 수많은 함수들 중 좋은 모형은 무엇인지에 대해서 설명해보고자 한다. 1. 매듭점 개수 먼저 매듭점의 개수를 선택하는 방법이다. 보통 데이터를 n개라고 하면, 일단 매듭점의 개수는 n보다는 작아야 할 것이다. 데이터의 개수보다 많은 매듭점을 설정하는 것은 불가능하기 때문이다. 우선 매듭점의 상한선을 정하는데, 보통 데이터의 개수 n에 비례하여 설정한다. 예를 들어 데이터의 10프로, 5프로... 등등. 매듭점의 상한선을 K라고 했을 때, 이 K가 정해졌다면, 매듭점의 개수 1...k..

앞서 우리는 스플라인 기저함수들을 통해 데이터를 적합하는 함수추정에 대해서 알아보았다. 다만, 앞서 살펴본 함수는 매우 기본적인 일차 직선의 함수뿐이었다. 이번 글에서는 함수추정을 할 수 있는 다양한 방법들에 대해 소개해보고 이렇게 다양한 함수들 중 좋은 모형은 무엇인지, 그것을 판단할 수 있는 기준은 무엇인지에 대해 소개해보고자 한다. 0. 기저함수방법론 먼저 함수 추정방법에는 일차스플라인 기저함수 추정 이외에도, 그 차수에 따라 다양하게 추정이 가능하다. 크게 3차 스플라인까지 있으며, 그 이상은 추정에 큰 의미가 없어 주로 0차부터 3차 스플라인 적합을 많이 사용한다. 그러면 먼저 0차 스플라인에 대해서 알아보도록 하겠다. 앞서 소개했던 기저함수방법론은 함수들이 매듭점에 따라 기울기가 변하여, 그 ..

0. 들어가며 지금까지 데이터를 보고 즉시 함수를 추정하는 과정을 거쳤다. 그 과정에서 회귀계수를 추정하는 방법 중 하나로 좌표하강 알고리즘에 대해서도 다루었고 좌표하강 알고리즘으로 단순 선형회귀 모형을 적합해보기도 했다. 하지만, 실제 데이터가 항상 선형적으로 구성되어있지는 않다. 이번에는 직선으로 이루어진 단순 회귀식이 아닌, 절단된 데이터 모형을 적합하는 방법에 대해 설명해보도록 하겠다. 1. 조각 다항식 조각 다항식은 각 부분구간에 조각다항식 자체를 국한하였을 경우 다항식이 되는 함수이다. 간단하게 x=0에서 함수의 모형이 바뀌는 함수로 예를 들어보면 다음과 같이 나타낼 수 있다. 문제는 앞서 다루었던 기저함수와 회귀계수의 선형결합으로 이 함수를 어떻게 표현할 수 있느냐이다. 우선 비모수통계에서 ..