통계 이야기

다양한 스플라인 함수추정 본문

통계학/비모수통계학

다양한 스플라인 함수추정

St story 2023. 6. 8. 22:25

 앞서 우리는 스플라인 기저함수들을 통해 데이터를 적합하는 함수추정에 대해서 알아보았다. 다만, 앞서 살펴본 함수는 매우 기본적인 일차 직선의 함수뿐이었다. 이번 글에서는 함수추정을 할 수 있는 다양한 방법들에 대해 소개해보고 이렇게 다양한 함수들 중 좋은 모형은 무엇인지, 그것을 판단할 수 있는 기준은 무엇인지에 대해 소개해보고자 한다.

0. 기저함수방법론

  먼저 함수 추정방법에는 일차스플라인 기저함수 추정 이외에도, 그 차수에 따라 다양하게 추정이 가능하다. 크게 3차 스플라인까지 있으며, 그 이상은 추정에 큰 의미가 없어 주로 0차부터 3차 스플라인 적합을 많이 사용한다. 그러면 먼저 0차 스플라인에 대해서 알아보도록 하겠다. 

 앞서 소개했던 기저함수방법론은 함수들이 매듭점에 따라 기울기가 변하여, 그 형태가 변형되는 모형을 보여주었다. 이 과정에서  ReLU함수를 이용하였는데 이는 기본기저함수들의 기울기를 조정해주는 역할을 하였다. 

 

ReLU 함수, 0이하면 0을, 0보다 큰 수를 대입하면 자기자신을 내뱉는 함수이다.
P차 스플라인에 대한 ReLU 기저함수들이다. 각각의 t값들은 매듭점을 뜻하며 매듭점 이하의 값들은 0으로, 그 이상의 값들은 t로 내뱉는 역할을 한다.

 결국 우리가 추정하는 함수의 형태는 기본 기저함수들을 포함해서 다음과 같이 나온다.

파란색이 기본기저함수이며 빨간색은 p차 스플라인 기저함수를 나타낸다.

 함수를 추정하는 것은 결국 모수인 회귀계수들을 추정하는 것이며 이는 잔차제곱합을 최소로하는 값을 찾아내는 과정을 통해 추정할 수 있다. 자세한 내용은 이전 글들에서도 설명했으니 넘어가도록 하겠다. 

1. 0,1,2,3차 스플라인

 결국 달라진 점은 수식에 p가 붙었다는 것이다. 이 p는 스플라인 기저함수의 차수를 나타내준다. 그런데 만약 p에 0이라는 수가 들어간다면 어떻게 될까. 

 아마 회귀계수들만 식에서 남게 될 것이다. 이는 결국 매듭점에 따라 상수함수의 형태를 띄는 그런 함수가 추정될 것이라는 의미이다. 그래프로 나타내면 다음과 같은 그림이 나올것이다. 

꺾은선 그래프와 다르게 상수함수를 이은 그래프가 나왔다.

그림을 보면 알 수 있지만, 여기서 매듭점의 개수가 많아질수록 함수가 굉장히 복잡해지는 것을 알 수 있다. 이렇게 0차 스플라인 기저함수를 이용해도 매듭점의 개수에 따라 수많은 함수들이 존재하는 것을 확인할 수 있다. 

 그 다음은 앞서 꺾은선 그래프로도 나왔던 1차 스플라인이다. p=1이므로 일직선의 형태들이 서로 매듭점의 위치에서 서로 꺾여서 나타나는 형태를 보일 것이다. 이는 각각의 매듭점에서 연속이고 구간마다 일차 직선의 형태를 띄기 때문이다. 그래프로 나타내면 다음과 같을 것이다. 

1차 스플라인을 통해 적합한 함수들이다.

1차스플라인 적합 함수들도 매듭점의 개수마다 그 복잡도가 다양한 것을 확인할 수 있다.

 2차, 3차 스플라인도 원리는 동일하다. 다만 함수의 그래프가 조금 더 부드러운 형태를 띌 것이다. 이는 3차 스플라인으로 갈수록 더욱더 그렇다. 그래프를 보면 훨씬 더 직관적으로 이해하기 쉽다. 

 

2차 스플라인 적합 함수이다.
3차 스플라인 적합 함수이다.

 그래프를 보면 알 수 있지만, 2차에서 3차로 갈수록 훨씬 더 부드러운 함수가 나타나는 것을 볼 수 있다. 일반적으로는 부드러운 함수추정을 하기 위해 3차 스플라인을 종종 이용하곤 한다. 또한 이 이상의 차수는 그래프적으로도 큰 의미가 없다고 본다. 

2. 매듭점의 개수?

 앞서 살펴보았듯, 0차, 1차, 2차, 3차 스플라인 기저함수를 이용해 추정된 함수들 모두 매듭점의 개수에 따라 그 형태가 다양하게 나타나는 것을 알 수 있었다. 일반적으로 매듭점의 개수가 많을수록 데이터를 훨씬 더 잘 따라가는 모형이 적합되기 때문에 함수가 훨씬 더 복잡한 형태를 띄게 된다. 물론 데이터를 잘 적합하니 좋을수도 있지만 과도한 적합은 함수의 해석을 어렵게 만든다. 즉, 과적합(overfitting)의 문제가 존재한다. 또한 통계학은 모형 설정을 할 때, 간명성도 고려를 해야한다. 기왕 같은 모형이라면 하나라도 간단한 모형을 선택하고자 한다. 

 그렇다고 매듭점의 수가 매우 적으면 주어진 데이터를 함수가 잘 적합하지 못한다는 단점 또한 존재한다. 따라서 매듭점을 너무 적지도, 그렇다고 너무 많지도 않게 잘 설정한 모형이 좋은 모형이라고 할 수 있다. 

3. 모형 선택

 앞서 살펴보았듯, 함수 추정 문제에서 우리는 수많은 형태의 모형을 만들어낼 수 있었다. 이제 우리의 문제는 어떤 모형이 좋은 모형인가? 이다. 좋은 모형을 판단할 때 우리가 생각해볼 수 있는 것들은 다음과 같다.

선형함수로 추정할 것인가? 비선형함수로 추정할 것인가?

스플라인 기저함수의 차수는?

매듭점의 개수는?

매듭점의 위치는?

추정량의 분산과 편향의 협상 문제에서 이 둘을 어떻게 조율할 것인가?

해석하기 좋은 모형은?

이렇게 다양한 것들을 고려해야하나, 사실 인간이 인위적으로 판단해서 고르는 것은 과학이라고 할 수 없다. 과학적인 방법이라면 데이터를 기반으로 한 의사결정이 이루어져야 한다. 다행히도 과거의 많은 사람들이 이를 판단할 수 있는 척도와 기준들을 마련해두었다. 이는 다음글에서 소개할 예정이다.