본문 바로가기

연구모형

연구모형중 회귀분석(regression test)이란

반응형

연구모형이란?

연구자가 관심을 가지고 사회적 현상을 설명하기 위해

어떤 요인을 활용(인용)하여 과학적 방식으로 구체적이고 전반적인 상황을 밝혀가기 위한 기본틀을

연구모형이라고 한다.

모형(model)은  '실제 상황에 대한 이상적 표현' 이다.

 

연구모형에는 사회현상을 설명하는 것이기에 다양한 요인이나 변수가 존재하게 된다.

현상을 설명하기 위해서는 딱 드러맞는 원인이 많지 않기에 

설명력을 가진 다양한 요인들을 대입하여 설명을 하게 되고

요인들이 사회현상과 관련이 있는지 인과관계를 체계적으로 검토하고 도식화하는 과정이 수행된다. 

 

우리가 자주 활용하는 설명모델은 회귀모형분석이다. 

원인과 결과가 명확하다면 서로 인과관계가 존재하다고 볼 수 있는데

'어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균'으로 현상을 설명하게 된다. 

선형적 회귀관계의 그림

회귀분석은 Y축은 항상 종속변수나 테스트하려는 항목이 배치되게 된다. 

X축은 독립변수인 영향요인들을 배치하여 상호간의 인과(의존)관계를 파악하는 분석방법이다.

 

Y(반응변수, 종속변수) = A + BX(설명변수, 독립변수)

 

간단하게 키(height)에 따른 몸무게(weight)를 검토해보면

weight = a + (b x height)로 볼 수 있는데, 키가 크면 몸무게가 많이 나간다는 설명을 어느정도는 할 수 있게 된다. 

물론 모든 현상을 다 설명할 수 없다는 것은 예상가능할 것이다. 

키가 크더라고 몸무게가 적게 나갈 수도 있으니까...

이렇듯 예상한 현상이 설명가능한지를 파악하기 위해서 정규성(normality)를 살펴보게 된다. 

 

* 정규성(Normality):

반응변수(종속변수)가 정규분포한다면 잔차(residual value) 또한 정규분포하며 평균은 0이다. 

정규성 가정을 만족한다면 그래프의 점들은 45도 각도의 직선 위에 있어야 한다.

 

이렇게 함수관계가 도출되면 예측(prediction)이 가능하기에 기존의 정보들을 근거로 결과치를 예상할 수 있는 상황이 되낟.  

 

예를 들면, 행복감이라는 결과(종속변수)를 설명하기 위해 

원인이 될 수 있는 요인들로 가족관계의 만족도나 건강상태, 종교를 가지고 있는지 여부, 여가활동의 정도, 직장내 인간관계의 만족도 등 다양한 원인들이 있을 수 있는데, 

이들 요소들이 긍정적 영향을 주는지, 부정적 영향을 주는지 설명하는 방식이 회귀모형의 유형이다. 

회귀모형에서는 1:1의 관계도 존재하지만 대부분은 직간접적인 영향력을 미치고 있다.

직장내 인간관계 만족도는 직업에 대한 자부심이나 직급이나 급여의 수준들이 영향을 미칠 수 있는데, 이러한 요인간의 관계를 직접효과나 간접효과로 설명하기도 한다. 

이렇듯 모형은 간단하지만, 설명해 가려면 녹녹치 않은 것이 현실이다. 

우선 회귀분석은 앞서 예시를 들었던 것처럼 선형적 관계가 존재하는지, 키가 크면 몸무게가 더 많다라는 설명이 합당한지를 확인해 봐야 한다.

 

이를 위해 통계검정을 통해

구성한 회귀모형이 유의한 것인지를 확인해야 하는데, 회귀계수를 통해 양의 관계를 유지하고 있는지를 살펴보는 것이 첫걸음이 될 것이다. 

 

회귀모형의 유의하다는 것은 예측력이 합당한지를 보는 것이며, 결정계수 R2의 크기에 대해 F분포로 살펴보게 된다.

다음은 여러 영향요인들중에 어떤 요인이 더 예측에 유의한 인과관계가 있는지를 살펴보아야 하는데 t검정을 통해 요인간에 차이를 살펴봐야 한다. 

 

회귀결정계수(R2)는 모든 관찰치가 포함되면 1이 된다. (완전히 선형적 관계임)

하지만, 몇몇 요인들이 예측력이 낮아지면 1보다 작게 되는데, 0에 가까울 수록 영향력이 낮다고 설명하게 된다. 

 

R2는 0 에서 1 사이에 값을 갖는다 (0 ≤ R2  ≤ 1).

 

F분포는 연속확률을 파학하는 것으로 통계값과 평균값간의 차이에 편차를 제곱하여 얻은 값들의 산술평균(분산)을 통해 평균에 얼마나 수렴(모이는지)되는지를 파악하여 예측력을 파악한다. 

 

F= 샘플간 평균분산 / 샘플내 분산

 

분산이 작으면 자료는 평균값 주위에 모여 있게 되고, 분산이 크면 자료 가운데 평균값에서 멀리 떨어진 것이 많게 된다. 또한 개체(object)로부터 얻어진 데이타들의 집합인 샘플과 이러한 샘플들이 2개 이상이 되면 샘플들간의 평균의 분산을 얻을수 있다. 

 

회귀분석에서 t값은 요인들의 강도라고 할 수 있다. 

표준오차가 작아질 수록 t값은 커지기에(독립변수와 종속변수간에 상관도가 높음),

표준오차를 작게 하기 위해 표본의 크기를 키우기도 한다. 

 

앞서 본 F값은 t값의 제곱이기에 회귀분석과정에서는 F값과 t값을 살펴보면서 선형관계가 있는지 요인들의 예측력이 강한지를 볼 수 있는 분석방법이기에 가장 많이 사용된다. 

 

 

 

반응형

'연구모형' 카테고리의 다른 글

[연구모형] 효율성을 검증하는 DEA 모형  (0) 2023.03.04