• 서울시 마포구 도화동 347-39 예당빌딩 4층
  • 월~금요일 9:00 - 18:00
  • 02-887-7077

1. 회귀분석 – Multiple Regression Analysis

    1-1.다중회귀분석

      다중회귀분석은 2개 이상의 독립변수가 종속변수에 미치는 영향을 분석한다. 예를 들어, 매출액에 영향을 주는 변수로서 단순회귀에서 사용한 광고액 외에 종업원 근무년수, 1일 문의전화건수를 추가적으로 생각할 수 있다.

      다중회귀분석에서 고려해야 할 점은 다음과 같다.

      • 첫째, 독립변수간의 상관관계, 즉 다중공선성(multicollinearity)이다.
      • 둘째, 어떤 잔차항이 다른 잔차항에 영향을 미치게 되는 경우 오차항의 자기상관(autocorrelation) 또는 계열상관(serial correlation)이다.
      • 셋째, 종속변수가 독립변수의 변화에 따라 다른 분산을 보이는 이분산성(heteroscedasticity)등이 있다.

      이제 광고액(X1), 종업원 근무년수(X2 ), 1일 전화문의 건수(X3 ) 등이 매출액(Y )에 미치는 영향을 조사하기 위하여 다중회귀분석을 실시한다고 하자. 다중회귀분석에서 독립변수를 투입하는 방법은 ① 유의수준에 관계없이 독립변수를 일시에 투입하여 다중회귀모형을 구하는 방식, ② 독립변수를 단계별로 투입하는 방식, ③ 각 독립변수의 유의수준을 먼저 지정하고 그에 적합한 변수만으로 다중회귀식을 구하는 방식 등 세가지가 있다.

      다음의 절차를 진행하면 다중회귀분석을 실행 할 수 있다.

      분석(A)
      회귀분석(R)
      선형(L)

    1-2. 입력(동시투입)방식에 의한 다중회귀분석

      왼쪽의 변수상자로부터 종속변수란에 매출액(Y)을, 독립변수란에 광고액(X1), 근무년수(X2 ), 전화건수(X3 )를 지정하여 옮겨 놓는다. 여기에서 변수선택의 방법은 다음과 같다.

      선택 기능설명
      방법 독립변수를 분석에 입력하는 방법을 선택 할 수 있다.
      입력(Enter) 단 한번만에 지정한 변수들을 모두 진입시킨다.
      변수를 지정하지 않았을 때는 모든 독립변수들을 진입시킨다.
      단계선택(Stepwise) 각각의 단계마다 변수들을 유의도에 따라 진입과 탈락을 지정한다.
      제거(Removed) 지정한 변수들을 한번에 탈락시킨다.
      후향(Backward) 후향변수제거법 : 먼저 모든 변수를 진입시킨 후 제거기준에 따라
      한번에 변수 하나씩 제거시킨다.
      전향(Forward) 전향변수선택법 : 진입기준에 따라 한번에 하나씩 진입시킨다.

      [결과 : 다중회귀분석의 기술통계량]

      문항 평균 표준편차 N
      매출액 107.60 14.766 10
      광고액 38.80 9.508 10
      근무년수 8.80 1.033 10
      1일 전화문의건수 17.70 5.314 10

      매출액, 광고액, 근무년수, 전화건수에 대한 평균과 표준편차, 사례수에 대한 기술통계량이 나타나 있다.

      [결과 : 다중회귀분석의 결정계수]
      모형요약b

      모형 R 제곱 수정된 R제곱 추정값의 표준오차 Durbin-Watson
      1 961 .924 .886 4.976 1.955

      [결정계수 0.924] 독립변수인 광고액, 종업원 근무년수, 1일 전화문의건수로 구성된 회귀식이 매출액의 총변동을 92.4%을 설명하고 있다. 따라서 회귀식의 설명력은 상당히 높다고 볼 수 있다.

      [결과 : 다중회귀분석 분산분석표]
      분산분석

      모형 1 제곱합 자유도 평균제곱 F 유의확률
      회귀모형 1813.814 3 604.605 24.414 .001Rª
      잔차 148.586 6 24.764    
      합계 1962.400 9      

      회귀식의 통계적 유의성을 검정하는 F-통계량의 값은 24.414이고, 이에 대한 유의도가 0.001이다. 따라서 Sig. F = 0.001 < 0.05이므로, 이 회귀식은 유의하다고 볼 수 있다. 즉, 독립변수인 X1, X2, X3 으로 구성된 회귀식은 통계적으로 유의하다고 볼 수 있다.

      [결과 : 다중회귀분석 회귀계수]
      계수Rª

        모형 1 비표준화계수 표준화계수 t 유의확률 공선성 통계량
        B 표준오차 베타 공차 VIF
        (상수) -27.158 21.645   -1.255 .256    
        광고액 1.724 .216 1.110 7.992 .000 .654 1.528
        근무년수 5.901 1.652 .413 3.573 .012 .946 1.058
        1일 문의 전화건수 .901 .378 .324 2.386 0.54 .683 1.463

        a.종족변수: 매출액

        다중회귀식은

        으로 나타낼 수 있다. 다른 변수들을 일정하다고 놓고 보았을 때, 광고액이 1억원 늘어나면 매출액은 1.724억원씩, 종업원 근무년수가 1년 올라가면 매출액은 5.901억원씩 증가하는 것을 알 수 있다. 그런데 1일 문의전화건수의 회귀계수 0.901은 그 통계적 유의도가 낮아서(유의확률 0.53 > 0.05) 회귀계수로서의 의미가 없다고 할 수 있다. 다음으로, 베타(B)는 회귀계수를 표준화한 것으로 회귀계수의 중요도를 나타 낸다. 변수의 베타 값이 0에 가까울수록 무의미한 변수로 판정된다.

      1-3. 단계별 투입방식에 의한 다중회귀분석

        단계별 투입방식(stepwise)은 통계적 유의도가 낮은 독립변수를 제외하고 중회귀식을 얻는 방식이다. 광고액, 종업원 근무년수, 1일 전화문의건수의 독립변수 중에서 설명력이 높고 그리고 회귀계수의 통계적 유의도가 가장 높은 변수로부터 단계적으로 투입하다가, 회귀계수가 유의수준이 0.05 이하가 되면 탈락시킨다. 아마도 1일 문의전화건수 변수가 탈락할 것으로 예상할 수 있을 것이다.

        [결과 : 단계별 다중회귀분석의 결정계수]
        모형요약

        모형 R R제곱 수정된 R제곱 추정값의 표준오차 통계량 변화량
        R 제곱의 변화량 F변화량 자유도1 자유도2 유의확률 F변화량
        잔차 .844ª .712 .676 8.405 .721 19.778 1 8 .002
        합계 .923 .852 .810 6.431 .140 6.664 1 7 0.36

        a. 예측값: (상수), 광고액
        b. 예측값: (상수), 광고액, 근무년수

        • 모형 1: 먼저 광고액이 투입되었으며, 변수 X1 한 개가 종속변수 Y 총변동의 71.2%를 설명하고 있다.
        • 모형 2: 근무년수(X2)가 추가적으로 투입된 결과 설명력이 85.2%로 증가하였다. 따라서 설명력은 13.4%(81.0%-67.6%)만큼 증가되었다.

        [결과 : 단계별 중회귀분석 회귀계수]
        계수a

        모형 비표준화 계수 표준화 계수 t 유의확률
        B 표준오차 베타
        1 (상수) 56.754 11.783   4.835 .001
          광고액 1.310 .295 .844 4.447 .002
        2 (상수) 3.737 22.416   .167 .872
          광고액 148.586 .231 .924 6.222 .000
          근무년수 1962.400 2.122 .383 2.581 .036

          모형 1

        • 회귀식은 통계적으로 유의함을 알 수 있다. 이때의 상수(56.754)는 유의확률 0.001 < 0.05, 회귀계수(1.310)값은 유의확률 0.001 < 0.05로 모두 통계적으로 유의함을 알 수 있다.
        • 1단계에서의 회귀식은 Y=56.754 + 1.310X1으로 나타낼 수 있다.
          모형 2

        • 회귀식은 Y=1.434X1 + 5.478X2 이다. 이 회귀식과 각 회귀계수(상수항 제외)는 통계적으로 유의하다.
        • 중회귀분서에서는 독립변수의 개수가 많을수록 설명력은 높아지게 되므로 지나치게 많은 독립변수를 사용하는 것은 문제가 발생할 수 있다.
        • 통계적으로 유의하지 못한 1일 문의전화 건수(X3)는 포함되지 못한 것을 알 수 있다.

        [단계별 중회귀식에 포함되지 않는 독립변수]
        제외된 변수 c

        모형 1   진입-베타 t 유의확률 편상관 공선성 통계량
        공차한계
        1 근무년수 .383a 2.581 0.36 .698 .957
          전화건수 .272a 1.230 2.58 .422 .691
        2 전화건수 .324 2.386 0.54 .698 .683

        a. 모형내의 예측값: (상수), 광고액
        b. 모형내의 예측값: (상수), 광고액, 근무년수
        c. 종속변수: 매출액

        모형 2에서 투입되지 못한 1일 문의전화건수(  )를 보면 편상관계수(partial correlation)가 0.698로 높고 또한 통계적으로 유의하지 못하다(0.054 > 0.05). 즉,   를 추가로 투입하여도 현재의 설명력은 개선되는 부분이 매우 적다. 따라서 다중회귀분석은 여기서 끝난다.
        모형 1과 모형 2 중 어느 것이 더 나은지는 모형 1의 설명력 84.4%보다 모형 2의 설명력 92.3%가 더 높다는 것을 보고 판단 할 수 있다. 그러나 연구자에 따라서 높아진 설명력 7.9%는 미미하다는 판단에서 모형 1을 선호할 수도 있다. 어느 모형을 선택하는가의 문제는 모형의 간명성과 설명력 사이에서 적절하게 판단하여 모형을 선택하면 된다.

      1-4. 다중 회귀모형 가정의 검정

        회귀식의 가정은 변수와 잔차에 관련된 것으로서, 다중공선성, 잔차의 독립성, 등분산성 등이 있다.

        모형요약b

        모형 R R 제곱 수정된 R제곱 추정값의 평균오차 Durbin-Watson
        1 .961a .924 .886 4.976 1.955

        a. 예측값: (상수), 전화건수, 근무년수, 광고액
        b. 종속변수: 매출액

        계수a

          모형 1 비표준화계수 표준화계수 t 유의확률 공선성 통계량
          B 표준오차 베타 공차 VIF
          (상수) -27.158 21.645   -1.255 .256    
          광고액 1.724 .216 1.110 7.992 .000 .654 1.528
          근무년수 5.901 1.652 .413 3.573 .012 .946 1.058
          1일 문의 전화건수 .901 .378 .324 2.386 0.54 .683 1.463

          [결과 : 다중공선성과 잔차 독립성 검정]

          다중공선성이란 독립변수간의 상관관계가 존재하는 것을 의미한다. 회귀식에서 독립변수가 많이 투입할수록 작아져 회귀식의 정도는 높아진다. 그러나 다중공선성이 높은 독립변수는 제거되어야 한다. 다중공 선성을 검사하기 위해서는 공차한계(tolerance)를 이용한다. Ri2값이 매우 크다는 것은 i째 독립변수가 투입되었을 때의 회귀식의 설명력이 매우 크다는 것을 의미한다. 따라서, 1- Ri2i 번째 독립변수가 회귀분석에 투입되었을 때, 이미 투입된 독립변수가 설명하지 못하는 총변동 부분을 의미하는 것이다.
          Ri2을 공차한계라 한다. 그러므로 다중공선성이 낮을수록 공차한계값이 높게 나타난다. 공차한계의 최대값은 1이므로 위의 경우 공차한계값이 높다고 볼 수 있다. 여기서는 다중공선성이 낮다고 볼 수 있다.

        1-5. 분석결과 및 해석에 대한 예시

          예: 제품의 속성(등간/비율척도)인 제품의 디자인, 제품의 색, 제품의 가격이 소비자 만족도(등간/비율척도)에 미치는 영향

          종속변수 제품의 속성a R2 R2 F
          βb p
          제품의 디자인 .228*** 0.00 .487 .321 27.441***
          제품의 색 .318*** 0.00
          제품의 가격 -.016 .847

          ** p< .01, *** p<.001
          a독립변수, b표준화된 회귀계수

          제품의 속성인 디자인, 색, 가격이 소비자 만족도에 어떠한 영향을 미치는지 살펴본 결과, 성별에 따른 직무만족도의 차이를 살펴본 결과, 소비자 만족도에 영향을 미치는 제품의 속성으로는 디자인(β=.228)과 색(β=.318)이 소비자 만족도에 통계적으로 유의한(p<.01)영향을 주는 것을 알 수 있었으며, 색(β=.318)이 디자인(β=.228)보다 더 큰 영향을 미치는 것으로 해석할 수 있다.