[ADP_과목 4. 데이터 이해_제 2장 통계 분석] 본문

IT/ADP

[ADP_과목 4. 데이터 이해_제 2장 통계 분석]

호랑구야 2021. 1. 11. 09:00

* 다음 내용은 [데이터 분석 전문가 가이드] (2019년 개정판)을 읽고 정리한 내용입니다.

1 통계학 개론

1. 통계 분석 개요

. 통계학의 정의

  • 통계학: 자료로부터 유용한 정보를 이끌어 내는 학문으로, 자료의 수집, 정리, 이를 해석하는 방법을 포함

 

. 모집단과 표본

  • 모집단
    • 유용한 정보의 대상으로 우리가 알고자 하는 전체
    • 구성하는 개체를 추출단위, 원소라 한다
  • 총조사: 모집단 개체 모두를 조사
  • 표본조사: 일부분(샘플)만 조사해서 모집단에 대해 추론
    • 모수: 모집단에 대해 알고자 하는 값
    • 통계량: 표본들의 값
  • 무한 모집단: 무한 개의 개체로 이루어져 있으며, 개념적으로 상정된 모집단

 

. 표본추출의 방법

  • 표본조사를 이용했을 경우 명확하게 밝히거나 확인해야하는 요소
    • 모집단의 정의
    • 표본의 크기
    • 조사방법
    • 조사기간
    • 표본추출 방법
  • 표본 추출 방법
    • 단순램덤추출법: n개의 번호를 임의로 택해 그 번호에 해당하는 원소를 표본으로 추출
    • 계통추출법: 전체를 K개(K=N/n)씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후, k개씩 띄어서 표본을 추출
    • 집락추출법: 일부 집락을 랜덤으로 선택하고, 각 집락에서 표본을 임의로 선택
    • 층화추출법: 이질적 원소로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록, 서로 유사한 것끼리 몇 개의 층으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다
  • 실험: 특정 목적 하에서 실험 대상에게 처리를 가한 후, 그 결과를 관측해 자료를 수집하는 방법

 

. 자료의 종류

  • 측정: 표본조사나 실험과정에서 추출된 원소나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
  • 측정 방법과 얻을 수 있는 자료 종류
    • 질적 자료 
      • 명목척도
        • 어느 집단에 속하는지 분류
        • 성별구분
      • 순서척도
        • 서열관계를 관측하는 척도
        • 선호도의 5단계 구분
    • 양적 자료
      • 구간척도
        • 속성의 양을 측정, 절대적 원점이 없다
        • 온도, 지수
      • 비율척도
        • 일반적 자료로, 절대적 기준인 0이 존재, 사칙연산이 존재, 제일 많은 정보를 보유
        • 소득, 나이, 무게 등

 

 

2. 통계 분석

  • 통계 분석: 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정
    • 대상 집단에 대한 정보
    • 자료를 요약, 정리한 결과
    • 숫자, 그림으로 정리된 통계
  • 통계적 추론: 수집된 자료를 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것
    • 추정: 대상 집단의 특성값이 무엇일까 추측하는 것
    • 가설검정: 특정 가설 설정 후, 그 가설의 채택여부를 결정하는 것
    • 예측: 미래의 불확실성을 해결해 효율적 의사결정 수행하는 것
  • 기술통계
    • 기초적 통계
    • 평균, 표준편차, 중위수, 최빈값, % 와 같이 숫자로 표현
    • 그래프를 이용해 그림으로 표현

 

 

3. 확률 확률분포

. 확률의 정의

  • 확률
    • 특정사건이 일어날 가능성의 척도
    • 표본공간의 부분집합에 실수값에 지정한 것으로 다음과 같은 조건을 만족한다
      1. 모든 사건 E의 확률값은 0과 1 사이에 있다
      2. 전체 집합 Ω의 확률은 1 이다
      3. 서로 배반인 사건들 E1, E2, ... 의 합집합 확률은 각 사건들의 확률 합이다

 

  • 표본공간: 통계적 실험의 모든 결과의 집합
  • 사건: 표본공간의 부분집합
  • 근원사건: 오직 한 개의 원소로만 이루어진 사건
  • 표본공간이 유한집단이고, 근원사건의 가능성이 모두 같다면

  • 배반사건: 교집합이 공집합인 사건

 

. 조건부 확률과 독립사건

  • 조건부 확률: 사건 A가 일어나다는 가정하의 사건 B의 확률

  • 위의 확률은 P(A) > 0 일 때만 정의
  • 두 사건 A, B가 
    을 만족하면 서로 독립이다

    즉, 가 된다

 

. 확률변수와 확률분포

  • 이산형 확률변수
    • 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현
    • 0보다 큰 값을 갖는 점들로 확률 표현 가능
    • 확률질량함수: 각 이산점에 있어서 확률의 크기를 표현하는 함수

  • 연속형 확률변수
    • 함수의 면적으로 표현될 수 있는 확률변수
    • 한 점에서의 확률은 0이 되고, 0보다 큰 값을 갖는 사건은 구간에서의 확률값이 된다
  • 결합확률분포
    • 이산형
      • 결합확률질량함수
    • 연속형
      • f(x,y)로 정의하며, 결합확률밀도함수
  • 통계 분석에서 자료를 얻을 때는 항상 수집된 자료가 특정한 확률분포를 따른다고 가정한다
    • 이산형 확률변수
      • 베르누이 확률분포
      • 이항분포
      • 기하분포
      • 다항분포
      • 포아송분포
    • 연속형 확률변수
      • 균일분포
      • 정규분포
      • 지수분포
      • t-분포
      • -분포
      • F-분포

 

. 확률변수의 기댓값과 분산

  • 확률변수 X의 기댓값
    • 이산형 확률변수
    • 연속형 확률변수
  • 분산

  • 표준편차

 

. 백분위수

  • 연속형 확률변수 X의 제 q 백분위수는 다음을 만족하는 값으로 정의된다

  • q는 0과 100 사이의 값

 

 

4. 추정과 가설검정

. 점추정

  • 통계적 방법론 통해 알고 싶은 것은 모집단의 확률분포이다.
  • 모수: 모집단의 확률분포의 특징을 표현하는 값
    • 예시: 평균, 분산, 표준편차, 백분위수 등
  • 모집단 통해 추출된 표본을 기반으로 모수들에 대한 통계적 추론을 수행
  • 통계적 추론
    • 추정
      • 점추정
      • 구간추정
    • 가설검정

 

  •  점추정
    • 가장 참이라고 여겨지는 하나의 모수의 값을 택하는 것
    • 모수가 특정한 값일 것 이라고 추정하는 것
    • 표본 평균
        
    • 표본 분산

 

. 구간추정

  • 구간추정
    • 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것
    • 일반적으로 신뢰수준은 90%, 95%, 99%의 확률을 이용하는 경우가 많다
    • 점추정은 사실상 추정이 얼마나 정확한가 판단하기 불가능하므로, 점추정의 정확성을 보완하는 방법이다
  • 신뢰수준: 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률포본을 무한히 많이 추출하여 각 확률표본마다 신뢰구간을 구하면, 이 무한히 많은 신뢰구간 중 ~%의 신뢰구간이 미지의 모수를 포함한다는 의미
  • 모집단의 확률분포를 정규분포라 가정하고, 95% 신뢰하에서 모평균의 신뢰구간을 나타낸다면,
    • 모분산이 알려져 있는 경우
    • 모분산이 알려져 있지 않은 경우

      여기서, 는 n-1의 자유도를 가지는 t분포의 97.5 백분위수이다.

 

다. 가설검정

  • 가설검정: 모집단에 대한 어떤 가설을 설정한 뒤에, 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
    • 표본관찰 혹은 실험을 통해 귀무가설과 대립가설 중 하나를 선택해야 한다

      • 귀무가설, 대립가설과 반대의 증거를 찾기 위해 정한 가설

      • 대립가설, 확실하게 증명하고 싶은, 뚜렷한 증거가 있어야 채택이 가능한, 혹은 결과가 값비싼 가설
    • 검정통계량: 검정에 사용되는 통계량
      • 모평균에 대한 검정에는 표본평균,
      • 모분산에 대한 검정에는 표본분산,
    • 귀무가설이 옳다는 전제 하에서, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 귀무가설 채택여부를 결정한다
    • p-value: 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
      • p-value가 기준값인 유의수준(α)보다 작으면, 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각
    • 유의수준은 보통 0.01, 0.05, 0.1 중 하나를 사용한다
    • 기각역(C): 귀무가설을 기각하는 통계량의 영역
  • 오류
    • 제1종 오류, α: 귀무가설이 옳은데도, 귀무가설을 기각하는 것
    • 제2종 오류, β: 귀무가설이 옳지 않은데도, 귀무가설을 채택하는 것
    • α와 β는 서로 상충관계가 존재하기 때문에, α의 크기를 0.1, 0.05, 0.01 등으로 고정 후, β가 최소가 되도록
      기각역을 설정한다

 

 

5. 비모수 검정

  • 모집단의 모수에 대한 검정
    • 모수적 검정방법: 모집단의 분포에 대한 가정을 하고, 검정통계량과 그 분포를 유도해 검정을 실시하는 방법
    • 비모수적 검정방법: 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 아무런 제약없이 검정을 실시하는 방법
    • 두 검정방법의 차이점
      1. 가설의 설정
        • 모수적: 가정된 분포의 모수에 대한 가설 설정
        • 비모수적: 분포의 형태에 대한 설정
      2. 이용하는 것
        • 모수적: 관측된 자료를 이용해 구한 표본평균, 표본분산 등
        • 비모수적: 관측값의 절대적 크기에 의존하지 않는, 순위나 두 관측값 차이의 부호 등
          • 예시
            • 쌍으로 관측된 표본에 대한 부호검정
            • 윌콕슨의 순위합검정
            • 윌콕슨의 부호순위합검정
            • 만-위트니의 U검정
            • 런검정
            • 스피어만의 순위상관계수

 


 

2 기초 통계 분석

1. 기술 통계

  • 기술통계: 자료를 요약하는 기초적 통계
  • R에서 유용한 함수
    • data: 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수
    • head: 데이터를 기본 6줄 보여주는데, 특정 라인이 보고 싶다면, head(data,n)에서 n을 바꾸면 된다
    • summary: 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다
      • 최소값, 최대값, 25% 백분위수, 75% 백분위수, 중앙값, 평균
    • mean: 평균
    • sd: 표준편차
    • var: 분산
    • quantile: 백분위수
    • min: 최소값
    • max: 최대값
    • data$column: 데이터의 특정 컬럼 선택할 때 사용하는 방법
    • set.seed: 같은 난수가 나오도록 고정

 

 

2. 회귀 분석

가. 단순회귀분석과 중회귀분석의 개념

  • 회귀분석: 하나 혹은 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론하는 통계기법
    • 종속변수, 반응변수, y: 영향을 받는 변수
    • 독립변수, 설명변수, x: 영향을 주는 변수
  • 적합한 모형 찾기
    • 단순선형회귀모형
      • 한 개의 독립변수와 하나의 종속변수로 구성되어 있는 가장 단순한 모형
      • beta0와 beta1은 회귀계수인데, beta1은 독립변수 x1의 회귀계수라고 한다
      • 엡실론항은 오차항으로, 평균이 0고, 분산이 S^2인 정규모형을 따른다고 가정한다
      • 최소제곱추정량, LSE
        • 추정치는 보통 제곱오차를 최소로 하는 값인
          를 이용한다
  • 모형이 적절한지 확인이 필요
    • 모형이 통계적으로 유의미한가?
      • F통계량을 확인한다. 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 유의하다
    • 회귀계수가 유의미한가?
      • 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인한다
    • 모형이 얼마나 설명력을 갖는가?
      • 결정계수를 확인한다. 결정계수는 0에서 1값을 가지며, 높을수록 추정된 회귀식의 설명력이 높다
    • 모형이 데이터를 잘 적합하고 있는가?
      • 잔차를 그래프로 그리고 회귀진단을 한다
    • 데이터가 다음의 모형가정을 만족하는가?
      • 선형성: 독립변수의 변화에 따라 종속변수도 일정크기로 변화
      • 독립성: 잔차와 독리변수의 값이 관련되어 있지 않음
      • 등분산성: 독립변수의 모든 값에 대해 오차들의 분산이 일정
      • 비상관성: 관측치들의 잔차들끼리 상관이 없어야 함
      • 정상성: 잔차항이 정규분포를 이뤄야 함

 

. 회귀분석의 종류

종류 모형
단순회귀
설명변수가 1개이며, 반응변수와의 관계가 직선
다중회귀
설명변수가 k개이며, 반응변수와의 관계가 선형
다항회귀

k=2이고, 2차 함수인 경우

설명변수가 k개이며, 반응변수와의 관계가
1차함수 이상(k=1이면, 2차 함수 이상)
비선형회귀
회귀식의 모양이 미지의 모수 beta i들의
선형관계로 이루어져 있지 않은 모형,
비선형 식을 고려할 수 있다

 

. 최적회귀방정식의 선택: 설명변수의 선택

  • 변수를 선택해 회귀모형을 설정할 때 지켜야하는 원칙으로 이율배반적이므로 적절한 타협이 필요하다
    • y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 참여시킨다
    • 설명변수가 많아지면 관리에 많은 노력이 필요하므로, 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다

 

  1. 모든 가능한 조합의 회귀분석
    • AIC(Akaike information criterion) 이나 BIC(Bayesian information criterion)의 기준으로 가장 적합한 회귀모형을 선택한다
      • AIC 그리고 BIC 모두 가장 작은 값을 갖는 모형을 최적의 모형으로 선택한다
        • 세타는 주어진 모형의 모수에 최대 가능도 추정량
        • L()는 가능도함수
        • k는 모형의 모수의 개수
        • n은 자료의 개수
  2. 단계적 변수선택
    • 점진선택법
      • 중요하다고 생각되는 설명변수부터 차례로 추가한다
      • 가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여, 유의하면 추가하고 아니면 추가를 멈춘다
    • 후진제거법
      • 모두를 포함한 모형에서 출발하여, 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거한다
      • 유의하지 않는 변수가 없을 때까지 설명변수를 제거한다
    • 단계별방법
      • 전진선택법에 의해 변수를 추가하면서, 기존 변수의 중요도가 약화되면 해당변수를 제거한다
      • 단계별로 추가 혹은 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다

 

  • 단계별 변수 선택 방법을 자동으로 수행하는 명령어
    • step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1,upper=~설명변수), direction="변수선택방법")
      • lm은 회귀분석임을 표현
      • scope는 변수의 범위를 선정하는데, lower에서 1은 상수항을 의미하고, 가장 높은 단계 설정 위해서는 모든 설명변수 +기호를 통해 나열하면 된다
      • direction의 옵션은, forward, backward, both가 존재

 


 

 

3 다변량 분석

1. 상관 분석

  • 상광분석, Correlation Analysis
    • 데이터 안의 두 변수 간 관계를 알아보기 위해 수행
    • 피어슨 상관계수
      • 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정
    • 스피어만 상관계수
      • 서열척도인 두 변수들의 상관관계를 측정
  • 상관계수
    • 양수: x가 증가하면 y도 증가
    • 음수: x가 증가하면 y가 감소
    • 산점도가 직선에 가깝게 분포하면, 상관계수는 1에 가까워지며 강한 상관관계를 반영하고, 넓게 퍼지면 x의 변동이 y의 패턴 변화에 영향을 주지 않고, 상관계수는 0에 가까워진다

가. 피어슨의 상관계수

  • 공분산
    • 두 확률변수의 선형관계의 크기를 측정하는 값
    • Cov(X,Y)
  • 피어슨의 상관계수
    인데, 이때 X와 Y가 독립이면, 0이 된다
  • 모수인 피어슨의 상관계수를 추정하기 위한 값인, 표본상관계수
  • rcorr()함수를 이용하여 상관분석을 수행할 경우
    • 첫번째 행렬: 상관계수 행렬
    • 두번째 행렬: P로 표현되는, 각 상관계수의 유의확률 행렬

 

나. 스피어만 상관계수

  • 서열 척도
  • 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값
  • 한 변수를 단조 증가 함수로 변환하여, 다른 변수를 나타낼 수 있는 정도를 나타낸다
  • 스피어만의 상관계수
    • 두 변수를 모두 순위로 변환시킨 후, 두 순위 사이의 피어슨 상관계수로 정의
  • rcorr()함수를 이용하여 상관분석을 수행할 경우
    • 첫번째 행렬: 상관계수 행렬
    • 두번째 행렬: P로 표현되는, 각 상관계수의 유의확률 행렬

 

 

2. 다차원 척도법

  • Multidimensional Scaling, MDS
  • 여러 대상 간의 거리가 주어져 있을 때, 대상을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법
  • 주어진 거리
    • 추상적인 대상들간의 거리
    • 실수공간에서의 거리
  • 관측치들 간의 전반적 관계에 대한 직관적 이해를 돕는다
  • cmdscale(): 상대적 위치를 도식화할 수 있는 X, Y좌표를 계산함

 

 

3. 주성분 분석

    • Principal Component Analysis, PCA
    • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법
    • p차원 변수
      • X의 선형변환이면서 분산이 가장 큰 선형변환인
        를 첫 번째 주성분이라고 한다
      • a는 p차원 벡터
      • X의 선형변환이면서 첫 번째 주성분과 상관계수가 0이면서
        분산이 가장 큰 선형변환인를 두 번째 주성분이라고 한다
      • 주성분들은 서로 상관관계가 없고, 주성분들의 분산의 합은 들의 분산들의합과 같다
      • 를 i번째 주성분의 로딩이라고 한다
  • princomp()을 이용하여 수행
    • cor=TRUE: 주성분분석을 상관계수 행렬을 사용하여 수행하게 한다
    • 주성분결과를 summary()를 통해 확인하면, 주성분의 표준편차, 분산의 비율, 누적 분산 비율 등을 보여준다
    • 주성분결과를 loadings()를 통해 확인하면, 주성분들의 로딩 벡터들을 보여준다
    • 주성분결과를 plot()를 통해 확인하면, 각 주성분의 분산의 크기를 그림으로 그려준다
  • 주성분 개수 정하는 방법
    • scree plot을 통해, 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서, 주성분의 개수를 정하는 것
    • 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택하는 방법
  • 주성분분석한 결과$scores는 각 관측치를 주성분들로 표현한 값
  • 주성분과 비슷한 방향을 가지고 있는 변수는, 상대적으로 큰 가중치를 적용하여 계산한 것
  • 주성분과 상대적으로 평행한 것은, 다른 변수들에 비해 그 변수에 영향을 크게 받아 구성

 


 

4 시계열 예측

1. 정상성

  • 시계열자료: 시간의 흐름에 따라서 관측된 데이터
  • 시계열 분석은 정상성을 만족해야 한다
  • 정상성: 시점에 상관없이 시계열의 특성이 일정하다
    1. 평균이 일정하다
    2. 분산이 시점에 의존하지 않는다
    3. 공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않는다
  • 대부분의 시계열 자료는 비정상 시계열 자료로, 위의 조건 중 하나라도 만족하지 못한 경우가 이에 속한다
  • 정상성 만족하는지 판단하기 위한 과정
    1. 그림을 통해 자료의 이상점과 개입을 살핀다
      • 이상점의 경우 일반적으로 제거
      • 개입의 경우 회귀분석 수행
    2. 추세(평균이 일정하지 않은 경우)를 보이는 경우, 차분을 통해 정상 시계열로 바꾼다
      • 차분: 현 시점의 자료값에서 전 시점의 자료값을 빼는 것
      • 계절차분: 여러 시점 전의 자료를 빼는 것으로, 계절성을 가진 시계열을 정상으로 바꿀 때 사용
    3. 시간에 따라 분산이 일정하지 않은 경우에는 변환을 통해 정상 시계열로 바꾼다

 

 

2. 시계열 모형

가. 자기회귀 모형(AR 모형)

  • 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있다
  • AR(p)모형
    • 현재 시점의 시계열 자료
    • p시점 이전의 시계열 자료
    • p 시점이 현재 어느 정도 영향을 주는지 나타내는 모수
    • 백색잡음과정, 시계열 분석에서 오차항을 의미
  • 백색잡음과정: 대표적 정상 시계열
    는 독립이고, 같은 분포를 따르며 분산이 0이고 분산이 인 확률변수

 

  • 1차 자기회귀모형
    • 과거 1시점 이전의 자료에만 영향을 주는 것
    • AR(1)모형

 

  • 2차 자기회귀모형
    • 과거 2시점 이전의 자료에만 영향을 주는 것
    • AR(2)모형

 

  • 자기회귀모형 여부를 판단하기 위해, 자료에서 자기상관함수(ACF, Auto-Corrleation Function)과 부분자기상관함수(PACF, Partial Auto-corrleation Function)을 이용하여 식별한다
  • 자료 중 AR(p)모형으로 판별이 가능한 특징
    • 자기상관함수는 시차가 증가함에 따라 점차적으로 감소
    • 부분자기상관함수는 p+1시차 이후 급격히 감소하여 절단된 형태

 

나. 이동평균모형(MA 모형)

  • 시계열 자료를 모형화하는데 있어서 두번째로 많이 쓰이는 모형
  • 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현하기 때문에, 항상 정상성을 만족하므로, 정상성 가정이 필요 없다
    • 1차 이동 평균모형
      • 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형
      • MA(1) 모형
    • MA(2) 모형

 

  • 자료 중 MA(p)모형으로 판별이 가능한 특징
    • 자기상관함수는 p+1시차 이후 급격히 감소하여 절단된 형태
    • 부분자기상관함수는 시차가 증가함에 따라 점차적으로 감소

 

다. 자기회귀누적이동평균모형(ARIMA 모형)

  • 대부분의 많은 시게열 자료가 따르는 모형
  • 기본적으로 비정상 시계열 모형이므로 다양한 방식을 통해 정상화할 수 있다
  • ARIMA(p, d, q) 모형은 차수 p, d, q에 따라 이름이 다르게 정해진다
    • 차수 p는 AR모형과 관련
    • 차수 q는 MA모형과 관련
    • 차수 d는 ARIMA에서 ARMA로 정상화할 때, 몇 번 차분했는가를 의미

 

. 분해 시계열

    • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
    • 이론적 약점이 있음에도, 경제분석이나 예측에서 성공적으로 사용되고 있다

 

  1. 추세요인

    • 자료가 어떤 특정한 형태를 이루고 있을 때
      • 오르거나 내리는 추세
      • 선형적 추세
      • 이차식 형태
      • 지수적 형태 등
  2. 계절요인

    • 고정된 주기에 따라 자료가 변화하는 경우
  3. 순환요인

    • 알려지지 않은 주기를 가지고 변화하는 자료
  4. 불규칙요인

    • 위 세가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 

 

3. 실습

. 시계열 자료

  1. 시계열 자료 불러오기

    • 데이터가 ts 클래스를 가진 경우가 아닌 일반 데이터셋을 이용할 경우 ts함수를 이용하여 시계열 자료 형식으로 변환한다
  2. 그림 고찰

    • plot 함수를 이용해 그림을 그려보고, 계절성을 띄는지, 평균이 변화하고 있는지 등을 확인한다
  3. 분해시계열

    • decompose 함수를 이용하여 시계열 자료를 4가지 요인인, 추세요인, 계절요인, 순환요인, 불규칙요인 등으로 분해할 수 있다
    • 계절요인을 제거한 후 그림을 다시 그려 확인한다
  4. ARIMA모형

    1. 차분

      • 시간에 따라 평균이 일정하지 않을 때, diff 함수를 사용하여 평균이 어느정도 일정해질 때 까지 차분을 한다
    2. ARIMA 모델 적합 결정

      • 자기상관함수와 부분자기상관함수를 통해 ARIMA 모형을 적합하여 최종 모형을 결정
        • 자기상관함수를 살펴보기 위해, acf 함수를 사용하여 그래프를 그려본다
          • lag 개수를 너무 많이 설정하면 식별을 위한 판단이 힘들다
        • 부분자기상관함수를 살펴보기 위해, pacf 함수를 사용하여 그래프를 그려본다
          • lag 개수를 적당하게 고른다
        • 모수가 많다면 설명력이 커지지만, 모형이 복잡하여 이해하기 어렵다
        • 모수가 적다면 모형이 단순하고 이해하기 쉽지만, 설명력이 상대적으로 낮아진다
        • forecast 패키지의 auto.arima 함수를 이용하여 적절한 ARIMA 모형을 결정할 수 있다
    3. ARIMA 모형을 이용한 예측

      • forecast 패키지의 forcast 함수를 이용하여 미래의 수치 값을 예측할 수 있다
반응형
Comments