일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- Hacker Rank
- Joseph Samuel Nye Jr.
- CNN10
- 데이터분석전문가가이드
- KMOOC
- Progate
- 조지프 나이
- 당신이 몰랐던 진화론
- 맛집
- 후기
- ADsP
- ADP
- 누가 진정한 리더인가
- 위대한 수업
- Baekjoon
- 정치학
- 자료구조
- MySQL
- 미분적분학
- K-MOOC
- 빅데이터
- 알고리즘
- 코테
- 데이터분석전문가
- EBS
- 백준
- python
- Great Minds
- Udemy
- 공부정리
Archives
- Today
- Total
ㅇ
[ADP_과목 4. 데이터 이해_제 2장 통계 분석] 본문
* 다음 내용은 [데이터 분석 전문가 가이드] (2019년 개정판)을 읽고 정리한 내용입니다.
제 1절 통계학 개론
1. 통계 분석 개요
가. 통계학의 정의
- 통계학: 자료로부터 유용한 정보를 이끌어 내는 학문으로, 자료의 수집, 정리, 이를 해석하는 방법을 포함
나. 모집단과 표본
- 모집단
- 유용한 정보의 대상으로 우리가 알고자 하는 전체
- 구성하는 개체를 추출단위, 원소라 한다
- 총조사: 모집단 개체 모두를 조사
- 표본조사: 일부분(샘플)만 조사해서 모집단에 대해 추론
- 모수: 모집단에 대해 알고자 하는 값
- 통계량: 표본들의 값
- 무한 모집단: 무한 개의 개체로 이루어져 있으며, 개념적으로 상정된 모집단
다. 표본추출의 방법
- 표본조사를 이용했을 경우 명확하게 밝히거나 확인해야하는 요소
- 모집단의 정의
- 표본의 크기
- 조사방법
- 조사기간
- 표본추출 방법
- 표본 추출 방법
- 단순램덤추출법: n개의 번호를 임의로 택해 그 번호에 해당하는 원소를 표본으로 추출
- 계통추출법: 전체를 K개(K=N/n)씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후, k개씩 띄어서 표본을 추출
- 집락추출법: 일부 집락을 랜덤으로 선택하고, 각 집락에서 표본을 임의로 선택
- 층화추출법: 이질적 원소로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록, 서로 유사한 것끼리 몇 개의 층으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다
- 실험: 특정 목적 하에서 실험 대상에게 처리를 가한 후, 그 결과를 관측해 자료를 수집하는 방법
라. 자료의 종류
- 측정: 표본조사나 실험과정에서 추출된 원소나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 측정 방법과 얻을 수 있는 자료 종류
- 질적 자료
- 명목척도
- 어느 집단에 속하는지 분류
- 성별구분
- 순서척도
- 서열관계를 관측하는 척도
- 선호도의 5단계 구분
- 명목척도
- 양적 자료
- 구간척도
- 속성의 양을 측정, 절대적 원점이 없다
- 온도, 지수
- 비율척도
- 일반적 자료로, 절대적 기준인 0이 존재, 사칙연산이 존재, 제일 많은 정보를 보유
- 소득, 나이, 무게 등
- 구간척도
- 질적 자료
2. 통계 분석
- 통계 분석: 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정
- 대상 집단에 대한 정보
- 자료를 요약, 정리한 결과
- 숫자, 그림으로 정리된 통계
- 통계적 추론: 수집된 자료를 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것
- 추정: 대상 집단의 특성값이 무엇일까 추측하는 것
- 가설검정: 특정 가설 설정 후, 그 가설의 채택여부를 결정하는 것
- 예측: 미래의 불확실성을 해결해 효율적 의사결정 수행하는 것
- 기술통계
- 기초적 통계
- 평균, 표준편차, 중위수, 최빈값, % 와 같이 숫자로 표현
- 그래프를 이용해 그림으로 표현
3. 확률 및 확률분포
가. 확률의 정의
- 확률
- 특정사건이 일어날 가능성의 척도
- 표본공간의 부분집합에 실수값에 지정한 것으로 다음과 같은 조건을 만족한다
- 모든 사건 E의 확률값은 0과 1 사이에 있다
- 전체 집합 Ω의 확률은 1 이다
- 서로 배반인 사건들 E1, E2, ... 의 합집합 확률은 각 사건들의 확률 합이다
- 모든 사건 E의 확률값은 0과 1 사이에 있다
- 표본공간: 통계적 실험의 모든 결과의 집합
- 사건: 표본공간의 부분집합
- 근원사건: 오직 한 개의 원소로만 이루어진 사건
- 표본공간이 유한집단이고, 근원사건의 가능성이 모두 같다면
- 배반사건: 교집합이 공집합인 사건
나. 조건부 확률과 독립사건
- 조건부 확률: 사건 A가 일어나다는 가정하의 사건 B의 확률
- 위의 확률은 P(A) > 0 일 때만 정의
- 두 사건 A, B가
을 만족하면 서로 독립이다
즉,가 된다
다. 확률변수와 확률분포
- 이산형 확률변수
- 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현
- 0보다 큰 값을 갖는 점들로 확률 표현 가능
- 확률질량함수: 각 이산점에 있어서 확률의 크기를 표현하는 함수
- 연속형 확률변수
- 함수의 면적으로 표현될 수 있는 확률변수
- 한 점에서의 확률은 0이 되고, 0보다 큰 값을 갖는 사건은 구간에서의 확률값이 된다
- 결합확률분포
- 이산형
- 결합확률질량함수
- 결합확률질량함수
- 연속형
- f(x,y)로 정의하며, 결합확률밀도함수
- 이산형
- 통계 분석에서 자료를 얻을 때는 항상 수집된 자료가 특정한 확률분포를 따른다고 가정한다
- 이산형 확률변수
- 베르누이 확률분포
- 이항분포
- 기하분포
- 다항분포
- 포아송분포
- 연속형 확률변수
- 균일분포
- 정규분포
- 지수분포
- t-분포
-분포
- F-분포
- 이산형 확률변수
라. 확률변수의 기댓값과 분산
- 확률변수 X의 기댓값
- 이산형 확률변수
- 연속형 확률변수
- 이산형 확률변수
- 분산
- 표준편차
마. 백분위수
- 연속형 확률변수 X의 제 q 백분위수
는 다음을 만족하는 값으로 정의된다
- q는 0과 100 사이의 값
4. 추정과 가설검정
가. 점추정
- 통계적 방법론 통해 알고 싶은 것은 모집단의 확률분포이다.
- 모수: 모집단의 확률분포의 특징을 표현하는 값
- 예시: 평균, 분산, 표준편차, 백분위수 등
- 모집단 통해 추출된 표본을 기반으로 모수들에 대한 통계적 추론을 수행
- 통계적 추론
- 추정
- 점추정
- 구간추정
- 가설검정
- 추정
- 점추정
- 가장 참이라고 여겨지는 하나의 모수의 값을 택하는 것
- 모수가 특정한 값일 것 이라고 추정하는 것
- 표본 평균
- 표본 분산
나. 구간추정
- 구간추정
- 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것
- 일반적으로 신뢰수준은 90%, 95%, 99%의 확률을 이용하는 경우가 많다
- 점추정은 사실상 추정이 얼마나 정확한가 판단하기 불가능하므로, 점추정의 정확성을 보완하는 방법이다
- 신뢰수준: 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률포본을 무한히 많이 추출하여 각 확률표본마다 신뢰구간을 구하면, 이 무한히 많은 신뢰구간 중 ~%의 신뢰구간이 미지의 모수를 포함한다는 의미
- 모집단의 확률분포를 정규분포라 가정하고, 95% 신뢰하에서 모평균의 신뢰구간을 나타낸다면,
- 모분산이 알려져 있는 경우
- 모분산이 알려져 있지 않은 경우
여기서,는 n-1의 자유도를 가지는 t분포의 97.5 백분위수이다.
- 모분산이 알려져 있는 경우
다. 가설검정
- 가설검정: 모집단에 대한 어떤 가설을 설정한 뒤에, 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
- 표본관찰 혹은 실험을 통해 귀무가설과 대립가설 중 하나를 선택해야 한다
귀무가설, 대립가설과 반대의 증거를 찾기 위해 정한 가설
대립가설, 확실하게 증명하고 싶은, 뚜렷한 증거가 있어야 채택이 가능한, 혹은 결과가 값비싼 가설
- 검정통계량: 검정에 사용되는 통계량
- 모평균에 대한 검정에는 표본평균,
- 모분산에 대한 검정에는 표본분산,
- 모평균에 대한 검정에는 표본평균,
- 귀무가설이 옳다는 전제 하에서, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 귀무가설 채택여부를 결정한다
- p-value: 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
- p-value가 기준값인 유의수준(α)보다 작으면, 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각
- 유의수준은 보통 0.01, 0.05, 0.1 중 하나를 사용한다
- 기각역(C): 귀무가설을 기각하는 통계량의 영역
- 표본관찰 혹은 실험을 통해 귀무가설과 대립가설 중 하나를 선택해야 한다
- 오류
- 제1종 오류, α: 귀무가설이 옳은데도, 귀무가설을 기각하는 것
- 제2종 오류, β: 귀무가설이 옳지 않은데도, 귀무가설을 채택하는 것
- α와 β는 서로 상충관계가 존재하기 때문에, α의 크기를 0.1, 0.05, 0.01 등으로 고정 후, β가 최소가 되도록
기각역을 설정한다
5. 비모수 검정
- 모집단의 모수에 대한 검정
- 모수적 검정방법: 모집단의 분포에 대한 가정을 하고, 검정통계량과 그 분포를 유도해 검정을 실시하는 방법
- 비모수적 검정방법: 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 아무런 제약없이 검정을 실시하는 방법
- 두 검정방법의 차이점
- 가설의 설정
- 모수적: 가정된 분포의 모수에 대한 가설 설정
- 비모수적: 분포의 형태에 대한 설정
- 이용하는 것
- 모수적: 관측된 자료를 이용해 구한 표본평균, 표본분산 등
- 비모수적: 관측값의 절대적 크기에 의존하지 않는, 순위나 두 관측값 차이의 부호 등
- 예시
- 쌍으로 관측된 표본에 대한 부호검정
- 윌콕슨의 순위합검정
- 윌콕슨의 부호순위합검정
- 만-위트니의 U검정
- 런검정
- 스피어만의 순위상관계수
- 예시
- 가설의 설정
제 2절 기초 통계 분석
1. 기술 통계
- 기술통계: 자료를 요약하는 기초적 통계
- R에서 유용한 함수
- data: 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수
- head: 데이터를 기본 6줄 보여주는데, 특정 라인이 보고 싶다면, head(data,n)에서 n을 바꾸면 된다
- summary: 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다
- 최소값, 최대값, 25% 백분위수, 75% 백분위수, 중앙값, 평균
- mean: 평균
- sd: 표준편차
- var: 분산
- quantile: 백분위수
- min: 최소값
- max: 최대값
- data$column: 데이터의 특정 컬럼 선택할 때 사용하는 방법
- set.seed: 같은 난수가 나오도록 고정
2. 회귀 분석
가. 단순회귀분석과 중회귀분석의 개념
- 회귀분석: 하나 혹은 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론하는 통계기법
- 종속변수, 반응변수, y: 영향을 받는 변수
- 독립변수, 설명변수, x: 영향을 주는 변수
- 적합한 모형 찾기
- 단순선형회귀모형
- 한 개의 독립변수와 하나의 종속변수로 구성되어 있는 가장 단순한 모형
- beta0와 beta1은 회귀계수인데, beta1은 독립변수 x1의 회귀계수라고 한다
- 엡실론항은 오차항으로, 평균이 0고, 분산이 S^2인 정규모형을 따른다고 가정한다
- 최소제곱추정량, LSE
- 추정치는 보통 제곱오차를 최소로 하는 값인
를 이용한다
- 추정치는 보통 제곱오차를 최소로 하는 값인
- 단순선형회귀모형
- 모형이 적절한지 확인이 필요
- 모형이 통계적으로 유의미한가?
- F통계량을 확인한다. 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 유의하다
- 회귀계수가 유의미한가?
- 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인한다
- 모형이 얼마나 설명력을 갖는가?
- 결정계수를 확인한다. 결정계수는 0에서 1값을 가지며, 높을수록 추정된 회귀식의 설명력이 높다
- 모형이 데이터를 잘 적합하고 있는가?
- 잔차를 그래프로 그리고 회귀진단을 한다
- 데이터가 다음의 모형가정을 만족하는가?
- 선형성: 독립변수의 변화에 따라 종속변수도 일정크기로 변화
- 독립성: 잔차와 독리변수의 값이 관련되어 있지 않음
- 등분산성: 독립변수의 모든 값에 대해 오차들의 분산이 일정
- 비상관성: 관측치들의 잔차들끼리 상관이 없어야 함
- 정상성: 잔차항이 정규분포를 이뤄야 함
- 모형이 통계적으로 유의미한가?
나. 회귀분석의 종류
종류 | 모형 | |
단순회귀 | ![]() |
설명변수가 1개이며, 반응변수와의 관계가 직선 |
다중회귀 | ![]() |
설명변수가 k개이며, 반응변수와의 관계가 선형 |
다항회귀 |
k=2이고, 2차 함수인 경우 ![]() |
설명변수가 k개이며, 반응변수와의 관계가 1차함수 이상(k=1이면, 2차 함수 이상) |
비선형회귀 | ![]() |
회귀식의 모양이 미지의 모수 beta i들의 선형관계로 이루어져 있지 않은 모형, 비선형 식을 고려할 수 있다 |
다. 최적회귀방정식의 선택: 설명변수의 선택
- 변수를 선택해 회귀모형을 설정할 때 지켜야하는 원칙으로 이율배반적이므로 적절한 타협이 필요하다
- y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 참여시킨다
- 설명변수가 많아지면 관리에 많은 노력이 필요하므로, 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다
- 모든 가능한 조합의 회귀분석
- AIC(Akaike information criterion) 이나 BIC(Bayesian information criterion)의 기준으로 가장 적합한 회귀모형을 선택한다
- AIC 그리고 BIC 모두 가장 작은 값을 갖는 모형을 최적의 모형으로 선택한다
- 세타는 주어진 모형의 모수에 최대 가능도 추정량
- L()는 가능도함수
- k는 모형의 모수의 개수
- n은 자료의 개수
- AIC(Akaike information criterion) 이나 BIC(Bayesian information criterion)의 기준으로 가장 적합한 회귀모형을 선택한다
- 단계적 변수선택
- 점진선택법
- 중요하다고 생각되는 설명변수부터 차례로 추가한다
- 가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여, 유의하면 추가하고 아니면 추가를 멈춘다
- 후진제거법
- 모두를 포함한 모형에서 출발하여, 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거한다
- 유의하지 않는 변수가 없을 때까지 설명변수를 제거한다
- 단계별방법
- 전진선택법에 의해 변수를 추가하면서, 기존 변수의 중요도가 약화되면 해당변수를 제거한다
- 단계별로 추가 혹은 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다
- 점진선택법
- 단계별 변수 선택 방법을 자동으로 수행하는 명령어
- step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1,upper=~설명변수), direction="변수선택방법")
- lm은 회귀분석임을 표현
- scope는 변수의 범위를 선정하는데, lower에서 1은 상수항을 의미하고, 가장 높은 단계 설정 위해서는 모든 설명변수 +기호를 통해 나열하면 된다
- direction의 옵션은, forward, backward, both가 존재
- step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1,upper=~설명변수), direction="변수선택방법")
제 3절 다변량 분석
1. 상관 분석
- 상광분석, Correlation Analysis
- 데이터 안의 두 변수 간 관계를 알아보기 위해 수행
- 피어슨 상관계수
- 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정
- 스피어만 상관계수
- 서열척도인 두 변수들의 상관관계를 측정
- 상관계수
- 양수: x가 증가하면 y도 증가
- 음수: x가 증가하면 y가 감소
- 산점도가 직선에 가깝게 분포하면, 상관계수는 1에 가까워지며 강한 상관관계를 반영하고, 넓게 퍼지면 x의 변동이 y의 패턴 변화에 영향을 주지 않고, 상관계수는 0에 가까워진다
가. 피어슨의 상관계수
- 공분산
- 두 확률변수의 선형관계의 크기를 측정하는 값
- Cov(X,Y)
- 피어슨의 상관계수
인데, 이때 X와 Y가 독립이면, 0이 된다
- 모수인 피어슨의 상관계수를 추정하기 위한 값인, 표본상관계수
- rcorr()함수를 이용하여 상관분석을 수행할 경우
- 첫번째 행렬: 상관계수 행렬
- 두번째 행렬: P로 표현되는, 각 상관계수의 유의확률 행렬
- 첫번째 행렬: 상관계수 행렬
나. 스피어만 상관계수
- 서열 척도
- 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값
- 한 변수를 단조 증가 함수로 변환하여, 다른 변수를 나타낼 수 있는 정도를 나타낸다
- 스피어만의 상관계수
- 두 변수를 모두 순위로 변환시킨 후, 두 순위 사이의 피어슨 상관계수로 정의
- 두 변수를 모두 순위로 변환시킨 후, 두 순위 사이의 피어슨 상관계수로 정의
- rcorr()함수를 이용하여 상관분석을 수행할 경우
- 첫번째 행렬: 상관계수 행렬
- 두번째 행렬: P로 표현되는, 각 상관계수의 유의확률 행렬
2. 다차원 척도법
- Multidimensional Scaling, MDS
- 여러 대상 간의 거리가 주어져 있을 때, 대상을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법
- 주어진 거리
- 추상적인 대상들간의 거리
- 실수공간에서의 거리
- 관측치들 간의 전반적 관계에 대한 직관적 이해를 돕는다
- cmdscale(): 상대적 위치를 도식화할 수 있는 X, Y좌표를 계산함
3. 주성분 분석
- Principal Component Analysis, PCA
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법
- p차원 변수
- X의 선형변환
중
이면서 분산이 가장 큰 선형변환인
를 첫 번째 주성분이라고 한다
- a는 p차원 벡터
- X의 선형변환
중
이면서 첫 번째 주성분과 상관계수가 0이면서
분산이 가장 큰 선형변환인를 두 번째 주성분이라고 한다
- 주성분들은 서로 상관관계가 없고, 주성분들의 분산의 합은
들의 분산들의합과 같다
를 i번째 주성분의 로딩이라고 한다
- X의 선형변환
- princomp()을 이용하여 수행
- cor=TRUE: 주성분분석을 상관계수 행렬을 사용하여 수행하게 한다
- 주성분결과를 summary()를 통해 확인하면, 주성분의 표준편차, 분산의 비율, 누적 분산 비율 등을 보여준다
- 주성분결과를 loadings()를 통해 확인하면, 주성분들의 로딩 벡터들을 보여준다
- 주성분결과를 plot()를 통해 확인하면, 각 주성분의 분산의 크기를 그림으로 그려준다
- 주성분 개수 정하는 방법
- scree plot을 통해, 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서, 주성분의 개수를 정하는 것
- 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택하는 방법
- 주성분분석한 결과$scores는 각 관측치를 주성분들로 표현한 값
- 주성분과 비슷한 방향을 가지고 있는 변수는, 상대적으로 큰 가중치를 적용하여 계산한 것
- 주성분과 상대적으로 평행한 것은, 다른 변수들에 비해 그 변수에 영향을 크게 받아 구성
제 4절 시계열 예측
1. 정상성
- 시계열자료: 시간의 흐름에 따라서 관측된 데이터
- 시계열 분석은 정상성을 만족해야 한다
- 정상성: 시점에 상관없이 시계열의 특성이 일정하다
- 평균이 일정하다
- 분산이 시점에 의존하지 않는다
- 공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않는다
- 대부분의 시계열 자료는 비정상 시계열 자료로, 위의 조건 중 하나라도 만족하지 못한 경우가 이에 속한다
- 정상성 만족하는지 판단하기 위한 과정
- 그림을 통해 자료의 이상점과 개입을 살핀다
- 이상점의 경우 일반적으로 제거
- 개입의 경우 회귀분석 수행
- 추세(평균이 일정하지 않은 경우)를 보이는 경우, 차분을 통해 정상 시계열로 바꾼다
- 차분: 현 시점의 자료값에서 전 시점의 자료값을 빼는 것
- 계절차분: 여러 시점 전의 자료를 빼는 것으로, 계절성을 가진 시계열을 정상으로 바꿀 때 사용
- 시간에 따라 분산이 일정하지 않은 경우에는 변환을 통해 정상 시계열로 바꾼다
- 그림을 통해 자료의 이상점과 개입을 살핀다
2. 시계열 모형
가. 자기회귀 모형(AR 모형)
- 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있다
- AR(p)모형
- 현재 시점의 시계열 자료
- p시점 이전의 시계열 자료
- p 시점이 현재 어느 정도 영향을 주는지 나타내는 모수
- 백색잡음과정, 시계열 분석에서 오차항을 의미
- 현재 시점의 시계열 자료
- 백색잡음과정: 대표적 정상 시계열
는 독립이고, 같은 분포를 따르며 분산이 0이고 분산이
인 확률변수
- 1차 자기회귀모형
- 과거 1시점 이전의 자료에만 영향을 주는 것
- AR(1)모형
- 2차 자기회귀모형
- 과거 2시점 이전의 자료에만 영향을 주는 것
- AR(2)모형
- 자기회귀모형 여부를 판단하기 위해, 자료에서 자기상관함수(ACF, Auto-Corrleation Function)과 부분자기상관함수(PACF, Partial Auto-corrleation Function)을 이용하여 식별한다
- 자료 중 AR(p)모형으로 판별이 가능한 특징
- 자기상관함수는 시차가 증가함에 따라 점차적으로 감소
- 부분자기상관함수는 p+1시차 이후 급격히 감소하여 절단된 형태
나. 이동평균모형(MA 모형)
- 시계열 자료를 모형화하는데 있어서 두번째로 많이 쓰이는 모형
- 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현하기 때문에, 항상 정상성을 만족하므로, 정상성 가정이 필요 없다
- 1차 이동 평균모형
- 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형
- MA(1) 모형
- MA(2) 모형
- 1차 이동 평균모형
- 자료 중 MA(p)모형으로 판별이 가능한 특징
- 자기상관함수는 p+1시차 이후 급격히 감소하여 절단된 형태
- 부분자기상관함수는 시차가 증가함에 따라 점차적으로 감소
다. 자기회귀누적이동평균모형(ARIMA 모형)
- 대부분의 많은 시게열 자료가 따르는 모형
- 기본적으로 비정상 시계열 모형이므로 다양한 방식을 통해 정상화할 수 있다
- ARIMA(p, d, q) 모형은 차수 p, d, q에 따라 이름이 다르게 정해진다
- 차수 p는 AR모형과 관련
- 차수 q는 MA모형과 관련
- 차수 d는 ARIMA에서 ARMA로 정상화할 때, 몇 번 차분했는가를 의미
라. 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 이론적 약점이 있음에도, 경제분석이나 예측에서 성공적으로 사용되고 있다
-
추세요인
- 자료가 어떤 특정한 형태를 이루고 있을 때
- 오르거나 내리는 추세
- 선형적 추세
- 이차식 형태
- 지수적 형태 등
- 자료가 어떤 특정한 형태를 이루고 있을 때
-
계절요인
- 고정된 주기에 따라 자료가 변화하는 경우
-
순환요인
- 알려지지 않은 주기를 가지고 변화하는 자료
-
불규칙요인
- 위 세가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인
3. 실습
가. 시계열 자료
-
시계열 자료 불러오기
- 데이터가 ts 클래스를 가진 경우가 아닌 일반 데이터셋을 이용할 경우 ts함수를 이용하여 시계열 자료 형식으로 변환한다
-
그림 고찰
- plot 함수를 이용해 그림을 그려보고, 계절성을 띄는지, 평균이 변화하고 있는지 등을 확인한다
-
분해시계열
- decompose 함수를 이용하여 시계열 자료를 4가지 요인인, 추세요인, 계절요인, 순환요인, 불규칙요인 등으로 분해할 수 있다
- 계절요인을 제거한 후 그림을 다시 그려 확인한다
-
ARIMA모형
-
차분
- 시간에 따라 평균이 일정하지 않을 때, diff 함수를 사용하여 평균이 어느정도 일정해질 때 까지 차분을 한다
-
ARIMA 모델 적합 및 결정
- 자기상관함수와 부분자기상관함수를 통해 ARIMA 모형을 적합하여 최종 모형을 결정
- 자기상관함수를 살펴보기 위해, acf 함수를 사용하여 그래프를 그려본다
- lag 개수를 너무 많이 설정하면 식별을 위한 판단이 힘들다
- 부분자기상관함수를 살펴보기 위해, pacf 함수를 사용하여 그래프를 그려본다
- lag 개수를 적당하게 고른다
- 모수가 많다면 설명력이 커지지만, 모형이 복잡하여 이해하기 어렵다
- 모수가 적다면 모형이 단순하고 이해하기 쉽지만, 설명력이 상대적으로 낮아진다
- forecast 패키지의 auto.arima 함수를 이용하여 적절한 ARIMA 모형을 결정할 수 있다
- 자기상관함수를 살펴보기 위해, acf 함수를 사용하여 그래프를 그려본다
- 자기상관함수와 부분자기상관함수를 통해 ARIMA 모형을 적합하여 최종 모형을 결정
-
ARIMA 모형을 이용한 예측
- forecast 패키지의 forcast 함수를 이용하여 미래의 수치 값을 예측할 수 있다
반응형
'IT > ADP' 카테고리의 다른 글
[ADP_과목 4. 데이터 이해_제 4장 비정형 데이터 마이닝] (0) | 2021.03.01 |
---|---|
[ADP_과목 4. 데이터 이해_제 3장 정형 데이터 마이닝] (0) | 2021.01.25 |
[ADP_과목 4. 데이터 이해_제 1장 기초와 데이터 마트] (0) | 2020.11.30 |
[ADP_과목 3. 데이터 분석 기획_제 2장 분석 마스터 플랜] (0) | 2020.11.02 |
[ADP_과목 3. 데이터 분석 기획_제 1장 데이터 분석 기획의 이해] (0) | 2020.10.12 |
Comments