일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- EBS
- 빅데이터
- ADP
- 자료구조
- Great Minds
- ADsP
- Joseph Samuel Nye Jr.
- Progate
- 데이터분석전문가가이드
- MySQL
- 코테
- CNN10
- Baekjoon
- K-MOOC
- 알고리즘
- 맛집
- 조지프 나이
- 백준
- 데이터분석전문가
- 정치학
- 공부정리
- 위대한 수업
- Udemy
- 후기
- KMOOC
- 당신이 몰랐던 진화론
- Hacker Rank
- python
- 미분적분학
- 누가 진정한 리더인가
Archives
- Today
- Total
ㅇ
[ADP_과목 3. 데이터 분석 기획_제 1장 데이터 분석 기획의 이해] 본문
* 다음 내용은 [데이터 분석 전문가 가이드] (2019년 개정판)을 읽고 정리한 내용입니다.
제 1절 분석 기획 방향성 도출
- 분석기획
- 앞서 분석을 수행할 과제의 정의, 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업
- 어떠한 목표(What)를 달성하기 위하여(Why) 어떠한 데이터를 가지고 어떤 방식(How)으로 수행할 지에 대한 일련의 계획을 수립하는 작업
1. 분석 기획의 특징
- 분석을 기획할 때 필요한 능력
- 해당 문제 영역의 전문성 역량
- 수학, 통계학적 지식 활용한 분석 역량
- 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형잡힌 시각
- 분석 주제 유형
- Optimization: 개선을 통한 최적화
- Solution: 분석 주제에 대한 솔루션 찾기
- Insight: 새로운 지식인 통찰 도출
- Discovery: 발견 접근법으로 분석 대상을 새롭게 도출
- 위의 4가지 유형을 넘나들면서 분석 수행, 결과 도출 과정을 반복
- 목표 시점 별 과제 수행 방식
- 과제 중심적인 접근 방식
- 빠르게 해결 > Quick-Win방식
- 장기적인 마스터 플랜 방식
- 전사적이고 장기적인 관점 > 지속적인 분석 내재화 목적
- 과제 중심적인 접근 방식
- 분석 기획에서 중요한 것
- 두 방식을 융합적으로 적용
- 문제 해결을 위한 단기적 접근 방식 + 분석과제정의를 위한 중장기적인 마스터플랜 접근 방식
- 문제 해결을 위한 단기적 접근 방식 + 분석과제정의를 위한 중장기적인 마스터플랜 접근 방식
- 분석 가치 증명하고 이해관계자들의 동의 구하기 위해 분석 통해 해결 가능한 해묵은 과제 빠르게 해결하여 분석의 가치를 조기 체험해 공감대를 확산시키는 방식도 유용
- 두 방식을 융합적으로 적용
- 의미있는 분석위해 필요한 역량
- IT 및 프로그래밍
- 분석 주제 도메인 전문성
- 의사소통
- 프로젝트관리 역량
- 리더십 역량
2. 분석 기획 시 고려사항
- 가용한 데이터
- 데이터 확보 우선 필수적
- 데이터 유형 따른 솔루션과 분석 방법 상이함
- 정형: 잘 정제된 DB 형태
- 비정형: e-Mail, 보고서, 소셜 미디어 데이터 등
- 반정형: 센서를 중심으로 스트리밍되는 머신 데이터
- 적절한 유스케이스분석
- 기존의 분석 시나리오 및 솔루션을 최대한 활용
- 공감대 얻고 원활한 분석 수행에 도움
- 과제 수행을 위한 장애 요소
- 정확도 위해 기간과 투입 리소스가 늘어남 > 비용 상승
- 추가하기
- 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리가 고려되어야 한다
제 2절 분석 방법론
1. 분석 방법론 개요
- 합리적 의사결정 가로막는 장애요소
- 고정 관념
- 편향된 생각
- 프레이밍 효과: 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
- 데이터 기반 의사결정에 필요한 것
- 기업 문화의 변화
- 업무 프로세스의 개선
- 촉진 도구로써 데이터 분석 활용 가능
- 방법론
- 구성요소
- 상세한 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
- 어느 정도의 지식으로 활용 가능해야 한다
- 생성요소
- 개인의 암묵지가 조직의 형식지로 발전하는 형식화를 거쳐
- 체계화하여 문서화한 최적화된 형식지로 전개
- 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐
- 암묵지로 발전하는 선순환 과정이 진행
- 모델 종류
- 폭포수 모델
- 순차적으로 진행
- 하향식
- 문제나 개선사항 발견시 피드백 과정 수행
- 나선형 모델
- 반복을 통해 점증적으로 개발
- 처음에는 용이하나 체계가 없으면 복잡도가 상승하여 진행이 어려울 수 있다
- 프로토타입 모델
- 계층적 프로세스 모델
- 일반적으로 활용되는 모델
- 구성
- 폭포수 모델
- 구성요소
최상위계층 | Phase | 프로세스 그룹을 통해 완성된 단계별 산출물 생성 기준선으로 설정되어 관리되어야하므로 버전 관리를 통한 통제가 필요 |
중간계층 | Task | 단계를 구성하는 단위 활동 물리적, 논리적 단위로 품질검토의 항목 |
마지막 계층 | Step | WBS의 워크패키지 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 |
2. KDD 분석 방법론
- KDD
- Knowledge Discovery in Databases
- 1996년 Fayyad, 데이터 마이닝 프로세스
- 9개의 프로세스를 통해 패턴을 찾는 과정
- 분석 대상 비즈니스 도메인의 이해
- 분석 대상 데이터셋 선택과 생성
- 데이터에 포함되어 있는 노이즈/이상값 등을 제거하는 정제작업/선처리
- 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
- 분석 목적에 맞는 데이터 마이닝 기법 선택
- 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
- 데이터 마이닝 시행
- 데이터 마이닝 결과에 대한 해석
- 데이터 마이닝에서 발견된 지식 활용
가. 데이터셋 선택
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 정확하게 설정
- 데이터셋 선택
- 원시 데이터에서 분석에 필요한 것을 선택하고, 추가적으로 생성 가능
- 목표데이터를 구성
나. 데이터 전처리
- 데이터셋에 포함되어 있는 노이즈/이상값/결측치 등을 제거하는 정제작업/선처리
- 추가적으로 필요한 경우 가) 반복 가능
다. 데이터 변환
- 분석 목적에 맞는 변수를 선택
- 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있게 데이터 변경
라. 데이터 마이닝
- 분석 목적에 맞는 데이터 마이닝 기법 선택
- 분석 목적에 맞는 데이터 마이닝 알고리즘 선택하여 마이닝 작업 시행
- 데이터 패턴 찾기
- 데이터 분류
- 예측 등
- 추가적으로 필요한 경우 나) 다) 병행 가능
마. 데이터 마이닝 결과 평가
- 데이터 마이닝 결과에 대한 해석/평가/분석하여 목적과의 일치성 확인
- 데이터 마이닝에서 발견된 지식 활용 위한 방안 찾기
- 추가적으로 필요한 경우 가)~라)를 반복 가능
3. CRISP-DM 분석 방법론
- Cross Industry Standard Process for Data Mining
- 1996, 유럽연합의 ESPRIT에서 시작
- 1999년 DaimlerChryrler, SPSS, NCR 등 참여한 첫 버전 발표
- 4 레벨의 계층적 프로세스 모델
최상위 레벨 | Phase | Generic Tasks 포함 |
두 번째 레벨 | Generic Tasks, 일반화 태스크 | 데이터 마이닝의 단일 프로세스를 완전히 수행 |
세 번째 레벨 | Specialized Tasks, 세분화 태스크 | Generic Task를 구체적으로 수행 |
마지막 레벨 | Process Instances, 프로세스 실행 | 데이터 마이닝을 위한 구체적 실행 |
- 단계 간 피드백 통해 단계별 완성도 높인다
가. 업무 이해
- 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해한다
- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립한다
- 업무 목적 파악
- 상황 파악
- 데이터 마이닝 목표 설정
- 프로젝트 계획 수립
나. 데이터 이해
- 데이터 수집
- 데이터 속성 이해
- 품질 문제점 식별
- 인사이트 발견
- 초기 데이터 수집
- 데이터 기술 분석
- 데이터 탐색
- 데이터 품질 확인
다. 데이터 준비
- 분석기법에 적합한 데이터셋 편성, 많은 시간 소요
- 분석용 데이터셋 선택
- 데이터 정제
- 분석용 데이터셋 편성
- 데이터 통합
- 데이터 포매팅
라. 모델링
- 모델링 기법/알고리즘 선택
- 파라미터 최적화
- 준비단계 반복 수행 가능
- 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합 등 문제 확인하고 대응 방안 마련
- 모델링 기법 선택
- 모델 테스트 계획 설계
- 모델 작성
- 모델 평가
마. 평가
- 모델이 프로젝트 목적에 부합하는가 평가
- 데이터 마이닝 결과의 수용여부를 최종적으로 판단
- 분석결과 평가
- 모델링 과정 평가
- 모델 적용성 평가
바. 전개
- 실 업무에 적용을 위한 계획을 수립
- 모니터링과 모델의 유지보수 계획 수립
- 비즈니스 도메인 특성, 데이터 품질 편차, 운영 모델의 평가 기준 따라 생명주기 다양하므로 상세한 전개 계획이 필요
- 프로젝트 종료 관련 프로세스 수행하여 완료
- 전개 계획 수립
- 모니터링과 유지보수 계획 수립
- 프로젝트 종료보고서 작성
- 프로젝트 리뷰
4. 빅데이터 분석 방법론
- 계층적 프로세스 모델
최상위계층 | Phase | 프로세스 그룹을 통해 완성된 단계별 산출물 생성 기준선으로 설정되어 관리되어야하므로 버전 관리를 통한 통제가 필요 |
중간계층 | Task | 단계를 구성하는 단위 활동 물리적, 논리적 단위로 품질검토의 항목 |
마지막 계층 | Step | WBS의 워크패키지 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 |
가. 분석 기획(Planning)
- 비즈니스를 이해하고 도메인 문제 파악해 범위를 확정
- 진행의 기준선을 준비
- 대용량의 정형/비정형 데이터 활용해 인프라 구축을 병행
- 프로젝트 내 위험 요소 정리
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험계획 수립
나. 데이터 준비(Preparing)
- 비즈니스 요구사항을 데이터 차원에서 다시 파악
- 필요로 하는 데이터 정의해 전사 차원의 데이터 스토어 준비
- 많은 시간 소요되므로 효율성 위해 ETL(Extract Transform Load) 등 도구 사용
- 품질 확보가 중요하므로 품질통제와 품질보증 프로세스 수행
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
다. 데이터 분석(Analyzing)
- 분석에 필요한 데이터셋을 준비하고 탐색적 분석, 모델링과 모델 평가 태스크 진행
- 비정형 텍스트 데이터가 존재하면, 텍스트 마이닝/텍스트 분류 등 분석 기법과 알고리즘 이용하여 비정형 분석 실시하고, 필요할 경우 정형 데이터와 결합하여 통합 모델링 수행
- 충분한 데이터 확보 불가능할 경우, 데이터 준비 단계를 반복
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영방안 수립
라. 시스템 구현(Developing)
- 운영중인 시스템에 적용하거나 프로토타입을 구현할 때 진행
- 단순한 작업만 존재시 수행X 다음 단계인 평가 및 전개 단계를 수행
- 소프트웨어 개발 생명주기인 SDLC(Software Development Life Cycle)와 기업내 시스템 개발 위해 사용하고 있는 방법론을 커스터마이징해 적용 가능
- 설계 및 구현
- 시스템 테스트 및 운영
마. 평가 및 전개(Deploying)
- 목적 달성 여부 평가
- 모델 발전계획 수립
- 객관적이고 정량적으로 평가해 내부 활용 및 자산화 추진
- 모든 중간 산출물 정리해 종료 보고서 보고 후 종료
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
5. 분석 계획
가. 비즈니스 이해 및 범위 설정
- 업무 메뉴얼 및 업무 전문가의 도움 필요
- 구조화된 명세서 작성
-
비즈니스 이해
- 자료조사하고 향후 프로젝트 진행 위한 방향정하기
- 입력자료: 업무 매뉴얼, 업무전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
- 프로세스 및 도구: 자료 수집 및 비즈니스 이해
- 출력자료: 비즈니스 이해 및 도메인 문제점
- 자료조사하고 향후 프로젝트 진행 위한 방향정하기
-
프로젝트 범위 설정
- 비즈니스에 대한 이해와 프로젝트 목적에 부합하는 범위 설정
- 모든 관계자들의 이해를 일치
- SOW 작성
- 입력자료: 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
- 프로세스 및 도구: 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
- 출력자료: 프로젝트 범위 정의서(SOW, Statement Of Work)
나. 비즈니스 정의 및 계획 수립
- 추천 목표 명확히 정의, 구체화 위해 모델 운영 이미지 설계/모델 평가 기준 설정
- WBS(Work Breakdown Structure) 만들기
- 프로젝트 수행 계획 작성
- 데이터 확보계획/빅데이터 분석 방법/일정 계획/예상계획/품질계획/인력구성계획/의사소통계획
- 데이터 분석 프로젝트 정의
- 상세 프로젝트 정의서 작성
- 모델 운영 이미지 및 평가 기준 설정
- 입력자료: 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
- 프로세스 및 도구: 프로젝트 목표 구체화, 모델 운영 이미지 설계
- 출력자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
-
프로젝트 수행 계획 수립
- 상세 프로젝트 정의서 작성, 모델 운영 이미지 및 평가 기준 설정
- 입력자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
- 프로세스 및 도구: 프로젝투 수행 계획 작성, WBS 작성 도구, 일정계획 수립 도구
- 출력자료: 프로젝트 수행 계획서, WBS
- 상세 프로젝트 정의서 작성, 모델 운영 이미지 및 평가 기준 설정
다. 프로젝트 위험계획 수립
- 내/외부 시스템간 다양한 인터페이스, 대량의 정형/비정형 데이터 연계, 개인정보보호 등 많은 어려움 존재
-
데이터 분석 위험 식별
- 발생 가능한 위험을 식별
- 입력자료: 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
- 프로세스 및 도구: 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단
- 출력자료: 식별된 위험 목록
- 발생 가능한 위험을 식별
-
위험 대응 계획 수립
- 정량적/정성적 분석 통해 대응방안 수립
- 회피(Avoid)/전이(Transfer)/완화(Mitigate)/수용(Accept)로 구분해 위험 관리 계획서 작성
- 입력자료: 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구: 위험 정량적 분석, 위험 정성적 분석
- 출력자료: 위험관리 계획서(회피, 전이, 완화, 수용)
6. 데이터 준비
가. 필요 데이터 정의
- 필요한 데이터 정의
- 모든 내/외부 데이터 포함
- 데이터 정의서 작성
- 데이터 속성/데이터 오너/데이터 관련 시스템 담당자
- 데이터 획득방안 상세히 수립해 프로젝트 지연을 방지
-
데이터 정의
- 다양한 내/외부 원천 데이터 소스로부터 분석 필요한 데이터 정의
- 입력자료: 프로젝트 수행 계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료
- 프로세스 및 도구: 내, 외부 데이터 정의, 정형/비정형/반정형 데이터 정의
- 출력자료: 데이터 정의서
- 다양한 내/외부 원천 데이터 소스로부터 분석 필요한 데이터 정의
-
데이터 획득방안 수립
- 내부: 부서간 업무협조, 개인정보보호 및 정보보안과 관련된 문제점 점검
- 외부: 시스템간 다양한 인터페이스 및 법적 문제를 고려한 상세한 계획수립
- 입력자료: 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
- 프로세스 및 도구: 데이터 획득 방안 수립
- 출력자료: 데이터 획득 계획서
나. 데이터 스토어 설계
- 전사 차원의 데이터 스토어 설계
-
정형 데이터 스토어 설계
- RDBMS 이용
- 효율적인 저장과 활용을 위해 논리적, 물리적 설계를 구분하여 설계
- 입력자료: 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구: 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑
- 출력자료: 정형 데이터 스토어 설계서, 데이터 매핑 정의서
-
비정형데이터 스토어 설계
- 하둡, NoSQL 등을 이용 논리적, 물리적 데이터 스토어 설계
- 입력자료: 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구: 비정형/반정형 데이터 논리설계, 비정형/반정형 데이터 물리설계
- 출력자료: 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
- 하둡, NoSQL 등을 이용 논리적, 물리적 데이터 스토어 설계
다. 데이터 수집 및 정합성 점검
- 구축된 데이터 스토어에 크롤링, 시스템간 실시간 처리, 배치 처리 등으로 데이터 수집
- 데이터베이스간 연동, API를 이용한 개발, ETL 도구 활용 등 다양한 방법 이용
-
데이터 수집 및 저장
- 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램 등 이용해 데이터 수집
- 설계된 데이터 스토어에 저장
- 입력자료: 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
- 프로세스 및 도구: 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
- 출력자료: 수집된 분석용 데이터
-
데이터 정합성 점검
- 품질 점검을 통해 정합성 확보, 품질개선 보완 작업 수행
- 입력자료: 수집된 분석용 데이터
- 프로세스 및 도구: 데이터 품질 확인, 데이터 정합성 점검 리스트
- 출력자료: 데이터 정합성 점검 보고서
- 품질 점검을 통해 정합성 확보, 품질개선 보완 작업 수행
7. 데이터 분석
가. 분석용 데이터 준비
- 프로젝트 목표와 도메인을 이해하고 비즈니스 룰 확인
-
비즈니스 룰 확인
- 비즈니스 룰 파악하고 분석에 필요한 데이터 범위 확인
- 입력자료: 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
- 프로세스 및 도구: 프로젝트 목표 확인, 비즈니스 룰 확인
- 출력자료: 비즈니스 룰, 분석에 필요한 데이터 범위
- 비즈니스 룰 파악하고 분석에 필요한 데이터 범위 확인
-
분석용 데이터셋 준비
- 추출한 데이터에 필요시 적절한 가공하여 데이터베이스/구조화된 형태로 구성
- 분석을 위한 작업 공간과 전사 차원의 데이터 스토어로 분리 가능
- 입력자료: 데이터 정의서, 데이터 스토어
- 프로세스 및 도구: 데이터 선정, 데이터 변환, ETL도구
- 출력자료: 분석용 데이터 셋
나. 텍스트 분석
- 어휘/구문 분석, 감성 분석, 토픽 분석, 오피니언 분석, 소셜 네트워크 분석 등을 실시
- 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축
- 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축
-
텍스트 데이터 확인 및 추출
- 전사 차원의 데이터 스토어에서 확인하고 필요 데이터 추출
- 입력자료: 비정형 데이터 스토어
- 프로세스 및 도구: 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
- 출력자료: 분석용 텍스트 데이터
- 전사 차원의 데이터 스토어에서 확인하고 필요 데이터 추출
-
텍스트 데이터 분석
- 추출 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석, 모델 구축
- 용어 사전, 업무 도메인에 맞춰 작성하여 의미 전달 명확하게 한다
- 입력자료: 분석용 텍스트 데이터, 용어사전(용어 유의어 사전, 불용어 사전 등)
- 프로세스 및 도구: 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석
- 출력자료: 텍스트 분석 보고서
다. 탐색적 분석
- 데이터셋에 대한 정합성 검토, 데이터 요약을 통해 필요 데이터를 편성
- 탐색적 데이터 분석인 EDA(Exploratory Data Analysis)
- 다양한 데이터 시각화를 활용해 데이터 가독성 명확히
- 데이터 형상 및 분포 등 데이터 특성 파악
-
탐색적 데이터 분석
- 다양한 관점별로 기초 통계량 산출
- 데이터의 특성과 통계적 특성을 이해
- 입력자료: 분석용 데이터셋
- 프로세스 및 도구: EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인
- 출력자료: 데이터 탐색 보고서
-
데이터 시각화
- 시각화 기획, 설계, 구현 등 별도의 프로세스 따라 진행
- 모델링 또는사용자 인터페이스 또는 프로토타입으로 활용 가능
- 입력자료: 분석용 데이터셋
- 프로세스 및 도구: 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
- 출력자료: 데이터 시각화 보고서
라. 모델링
- 모델링
- 분석용 데이터 이용한 가설 설정을 통해 통계 모델을 만들거나 기계 학습 이용한 분류, 예측, 군집 등 수행
- 기계학습: 지도학습, 비지도 학습
- 훈련용과 테스트용으로 분할하여 과적합을 방지하고 일반화에 이용
-
데이터 분할
- 과적합 방지와 일반화 위해 훈련용 데이터와 테스트 데이터로 분할
- 교차검증 혹은 앙상블기법 적용할 경우, 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 데이터 분할 기법을 응용
- 입력자료: 분석용 데이터 셋
- 프로세스 및 도구: 데이터 분할 패키지
- 출력자료: 훈련용 데이터, 테스트용 데이터
-
데이터 모델링
- 분류, 예측, 군집 등의 모델 만들어 적용
- 필요시 비정형 데이터 분석 결과를 통합적 활용
- 입력자료: 분석용 데이터 셋
- 프로세스 및 도구: 통계 모델링 기법, 기계학습, 모델 테스트
- 출력자료: 모델링 결과 보고서
-
모델 적용 및 운영 방안
- 의사코드 수준의 상세한 알고리즘 설명서 작성
- 안정적 운영을 위한 모니터링 방안 수립
- 입력자료: 모델링 결과 보고서
- 프로세스 및 도구: 모니터링 방안 수립, 알고리즘 설명서 작성
- 출력자료: 알고리즘 설명서, 모니터링 방안
마. 모델 평가 및 검증
- 정의서 평가 기준에 따라 모델 완성도 평가
- 별도의 데이터셋으로 모델의 객관성과 실무 적용성을 검증
- 성능 목표 미달 시 모델링 태스크를 반복 하는 등 모델 튜닝 작업 필요
-
모델 평가
- 모델 평가 기준 따라 객관적으로 평가, 품질관리 차원에서 진행
- 알고리즘 파악하고 테스트용 데이터 혹은 별도 데이터 활용 가능
- 입력자료: 모델링 결과 보고서, 평가용 데이터
- 프로세스 및 도구: 모델 평가, 모델 품질관리, 모델 개선작업
- 출력자료: 모델 평가 보고서
-
모델 검증
- 검증용 데이터 이용해 모델 검증 작업 실시하고 보고서 작성
- 운영용 데이터 확보, 품질 최종 검증
- 입력자료: 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터
- 프로세스 및 도구: 모델 검증
- 출력자료: 모델 검증 보고서
8. 시스템 구현
가. 설계 및 구현
- 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행
- 운영 시스템에 대한 분석도 수행
- BI(Business Intelligence) 패키지 활용하거나, 새롭게 프로그램 코딩 통해 시스템 구축
-
시스템 분석 및 설계
- 가동 중 시스템을 분석, 알고리즘 설명서에 근거하여 응용시스템 구축 설계 프로세스를 진행
- 사용중 정보시스템 개발방법론을 커스터마이징하여 시스템 분석과 설계에 적용 가능
- 입력자료: 알고리즘 설명서, 운영중인 시스템 설계서
- 프로세스 및 도구: 정보시스템 개발방법론
- 출력자료: 시스템 분석 및 설계서
-
시스템 구현
- BI 패키지를 활용하거나 새롭게 시스템 구축
- 가동중인 운영시스템의 커스터마이징 통해 설계된 모델 구현
- 입력자료: 시스템 분석 및 설계서, 알고리즘 설명서
- 프로세스 및 도구: 시스템 통합개발도구(IDE), 프로그램 언어, 패키지
- 출력자료: 구현 시스템
나. 시스템 테스트 및 운영
- 모델은 테스트 통해 적용
- 효율적 운영 위한 프로세스 진행
-
시스템 테스트
- 단위 테스트, 통합 테스트, 시스템 테스트 등 실시
- 시스템 테스트는 품질관리 차원에서 진행하여 객관성, 완전성 확보
- 입력자료: 구현 시스템, 시스템 테스트 계획서
- 프로세스 및 도구: 품질관리 활동
- 출력자료: 시스템 테스트 결과보고서
-
시스템 운영 계획
- 운영자, 사용자 교육 실시
- 시스템 운영계획 수립
- 입력자료: 시스템 분석 및 설계서, 구현 시스템
- 프로세스 및 도구: 운영계획 수립, 운영자 및 사용자 교육
- 출력자료: 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
9. 평가 및 전개
가. 모델 발전 계획 수립
- 모델 성능은 업무 특성 및 데이터 품질에 영향 많이 받으므로 개선 노력이 주기적 진행 필요
- 생명 주기 설정하고 주기적인 평가를 실시하여 유지보수 / 재구축 방안 마련
- 모델 업데이트 자동화 적용 가능
-
모델 발전 계획
- 발전계획을 상세하게 수립하여 모델의 계속성 확보
- 입력자료: 구현 시스템, 프로젝트 산출물
- 프로세스 및 도구: 모델 발전 계획 수립
- 출력자료: 모델 발전 계획서
- 발전계획을 상세하게 수립하여 모델의 계속성 확보
나. 프로젝트 평가 및 보고
- 분석 기획 단계에서 설정된 기준 따라 성과를 정량적/정성적으로 평가
- 산출된 지식, 프로세스, 출력자료를 지식자산화
- 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 보고
- 프로젝트 종료
-
프로젝트 성과 평가
- 정량적과 정성적으로 나누어 성과 평가서 작성
- 입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구: 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
- 출력자료: 프로젝트 성과 평가서
- 정량적과 정성적으로 나누어 성과 평가서 작성
-
프로젝트 종료
- 진행과정 모든 산출물 및 프로세스를 지식자산화
- 최종보고서 작성 의사소통 절차에 맞추어 보고 후 프로젝트 종료
- 입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서
- 프로세스 및 도구: 프로젝트 지식자산화 작업, 프로젝트 종료
- 출력자료: 프로젝트 최종 보고서
제 3절 분석 과제 발굴
가능합 옵션을 도출하는 상향식의 발산단계와, 도출된 옵션을 분석, 검증하는 하향식의 수렴단계를 반복적으로 수행하는, 상호 보완하는 것이 최적의 의사결정 방식
1. 하향식 접근법
- 문제가 주어지고 해답을 찾기위한 각 과정이 체계적으로 단계화
가. 문제 탐색 단계
- 전체적인 관점의 기준 모델을 활용하여 문제를 도출하고 식별하는 것이 중요
- 기업 내/외부 환경 포괄하는 비즈니스 모델과 외부 참조모델
- 문제를 해결함으로써 발생하는 가치에 중점 두는 것이 중요
-
비즈니스 모델 기반 문제 탐색
- 과제 발굴 위한, 기업 내/외부 환경 포괄하는, 기본 틀
- 비즈니스 모델 캔버스의 9가지 블록을 단순화 하여 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴
- 관리하는 두가지 영역의 규제와 감사(Audit & Regulation), 지원 인프라(IT & Human Resource) 영역에 대한 기회를 추가로 도출
-
업무(Operation)
- 내부 프로세스 및 주요자원 관련 주제 도출
- Key Activities, Key Partners, Costs, Key Resources
- 생산 공정 최적화, 재고량 최소화 등
-
제품(Product)
- 제품 서비스를 개선하기 위한 관련 주제 도출
- Value Proposition
- 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등
-
고객(Product)
- 제공받는 사용자 및 고객, 제공하는 채널의 관점에서 관련 주제 도출
- Customer Relationships, Customers, channels, Revenue
- 고객 Call 대기 시간 최소화, 영업점 위치 최적화 등
-
규제와 감사(Regulation & Audit)
- 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 및 보안의 관점에서 주제 도출
- 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등
-
지원 인프라(IT & Human Resource)
- 시스템 영역 및 운영, 관리하는 인력의 관점에서 주제 도출
- EDW 최적화, 적정 운영 인력 도출 등
-
- 새로운 문제 발굴 및 장기적 접근 위해 아래의 4가지 관점을 통한 혁신 필요
- 분석가뿐 아니라, 해당 기능 수행 직원 및 관려자에 대한 폭넓은 인터뷰와 워크숍 형태 아이디어 발굴작업 필요
-
거시적관점의 요인, STEEP
- Social, 사회
- 고객 확장하여, 전체 시장 대상으로 사회적, 문화적, 구조적 트렌드 변화에 기반한 분석 기회 도출
- 노령화, 밀레니얼 세대의 등장, 저출산 따른 해당 사업 모델 변화 등
- Technological, 기술
- 최신 기술에 따른 역량 내재화와 제품/서비스 개발에 대한 분석 기회 도출
- 나노 기술, IT 융햡 기술, 로봇 기술의 고도화에 따른 기존 제품의 Smart화 등
- Economic, 경제
- 산업, 금융 전반 변동성 및 경제 구조 변화 동향 따른 시장 흐름 파악한 분석 기회 도출
- 원자재 가격, 환율, 금리 변동에 따른 구매 전략의 변화 등
- Environmental, 환경
- 환경 관련 정부, 사회단체, 시민사회의 관심과 규제 동향 파악한 분석 기회 도출
- 탄소 배출 규제 및 거래 시장 등장에 따른 원가 절감 및 정보 가시화 등
- Political
- 주요 정책방향, 정세, 지정학적 동향 등 거시적 흐름 토대로 한 분석 기회 도출
- 대북 관계 동향에 따른 원자재 구매 거래선의 다변화 등
- Social, 사회
-
경쟁자의 동향
- Substitute, 대체재
- 융합적 경쟁 환경에서 대체재 파악한 분석 기회 도출
- 현재 오프라인으로 제공하고 있는 자사 상품/서비스를 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협 파악
- Competitor, 경쟁자
- 주요 경쟁자에 대한 동향을 파악한 분석 기회 도출
- 식별된 주요 경쟁사의 제품/서비스 카탈로그 및 전략 분석하고 이에 대한 잠재적 위협 파악
- New Entrant, 신규 진입자
- 향후 파괴적 역할 수행할 신규 진입자 동향 파악한 분석 기회 도출
- 새로운 제품에 대한 크라우드 소싱 서비스인 Kickstarter의 유사 제품을 분석하고 자사의 제품에 대한 잠재적 위협 파악
- Substitute, 대체재
-
시장의 니즈 변화
- Customer, 고객
- 구매 동향과 컨텍스트를 깊게 이해하여 개선에 필요한 분석 기회 도출
- 철강 기업의 경우, 조선 산업과 자동차 산업의 동향 및 주요 거래선의 경영 현황 등을 파악한 분석 기획 도출 등
- Channel, 채널
- 자체적 운영하는 채널과 최종 고객에게 전달하는 경로에 존재하는 채널별로 분석 기회를 확대
- 은행의 경우, 인터넷전문은행 등 채널의 등장에 따른 변화에 대한 전략 분석 기회 도출 등
- Influencer, 영향자들
- 주주/투자자/협회 및 기타 이해관계자의 주요 관심사항에 대해 파악한 분석기회 탐색
- M&A 시장 확대에 따른 유사 업종의 신규 기업 인수 기회 탐색 등
- Customer, 고객
-
역량의 재해석
- Competency, 내부 역량
- 간과하기 쉬운 지식, 기술, 스킬 등 노하우와 인프라적인 유형 자산에 대해 폭넓게 재해석한 분석 기회를 탐색
- 자사 소유 부동산을 활용한 부가 가치 창출 기회 발굴 등
- Partners & Network, 파트너와 네트워크
- 밀접한 관계인 관계사/공급사 등, 역량을 활용해 수행이 가능한 기능을 파악하고 이에 대한 분석 기회 추가적으로 도출
- Competency, 내부 역량
-
-
외부 참조 모델 기반 문제 탐색
- 유사 동종 환경에서 기존 수행한 분석 과제를 살펴보는 것이 중요
- 산업별, 업무 서비스별 분석테마 후보 그룹(Pool)을 통해 Quick & Easy 방식으로 아이디어 얻기
- 적용가능한 분석테마 후보 목록을 브레인스토밍 통해 빠르게 도출
- 평상시 지속적 조사로 유사 동종 업계 뿐 아니라 타 업종 및 분야의 Pool을 만들어 두면 새로운 주제 탐색에 도움이 된다
-
분석 유즈 케이스 정의
- 풀어야 할 문제의 상세한 설명, 해결 후 효과를 명시
- 분석 문제로의 전환 및 적합성 평가에 활용
나. 문제 정의 단계
- 식별된 비즈니스 문제를 데이터 문제로 변환하여 정의
- 달성하기 위해 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행
- 효용 얻을 최종사용자 관점에서 분석이 이루어져야 함
다. 해결방안 탐색 단계
- 어떤 데이터 혹은 분석 시스템 사용에 따라 소요 예산 및 활용 도구가 다르므로 다각도로 고려 필요
- 기존 시스템에서 보유X > 교육, 전문 인력 채용, 분석 전문 업체 활용 등
라. 타당성 검토 단계
-
경제적
- 비용 대비 편익 분석 관점 접근 필요
- 비용: 데이터, 시스템, 인력, 유지 보수
- 편익: 분석 결과를 적용하여 실질적 비용 절감, 추가적 매출 수익 등
-
데이터 및 기술적
- 데이터 존재 여부, 분석 시스템 환경, 분석 역량이 필요
- 역량 확보 방안을 사전에 수립
- 비즈니스 분석가, 데이터 분석가, 시스템 엔지니어와의 협업
- 프로젝트 계획의 입력물로 활용될, 솔루션 방안을 포함한 정의서 형태로 명시하는 후속작업 필요
2. 상향식 접근법
- 경험적 과거 데이터를 무작정 결합하여 정보/지식을 얻는 새로운 분석 패러다임
- 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론
- 기존 하향식 접근법은, 최근 복잡하고 다양한 환경에 적합하지X
- 대상의 관점으로의 전환을 수행
- 사물을 있는 그대로 인식하는 What 관점에서 수행
- 그 자체를 관찰하고 실제적으로 행동에 옮김
- 첫 단계로 감정이입을 특히 강조
- 일반적으로 상향식 접근에서 수행되는 방식: 비지도학습
- 데이터 자체의 결합, 연관성, 유사성 중심으로 데이터 상태를 표현
- 장바구니 분석, 군집 분석(인자간 유사성), 기술 통계 및 프로파일링 등
- 새로운 유형의 인사이트 도출
- 반대로 명확한 목적하에 이루어지는 것: 지도학습
- 분류(O와 X를 구분), 추측, 예측(나올 결과), 최적화 통해 사용자 주도하에 분석 실시하고 지식 도출하는 것이 목표
- 상관관계 분석 / 연관 분석을 이용
- 상관관계 분석을 이용해, 다량의 데이터 분석을 통해 왜 그런지 역으로 추적하며 문제를 도출, 재정의 하는 것이 상향식 접근 방법
- 기존 하향식 접근법은, 최근 복잡하고 다양한 환경에 적합하지X
- 시행착오를 통한 문제 해결
- 프로토타이핑 접근법: 요구사항, 데이터 규정 어렵고 소스 파악도 어려운 상황에서 분석을 시도하고 그 결과를 확인하면서 반복적으로 개선하는 방법
- 완전하지 못해도 신속하게 해결책이나 모형을 제시함으로써 문제를 명확하게 인식하고 필요데이터를 식별하여 구체화 가능
- 프로토타이핑 접근법의 기본적 프로세스
- 가설의 생성
- 디자인에 대한 실험
- 실제 환경에서의 테스트
- 테스트 결과에서의 통찰 도출 및 가설 확인
- 잘 설계된 프로타이핑 지속한다면 불명확성은 감소하고, 의도한 결과 도출 성공 가능성 높아진다.
- 빅데이터 분석 환경에서 프로토타이핑 필요성
- 문제에 대한 인식 수준
- 문제 정의가 불명확하거나 새로운 문제일 경우, 이용하면 구체화 도움 가능
- 필요 데이터 존재 여부의 불확실성
- 데이터 집합이 존재하지 않는 경우,
수집을 어떻게 할 것인지 혹은 대체할 것인지 등의 반복적이고 순환적인 협의 과정이 필요
- 데이터 집합이 존재하지 않는 경우,
- 데이터의 사용 목적의 가변성
- 기존의 데이터 정의를 재검토, 사용 목적과 범위를 확대
- 문제에 대한 인식 수준
3. 분석과제 정의
- 분석과제 정의서 양식을 활용하여 보다 상세하게 정의
- 분석 데이터 소스는 내, 외부의 비구조적인 데이터와 소셜미디어 및 오픈 데이터까지 범위를 확장하여 상세하게 작성
분석명 | 분석정의 | ||
소스데이터 | 데이터 입수 난이도 | 분석방법 | |
데이터 입수 사유 | |||
분석적용 난이도 | 분석적용 난이 사유 | 분석주기 | 분석결과 검증 Owner |
제 4절 분석 프로젝트 관리 방안
- 분석 프로젝트의 주요 관리 속성
-
Data size
- 양을 고려한 관리 방안 수립이 필요
-
Data Complexity
- 정형
- BI 프로젝트처럼 분석 마트로 구성
- 비정형
- 다양한 시스템에 산재되어 있는 원천 데이터 통합해 진행
- 초기 데이터 확보와 통합, 분석 모델 선정 등 사전 고려 필요
- 정형
-
Speed
- 활용 시나리오 측면에서 속도를 고려
- 실시간 사기(Fraud), 배치(Batch) 등
-
Analytic Complexity
- 정확도와 복잡도는 트레이드오프 관계이므로, 기준점을 사전에 정의해야 한다
- 해석이 가능하면서 정확도 올릴 최적 모델 찾기
-
Accuracy & Precision
- Accuracy
- 모델과 실제 사이 차이 적다는 정확도
- 분석 활용 측면에서 중요
- Precision
- 모델을 지속적으로 반복했을 때의 편차
- 안정석 측면에서 중요
- 둘 역시 트레이드 오프 관계
- Accuracy
-
1. 분석 프로젝트의 특성
- 데이터와 비즈니스 중간의 조정자 역할
- 비즈니스 현황 이해와 분석의 정확도 달성, 결과에 대한 가치 이해까지 담당
- 도출된 결과의 재해석 통한 지속적 반복, 정교화 대부분
- 프로토타이핑 방식의 어자일 프로젝트 관리방식 고려 필요
- 분석 프로세스 특성 이해한 채로, 지속적 개선 및 변경을 염두에 두고 기간 내 가능한 최선의 결과 도출
2. 분석 프로젝트 관리방안
- 데이터 분석의 특성을 살려 프로젝트관리지침, KS A ISO 21500:2013을 기본 가이드로 활용
- 관리체계 주제 그룹(10개)
주제 그룹 | 개념 및 관련 프로세스 |
통합 | 프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스 |
이해관계자 | 프로젝트 스폰서, 고객사, 기타 이해관계자를 식별하고 관리하는데 필요한 프로세스 |
범위 | 작업과 인도물을 식별하고 정의하는데 요구되는 프로세스 |
자원 | 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는데 필요한 프로세스 |
시간 | 프로젝트 활동의 일정을 수립하고 일정 통제의 진척상황을 관찰하는데 요구되는 프로세스 |
원가 | 예산 개발과 원가통제의 진척상황을 관찰하는데 요구되는 프로세스를 포함 |
리스크 | 위험과 기회를 식별하고 관리하는 프로세스 |
품질 | 품질보증과 품질통제를 계획하고 확립하는데 요구되는 프로세스 |
조달 | 계획에 요구된 프로세스를 포함하며 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는데 요구되는 프로세스 |
의사소통 | 프로젝트와 관련된 정보를 계획, 관리, 배포하는데 요구되는 프로세스 |
- 분석 프로젝트가 갖는 특성과 고려해야 할 주요 관리 항목
- 각 주요사항의 이슈와 리스크를 숙지하고 미연에 방지해야 한다
관리 영역 | 분석 프로젝트의 특성 및 주요 관리 항목 |
범위 | - 데이터의 형태와 양 또는 적용 모델 알고리즘 따라 번위가 빈번하게 변경 - 최종 결과물이 분석 보고서인지 시스템인지 따라 투입 자원 및 범위가 크게 변경되므로사전에 충분한 고려 필요 |
시간 | - 초기 의도 결과위해 지속적 반복하여 시간 소요 많을 수 있음 - 품질 보장된다는 전제로 Time Boxing 기법으로 일정관리 진행 필요 |
원가 | - 외부 데이터는 비쌀 수 있으므로, 사전에 충분한 조사 필요 - 상용 버전 도구 필요 할 수 있음 |
품질 | - 품질목표를 사전에 수립 확정해야 한다 - 품질통제와 품질 보증으로 나누어 수행해야 한다 |
통합 | - 프로세스가 통합적으로 운영되도록 관리 필요 |
조달 | - 외부 소싱 적절히 운영 필요 PoC(Proof of Concept) 형태 프로젝트는 클라우드 등 다양 방안 검토 필요 |
자원 | - 고급 분석 및 빅데이터 아키텍쳐링 수행 인력 부족하므로, 사전에 전문가 확보 검토 필요 |
리스크 | - 데이터 미확보로 진행 어려울 수 있어, 관련 위험을 식별하고 대응방안 사전 수립 필요 - 알고리즘 한계 관한 대응 방안 수립 필요 |
의사소통 | - 전문성 요구되는 결과를 모든 프로젝트 이해관계자 공유가능하게 해야 함 - 다양한 의사소통체계 필요 |
이해관계자 | - 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 이해관계자의 식별과 관리가 필요 |
반응형
'IT > ADP' 카테고리의 다른 글
[ADP_과목 4. 데이터 이해_제 1장 기초와 데이터 마트] (0) | 2020.11.30 |
---|---|
[ADP_과목 3. 데이터 분석 기획_제 2장 분석 마스터 플랜] (0) | 2020.11.02 |
[ADP_과목 2. 데이터 처리 기술 이해_제 2장 데이터 처리 기술_2] (0) | 2020.09.28 |
[ADP_과목 2. 데이터 처리 기술 이해_제 2장 데이터 처리 기술_1] (0) | 2020.09.07 |
[ADP_과목 2. 데이터 처리 기술 이해_제 1장 데이터 처리 프로세스] (0) | 2020.08.31 |
Comments