[ADP_과목 3. 데이터 분석 기획_제 1장 데이터 분석 기획의 이해] 본문

IT/ADP

[ADP_과목 3. 데이터 분석 기획_제 1장 데이터 분석 기획의 이해]

호랑구야 2020. 10. 12. 09:00

* 다음 내용은 [데이터 분석 전문가 가이드] (2019년 개정판)을 읽고 정리한 내용입니다.

1 분석 기획 방향성 도출

  • 분석기획
    • 앞서 분석을 수행할 과제의 정의, 의도했던 결과를 도출할 있도록 관리하는 방안을 사전에 계획하는 작업
    • 어떠한 목표(What)를 달성하기 위하여(Why) 어떠한 데이터를 가지고 어떤 방식(How)으로 수행할 지에 대한 일련의 계획을 수립하는 작업

1. 분석 기획의 특징

  • 분석을 기획할 때 필요한 능력
    • 해당 문제 영역의 전문성 역량
    • 수학, 통계학적 지식 활용한 분석 역량
    • 분석의 도구인 데이터 프로그래밍 기술 역량에 대한 균형잡힌 시각
  • 분석 주제 유형

  • Optimization: 개선을 통한 최적화
  • Solution: 분석 주제에 대한 솔루션 찾기
  • Insight: 새로운 지식인 통찰 도출
  • Discovery: 발견 접근법으로 분석 대상을 새롭게 도출
  • 위의 4가지 유형을 넘나들면서 분석 수행, 결과 도출 과정을 반복

 

  • 목표 시점 별 과제 수행 방식
    • 과제 중심적인 접근 방식
      • 빠르게 해결 > Quick-Win방식
    • 장기적인 마스터 플랜 방식
      • 전사적이고 장기적인 관점 > 지속적인 분석 내재화 목적
  • 분석 기획에서 중요한 것
    • 두 방식을 융합적으로 적용
      • 문제 해결을 위한 단기적 접근 방식 + 분석과제정의를 위한 중장기적인 마스터플랜 접근 방식
    • 분석 가치 증명하고 이해관계자들의 동의 구하기 위해 분석 통해 해결 가능한 해묵은 과제 빠르게 해결하여 분석의 가치를 조기 체험해 공감대를 확산시키는 방식도 유용
  • 의미있는 분석위해 필요한 역량
    • IT 프로그래밍
    • 분석 주제 도메인 전문성
    • 의사소통
    • 프로젝트관리 역량
    • 리더십 역량

 

 

2. 분석 기획 고려사항

  • 가용한 데이터
    • 데이터 확보 우선 필수적
    • 데이터 유형 따른 솔루션과 분석 방법 상이함
      • 정형: 잘 정제된 DB 형태
      • 비정형: e-Mail, 보고서, 소셜 미디어 데이터 등
      • 반정형: 센서를 중심으로 스트리밍되는 머신 데이터
  • 적절한 유스케이스분석
    • 기존의 분석 시나리오 솔루션을 최대한 활용
    • 공감대 얻고 원활한 분석 수행에 도움
  • 과제 수행을 위한 장애 요소
    • 정확도 위해 기간과 투입 리소스가 늘어남 > 비용 상승
    • 추가하기
    • 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리가 고려되어야 한다

 


 

2 분석 방법론

1. 분석 방법론 개요

  • 합리적 의사결정 가로막는 장애요소
    • 고정 관념
    • 편향된 생각
    • 프레이밍 효과: 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
  • 데이터 기반 의사결정에 필요한
    • 기업 문화의 변화
    • 업무 프로세스의 개선
    • 촉진 도구로써 데이터 분석 활용 가능
  • 방법론
    • 구성요소 
      • 상세한 절차
      • 방법
      • 도구와 기법
      • 템플릿과 산출물
    • 어느 정도의 지식으로 활용 가능해야 한다
    • 생성요소
      • 개인의 암묵지가 조직의 형식지로 발전하는 형식화를 거쳐
      • 체계화하여 문서화한 최적화된 형식지로 전개
      • 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐
      • 암묵지로 발전하는 선순환 과정이 진행
    • 모델 종류
      • 폭포수 모델
        • 순차적으로 진행
        • 하향식
        • 문제나 개선사항 발견시 피드백 과정 수행
      • 나선형 모델
        • 반복을 통해 점증적으로 개발
        • 처음에는 용이하나 체계가 없으면 복잡도가 상승하여 진행이 어려울 있다
      • 프로토타입 모델
      • 계층적 프로세스 모델
        • 일반적으로 활용되는 모델
        • 구성
최상위계층 Phase 프로세스 그룹을 통해 완성된 단계별 산출물 생성
기준선으로 설정되어 관리되어야하므로 버전 관리를 통한 통제가 필요
중간계층 Task 단계를 구성하는 단위 활동
물리적, 논리적 단위로 품질검토의 항목
마지막 계층 Step WBS의 워크패키지
입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

 

 

2. KDD 분석 방법론

  • KDD
    • Knowledge Discovery in Databases
    • 1996 Fayyad, 데이터 마이닝 프로세스
    • 9개의 프로세스를 통해 패턴을 찾는 과정
      1. 분석 대상 비즈니스 도메인의 이해
      2. 분석 대상 데이터셋 선택과 생성
      3. 데이터에 포함되어 있는 노이즈/이상값 등을 제거하는 정제작업/선처리
      4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
      5. 분석 목적에 맞는 데이터 마이닝 기법 선택
      6. 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
      7. 데이터 마이닝 시행
      8. 데이터 마이닝 결과에 대한 해석
      9. 데이터 마이닝에서 발견된 지식 활용

. 데이터셋 선택

  • 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 정확하게 설정
  • 데이터셋 선택
    • 원시 데이터에서 분석에 필요한 것을 선택하고, 추가적으로 생성 가능
  • 목표데이터를 구성

 

. 데이터 전처리

  • 데이터셋 포함되어 있는 노이즈/이상값/결측치 등을 제거하는 정제작업/선처리
  • 추가적으로 필요한 경우 가) 반복 가능

 

. 데이터 변환

  • 분석 목적에 맞는 변수를 선택
  • 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있게 데이터 변경

 

. 데이터 마이닝

  • 분석 목적에 맞는 데이터 마이닝 기법 선택
  • 분석 목적에 맞는 데이터 마이닝 알고리즘 선택하여 마이닝 작업 시행
    • 데이터 패턴 찾기
    • 데이터 분류
    • 예측 등
  • 추가적으로 필요한 경우 ) ) 병행 가능

 

. 데이터 마이닝 결과 평가

  • 데이터 마이닝 결과에 대한 해석/평가/분석하여 목적과의 일치성 확인
  • 데이터 마이닝에서 발견된 지식 활용 위한 방안 찾기
  • 추가적으로 필요한 경우 )~) 반복 가능

 

 

3. CRISP-DM 분석 방법론

  • Cross Industry Standard Process for Data Mining
  • 1996, 유럽연합의 ESPRIT에서 시작
  • 1999년 DaimlerChryrler, SPSS, NCR 등 참여한 첫 버전 발표
  • 4 레벨의 계층적 프로세스 모델
최상위 레벨 Phase Generic Tasks 포함
두 번째 레벨 Generic Tasks, 일반화 태스크 데이터 마이닝의 단일 프로세스를 완전히 수행
세 번째 레벨 Specialized Tasks, 세분화 태스크 Generic Task를 구체적으로 수행
마지막 레벨 Process Instances, 프로세스 실행 데이터 마이닝을 위한 구체적 실행
  • 단계  피드백 통해 단계별 완성도 높인다

 

. 업무 이해

  • 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해한다
  • 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립한다
    • 업무 목적 파악
    • 상황 파악
    • 데이터 마이닝 목표 설정
    • 프로젝트 계획 수립

 

. 데이터 이해

  • 데이터 수집
  • 데이터 속성 이해
  • 품질 문제점 식별
  • 인사이트 발견
    • 초기 데이터 수집
    • 데이터 기술 분석
    • 데이터 탐색
    • 데이터 품질 확인

 

. 데이터 준비

  • 분석기법에 적합한 데이터셋 편성, 많은 시간 소요
    • 분석용 데이터셋 선택
    • 데이터 정제
    • 분석용 데이터셋 편성
    • 데이터 통합
    • 데이터 포매팅

 

. 모델링

  • 모델링 기법/알고리즘 선택
  • 파라미터 최적화
  • 준비단계 반복 수행 가능
  • 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합 문제 확인하고 대응 방안 마련
    • 모델링 기법 선택
    • 모델 테스트 계획 설계
    • 모델 작성
    • 모델 평가

 

. 평가

  • 모델이 프로젝트 목적에 부합하는가 평가
  • 데이터 마이닝 결과의 수용여부를 최종적으로 판단
    • 분석결과 평가
    • 모델링 과정 평가
    • 모델 적용성 평가

 

. 전개

  • 업무에 적용을 위한 계획을 수립
  • 모니터링과 모델의 유지보수 계획 수립
  • 비즈니스 도메인 특성, 데이터 품질 편차, 운영 모델의 평가 기준 따라 생명주기 다양하므로 상세한 전개 계획이 필요
  • 프로젝트 종료 관련 프로세스 수행하여 완료
    • 전개 계획 수립
    • 모니터링과 유지보수 계획 수립
    • 프로젝트 종료보고서 작성
    • 프로젝트 리뷰

 

 

4. 빅데이터 분석 방법론

  • 계층적 프로세스 모델
최상위계층 Phase 프로세스 그룹을 통해 완성된 단계별 산출물 생성
기준선으로 설정되어 관리되어야하므로 버전 관리를 통한 통제가 필요
중간계층 Task 단계를 구성하는 단위 활동
물리적, 논리적 단위로 품질검토의 항목
마지막 계층 Step WBS의 워크패키지
입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

 

가. 분석 기획(Planning)

  • 비즈니스를 이해하고 도메인 문제 파악해 범위를 확정
  • 진행의 기준선을 준비
  • 대용량의 정형/비정형 데이터 활용해 인프라 구축을 병행
  • 프로젝트 내 위험 요소 정리
    • 비즈니스 이해 및 범위 설정
    • 프로젝트 정의 및 계획 수립
    • 프로젝트 위험계획 수립

 

나. 데이터 준비(Preparing)

  • 비즈니스 요구사항을 데이터 차원에서 다시 파악
  • 필요로 하는 데이터 정의해 전사 차원의 데이터 스토어 준비
  • 많은 시간 소요되므로 효율성 위해 ETL(Extract Transform Load) 등 도구 사용
  • 품질 확보가 중요하므로 품질통제와 품질보증 프로세스 수행
    • 필요 데이터 정의
    • 데이터 스토어 설계
    • 데이터 수집 및 정합성 점검

 

다. 데이터 분석(Analyzing)

  • 분석에 필요한 데이터셋을 준비하고 탐색적 분석, 모델링과 모델 평가 태스크 진행
  • 비정형 텍스트 데이터가 존재하면, 텍스트 마이닝/텍스트 분류 등 분석 기법과 알고리즘 이용하여 비정형 분석 실시하고, 필요할 경우 정형 데이터와 결합하여 통합 모델링 수행
  • 충분한 데이터 확보 불가능할 경우, 데이터 준비 단계를 반복
    • 분석용 데이터 준비
    • 텍스트 분석
    • 탐색적 분석
    • 모델링
    • 모델 평가 및 검증
    • 모델 적용 및 운영방안 수립

 

라. 시스템 구현(Developing)

  • 운영중인 시스템에 적용하거나 프로토타입을 구현할 때 진행
  • 단순한 작업만 존재시 수행X 다음 단계인 평가 및 전개 단계를 수행
  • 소프트웨어 개발 생명주기인 SDLC(Software Development Life Cycle)와 기업내 시스템 개발 위해 사용하고 있는 방법론을 커스터마이징해 적용 가능
    • 설계 및 구현
    • 시스템 테스트 및 운영

 

마. 평가 및 전개(Deploying)

  • 목적 달성 여부 평가
  • 모델 발전계획 수립
  • 객관적이고 정량적으로 평가해 내부 활용 및 자산화 추진
  • 모든 중간 산출물 정리해 종료 보고서 보고 후 종료
    • 모델 발전계획 수립
    • 프로젝트 평가 및 보고

 

5. 분석 계획

가. 비즈니스 이해 및 범위 설정

  • 업무 메뉴얼 및 업무 전문가의 도움 필요
  • 구조화된 명세서 작성

 

  1. 비즈니스 이해

    • 자료조사하고 향후 프로젝트 진행 위한 방향정하기
      • 입력자료: 업무 매뉴얼, 업무전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
      • 프로세스 도구: 자료 수집 비즈니스 이해
      • 출력자료: 비즈니스 이해 도메인 문제점
  2. 프로젝트 범위 설정

    • 비즈니스에 대한 이해와 프로젝트 목적에 부합하는 범위 설정
    • 모든 관계자들의 이해를 일치
    • SOW 작성
      • 입력자료: 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 도메인 문제점
      • 프로세스 도구: 자료 수집 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
      • 출력자료: 프로젝트 범위 정의서(SOW, Statement Of Work)

 

. 비즈니스 정의 계획 수립

  • 추천 목표 명확히 정의, 구체화 위해 모델 운영 이미지 설계/모델 평가 기준 설정
  • WBS(Work Breakdown Structure) 만들기
  • 프로젝트 수행 계획 작성
    • 데이터 확보계획/빅데이터 분석 방법/일정 계획/예상계획/품질계획/인력구성계획/의사소통계획

 

  1. 데이터 분석 프로젝트 정의
    • 상세 프로젝트 정의서 작성
    • 모델 운영 이미지 및 평가 기준 설정
      • 입력자료: 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
      • 프로세스 도구: 프로젝트 목표 구체화, 모델 운영 이미지 설계
      • 출력자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
  2. 프로젝트 수행 계획 수립

    • 상세 프로젝트 정의서 작성, 모델 운영 이미지 및 평가 기준 설정
      • 입력자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
      • 프로세스 도구: 프로젝투 수행 계획 작성, WBS 작성 도구, 일정계획 수립 도구
      • 출력자료: 프로젝트 수행 계획서, WBS

 

. 프로젝트 위험계획 수립

  • 내/외부 시스템간 다양한 인터페이스, 대량의 정형/비정형 데이터 연계, 개인정보보호 등 많은 어려움 존재

 

  1. 데이터 분석 위험 식별

    • 발생 가능한 위험을 식별
      • 입력자료: 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 정리자료
      • 프로세스 도구: 위험 식별 절차, 위험영향도 발생가능성 분석, 위험 우선순위 판단
      • 출력자료: 식별된 위험 목록
  2. 위험 대응 계획 수립

    • 정량적/정성적 분석 통해 대응방안 수립
    • 회피(Avoid)/전이(Transfer)/완화(Mitigate)/수용(Accept)로 구분해 위험 관리 계획서 작성
      • 입력자료: 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서
      • 프로세스 도구: 위험 정량적 분석, 위험 정성적 분석
      • 출력자료: 위험관리 계획서(회피, 전이, 완화, 수용)

 

 

6. 데이터 준비

. 필요 데이터 정의

  • 필요한 데이터 정의
  • 모든 내/외부 데이터 포함
  • 데이터 정의서 작성
    • 데이터 속성/데이터 오너/데이터 관련 시스템 담당자
  • 데이터 획득방안 상세히 수립해 프로젝트 지연을 방지

 

  1. 데이터 정의

    • 다양한 내/외부 원천 데이터 소스로부터 분석 필요한 데이터 정의
      • 입력자료: 프로젝트 수행 계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료
      • 프로세스 도구: , 외부 데이터 정의, 정형/비정형/반정형 데이터 정의
      • 출력자료: 데이터 정의서
  2. 데이터 획득방안 수립

    • 내부: 부서간 업무협조, 개인정보보호 정보보안과 관련된 문제점 점검
    • 외부: 시스템간 다양한 인터페이스 법적 문제를 고려한 상세한 계획수립
      • 입력자료: 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
      • 프로세스 도구: 데이터 획득 방안 수립
      • 출력자료: 데이터 획득 계획서

 

. 데이터 스토어 설계

  • 전사 차원의 데이터 스토어 설계

 

  1. 정형 데이터 스토어 설계

    • RDBMS 이용
    • 효율적인 저장과 활용을 위해 논리적, 물리적 설계를 구분하여 설계
      • 입력자료: 데이터 정의서, 데이터 획득 계획서
      • 프로세스 도구: 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑
      • 출력자료: 정형 데이터 스토어 설계서, 데이터 매핑 정의서
  2. 비정형데이터 스토어 설계

    • 하둡, NoSQL 등을 이용 논리적, 물리적 데이터 스토어 설계
      • 입력자료: 데이터 정의서, 데이터 획득 계획서
      • 프로세스 도구: 비정형/반정형 데이터 논리설계, 비정형/반정형 데이터 물리설계
      • 출력자료: 비정형 데이터 스토어 설계서, 데이터 매핑 정의서

 

. 데이터 수집 정합성 점검

  • 구축된 데이터 스토어에 크롤링, 시스템간 실시간 처리, 배치 처리 등으로 데이터 수집
  • 데이터베이스간 연동, API를 이용한 개발, ETL 도구 활용 등 다양한 방법 이용

 

  1. 데이터 수집 저장

    • 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램이용해 데이터 수집
    • 설계된 데이터 스토어에 저장
      • 입력자료: 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
      • 프로세스 도구: 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
      • 출력자료: 수집된 분석용 데이터
  2. 데이터 정합성 점검

    • 품질 점검을 통해 정합성 확보, 품질개선 보완 작업 수행
      • 입력자료: 수집된 분석용 데이터
      • 프로세스 도구: 데이터 품질 확인, 데이터 정합성 점검 리스트
      • 출력자료: 데이터 정합성 점검 보고서

 

 

7. 데이터 분석

. 분석용 데이터 준비

  • 프로젝트 목표와 도메인을 이해하고 비즈니스 룰 확인

 

  1. 비즈니스 룰 확인

    • 비즈니스 파악하고 분석에 필요한 데이터 범위 확인
      • 입력자료: 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
      • 프로세스 도구: 프로젝트 목표 확인, 비즈니스 확인
      • 출력자료: 비즈니스 , 분석에 필요한 데이터 범위
  2. 분석용 데이터셋 준비

    • 추출한 데이터에 필요시 적절한 가공하여 데이터베이스/구조화된 형태로 구성
    • 분석을 위한 작업 공간과 전사 차원의 데이터 스토어로 분리 가능
      • 입력자료: 데이터 정의서, 데이터 스토어
      • 프로세스 도구: 데이터 선정, 데이터 변환, ETL도구
      • 출력자료: 분석용 데이터

 

. 텍스트 분석

  • 어휘/구문 분석, 감성 분석, 토픽 분석, 오피니언 분석, 소셜 네트워크 분석 등을 실시
  • 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축
  • 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축

 

  1. 텍스트 데이터 확인 추출

    • 전사 차원의 데이터 스토어에서 확인하고 필요 데이터 추출
      • 입력자료: 비정형 데이터 스토어
      • 프로세스 도구: 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
      • 출력자료: 분석용 텍스트 데이터
  2. 텍스트 데이터 분석

    • 추출 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석, 모델 구축
    • 용어 사전, 업무 도메인에 맞춰 작성하여 의미 전달 명확하게 한다
      • 입력자료: 분석용 텍스트 데이터, 용어사전(용어 유의어 사전, 불용어 사전 )
      • 프로세스 도구: 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석
      • 출력자료: 텍스트 분석 보고서

 

. 탐색적 분석

  • 데이터셋에 대한 정합성 검토, 데이터 요약을 통해 필요 데이터를 편성
  • 탐색적 데이터 분석인 EDA(Exploratory Data Analysis)
    • 다양한 데이터 시각화를 활용해 데이터 가독성 명확히
    • 데이터 형상 및 분포 등 데이터 특성 파악

 

  1. 탐색적 데이터 분석

    • 다양한 관점별로 기초 통계량 산출
    • 데이터의 특성과 통계적 특성을 이해
      • 입력자료: 분석용 데이터셋
      • 프로세스 도구: EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인
      • 출력자료: 데이터 탐색 보고서
  2. 데이터 시각화

    • 시각화 기획, 설계, 구현 별도의 프로세스 따라 진행
    • 모델링 또는사용자 인터페이스 또는 프로토타입으로 활용 가능
      • 입력자료: 분석용 데이터셋
      • 프로세스 도구: 시각화 도구 패키지, 인포그래픽, 시각화 방법론
      • 출력자료: 데이터 시각화 보고서

 

. 모델링

  • 모델링
    • 분석용 데이터 이용한 가설 설정을 통해 통계 모델을 만들거나 기계 학습 이용한 분류, 예측, 군집 등 수행
    • 기계학습: 지도학습, 비지도 학습
    • 훈련용과 테스트용으로 분할하여 과적합을 방지하고 일반화에 이용

 

  1. 데이터 분할

    • 과적합 방지와 일반화 위해 훈련용 데이터와 테스트 데이터로 분할
    • 교차검증 혹은 앙상블기법 적용할 경우, 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 데이터 분할 기법을 응용
      • 입력자료: 분석용 데이터
      • 프로세스 도구: 데이터 분할 패키지
      • 출력자료: 훈련용 데이터, 테스트용 데이터
  2. 데이터 모델링

    • 분류, 예측, 군집 등의 모델 만들어 적용
    • 필요시 비정형 데이터 분석 결과를 통합적 활용
      • 입력자료: 분석용 데이터
      • 프로세스 도구: 통계 모델링 기법, 기계학습, 모델 테스트
      • 출력자료: 모델링 결과 보고서
  3. 모델 적용 운영 방안

    • 의사코드 수준의 상세한 알고리즘 설명서 작성
    • 안정적 운영을 위한 모니터링 방안 수립
      • 입력자료: 모델링 결과 보고서
      • 프로세스 도구: 모니터링 방안 수립, 알고리즘 설명서 작성
      • 출력자료: 알고리즘 설명서, 모니터링 방안

 

마. 모델 평가 검증

  • 정의서 평가 기준에 따라 모델 완성도 평가
  • 별도의 데이터셋으로 모델의 객관성과 실무 적용성을 검증
  • 성능 목표 미달 모델링 태스크를 반복 하는 모델 튜닝 작업 필요

 

  1. 모델 평가

    • 모델 평가 기준 따라 객관적으로 평가, 품질관리 차원에서 진행
    • 알고리즘 파악하고 테스트용 데이터 혹은 별도 데이터 활용 가능
      • 입력자료: 모델링 결과 보고서, 평가용 데이터
      • 프로세스 도구: 모델 평가, 모델 품질관리, 모델 개선작업
      • 출력자료: 모델 평가 보고서
  2. 모델 검증

    • 검증용 데이터 이용해 모델 검증 작업 실시하고 보고서 작성
    • 운영용 데이터 확보, 품질 최종 검증
      • 입력자료: 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터
      • 프로세스 도구: 모델 검증
      • 출력자료: 모델 검증 보고서

 

 

8. 시스템 구현

. 설계 구현

  • 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행
  • 운영 시스템에 대한 분석도 수행
  • BI(Business Intelligence) 패키지 활용하거나, 새롭게 프로그램 코딩 통해 시스템 구축

 

  1. 시스템 분석 설계

    • 가동 중 시스템을 분석, 알고리즘 설명서에 근거하여 응용시스템 구축 설계 프로세스를 진행
    • 사용중 정보시스템 개발방법론을 커스터마이징하여 시스템 분석과 설계에 적용 가능
      • 입력자료: 알고리즘 설명서, 운영중인 시스템 설계서
      • 프로세스 도구: 정보시스템 개발방법론
      • 출력자료: 시스템 분석 설계서
  2. 시스템 구현

    • BI 패키지를 활용하거나 새롭게 시스템 구축
    • 가동중인 운영시스템의 커스터마이징 통해 설계된 모델 구현
      • 입력자료: 시스템 분석 설계서, 알고리즘 설명서
      • 프로세스 도구: 시스템 통합개발도구(IDE), 프로그램 언어, 패키지
      • 출력자료: 구현 시스템

 

. 시스템 테스트 운영

  • 모델은 테스트 통해 적용
  • 효율적 운영 위한 프로세스 진행

 

  1. 시스템 테스트

    • 단위 테스트, 통합 테스트, 시스템 테스트 등 실시
    • 시스템 테스트는 품질관리 차원에서 진행하여 객관성, 완전성 확보
      • 입력자료: 구현 시스템, 시스템 테스트 계획서
      • 프로세스 도구: 품질관리 활동
      • 출력자료: 시스템 테스트 결과보고서
  2. 시스템 운영 계획

    • 운영자, 사용자 교육 실시
    • 시스템 운영계획 수립
      • 입력자료: 시스템 분석 설계서, 구현 시스템
      • 프로세스 도구: 운영계획 수립, 운영자 사용자 교육
      • 출력자료: 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서

 

 

9. 평가 전개

. 모델 발전 계획 수립

  • 모델 성능은 업무 특성 및 데이터 품질에 영향 많이 받으므로 개선 노력이 주기적 진행 필요
  • 생명 주기 설정하고 주기적인 평가를 실시하여 유지보수 / 재구축 방안 마련
  • 모델 업데이트 자동화 적용 가능

 

  1. 모델 발전 계획

    • 발전계획을 상세하게 수립하여 모델의 계속성 확보
      • 입력자료: 구현 시스템, 프로젝트 산출물
      • 프로세스 도구: 모델 발전 계획 수립
      • 출력자료: 모델 발전 계획서

 

. 프로젝트 평가 보고

  • 분석 기획 단계에서 설정된 기준 따라 성과를 정량적/정성적으로 평가
  • 산출된 지식, 프로세스, 출력자료를 지식자산화
  • 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 보고
  • 프로젝트 종료

 

  1. 프로젝트 성과 평가

    • 정량적과 정성적으로 나누어 성과 평가서 작성
      • 입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
      • 프로세스 도구: 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
      • 출력자료: 프로젝트 성과 평가서
  2. 프로젝트 종료

    • 진행과정 모든 산출물 및 프로세스를 지식자산화
    • 최종보고서 작성 의사소통 절차에 맞추어 보고 후 프로젝트 종료
      • 입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서
      • 프로세스 도구: 프로젝트 지식자산화 작업, 프로젝트 종료
      • 출력자료: 프로젝트 최종 보고서

 

 

 


 

3 분석 과제 발굴

가능합 옵션을 도출하는 상향식의 발산단계와, 도출된 옵션을 분석, 검증하는 하향식의 수렴단계를 반복적으로 수행하는, 상호 보완하는 것이 최적의 의사결정 방식

 

1. 하향식 접근법

  • 문제가 주어지고 해답을 찾기위한 과정이 체계적으로 단계화

 

. 문제 탐색 단계

  • 전체적인 관점의 기준 모델을 활용하여 문제를 도출하고 식별하는 것이 중요
  • 기업 내/외부 환경 포괄하는 비즈니스 모델과 외부 참조모델
  • 문제를 해결함으로써 발생하는 가치에 중점 두는 것이 중요

 

  1. 비즈니스 모델 기반 문제 탐색

    • 과제 발굴 위한, 기업 내/외부 환경 포괄하는, 기본
    • 비즈니스 모델 캔버스의 9가지 블록을 단순화 하여 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴
    • 관리하는 두가지 영역의 규제와 감사(Audit & Regulation), 지원 인프라(IT & Human Resource) 영역에 대한 기회를 추가로 도출
      1. 업무(Operation)

        • 내부 프로세스 주요자원 관련 주제 도출
        • Key Activities, Key Partners, Costs, Key Resources
        • 생산 공정 최적화, 재고량 최소화 등
      2. 제품(Product)

        • 제품 서비스를 개선하기 위한 관련 주제 도출
        • Value Proposition
        • 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등
      3. 고객(Product)

        • 제공받는 사용자 및 고객, 제공하는 채널의 관점에서 관련 주제 도출
        • Customer Relationships, Customers, channels, Revenue
        • 고객 Call 대기 시간 최소화, 영업점 위치 최적화 등
      4. 규제와 감사(Regulation & Audit)

        • 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 보안의 관점에서 주제 도출
        • 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등
      5. 지원 인프라(IT & Human Resource)

        • 시스템 영역 운영, 관리하는 인력의 관점에서 주제 도출
        • EDW 최적화, 적정 운영 인력 도출 등
    • 새로운 문제 발굴 장기적 접근 위해 아래의 4가지 관점을 통한 혁신 필요
    • 분석가뿐 아니라, 해당 기능 수행 직원 및 관려자에 대한 폭넓은 인터뷰와 워크숍 형태 아이디어 발굴작업 필요
      1. 거시적관점의 요인, STEEP

        • Social, 사회
          • 고객 확장하여, 전체 시장 대상으로 사회적, 문화적, 구조적 트렌드 변화에 기반한 분석 기회 도출
          • 노령화, 밀레니얼 세대의 등장, 저출산 따른 해당 사업 모델 변화 등
        • Technological, 기술
          • 최신 기술에 따른 역량 내재화와 제품/서비스 개발에 대한 분석 기회 도출
          • 나노 기술, IT 융햡 기술, 로봇 기술의 고도화에 따른 기존 제품의 Smart화 등
        • Economic, 경제
          • 산업, 금융 전반 변동성 및 경제 구조 변화 동향 따른 시장 흐름 파악한 분석 기회 도출
          • 원자재 가격, 환율, 금리 변동에 따른 구매 전략의 변화 등
        • Environmental, 환경
          • 환경 관련 정부, 사회단체, 시민사회의 관심과 규제 동향 파악한 분석 기회 도출
          • 탄소 배출 규제 및 거래 시장 등장에 따른 원가 절감 및 정보 가시화 등
        • Political
          • 주요 정책방향, 정세, 지정학적 동향 등 거시적 흐름 토대로 한 분석 기회 도출
          • 대북 관계 동향에 따른 원자재 구매 거래선의 다변화 등
      2. 경쟁자의 동향

        • Substitute, 대체재
          • 융합적 경쟁 환경에서 대체재 파악한 분석 기회 도출
          • 현재 오프라인으로 제공하고 있는 자사 상품/서비스를 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협 파악
        • Competitor, 경쟁자
          • 주요 경쟁자에 대한 동향을 파악한 분석 기회 도출
          • 식별된 주요 경쟁사의 제품/서비스 카탈로그 및 전략 분석하고 이에 대한 잠재적 위협 파악
        • New Entrant, 신규 진입자
          • 향후 파괴적 역할 수행할 신규 진입자 동향 파악한 분석 기회 도출
          • 새로운 제품에 대한 크라우드 소싱 서비스인 Kickstarter의 유사 제품을 분석하고 자사의 제품에 대한 잠재적 위협 파악
      3. 시장의 니즈 변화

        • Customer, 고객
          • 구매 동향과 컨텍스트를 깊게 이해하여 개선에 필요한 분석 기회 도출
          • 철강 기업의 경우, 조선 산업과 자동차 산업의 동향 및 주요 거래선의 경영 현황 등을 파악한 분석 기획 도출 등
        • Channel, 채널
          • 자체적 운영하는 채널과 최종 고객에게 전달하는 경로에 존재하는 채널별로 분석 기회를 확대
          • 은행의 경우, 인터넷전문은행 등 채널의 등장에 따른 변화에 대한 전략 분석 기회 도출 등
        • Influencer, 영향자들
          • 주주/투자자/협회 및 기타 이해관계자의 주요 관심사항에 대해 파악한 분석기회 탐색
          • M&A 시장 확대에 따른 유사 업종의 신규 기업 인수 기회 탐색 등
      4. 역량의 재해석

        • Competency, 내부 역량
          • 간과하기 쉬운 지식, 기술, 스킬 등 노하우와 인프라적인 유형 자산에 대해 폭넓게 재해석한 분석 기회를 탐색
          • 자사 소유 부동산을 활용한 부가 가치 창출 기회 발굴 등
        • Partners & Network, 파트너와 네트워크
          • 밀접한 관계인 관계사/공급사 등, 역량을 활용해 수행이 가능한 기능을 파악하고 이에 대한 분석 기회 추가적으로 도출
  2. 외부 참조 모델 기반 문제 탐색

    • 유사 동종 환경에서 기존 수행한 분석 과제를 살펴보는 것이 중요
    • 산업별, 업무 서비스별 분석테마 후보 그룹(Pool)을 통해 Quick & Easy 방식으로 아이디어 얻기
    • 적용가능한 분석테마 후보 목록을 브레인스토밍 통해 빠르게 도출
    • 평상시 지속적 조사로 유사 동종 업계 뿐 아니라 타 업종 및 분야의 Pool을 만들어 두면 새로운 주제 탐색에 도움이 된다
  3. 분석 유즈 케이스 정의

    • 풀어야 문제의 상세한 설명, 해결 효과를 명시
    • 분석 문제로의 전환 적합성 평가에 활용

 

. 문제 정의 단계

  • 식별된 비즈니스 문제를 데이터 문제로 변환하여 정의
  • 달성하기 위해 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행
  • 효용 얻을 최종사용자 관점에서 분석이 이루어져야

 

. 해결방안 탐색 단계

  • 어떤 데이터 혹은 분석 시스템 사용에 따라 소요 예산 활용 도구가 다르므로 다각도로 고려 필요
  • 기존 시스템에서 보유X > 교육, 전문 인력 채용, 분석 전문 업체 활용

 

. 타당성 검토 단계

  • 경제적

    • 비용 대비 편익 분석 관점 접근 필요
    • 비용: 데이터, 시스템, 인력, 유지 보수
    • 편익: 분석 결과를 적용하여 실질적 비용 절감, 추가적 매출 수익
  • 데이터 기술적

    • 데이터 존재 여부, 분석 시스템 환경, 분석 역량이 필요
    • 역량 확보 방안을 사전에 수립
    • 비즈니스 분석가, 데이터 분석가, 시스템 엔지니어와의 협업
    • 프로젝트 계획의 입력물로 활용될, 솔루션 방안을 포함한 정의서 형태로 명시하는 후속작업 필요

 

 

2. 상향식 접근법

  • 경험적 과거 데이터를 무작정 결합하여 정보/지식을 얻는 새로운 분석 패러다임

 

  • 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론
    • 기존 하향식 접근법은, 최근 복잡하고 다양한 환경에 적합하지X
      • 대상의 관점으로의 전환을 수행
      • 사물을 있는 그대로 인식하는 What 관점에서 수행
      • 자체를 관찰하고 실제적으로 행동에 옮김
      • 첫 단계로 감정이입을 특히 강조
    • 일반적으로 상향식 접근에서 수행되는 방식: 비지도학습
      • 데이터 자체의 결합, 연관성, 유사성 중심으로 데이터 상태를 표현
      • 장바구니 분석, 군집 분석(인자간 유사성), 기술 통계 프로파일링
      • 새로운 유형의 인사이트 도출
    • 반대로 명확한 목적하에 이루어지는 것: 지도학습
      • 분류(O와 X를 구분), 추측, 예측(나올 결과), 최적화 통해 사용자 주도하에 분석 실시하고 지식 도출하는 것이 목표
    • 상관관계 분석 / 연관 분석을 이용
    • 상관관계 분석을 이용해, 다량의 데이터 분석을 통해 왜 그런지 역으로 추적하며 문제를 도출, 재정의 하는 것이 상향식 접근 방법
  • 시행착오를 통한 문제 해결
    • 프로토타이핑 접근법: 요구사항, 데이터 규정 어렵고 소스 파악도 어려운 상황에서 분석을 시도하고 결과를 확인하면서 반복적으로 개선하는 방법
    • 완전하지 못해도 신속하게 해결책이나 모형을 제시함으로써 문제를 명확하게 인식하고 필요데이터를 식별하여 구체화 가능
    • 프로토타이핑 접근법의 기본적 프로세스
      • 가설의 생성
      • 디자인에 대한 실험
      • 실제 환경에서의 테스트
      • 테스트 결과에서의 통찰 도출 가설 확인
    • 잘 설계된 프로타이핑 지속한다면 불명확성은 감소하고, 의도한 결과 도출 성공 가능성 높아진다.
    • 빅데이터 분석 환경에서 프로토타이핑 필요성
      • 문제에 대한 인식 수준
        • 문제 정의가 불명확하거나 새로운 문제일 경우, 이용하면 구체화 도움 가능
      • 필요 데이터 존재 여부의 불확실성
        • 데이터 집합이 존재하지 않는 경우,
          수집을 어떻게 할 것인지 혹은 대체할 것인지 등의 반복적이고 순환적인 협의 과정이 필요
      • 데이터의 사용 목적의 가변성
        • 기존의 데이터 정의를 재검토, 사용 목적과 범위를 확대

 

 

3. 분석과제 정의

  • 분석과제 정의서 양식을 활용하여 보다 상세하게 정의
  • 분석 데이터 소스는 , 외부의 비구조적인 데이터와 소셜미디어오픈 데이터까지 범위를 확장하여 상세하게 작성
분석명 분석정의
   
소스데이터 데이터 입수 난이도 분석방법
     
데이터 입수 사유
 
분석적용 난이도 분석적용 난이 사유 분석주기 분석결과 검증 Owner
       

 


 

4 분석 프로젝트 관리 방안

  • 분석 프로젝트의 주요 관리 속성
    • Data size

      • 양을 고려한 관리 방안 수립이 필요
    • Data Complexity

      • 정형
        • BI 프로젝트처럼 분석 마트로 구성
      • 비정형
        • 다양한 시스템에 산재되어 있는 원천 데이터 통합해 진행
        • 초기 데이터 확보와 통합, 분석 모델 선정 등 사전 고려 필요
    • Speed

      • 활용 시나리오 측면에서 속도를 고려
      • 실시간 사기(Fraud), 배치(Batch)
    • Analytic Complexity

      • 정확도와 복잡도는 트레이드오프 관계이므로, 기준점을 사전에 정의해야 한다
      • 해석이 가능하면서 정확도 올릴 최적 모델 찾기
    • Accuracy & Precision

      • Accuracy
        • 모델과 실제 사이 차이 적다는 정확도
        • 분석 활용 측면에서 중요
      • Precision
        • 모델을 지속적으로 반복했을 때의 편차
        • 안정석 측면에서 중요
      • 역시 트레이드 오프 관계

 

1. 분석 프로젝트의 특성

  • 데이터와 비즈니스 중간의 조정자 역할
    • 비즈니스 현황 이해와 분석의 정확도 달성, 결과에 대한 가치 이해까지 담당
  • 도출된 결과의 재해석 통한 지속적 반복, 정교화 대부분
    • 프로토타이핑 방식의 어자일 프로젝트 관리방식 고려 필요
  • 분석 프로세스 특성 이해한 채로, 지속적 개선 및 변경을 염두에 두고 기간 내 가능한 최선의 결과 도출

 

 

2. 분석 프로젝트 관리방안

  • 데이터 분석의 특성을 살려 프로젝트관리지침, KS A ISO 21500:2013 기본 가이드로 활용
    • 관리체계 주제 그룹(10)
주제 그룹 개념 및 관련 프로세스
통합 프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스
이해관계자 프로젝트 스폰서, 고객사, 기타 이해관계자를 식별하고 관리하는데 필요한 프로세스
범위 작업과 인도물을 식별하고 정의하는데 요구되는 프로세스
자원 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는데 필요한 프로세스
시간 프로젝트 활동의 일정을 수립하고 일정 통제의 진척상황을 관찰하는데 요구되는 프로세스
원가 예산 개발과 원가통제의 진척상황을 관찰하는데 요구되는 프로세스를 포함
리스크 위험과 기회를 식별하고 관리하는 프로세스
품질 품질보증과 품질통제를 계획하고 확립하는데 요구되는 프로세스
조달 계획에 요구된 프로세스를 포함하며 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는데 요구되는 프로세스
의사소통 프로젝트와 관련된 정보를 계획, 관리, 배포하는데 요구되는 프로세스

 

  • 분석 프로젝트가 갖는 특성과 고려해야 할 주요 관리 항목
    • 주요사항의 이슈와 리스크를 숙지하고 미연에 방지해야 한다
관리 영역 분석 프로젝트의 특성 및 주요 관리 항목
범위 - 데이터의 형태와 양 또는 적용 모델 알고리즘 따라 번위가 빈번하게 변경
- 최종 결과물이 분석 보고서인지 시스템인지 따라 투입 자원 및 범위가 크게 변경되므로사전에 충분한 고려 필요
시간 - 초기 의도 결과위해 지속적 반복하여 시간 소요 많을 수 있음
- 품질 보장된다는 전제로 Time Boxing 기법으로 일정관리 진행 필요
원가 - 외부 데이터는 비쌀 수 있으므로, 사전에 충분한 조사 필요
- 상용 버전 도구 필요 할 수 있음
품질 - 품질목표를 사전에 수립 확정해야 한다
- 품질통제와 품질 보증으로 나누어 수행해야 한다
통합 - 프로세스가 통합적으로 운영되도록 관리 필요
조달 - 외부 소싱 적절히 운영 필요
PoC(Proof of Concept) 형태 프로젝트는 클라우드 등 다양 방안 검토 필요
자원 - 고급 분석 및 빅데이터 아키텍쳐링 수행 인력 부족하므로, 사전에 전문가 확보 검토 필요
리스크 - 데이터 미확보로 진행 어려울 수 있어, 관련 위험을 식별하고 대응방안 사전 수립 필요
- 알고리즘 한계 관한 대응 방안 수립 필요
의사소통 - 전문성 요구되는 결과를 모든 프로젝트 이해관계자 공유가능하게 해야 함
- 다양한 의사소통체계 필요
이해관계자 - 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 이해관계자의 식별과 관리가 필요

 

반응형
Comments