[ADP_과목 1. 데이터 이해_제2장 데이터의 이해] 본문

IT/ADP

[ADP_과목 1. 데이터 이해_제2장 데이터의 이해]

호랑구야 2020. 8. 17. 09:00

* 다음 내용은 [데이터 분석 전문가 가이드] (2019년 개정판)을 읽고 정리한 내용입니다.

 

 

1 빅데이터의 이해

1. 정의

  • 빅데이터
    • 3V 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
    • 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
    • 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의
    • 기존의 작은 데이터 처리 분석으로는 얻을 없었던 통찰과 가치를 창출하는 새로운 방식
      • 3V
        빅데이터의 3가지 측면이 급격히 증가
        • Volume:
        • Variety: 유형과 소스의 다양성
        • Velocity: 수집과 처리 측면의 속도

 

 

2. 출현 배경

  • 기술 차원에서 패러디임 전환이 일어난 것으로 크게 아래의 3가지의 환경변화 측면에서 논할 있다.
  1. 산업계
    • 고객 데이터 축적, 양질 전환 법칙
    • 정보가 지속적으로 축적되면서 데이터가 거대한 가치 창출이 가능할 만큼 충분한 규모에 도달하고, 기술이 접목됨으로써 거대 가치를 창출하고 있다
    • 직면 과제
      • 보유 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력원으로 만들어 낼 수 있는 빅데이터 기술 확보
  2. 학계
    • 거대 데이터 활용 과학 확산
    • 예시) 인간게놈 프로젝트
    • 10년 > 일주일, 비용은 1/10000로 줄음
  3. 산학계 관련 기술 발전
    • 디지털화의 급진전: 데이터의 생산 유통, 저장의 편리성을 획기적으로 개선
    • 저장 기술의 발전과 가격 하락: 압축 기술이 발전, 비용이 무어의 법칙보다 빠르게 반감
    • 인터넷의 발전: 인터넷의 무료와 공개된 공간, 사용자의 특성을 정교하게 파악해 광고주가 도달하고자 하는 정확한 고객군을 찾음. 사용자 로그정보를 프로파일링 하여 아이덴티티를 뚜렷하게 설정, 매칭 정확도가 향상
    • 모바일 시대의 진전: SNS로 자신들의 감정 데이터를 쏟아 내고, 값진 사용자의 상황 정보를 양산
    • 클라우드 컴퓨팅 보편화: 클라우드 분산 병렬처리 컴퓨팅은 빅데이터의 처리 비용을 맵리듀스와 같은 혁신적 방식으로 획기적으로 낮춤

 

 

3. 빅데이터 기능

  • 무한한 가능성의 4가지 비유
  1. 차세대 산업혁명의 석탄이나 철
    • 서비스 분야의 생산성을 획기적으로 끌어올려 생활 전반에 혁명적 변화 일으킴
  2. 21세기의 원유
    • 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로써
      산업 전반의 생산성을 한 단계 향상, 새로운 범주의 산업을 만들어낼 것
  3. 렌즈
    • 구글의 Ngram Viewer
  4. 플랫폼
    • 공동 활용 목적으로 구축된 유무형 구조물
    • 수집된 데이터를 가공, 처리, 저장해 접근 API(Application Program Interface)를 공개
      서드파티 사업자들이 정보를 추출해 활용
  • 차세대 산업혁신에서 원재료 역할 + 가치를 추출하는 기법
    • 일상 생활의 깊은 부분까지 침투

 

 

4. 빅데이터가 만들어 내는 본질적인 변화

. 사전 처리에서 사후 처리 시대로

      • 사전 처리
        : 필요한 정보만 수집, 아닌 정보는 버림으로써 효율성 재고
      • 사후 처리
        : 가능한 많은 데이터를 모으고 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.

 

. 표본조사에서 전수조사로

      • 표본조사
        : 비용적 제약으로 인한 적은 데이터를 통해, 보다 풍부한 결과를 확정
      • 전수조사
        : 샘플링이 주지 못하는 패턴이나 정보를 제공, 정밀한 데이터로 활용의 융통성 유지 가능

 

. 질보다 양으로

      • 데이터가 지속적으로 추가될 , 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인
      • 데이터 수가 증가함에 따라 사소한 몇개의 오류데이터가 대세에 영향을 주지 못하는 경향
      • 기존에 제외된 사례일지라도 다른 변수에 대해서는 풍부한 정보갖고 있는 경우

 

. 인과관계에서 상관관계로

      • 인과관계: 이론에 기초하여 수집할 변인을 결정으로 엄격한 실험 통해 정제된 데이터 얻어 정교한 이론적 틀에 맞춰 분석, 변인간의 인과관계 찾음
      • 상관관계: 비즈니스에서는 신속한 의사결정을 위해서 상관관계로도 충분할 많으므로  특정 현상의 발생 가능성이 포착되면 상응하는 행동을 하도록 추천

 


 

2 빅데이터의 가치와 영향

1. 빅데이터의 가치

  • 빅데이터 시대에서 특정 데이터 가치 측정이 쉽지 않은 3가지 이유는 다음과 같다
  1. 데이터 활용 방식
    • 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되어 본래 목적 이외의 부분에서도 활용
      • 재사용
        : 본래의 목적 이외의 부분에서도 활용, 가치를 창출
      • 재조합
        :
        데이터의 창의적 조합은 기존에 없는 문제를 해결하는데 도움
  2. 다목적용 데이터 개발
    • 가지 이상의 목적을 얻음
      • 새로운 가치 창출
      • 소셜 그래프라는 새로운 예측변수의 가치를 제대로 평가하는 것도 쉽지 않다.
  3. 분석 기술의 발전
    • 클라우드 분산 컴퓨팅으로 저렴한 비용에 활용도가 증가
    • 구글은 보관중인 데이터양 자체가 잠재적 경쟁자에게 진입장벽
    • 주식에 이러한 가치 반영이 제대로 이루어질 없음

 

 

2. 빅데이터의 영향

  • 맥킨지의 빅데이터 보고서(2011) 통해, 빅데이터가 가치를 만들어내는 방식
    1. 투명성 제고로 연구개발 관리 효율성 제고
    2. 시뮬레이션을 통한 수요 포착 주요 변수 탐색으로 경쟁력 강화
    3. 고객 세분화 맞춤 서비스 제공
    4. 알고리즘을 활용한 의사결정 보조 혹은 대체
    5. 비즈니스 모델과 제품, 서비스의 혁신
    • 기업
      • 혁신, 경쟁력, 생산성 향상
    • 정부
      • 환경을 탐색, 분석한 잠재적 문제점에 대한 대응 방안 제시
    • 개인
      • 소비자에게 효용이 전이되어 생활 전반이 스마트하게 변화

    • 새로운 데이터 활용 방식이나 새로운 분석 기술 출현으로 얼마든지 확대될 가능성 있음

 


 

 

3 비즈니스 모델

1. 빅데이터의 활용 사례

      • 기업
        • 구글의 검색
          • 사용자의 로그 데이터를 활용, PageRank 알고리즘의 혁신
          • 다양한 차원의 신호를 추가해 검색 결과를 개선
        • 월마트
          • 고객의 구매 패턴을 분석해 상품 진열에 활용
        • 의료
          • 부분의 개선
          • 연간 3300 달러 절약 + IBM 인공지능 컴퓨터인 '왓슨' 병원에서활용
      • 정부
        • 대국민 서비스 개선
          • 실시간 교통정보 수집 + 기후 정보 + 각종 지질 활동 + 소방 서비스 모니터링
        • NSA
          • 소셜 미디어, CCTV, 통화기록, 문자 통화 내역 등의 모니터링 분석 결과를 국가안전확보 활동에 활용
      • 개인
        • 정치인
          • 선거 승리위해 사회관계망 분석 통해 유세 지역, 영향 내용 선정
        • 가수
          • 팬들의 음악 청취 기록 분석 통해 공연에서 부를 노래 순서

 

 

2. 빅데이터 활용 기본 테크닉

  1. 연관규칙 학습
    • 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
      • A 사는 사람이 B 많이 사나?
  2. 유형분석
    • 새로운 사건이 속하게 범주를 찾아내는 일로 기존자료를 바탕으로 훈련용 분류틀이 미리 갖춰져 있어야 한다
      • 사용자는 어떤 특성을 가진 집단에 속하는가?
  3. 유전 알고리즘
    • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같이 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
      • 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
  4. 기계 학습
    • 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
      • 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 같이 보고 싶어할까?
  5. 회귀 분석
    • 분석가는 독립변수를 조작, 종속변수가 어떻게 변하는지를 보면 변인의 관계를 파악
      • 구매자의 나이가 구매 물건 타입의 어떤 영향을 미치는가?
  6. 감정 분석
    • 특정 주제에 대해 말하거나 글을 사람의 감정을 분석
      • 새로운 환불 정책에 대한 고객의 평가는 어떤가?
  7. 소셜 네트워크 분석
    • 오피니언 리더 혹은 고객 소셜 관계 파악가능
      • 특정인과 다른 사람이 정도의 관계인가?
  • 흥미로운 상관관계 발견
  • 사용자를 특정한 유형으로 분류
  • 보유 자원을 적정하게 할당
  • 서비스나 상품의 적정 요금을 책정
  • 다양한 비즈니스 모델을 개발

 


 

4 위기 요인과 통제 방안

1. 위기 요인

  • 사생활침해
    • M2M(Machine to Machine) 시대가 본격화
      • 정보 수집 센서들의 수가 늘어난다
    •  개인 정보가치 증가
      • 사업자가 개인정보 습득에 많은 자원을 투자
    • 결과적으로
      • 브라더가 사람들의 일상생활 전반을 감시할 기술적 기반이 구축될 가능성이 있다
      • 데이터가 가공처리되어 2, 3차적 목적으로 활용되어 위협으로 변형될 우려가 있다
      • 익명화 기술이 발전되고 있으나 충분치 않다는 의견이 지배적이다
  • 책임 원칙 훼손
    • 범죄 예측 프로그램 의해 범행 저지르기 전에 체포되는
    • 분석 대상이 예측 알고리즘의 희생양될 가능성이 높아지고 민주주의 사회 원칙 크게 훼손
      • 명확하게 행동한 결과에 대해 책임 물어야하며 부당하게 피해를 보는 상황을 최소화할 장치가 반드시 필요
  • 데이터 오용
    • 데이터 과신: 사람들이 일반적으로 필요로 하는 것은 현실에 대한 인식에 바탕을 두고 있기 때문
    • 잘못된 지표: 검색 알고리즘에 잘못된 시그널을 사용하여, 특정 거래 사이트가 검색 상단에서 밀려나 매출이 급감, 시장 퇴출 가능성 높음

 

 

2. 통제 방안

  • 미국 연방거래위원회(FTC) '소비자 프라이버시 보호 3 권고사항'
    1. 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
    2. 기업은 소비자에게 공유 정보 선택 옵션 제공
    3. 소비자에게 수집된 정보 내용 공개 접근권 부여
  • 위기 요인에 대한 통제 방안
    1. 동의에서 책임으로
      • 사용자 정보는 2, 3 목적으로 가공, 유통, 활용되므로 '개인정보 사용자의 책임'으로 해결
      • 피해는 사용자가 책임, 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구
    2. 결과 기반 책임 원칙 고수
      • 특정인이 채용, 담보대출, 신용카드 발급 여부 결정 등에서 예측 자료에 의해 불이익 당할 가능성을 최소화하는 장치를 마련하는 것이 빅데이터 시대에 필요한
    3. 알고리즘 접근 허용
      • 객관적 인증방안 도입하자는 의견도 제시
      • 불이익 피해자 대변해 구제할 능력 가진 전문가 필요 > 알고리즈미스트

 


 

5 미래의 빅데이터

활용에 필요한 3요소

  1. 데이터 > 모든 것의 데이터화
    • 인터넷의 진화 > 사물인터넷 시대 > 훨씬 많은 정보가 끊임없이 생산, 공유
    • 각종 센서 네트워크를 전방위적으로 구축
    • 구글
      • 센서 기업, 로봇 회사를 인수
    • 자동차
      • 센서의 집합체
    • 가정
      • 각종 센서들이 온도, 전기를 제어
    • 데이터가 많은 기업들의 핵심 비즈니스 모델을 서비스업으로 전환
  2. 기술 > 진화하는 알고리즘, 인공지능
    • M2M, IoT 확산 > 데이터 증가 > 알고리즘 정확도 증가
    • 인공지능
      • 패턴인식, 자연어 처리, 자동제어, 기계학습, 자동 추론, 지능 엔진, 시멘틱
    • 인간의 사고, 추론, 계획, 학습
      • 기계적 판단의 허용점과 통제법
      • 알고리즘과 기계적 판단이 발생한 오류의 해결법
  3. 인력 > 데이터 사이언트스트, 알고리즈미스트
    • 데이터 사이언티스트
      • 빅데이터 이론적 지식 + 숙련된 분석 기술 > 통찰력, 전달력, 협업 능력
      • 빅데이터의 다각적 분석으로 인사이트 도출, 조직의 전략 방향 제시활용 가능 기획자
    • 알고리즈미스트
      • 컴퓨터, 수학, 통계학, 비즈니스 전반에 대한 이해, 알고리즘 코딩 해석
      • 빅데이터 알고리즘 부당 피해자 구제하는 전문직 종사자

 

반응형
Comments