일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 백준
- Great Minds
- 공부정리
- 맛집
- 정치학
- K-MOOC
- CNN10
- MySQL
- 데이터분석전문가
- Progate
- ADsP
- 자료구조
- Joseph Samuel Nye Jr.
- KMOOC
- ADP
- 후기
- 당신이 몰랐던 진화론
- 위대한 수업
- 데이터분석전문가가이드
- 알고리즘
- 코테
- EBS
- 조지프 나이
- Baekjoon
- python
- 누가 진정한 리더인가
- Udemy
- 미분적분학
- 빅데이터
- Hacker Rank
Archives
- Today
- Total
ㅇ
[ADP_과목 1. 데이터 이해_제2장 데이터의 이해] 본문
* 다음 내용은 [데이터 분석 전문가 가이드] (2019년 개정판)을 읽고 정리한 내용입니다.
제 1절 빅데이터의 이해
1. 정의
- 빅데이터
- 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
- 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
- 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의
- 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
- 3V
빅데이터의 3가지 측면이 급격히 증가- Volume: 양
- Variety: 유형과 소스의 다양성
- Velocity: 수집과 처리 측면의 속도
- 3V
2. 출현 배경
- 기술 차원에서 패러디임 전환이 일어난 것으로 크게 아래의 3가지의 환경변화 측면에서 논할 수 있다.
- 산업계
- 고객 데이터 축적, 양질 전환 법칙
- 정보가 지속적으로 축적되면서 데이터가 거대한 가치 창출이 가능할 만큼 충분한 규모에 도달하고, 기술이 접목됨으로써 거대 가치를 창출하고 있다
- 직면 과제
- 보유 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력원으로 만들어 낼 수 있는 빅데이터 기술 확보
- 학계
- 거대 데이터 활용 과학 확산
- 예시) 인간게놈 프로젝트
- 10년 > 일주일, 비용은 1/10000로 줄음
- 산학계 관련 기술 발전
- 디지털화의 급진전: 데이터의 생산 유통, 저장의 편리성을 획기적으로 개선
- 저장 기술의 발전과 가격 하락: 압축 기술이 발전, 비용이 무어의 법칙보다 빠르게 반감
- 인터넷의 발전: 인터넷의 무료와 공개된 공간, 사용자의 특성을 정교하게 파악해 광고주가 도달하고자 하는 정확한 고객군을 찾음. 사용자 로그정보를 프로파일링 하여 아이덴티티를 뚜렷하게 설정, 매칭 정확도가 향상
- 모바일 시대의 진전: SNS로 자신들의 감정 데이터를 쏟아 내고, 값진 사용자의 상황 정보를 양산
- 클라우드 컴퓨팅 보편화: 클라우드 분산 병렬처리 컴퓨팅은 빅데이터의 처리 비용을 맵리듀스와 같은 혁신적 방식으로 획기적으로 낮춤
3. 빅데이터 기능
- 무한한 가능성의 4가지 비유
- 차세대 산업혁명의 석탄이나 철
- 서비스 분야의 생산성을 획기적으로 끌어올려 생활 전반에 혁명적 변화 일으킴
- 21세기의 원유
- 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로써
산업 전반의 생산성을 한 단계 향상, 새로운 범주의 산업을 만들어낼 것
- 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로써
- 렌즈
- 구글의 Ngram Viewer
- 플랫폼
- 공동 활용 목적으로 구축된 유무형 구조물
- 수집된 데이터를 가공, 처리, 저장해 접근 API(Application Program Interface)를 공개
서드파티 사업자들이 정보를 추출해 활용
- 차세대 산업혁신에서 원재료 역할 + 가치를 추출하는 기법
- 일상 생활의 깊은 부분까지 침투
4. 빅데이터가 만들어 내는 본질적인 변화
가. 사전 처리에서 사후 처리 시대로
- 사전 처리
: 필요한 정보만 수집, 아닌 정보는 버림으로써 효율성 재고 - 사후 처리
: 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
나. 표본조사에서 전수조사로
- 표본조사
: 비용적 제약으로 인한 적은 데이터를 통해, 보다 풍부한 결과를 확정 - 전수조사
: 샘플링이 주지 못하는 패턴이나 정보를 제공, 정밀한 데이터로 활용의 융통성 유지 가능
다. 질보다 양으로
- 데이터가 지속적으로 추가될 때, 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향
- 데이터 수가 증가함에 따라 사소한 몇개의 오류데이터가 대세에 영향을 주지 못하는 경향
- 기존에 제외된 사례일지라도 다른 변수에 대해서는 풍부한 정보갖고 있는 경우
라. 인과관계에서 상관관계로
- 인과관계: 이론에 기초하여 수집할 변인을 결정으로 엄격한 실험 통해 정제된 데이터 얻어 정교한 이론적 틀에 맞춰 분석, 변인간의 인과관계 찾음
- 상관관계: 비즈니스에서는 신속한 의사결정을 위해서 상관관계로도 충분할 때 많으므로 특정 현상의 발생 가능성이 포착되면 상응하는 행동을 하도록 추천
제 2절 빅데이터의 가치와 영향
1. 빅데이터의 가치
- 빅데이터 시대에서 특정 데이터 가치 측정이 쉽지 않은 3가지 이유는 다음과 같다
- 데이터 활용 방식
- 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되어 본래 목적 이외의 부분에서도 활용
- 재사용
: 본래의 목적 이외의 부분에서도 활용, 가치를 창출 - 재조합
: 데이터의 창의적 조합은 기존에 풀 수 없는 문제를 해결하는데 도움
- 재사용
- 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되어 본래 목적 이외의 부분에서도 활용
- 다목적용 데이터 개발
- 두 가지 이상의 목적을 얻음
- 새로운 가치 창출
- 소셜 그래프라는 새로운 예측변수의 가치를 제대로 평가하는 것도 쉽지 않다.
- 두 가지 이상의 목적을 얻음
- 분석 기술의 발전
- 클라우드 분산 컴퓨팅으로 저렴한 비용에 활용도가 증가
- 구글은 보관중인 데이터양 자체가 잠재적 경쟁자에게 진입장벽
- 주식에 이러한 가치 반영이 제대로 이루어질 수 없음
- 클라우드 분산 컴퓨팅으로 저렴한 비용에 활용도가 증가
2. 빅데이터의 영향
- 맥킨지의 빅데이터 보고서(2011)을 통해, 빅데이터가 가치를 만들어내는 방식
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신
- 기업
- 혁신, 경쟁력, 생산성 향상
- 정부
- 환경을 탐색, 분석한 후 잠재적 문제점에 대한 대응 방안 제시
- 개인
- 소비자에게 효용이 전이되어 생활 전반이 스마트하게 변화
- 소비자에게 효용이 전이되어 생활 전반이 스마트하게 변화
- 새로운 데이터 활용 방식이나 새로운 분석 기술 출현으로 얼마든지 확대될 가능성 있음
제 3절 비즈니스 모델
1. 빅데이터의 활용 사례
- 기업
- 구글의 검색
- 사용자의 로그 데이터를 활용, PageRank 알고리즘의 혁신
- 다양한 차원의 신호를 추가해 검색 결과를 개선 중
- 사용자의 로그 데이터를 활용, PageRank 알고리즘의 혁신
- 월마트
- 고객의 구매 패턴을 분석해 상품 진열에 활용
- 의료
- 부분의 개선
- 연간 약 3300억 달러 절약 + IBM의 인공지능 컴퓨터인 '왓슨' 병원에서활용
- 부분의 개선
- 구글의 검색
- 정부
- 대국민 서비스 개선
- 실시간 교통정보 수집 + 기후 정보 + 각종 지질 활동 + 소방 서비스 모니터링
- NSA
- 소셜 미디어, CCTV, 통화기록, 문자 통화 내역 등의 모니터링 분석 결과를 국가안전확보 활동에 활용
- 대국민 서비스 개선
- 개인
- 정치인
- 선거 승리위해 사회관계망 분석 통해 유세 지역, 영향 내용 선정
- 가수
- 팬들의 음악 청취 기록 분석 통해 공연에서 부를 노래 순서
- 정치인
2. 빅데이터 활용 기본 테크닉
- 연관규칙 학습
- 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
- A를 사는 사람이 B도 많이 사나?
- 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
- 유형분석
- 새로운 사건이 속하게 될 범주를 찾아내는 일로 기존자료를 바탕으로 훈련용 분류틀이 미리 갖춰져 있어야 한다
- 이 사용자는 어떤 특성을 가진 집단에 속하는가?
- 새로운 사건이 속하게 될 범주를 찾아내는 일로 기존자료를 바탕으로 훈련용 분류틀이 미리 갖춰져 있어야 한다
- 유전 알고리즘
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같이 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같이 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 기계 학습
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 같이 보고 싶어할까?
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
- 회귀 분석
- 분석가는 독립변수를 조작, 종속변수가 어떻게 변하는지를 보면 두 변인의 관계를 파악
- 구매자의 나이가 구매 물건 타입의 어떤 영향을 미치는가?
- 분석가는 독립변수를 조작, 종속변수가 어떻게 변하는지를 보면 두 변인의 관계를 파악
- 감정 분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 소셜 네트워크 분석
- 오피니언 리더 혹은 고객 들 간 소셜 관계 파악가능
- 특정인과 다른 사람이 몇 촌 정도의 관계인가?
- 오피니언 리더 혹은 고객 들 간 소셜 관계 파악가능
- 흥미로운 상관관계 발견
- 사용자를 특정한 유형으로 분류
- 보유 자원을 적정하게 할당
- 서비스나 상품의 적정 요금을 책정
- 다양한 비즈니스 모델을 개발
제 4절 위기 요인과 통제 방안
1. 위기 요인
- 사생활침해
- M2M(Machine to Machine) 시대가 본격화
- 정보 수집 센서들의 수가 늘어난다
- 개인 정보가치 증가
- 사업자가 개인정보 습득에 많은 자원을 투자
- 결과적으로
- 빅브라더가 사람들의 일상생활 전반을 감시할 기술적 기반이 구축될 가능성이 있다
- 데이터가 가공처리되어 2, 3차적 목적으로 활용되어 위협으로 변형될 우려가 있다
- 익명화 기술이 발전되고 있으나 충분치 않다는 의견이 지배적이다
- M2M(Machine to Machine) 시대가 본격화
- 책임 원칙 훼손
- 범죄 예측 프로그램 의해 범행 저지르기 전에 체포되는 등
- 분석 대상이 예측 알고리즘의 희생양될 가능성이 높아지고 민주주의 사회 원칙 크게 훼손
- 명확하게 행동한 결과에 대해 책임 물어야하며 부당하게 피해를 보는 상황을 최소화할 장치가 반드시 필요
- 데이터 오용
- 데이터 과신: 사람들이 일반적으로 필요로 하는 것은 현실에 대한 인식에 바탕을 두고 있기 때문
- 잘못된 지표: 검색 알고리즘에 잘못된 시그널을 사용하여, 특정 거래 사이트가 검색 상단에서 밀려나 매출이 급감, 시장 퇴출 가능성 높음
2. 통제 방안
- 미국 연방거래위원회(FTC)의 '소비자 프라이버시 보호 3대 권고사항'
- 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
- 기업은 소비자에게 공유 정보 선택 옵션 제공
- 소비자에게 수집된 정보 내용 공개 및 접근권 부여
- 위기 요인에 대한 통제 방안
- 동의에서 책임으로
- 사용자 정보는 2, 3차 목적으로 가공, 유통, 활용되므로 '개인정보 사용자의 책임'으로 해결
- 피해는 사용자가 책임, 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구
- 결과 기반 책임 원칙 고수
- 특정인이 채용, 담보대출, 신용카드 발급 여부 결정 등에서 예측 자료에 의해 불이익 당할 가능성을 최소화하는 장치를 마련하는 것이 빅데이터 시대에 꼭 필요한 일
- 알고리즘 접근 허용
- 객관적 인증방안 도입하자는 의견도 제시
- 불이익 피해자 대변해 구제할 능력 가진 전문가 필요 > 알고리즈미스트
- 동의에서 책임으로
제 5절 미래의 빅데이터
활용에 필요한 3요소
- 데이터 > 모든 것의 데이터화
- 인터넷의 진화 > 사물인터넷 시대 > 훨씬 더 많은 정보가 끊임없이 생산, 공유
- 각종 센서 네트워크를 전방위적으로 구축
- 구글
- 센서 기업, 로봇 회사를 인수
- 자동차
- 센서의 집합체
- 가정
- 각종 센서들이 온도, 전기를 제어
- 데이터가 많은 기업들의 핵심 비즈니스 모델을 서비스업으로 전환
- 기술 > 진화하는 알고리즘, 인공지능
- M2M, IoT 확산 > 데이터 양 증가 > 알고리즘 정확도 증가
- 인공지능
- 패턴인식, 자연어 처리, 자동제어, 기계학습, 자동 추론, 지능 엔진, 시멘틱 웹 등
- 인간의 사고, 추론, 계획, 학습
- 기계적 판단의 허용점과 통제법
- 알고리즘과 기계적 판단이 발생한 오류의 해결법
- 인력 > 데이터 사이언트스트, 알고리즈미스트
- 데이터 사이언티스트
- 빅데이터 이론적 지식 + 숙련된 분석 기술 > 통찰력, 전달력, 협업 능력
- 빅데이터의 다각적 분석으로 인사이트 도출, 조직의 전략 방향 제시활용 가능 기획자
- 알고리즈미스트
- 컴퓨터, 수학, 통계학, 비즈니스 전반에 대한 이해, 알고리즘 코딩 해석
- 빅데이터 알고리즘 부당 피해자 구제하는 전문직 종사자
- 컴퓨터, 수학, 통계학, 비즈니스 전반에 대한 이해, 알고리즘 코딩 해석
- 데이터 사이언티스트
반응형
'IT > ADP' 카테고리의 다른 글
[ADP_과목 2. 데이터 처리 기술 이해_제 2장 데이터 처리 기술_2] (0) | 2020.09.28 |
---|---|
[ADP_과목 2. 데이터 처리 기술 이해_제 2장 데이터 처리 기술_1] (0) | 2020.09.07 |
[ADP_과목 2. 데이터 처리 기술 이해_제 1장 데이터 처리 프로세스] (0) | 2020.08.31 |
[ADP_과목 1. 데이터 이해_제 3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트] (0) | 2020.08.24 |
[ADP_과목 1. 데이터 이해_제 1장 데이터의 이해] (0) | 2020.08.10 |
Comments