일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 맛집
- 조지프 나이
- Great Minds
- 공부정리
- 정치학
- CNN10
- 후기
- 미분적분학
- EBS
- python
- 자료구조
- 알고리즘
- Progate
- 빅데이터
- Hacker Rank
- 당신이 몰랐던 진화론
- 백준
- Udemy
- ADsP
- KMOOC
- Joseph Samuel Nye Jr.
- ADP
- 누가 진정한 리더인가
- 코테
- MySQL
- Baekjoon
- 데이터분석전문가가이드
- 위대한 수업
- 데이터분석전문가
- K-MOOC
- Today
- Total
ㅇ
[AI]비전공자도 이해할 수 있는 AI 지식_1 본문
1. 인공지능
- 인공지능: 최초의 인공지능 기계로 체스를 두던 메케니컬 터크는 여러 명의 몸집이 작은 체스마스터가 함께한 사기행각이었다. 1980년대에 기계가 스스로 규칙을 찾아 학습을 하는 머신러닝 방식이 나타난 이후로도 한동안은 1950년대에 나온 인공신경망은 관심을 받지 못하다가 2010년 페이페이 리 교수가 주최한 이미지 분류 챌린지 이후 탄생한 아마존 메케니컬 터크로 다시금 주목을 받게 된다.
- 알고리즘: 인공지능의 핵심 기술인 딥러닝은 인공신경망을 이용한 머신러닝이라 볼 수 있다. 수많은 다이얼이 정답에 가까운 답을 도출하기 위한 미세한 조정을 거치고, 더이상 인간이 해석할 수 없는 정도에 이르렀다.
- 데이터: Vox Populi, 인민의 목소리 라는 뜻으로 다양한 집단의 데이터가 많이 모이면 소수 전문가의 의견보다 더 정답에 가까운 결과를 얻어낼 수 있다는 원리를 설명한 논문으로 알려져있다.
- 시스템: GPU를 이용하면, 간단한 작업들을 병렬로 처리할 수 있다. 이는 대규모의 병렬연산을 수행하는 인공 신경망에 적합한 시스템이다.
- 오픈소스: 대표적으로 리눅스가 있으며, 업계에 영향력을 높이고 해당 분야가 발전하는데에도 도움이 많이 된다. 구글의 Tensorflow 프로그램을, 페이스북에서 PyTorch 프로그램을 공개해 딥러닝 라이브러리를 오픈소스화한 것이 있다.
결국 인공지능은 컴퓨터라는 도구를 이용해 문제를 해결하기 위한 해결 방법 중 하나로, 많은 양의 데이터를 빠른 속도로 동시에 수행할 수 있는 방법일수록 활용도가 높아진다.
그렇다면 현대 사회에서 어떤 종류의 문제들이 많이 혹은 중요하게 다뤄지는지 알고 관련된 기술을 공부하는 것이 중요할 것이다.
2. 알파고
- 체스 챔피언이 된 딥 블루는 컴퓨터의 계산 능력과 수많은 탐색을 가능케 한 알고리즘 최적화, 더해 심리 전략까지 동원한 승부의 결정체였다.
- 게임 트리: 게임에서 가능한 모든 경우의 수를 트리 형태로 나타낸 것
- 가지 치기: 한 번 탐색해보고 성과가 없다면 그쪽은 더 이상 탐색하지 않도록 표시하는 것
- 몬테카를로 방법: 계속 도전하면 결국은 원래 확률만큼의 결과를 얻을 수 있는 것
- 바둑 인공지능: 딥마인드의 알파고가 대표적
- 몬테카를로 트리 탐색: 게임 트리 탐색에 몬테카를로 방법을 접목한 방법알파고의 인공신경망 구성
- 알파고는 두 종류의 인공신경망을 적용하여 딥러닝을 적용
- 정책망: 어디에 돌을 두나
- 기보학습 정책망, 정답지인 기사의 기보를 학습한 것
- 롤아웃 정책망, 첫 번째 망보다 1500배 빨리 탐색이 가능하지만 정확도가 현저히 떨어짐
- 강화학습 정책망, 알파고끼리 대국하여 학습한 것
- 가치망: 승리할 확률이 얼마인가
- 진행한 모든 수에 게임 진행 점수를 부여하고, 승패에 따라 승리 점수를 부여한다.
- 정책망: 어디에 돌을 두나
- 몬테카를로 방법에서는 확률이 높기만 하면 되기 때문에 '묘수'를 간과한다.
- 알파고 제로: 처음부터 자신과의 대국을 통해 학습하며, 매일 100만 대국 진행이 가능하다.
- 엘로 평점: 이기면 증가하고 지면 감소하나 상대방의 점수 높낮이에 따라 변화 폭의 비율이 다르다.
- 계산기가 인간보다 곱셈을 더 잘한다고 인간을 능가하는 지능의 출현이라고 호들갑을 떨지않듯, 알파고도 마찬가지입니다.
알파고가 갖는 의미는 무엇일까? 이미 97년에 컴퓨터에게 체스 챔피언의 자리를 넘겨주었을 때도 큰 소란이 있었는지는 모르겠다. 다만 체스보다 이기고 지는 형국을 계산하기 어렵고, 가로세로 19줄이라는 계산양이 많은 바둑을 이기는 것이 훨씬 오래 걸릴 거란 예상을 깼기 때문이라고 생각한다. 우리의 예상보다 더 빠르게 뒷받침되는 인력, 환경, 관심의 크기에 투자할 만한 시장이라는 인식이 생긴건 아닐까?
3. 자율주행
- 미 국방부 고등연구계획국에서 주최한 다르파 그랜드 챌린지는 자율주행차량을 이용해 1등으로 완주하는 차량에게 100만 달러를 주기로 했지만 아무도 성공하지 못했다. 그러나 상금을 2배로 올려서 재개최하고, 스탠리 교수가 우승을 거머쥔다.
- 자율주행차량에 GPS보다 중요한 것은 도로의 지형을 파악하는 것이라고 생각한 스탠리 교수 팀은 머신러닝을 이용해 안전한 지형과 안전하지 않은 지형을 학습하는 방식을 사용했다.베이즈 정리: 사후 확률과 사전 확률의 관계를 나타내는 수학 정리
- 베이즈 정리는 확률을 믿음이라고 가정하고 업데이트를 해나간다. 자율주행차량은 이 점을 차용해, 새로운 신호에 따른 정보와 기존의 정보를 적절히 섞어 새로운 정보를 만들어내는 방식으로 학습을 진행했다.자율주행차량에 활용한 센서
- 레이더: 전자파를 이용하며 장거리 측정이 가능하고 물체 내부도 확인할 수 있으며 날씨의 영향을 받지 않는다. 다만 물체의 거리, 방향, 모양, 구조는 파악이 어렵다.
- 라이더: 빛을 이용하며 물체를 밀도 있게 표현할 수 있지만, 거친 날씨에는 활용이 어렵고 장거리인 경우 정확도가 떨어진다.
- 카메라: 동물이 이미지를 판별하는 과정을 모방한 컴볼루션 신경망, CNN, 을 이용해 이미지를 구별하고 학습한다.
- 주행 데이터에서 라벨링 된 장애물을 학습하고, 장애물을 발견하기 전 후의 운전자 데이터를 바탕으로 한 모방학습을 진행한다.
- 현자 자율주행 양산차는 2단계로 손을 떼도 되지만, 학습되지 않은 상황에서 일어나는 사고를 막기 위해 운전자자율주행 모드를 위한 제한사항을 두고 있다.자율주행 단계
- 0: 기능 없음
- 1: 발 떼기
- 2: 손 데기
- 3: 눈 감기
- 4: 뇌 끄기
- 5: 인간 없음
자율주행 차량이 일반 운전자에게 영향을 줄 시기가 빠르게 올지 모르겠다. 사고가 나는 과정에서의 순간적인 선택은 다양한 개인이 갖고 있는 윤리의 수 만큼 다양할 수 있기 때문이다. 다만 국가 단위에서 존재하는 이동에 관해서는 가능하지 않을까. 국가의 이익을 추구하는 일에는 다양해질 수 있는 상황을 정리하는게 쉽지 않을까.
일반 운전자의 희생을 감수해서라도 일단은 데이터를 모으다보면 이후로는 사람이 운전해도 나는 사고만큼 혹은 그보다 적어지면 자율주행 양산차의 자율주행 단계가 더 올라갈까. 질문이 많아진다.
4. 검색엔진
- 2000년대 초 야후!는 디렉토리 서비스를 기반으로 사용자들에게 인기가 좋았지만, 기하급수적으로 늘어나는 웹 사이트는 일일히 사람이 분류하는 작업을 수행하기 어려워졌다. 결국 검색엔진 사이트인 구글이 그 자리를 차지하게 된다.
- CPC방식: Cost Per Click, 사용자의 클릭에 따라 광고료를 매기는 방식
- 색인: 검색엔진이 인터넷에 있는 문서를 수집하여 검색에 적하바도록 보관하고 있는 것
- GFS: 구글 파일 시스템, 저렴한 컴퓨터 수천대에 나눠서 저장하는 분산 파일 시스템
- 크롤러: 웹 페이지를 방문하여 사이트 내 모든 링크를 식별하고 바운할 URL을 큐라는 목록에 추가하고, 필요한 내용을 추출하여 저장하는 작업을 병행한다.
- 선택정책연구: 여러 웹 페이지 URL 중 어떤 페이지를 먼저 방문할 것인가의 연구
- 페렌츠 야노시: 말과 소의 몸집을 비교하는 문제를 통해 서로 다른 성질을 가진 대상을 어떻게 정량적으로 비교할 수 있는 지 얘기함
- 순서를 따르는 것은 합리적이다.
- 하나의 기준으로 순서를 정하기는 어렵다.
- 윌리엄 톰슨, 자신이 말하는 내용을 측정할 수 있고 또한 그것을 숫자로 표현할 수 있어야 비로소 그것을 안다고 말할 수 있다.
- 검색 랭킹: 여러 조건의 점수를 합해 종합 점수가 가장 높은 문서를 1등으로 보여준다
- 에르되시 수: 에르되시와 몇 단계에 걸쳐 네트워크로 연결되어 있는지를 나타내는 수로 적을 수록 좋으며, 에르되시는 평생에 논문을 1500여편 작성한 수학 연구계에 유명인사다.
- 페이지 랭크: 권위 있는 문서에서 링크를 받는 것이 중요한 알고리즘, 스팸 사이트가 링크를 많이 받아도 높은 순위에 오르기 어려워짐
- 댐핑 펙터: 사용자들이 실증을 낼 확률을 반영한 값
- 근접도: 단어와 단어 사이의 간격이 좁을수록 더 유사한 문서라고 판단, 높은 점수를 부여
- TF-IDF: TF, 단어 출현빈도, IDF, 문서 출현 빈도의 역수로 해당 문서에 많이 출현하고 다른 문서에 적게 출현할수록 점수가 커진다
- BM25: Best Matching 25로 TF-IDF 기반의 점수 계산 방식 중 가장 성능이 좋다고 알려진 방식이다. 가중치를 조정하여 최적화를 시켰다. TF 점수가 무한대로 증가하지 않고, 특정 점수 이상을 넘지 않게 하며, 문서 길이를 살펴보는 장치가 포함되어 있다.
- 검색 결과: 검색 엔진이 최신, 품질, 유사도 + $\alpha$ 를 기반으로 최종 점수를 계산한 결과
- A/B 테스트: 무작위 대조실험을 온라인에서 구현한 것
- 무작위 대조실험: 피실험자를 2개 이상의 그룹에 무작위로 할당해 실험 그룹과 대조 그룹의 결과를 비교하는 것
- MUM: Multitask Unified Model, 2021년 상반기에 구글이 발표한 기술로 복잡한 질문에 답하기 위해 딥러닝을 결합한 새로운 기술로 75개 언어를 통합하여 학습한다.
궁금한게 있을 때마다 구글링을 하면서도 검색엔진에 이렇게 많은 기술이 집약된 역사가 있는지 몰랐다. 이전에 디렉토리 서비스를 제공한 야후!코리아를 이용하다 뉴스도 광고배너도 아무것도 없던 하얀 화면인 구글이 막막했던 기억이 난다. 검색 랭킹에 활용되는 근접도에도 다양한 종류가 있을까? 가중치를 두는 방식은 무엇을 기반으로 정할까?
5. 스마트 스피커
- 2011년 음성 비서 플랫폼의 시작인 Apple의 Siri가 아이폰 4S에 탑재, 발표된다. 스타트업이었던 시리팀의 인수와 후원을 진행한 잡스의 사망 후 경영진과의 갈등 이후, 비브랩스를 새로 설립하여 인공지능 갱니 비서를 만들고 추후에 삼성에 인수되어 Bixby를 만들게 된다.
- 2014년 Amazon의 Echo는 Alexa라는 호출어를 가진, 세계 최초의 스마트 스피커가 개발되엇다. 이후 전 세계에 1억대가 넘게 팔리며 스마트 스피커의 시대를 열었다.스마트 스피커의 작동 방식이해: 음성 인식, 자연어 이해
실행: 다이얼로그 매니저, 스킬
생성: 자연어 생성, 음성 합성 - 음성 파일의 분석 과정 구성 요소
- 웨이크업: 스피커가 음성에 반응하게 하는 과정음성 인식
- 음성인식 시간의 흐름에 따라 역동적으로 변동하는 음성의 파형을 다루는 일
- 음성의 파형을 규칙으로 구분하는 방식이 어려운 이유: 음성의 극단적인 유연함
- 대화를 이해하기 위해서는 장소, 상황, 상대방의 표정, 입 모양, 손짓 등 수많은 메세지를 종합해야 한다.
- 사람들이 음소를 제각각 발음하고, 동일인이어도 발음 방식이 매번 같지 않다.
- 음소의 패턴은 가까운 음소에 영향을 받고, 생략되는 음소도 많다.
- 실제 음성에서는 단어 사이에 명확한 공백이 존재하지 않는다.
- 말소리의 크기, 어조가 단어의 의미를 바꾸기도 한다.
- 동음이의어나 구문을 구별하는 것도 까다롭다.
- 음성 외에 화자, 상황, 맥락 등등 여러 가지 요소를 종합적으로 고려야 한다.
- 은닉 마르코프 모델: 은닉된 상태와 관찰 가능한 결과로 구성된 통계적 모델
- 디코딩: 확률 모델을 이용해 은닉된 상태 중 하나의 확률을 알아내는 것
- 순환신경망, RNN: 시간의 흐름에 따라 순서대로 구성되는 시계열 형식도 학습할 수 있는 인공 신경망 구조
- 음향 모델: 음성의 파형으로 단어를 인식하는 것
- 언어 모델: 음성을 잘못 인식하더라도 그동안의 학습 결과를 토대로 사용할 확률이 높은 단어로 보정해주는 사전 지식의 역할자연어 이해
- 자연어 이해, NLU: 기계가 문장의 의미를 파악하기 위해 언어를 구조화하는 것
- 도메인 분류: 어떤 범주에 속하는지 판별하는 과정
- 인텐트 분류: 사용자의 의도를 파악하는 과정
- 슬롯 필링: 누락된 정보를 채우는 과정
- 멀티 턴: 사람과 대화하듯이 추가 질문을 던지는 것으로, 필요한 정보를 얻기 위해 여러 번 반복해서 묻고, 응답에서 필요한 정보를 추출하여 빈 슬롯을 채워나가는 과정다이얼로그 매니저
- 자연어 이해에서 처리한 내용을 받아 실행 명령을 내리는 역할
- 멀티 턴을 위한 대화 내용 기억해두기
- 궁금한 내용을 외부 지식 기반 서비스에 연결하여 찾아보기
- 여러 도메인에 맞춰 적절한 행동을 수행하도록 명령을 내리는 역할스킬
- 여러 서비스를 이용하는 기능자연어 생성
- 문제해결용 대화시스템: 목적이 분명한 대화만을 주로 하기 때문에, 자유롭게 대화를 생성하지 않고, 정해진 템플릿에 정보를 채워서 문장을 생성하는 방법을 주로 사용한다.
- 보다 풍부한 대화를 위해 템플릿을 다양하게 구성음성 합성
- USS, 음편 선택 합성 혹은 연결 합성: 미리 녹음된 음성을 기준에 따라 잘게 쪼개어 음편Unit을 만들고 가장 적합한 음편을 선택Selection하여 음성을 합성Synthesis하는 방식
- 음색 변화나 감정 표현 등이 어렵다
- 스마트 스피커, 내비게이션 등이 사용중
- 마거릿 어번: 흐름, 음조, 표현, 감정, 소리 크기, 속도 등 모든 것이 대화의 의미를 상대방에게 전달하는 요소
- 음성 합성 분야에서 딥러닝을 이용해, 성우가 몇 시간 동안 자유롭게 녹음한 데이터를 학습, 어떤 문장이든 성우 목소리를 기반으로 합성한다.
- 타코트론2: 구글이 제안하고 엔비디아에서 구현한 음성 합성 모델
- 사람과 거의 구분할 수 없을 정도로 자연스러운 음성을 합성
- 입력과 출력을 한 번에 진행하는 End-To-End 방식을 채택
- 최근 엔비디아에서 자체 개발한 딥러닝 보코더를 합께 제공 중이며 음성 합성의 두 단계를 하나로 통합하는 방식을 연구중
- 음성을 합성하는 단계
- 텍스트 $\rightarrow$ 멜 스펙트로그램
- 멜 스펙트로그램 $\rightarrow$ 텍스트
- 멜 스펙트로그램: 소리나 파동을 시각화하여 파악할 수 있도록 표현한 것, 색상의 차이와 농도를 포함해 풍부한 정보를 표현할 수 있으며 인간이 인지할 수 있는 주파수 대역으로 변환, 낮은 해상도로 압축한 것
- Vocoder: 멜 스펙트로그램을 실제 음성으로 바꾸는 작업을 처리한느 것
- 얼마나 노이즈 없이 깨끗하고 선명한 음질을 생성할 수 있는가가 기술의 핵심
스마트 스피커
딥러닝을 활용한 음성합성영역은 AI윤리가 가장 먼저 논의되어야 하는 분야 중 하나라고 생각한다. 많은 사람들이 편리하게 활용할 수 있는 분야이면서도 아주 쉽게 피해자를 양산할 수 있는 분야이기도 하다.
'내 생각 > 책' 카테고리의 다른 글
[IT] 제 4차 산업혁명 (0) | 2023.06.06 |
---|---|
[금융]인플레이션에서 살아남기_1 (0) | 2023.05.27 |
[인문 고전 50선]42. 니체, 차라투스트라는 이렇게 말했다. (0) | 2022.05.02 |
[인문 고전 50선]16. 베르그송, 창조적진화 (0) | 2022.03.17 |
[인문 고전 50선]8. 찰스 다윈, 종의 기원 (0) | 2022.02.11 |