Search
Duplicate

시각적 이해를 위한 머신러닝/ Introduction to Computer Vision

컴퓨터에게 Video는 숫자가 연속되어 나열되어 있는 것
사람은 위 영상을 보면서 영상의 핵심 부분을 쉽게 인식할 수 있다. —경찰이 사람을 쫓고 있다.
결국 데이터는 숫자로 되어 있기 때문에, 그 숫자를 보고 이미지를 인식할 수 있어야 함
Computer Vision은 1963년에 시작 됨
1992년에는 tracking 에 대한 논문이 나옴
Vision이 발전하게 된 계기는 Object Recognition 덕분
얼굴 인식은 2001년부터 많은 연구가 있었음
2D 이미지로부터 3D를 구성해 내는 연구가 2009년에 시작 됨
원래 Machine Learning과 Vision 연구는 다른 것이었는데 현재는 같은 것이 됨
AI가 컴퓨터보다 빨랐음
AI가 Perceptron 등장으로 발전을 이루었는데 XOR 문제로 위기를 맞음
Multi-Layerd Perceptron으로 이 문제를 해결함.
제프리 힌튼이 어떤 함수든 Neural Network Layer를 3층만 쌓으면 다 표현 가능하다고 수학적으로 증명함
추가로 Backpropagation이라는 논문을 발표 함
Big Data + GPU 힘으로 예전 논문들이 힘을 발휘함
Neural Network를 Deep으로 쌓으니 잘되더라라고 힌튼이 또 논문 발표함
딥러닝의 혁명은 2012년 AlexNet이 ImageNet 대회에서 우승하면서 시작 됨
이때를 AD1 년이라고 하고 그 전은 BC 라고 표현 함
딥러닝 혁명 이후 이미지 인식은 크게 발전 함
우리나라가 논문 통과 기준 컴퓨터 비전 분야 세계 3위 수준임
Video 인식은 Image에 비해 보다 많은 작업이 필요함.
일단 용량이 훨씬 큼
이 수업은 머신러닝 기법을 이용한 시각 이해 수업임
기존의 Computer Vision과는 차이가 있음
물체 인식
행동 인식
시공간 이해
대상 Segmentation
움직이는 물체에 대한 추적
여러 정보를 종합
스타일 변환
비디오가 주어졌을 때 내용을 파악하고 추천, 검색 등에 활용할 수 있음
개인용 Collection에 활용될 수 있음
사람은 일일히 라벨링 하지 않는다.