•
컴퓨터에게 Video는 숫자가 연속되어 나열되어 있는 것
•
사람은 위 영상을 보면서 영상의 핵심 부분을 쉽게 인식할 수 있다. —경찰이 사람을 쫓고 있다.
•
결국 데이터는 숫자로 되어 있기 때문에, 그 숫자를 보고 이미지를 인식할 수 있어야 함
•
Computer Vision은 1963년에 시작 됨
•
1992년에는 tracking 에 대한 논문이 나옴
•
Vision이 발전하게 된 계기는 Object Recognition 덕분
•
얼굴 인식은 2001년부터 많은 연구가 있었음
•
2D 이미지로부터 3D를 구성해 내는 연구가 2009년에 시작 됨
•
원래 Machine Learning과 Vision 연구는 다른 것이었는데 현재는 같은 것이 됨
•
AI가 컴퓨터보다 빨랐음
•
AI가 Perceptron 등장으로 발전을 이루었는데 XOR 문제로 위기를 맞음
•
Multi-Layerd Perceptron으로 이 문제를 해결함.
◦
제프리 힌튼이 어떤 함수든 Neural Network Layer를 3층만 쌓으면 다 표현 가능하다고 수학적으로 증명함
◦
추가로 Backpropagation이라는 논문을 발표 함
•
Big Data + GPU 힘으로 예전 논문들이 힘을 발휘함
•
Neural Network를 Deep으로 쌓으니 잘되더라라고 힌튼이 또 논문 발표함
•
딥러닝의 혁명은 2012년 AlexNet이 ImageNet 대회에서 우승하면서 시작 됨
◦
이때를 AD1 년이라고 하고 그 전은 BC 라고 표현 함
•
딥러닝 혁명 이후 이미지 인식은 크게 발전 함
•
우리나라가 논문 통과 기준 컴퓨터 비전 분야 세계 3위 수준임
•
Video 인식은 Image에 비해 보다 많은 작업이 필요함.
◦
일단 용량이 훨씬 큼
•
이 수업은 머신러닝 기법을 이용한 시각 이해 수업임
◦
기존의 Computer Vision과는 차이가 있음
•
물체 인식
•
행동 인식
•
시공간 이해
•
대상 Segmentation
•
움직이는 물체에 대한 추적
•
여러 정보를 종합
•
스타일 변환
•
비디오가 주어졌을 때 내용을 파악하고 추천, 검색 등에 활용할 수 있음
•
개인용 Collection에 활용될 수 있음
◦
사람은 일일히 라벨링 하지 않는다.