관련기사 등록
검색섹션
검색영역
기사등급
기사형태
검색영역
검색단어 또는
관련기사 검색결과 리스트
관련기사 검색결과 리스트 컨텐츠
검색된 정보가 없습니다.
관련기사 검색결과 리스트
관련기사 검색결과 리스트 컨텐츠
검색된 정보가 없습니다.
게시글 상세보기
정보

2017/11/28 한양뉴스 > 학술 > 이달의연구자

제목

[우수 R&D] 임종우 교수(컴퓨터소프트웨어학과)

컴퓨터가 영상을 이해한다고?

김예랑

URL복사/SNS공유

http://www.hanyang.ac.kr/surl/M55Q

내용

자동차가 스스로 운전하고, 잠금 장치가 사람의 얼굴을 인식한다. 상상 속에서나 그려왔던 미래가 도래하고 있다. 수많은 과학 기술이 융합한 결과물이다. 이런 미래를 가능케 할 다양한 기술력 중 ‘컴퓨터 비전(Computer Vision)’ 분야가 단연 그 핵심으로 손꼽히고 있다. 기계의 눈을 만들고 나아가 그 눈이 세상을 이해한다. 컴퓨터의 시신경을 만드는 이들, 그 중심에 임종우 교수(공과대 컴퓨터소프트웨어)가 있다.
 

컴퓨터가 세상을 보고 생각도 한다


‘자율 주행차’가 4차 산업혁명의 핵심으로 떠오르고 있다. 자동차가 스스로 운전하기 위해서는 실로 다양한 기술력이 요구된다. 자율 주행의 핵심은 자동차가 앞을 볼 줄 알아야 한다는 사실이다. 그러나 카메라로 세상을 보는 것만으로는 충분하지 않다. 앞에 있는 물체가 사람인지, 횡단보도가 어디인지, 신호등이 무슨 색인지를 이해하는 눈을 가져야만 한다. 사람처럼 영상을 이해하는 것이다. 영상을 사람처럼 인식할 줄 아는 컴퓨터를 프로그래밍하는 분야가 바로 ‘컴퓨터 비전(Computer Vision)’이다.
▲임종우 교수(공과대 컴퓨터소프트웨어)가 11월 이달의 연구자로 선정됐다.
임 교수는 이번 연구에서 ‘영상의 기하학적 구조화’ 및 ‘영상 속 물체의 검출과 추적’이라는 두 가지 주제를 제시했다. 두 가지 주제를 종합하면 일상에서 취득된 영상의 3차원 정보를 받아 들이고, 영상 속 물체의 움직임을 종합적으로 인식·예측하는 알고리즘을 개발할 수 있게 된다. 하드웨어와 소프트웨어의 접점에 있는 기술력으로, 인공지능(AI) 연구 분야에 속한다.
 
3차원으로 정보를 인식하다

생각하는 컴퓨터를 개발하기 위해서는 우선 영상을 3차원화하는 기술이 요구된다. 임 교수는 기존의 ‘Visual SLAM’ 기술을 응용해 영상 구조에 대한 확률적 기법을 적용하여 3차원의 뼈대를 추정하는 기술을 제안했다. 기존 Visual SLAM 기술은 카메라가 촬영한 영상에 알고리즘을 적용해 모서리와 같은 특징적인 점을 추려내어 광범위한 3차원 형태의 지도를 형성한다. 그러나 복원된 형태가 불분명하고 알아보기 어려운 한계를 지니고 있다. 또한 움직이는 물체나 변형된 물체의 경우에는 인식이 쉽지 않다.
▲논문에서 카메라와 IMU 센서를 이용한 위치 인식 및 환경 지도 구축 기술을 설명하고 있다.
임 교수는 이러한 문제점을 보완하기 위한 방안으로 확률적 기법을 바탕으로 포인트 클라우드를 적용해 영상 내 공간의 뼈대를 구조적으로 추정하는 기술을 연구하고 있다. 특히 기존 기술이 정적인 환경에만 한정되어 사실상 영상의 3차원화가 쉽지 않았던 반면, 임 교수는 이번 연구를 통해 외형 변화가 극심한 일반 영상에서도 3차원 구조화를 가능케 하는데 초점을 맞추고 있다. 복잡한 환경에서 촬영한 영상의 벤치마크 데이터 셋(date set)을 구축하고, 최종적으로 영상 내 공간의 점유도까지 추정할 수 있는 알고리즘을 개발하는 것이 연구의 최종 단계다. 이 기술이 일반화될 경우 컴퓨터는 영상 내 공간을 보다 완벽한 3차원으로 이해할 수 있게 된다. 이러한 알고리즘이 개발되면 컴퓨터는 픽셀이 아닌 하나의 공간으로 영상을 인식할 수 있게 된다.
 
스스로 판단하고 구분하는 CCTV

만약 우리 집 현관에 설치된 CCTV가 사람의 외형과 행동을 통해 외부인의 침입을 인식할 수 있다면? 자율 주행차가 앞에 놓인 물체가 사람인지 자동차인지 완벽하게 구분해 낼 수 있다면? 만약 이러한 기술력이 상용화된다면 세상은 우리의 상상보다 더 놀라운 모습으로 발전할 것이다. 컴퓨터가 영상을 구조화하는 것을 넘어 스스로 생각하고 판단할 수 있게 됐다는 뜻이기 때문이다. 딥러닝을 사용하여 영상 내 물체의 구체적인 정보를 추적(트래킹)해 내는 기술이 바로 임 교수 연구의 또 하나의 핵심 주제다. 영상 내 물체 추적은 컴퓨터 비전 분야에서 이미 오랫동안 연구된 주제이나 아직 개발해야 할 부분이 산적해있다.
▲ 임 교수가 딥러닝을 통한 컴퓨터의 학습과 패턴화 과정에 대해 설명하고 있다.
인간은 단순히 상대를 보는 것만으로도 쉽게 상대방의 의도를 파악할 수 있고, 감정과 생각을 인지할 수 있다. 그러나 기계에게는 이는 결코 쉬운 일이 아니다. 사람의 감정과 생각은 수학적 계산을 통해 읽어낼 수 없기 때문이다. 그러나 방법이 아예 없는 것은 아니다. 기계에 엄청나게 많은 정보(data)를 입력하고 그 정보를 스스로 분석하여 상황을 이해하도록 하는 기술, 바로 딥러닝(Deep Learning)이 그 해답이다. “빅데이터, 말 그대로 엄청나게 많은 데이터를 입력시켜 컴퓨터가 스스로 학습하도록 하는 겁니다. 이렇게 딥러닝을 통해 영상 내 다중 물체를 추적(트래킹)할 수 있게 되면 물체 및 영상의 패턴화가 가능해지고, 컴퓨터는 더욱 똑똑하게 영상을 스토리화할 수 있게 됩니다. 사람이 드라마를 보면서 자연스럽게 맥락을 파악하는 것처럼, 컴퓨터가 CCTV에 찍힌 사람을 보고 ‘도둑이다’ 이렇게 판단할 수 있게 패턴화된다는 의미죠.”
 
99.999%의 정확도까지
 
4차 산업혁명의 도래와 함께 컴퓨터 비전은 비전 분야의 성장 가능성은 무궁무진할 전망이다. 하지만 실생활에 적용하기 위해서는 아직 연구해야 할 주제들이 많이 남아있다. 임 교수는 “컴퓨터 비전은 이제 활발한 연구 개발 단계에 접어들었다”고 말하며 “상용화하기엔 아직 검증해야 할 것들 것 많이 남아있다”고 언급했다. “사실 컴퓨터 비전은 자율 주행차, 보안 장치처럼 인간의 삶과 밀접한 관계를 맺는 기술이에요. 조금의 오차도 있어선 안되겠죠. 99.999% 이상의 정확도를 갖는 기술력을 갖춰야 하기에 연구는 계속될 겁니다.” 임 교수는 생활에서 사용되는 실용적인 기술을 연구하고 싶다. 이번 연구는 약 4년간 진행될 예정이나, 그의 연구가 계속 이어질 것은 분명해 보인다.
▲지난 23일 진행된 인터뷰에서 임 교수는 "조금의 오차도 없도록 연구를 거듭할 것"이라고 전했다.


글/ 김예랑 기자         ys2847@hanyang.ac.kr
사진/ 최민주 기자      lovelymin12@hanyang.ac.kr
URL복사/SNS공유

기사댓글 0