KR20190069920A - 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법 - Google Patents

동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법 Download PDF

Info

Publication number
KR20190069920A
KR20190069920A KR1020170170282A KR20170170282A KR20190069920A KR 20190069920 A KR20190069920 A KR 20190069920A KR 1020170170282 A KR1020170170282 A KR 1020170170282A KR 20170170282 A KR20170170282 A KR 20170170282A KR 20190069920 A KR20190069920 A KR 20190069920A
Authority
KR
South Korea
Prior art keywords
face
section
recognition
content
information
Prior art date
Application number
KR1020170170282A
Other languages
English (en)
Other versions
KR102433393B1 (ko
Inventor
임동혁
서용석
김정현
박지현
유원영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170170282A priority Critical patent/KR102433393B1/ko
Priority to US15/880,763 priority patent/US10915574B2/en
Publication of KR20190069920A publication Critical patent/KR20190069920A/ko
Application granted granted Critical
Publication of KR102433393B1 publication Critical patent/KR102433393B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • G06K9/00744
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • G06K9/00288
    • G06K9/00758
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Abstract

동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하는 콘텐츠 분리부; 상기 콘텐츠 분리부로부터 수신한 비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하는 비디오 프로세서; 상기 콘텐츠 분리부로부터 수신한 오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하는 오디오 프로세서; 및 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐트 내 인물이 등장하는 구간에 대한 정보를 제공하는, 인물인식 구간정보 제공부를 포함하는 인물 인식 장치가 개시된다.

Description

동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING CHARACTER IN VIDEO CONTENTS}
본 발명은 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 얼굴 인식 및 화자 인식을 이용하여 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법에 관한 것이다.
통신, 방송 및 매체의 증가, 그리고 디지털 영상 장비의 성장으로 사용자가 접할 수 있는 비디오 콘텐츠의 양이 급증하고 있다. 사람들은 수없이 많은 비디오 콘텐츠 중에 본인이 관심있는 분야나 정보를 신속하게 얻고 싶어 한다. 하지만, 수많은 영화나 드라마들이 제공되고 있어 방대한 양의 콘텐츠로부터 원하는 동영상이나 장면을 검색하는 것은 쉽지 않다. 비디오 콘텐츠 내에서 사람들에게 가장 의미있고 인기있는 정보 중의 하나가 '인물'이며, 많은 사람들이 TV를 보면서 또는 동영상을 재생하면서 원하는 배우 또는 인물이 출연한 장면을 검색하고자 하는 요구가 발생하였다.
관련하여, 얼굴 인식을 이용하여 동영상에서 배우가 출연하는 장면을 분석하는 연구가 진행되었으나, 해당 방법에는 한계가 존재한다. 즉, 기존 얼굴 인식 기술은 배경과 조명이 일정하고, 앞모습의 얼굴이 이미지의 중앙에 위치해야 하는 등 제약적인 환경 조건을 만족해야 동작한다는 단점을 가진다. 다양한 시도를 통해 비제약적인 환경에서 성능이 향상되기는 하였으나, 인식 성능을 유지하기 위해서는 여전히 얼굴의 앞모습을 필요로 하다. 따라서, 드라마/영화와 같은 동영상에서 얼굴 인식을 수행하면 여전히 출연자가 인식되지 않는 동영상 구간이 많이 발생하는 문제점이 해소되지 않고 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 얼굴 인식 및 화자 인식을 활용한 인물 인식 장치를 제공하는 데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 얼굴 인식 및 화자 인식을 활용한 인물 인식 방법을 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 인물 인식 장치는 동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하는 콘텐츠 분리부; 상기 콘텐츠 분리부로부터 수신한 비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하는 비디오 프로세서; 상기 콘텐츠 분리부로부터 수신한 오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하는 오디오 프로세서; 및 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐트 내 인물이 등장하는 구간에 대한 정보를 제공하는, 인물인식 구간정보 제공부를 포함할 수 있다.
상기 인물인식 구간정보 제공부는, 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보를 비교하여 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간을 선별하고, 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는지 중첩하지 않는지 판단할 수 있다.
상기 인물인식 구간정보 제공부는 또한, 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는 경우 상기 얼굴 인식 구간 및 화자 인식 구간의 합집합인 구간을 인물 인식 구간으로 결정할 수 있다.
상기 인물인식 구간정보 제공부는, 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 임계치 이내의 간격을 두고 인접하는 경우 상기 얼굴 인식 구간, 상기 화자 인식 구간, 및 상기 간격을 더한 구간을 인물 인식 구간으로 결정할 수 있다.
상기 비디오 프로세서는 상기 콘텐츠 분리부로부터 입력되는 비디오 콘텐트에 대해 주기적으로 프레임 이미지를 추출하고, 추출된 프레임 단위로 얼굴 검출 및 얼굴 정렬을 수행하며, 정렬된 얼굴 이미지에 대한 얼굴 인식을 수행하며, 인식이 완료된 얼굴을 비디오 내에서 트래킹할 수 있다.
상기 비디오 프로세서는 하르-유사 특징(Haar-like feature)를 이용해 얼굴 검출을 수행하며, 딥러닝 학습 모델 출력 과정에 소프트맥스(Softmax) 함수를 이용해 얼굴 인식을 수행할 수 있다.
상기 비디오 프로세서는 동영상에서 얼굴 인식이 성공적으로 수행된 프레임을 시작으로 얼굴 트래킹을 수행할 수 있다.
상기 오디오 프로세서는 독립성분분석 기법을 이용해 오디오 콘텐츠로부터 음성 신호을 추출하고, 묵음을 기준으로 음성 신호를 세그멘테이션하여, 세그멘테이션된 단위 음성에 대해 화자 인식을 수행할 수 있다.
상기 오디오 프로세서는 또한, 상기 비디오 프로세서로부터 도출된 얼굴 인식 데이터를 화자 인식을 위한 학습 데이터로 사용할 수 있다.
상기 오디오 프로세서는 딥러닝 학습 모델 출력 과정에 소프트맥스(Softmax) 함수를 이용해 얼굴 인식을 수행할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 인물 인식 장치는 프로세서 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함할 수 있으며, 상기 적어도 하나의 명령은, 동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하도록 하는 명령; 비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하도록 하는 명령; 오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하도록 하는 명령; 및 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하도록 하는 명령을 포함할 수 있다.
상기 인물 인식 장치는 네트워크를 통해 적어도 하나의 검색 엔진과 연동하며, 적어도 하나의 동영상 콘텐츠 제공 장치로부터 동영상 콘텐츠를 수신하여 상기 프로세서로 전달하는 통신 모듈을 더 포함할 수 있다.
상기 인물 인식 장치는 적어도 하나의 인물에 대한 정보 및 상기 적어도 하나의 인물이 등장하는 동영상 내 구간에 대한 정보를 저장하는 인물정보 데이터베이스를 더 포함할 수 있다.
상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 인물 인식 방법은, 동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하는 단계;
비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하는 비디오 프로세싱 단계; 오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하는 오디오 프로세싱 단계; 및 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하는 단계를 포함할 수 있다.
상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하는 단계는, 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보를 비교하여 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간을 선별하는 단계; 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는지 중첩하지 않는지 판단하는 단계; 및 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는 경우 상기 얼굴 인식 구간 및 화자 인식 구간의 합집합인 구간을 인물 인식 구간으로 결정하는 단계를 포함할 수 있다.
상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하는 단계는, 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 임계치 이내의 간격을 두고 인접하는 경우 상기 얼굴 인식 구간, 상기 화자 인식 구간, 및 상기 간격을 더한 구간을 인물 인식 구간으로 결정하는 단계를 더 포함할 수 있다.
상기 비디오 프로세싱 단계는, 상기 콘텐츠 분리부로부터 입력되는 비디오 콘텐츠에 대해 주기적으로 프레임 이미지를 추출하는 단계; 추출된 프레임 단위로 얼굴 검출 및 얼굴 정렬을 수행하는 단계; 및 상기 정렬된 얼굴 이미지에 대한 얼굴 인식을 수행하는 단계; 및 얼굴 트래킹을 수행하는 단계를 포함할 수 있다.
추출된 프레임 단위로 얼굴 검출 및 얼굴 정렬을 수행하는 단계는 하르-유사 특징(Haar-like feature)을 이용해 얼굴 검출을 수행하는 단계; 및 검출된 얼굴 이미지의 특징점을 기반으로 2차원 변환 또는 3차원 변환 과정을 거쳐 정렬된 얼굴 이미지를 생성하는 단계를 포함할 수 있다.
얼굴 인식을 수행하는 단계는 딥러닝 학습 모델 출력 과정에 소프트맥스(Softmax) 함수를 이용해 얼굴 인식을 수행하는 단계를 포함할 수 있다.
얼굴 트래킹을 수행하는 단계는 얼굴 인식이 완료되면, 동영상에서 얼굴 인식이 성공적으로 수행된 프레임을 시작으로 얼굴 이미지의 유사도를 계산하면서 트래킹을 수행하고 유사도가 일정 수치 아래로 떨어지면 트래킹을 종료시키는 단계를 포함할 수 있다.
상기 오디오 프로세싱 단계는, 독립성분분석 기법을 이용해 오디오 콘텐츠로부터 음성 신호을 추출하는 단계; 묵음을 기준으로 음성 신호를 세그멘테이션하는 단계; 및 세그멘테이션된 단위 음성에 대해 화자 인식을 수행하는 단계를 포함할 수 있다.
상기 세그멘테이션된 단위 음성에 대해 화자 인식을 수행하는 단계는 딥러닝 학습 모델의 출력 과정에 소프트맥스(Softmax) 함수를 이용해 화자 인식을 수행하는 단계를 포함할 수 있다.
상기와 같은 본 발명의 실시예들에 따르면 얼굴 인식 과정 후에 화자 인식 과정을 추가함으로써 동영상 콘텐츠에서 출연자가 인식되지 않는 동영상 구간을 줄일 수 있다.
추가적으로, 얼굴 인식 기술을 이용하여 화자 인식을 위한 다수의 학습 데이터를 자동으로 생성하여 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인물 인식 장치의 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 동영상 내 인물 등장 구간 인식 방법의 개념도이다.
도 3는 본 발명의 일 실시예에 따른 인물 인식 방법의 동작 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 화자 인식을 위한 학습 데이터 확보 방법의 동작 흐름도이다.
도 5는 본 발명에 따른 인물 인식을 위한 비디오 프로세싱의 세부 동작 순서도이다.
도 6은 본 발명에 따른 인물 인식을 위한 오디오 프로세싱의 세부 동작 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 인물 인식 장치의 블록 구성도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 인물 인식 장치의 블록 구성도이다.
본 발명은 얼굴 인식 및 화자 인식을 함께 사용하여 동영상 콘텐츠에서 출연자가 인식되지 않는 동영상 구간을 줄이고 인물 인식율을 향상시키고자 한다. 이를 위해 도 1에 도시된 바와 같은, 본 발명의 일 실시예에 따른 인물 인식 장치를 제공한다. 본 발명에 따른 인물 인식 장치는 또한, 화자 인식 기술 학습 데이터를 준비하는 과정에 얼굴 인식 기술을 적용하여 다수의 학습 데이터를 매우 용이하게 생성할 수 있도록 한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인물 인식 장치(200)는 동영상 콘텐츠 제공 장치(100)와 연동할 수 있으며, 콘텐츠 분리부(210), 오디오 프로세서(220), 비디오 프로세서(230) 및 인물인식 구간정보 제공부(240)를 포함할 수 있다.
도 1에서, 인물 인식 장치(200)는 파일 형태로 저장된 콘텐츠를 입력으로 받아 얼굴 인식을 수행한다. 동영상 콘텐츠 제공 장치(100)는 인물 인식 장치(200)와 동일한 하드웨어 내에 포함될 수 있다. 또한, 동영상 콘텐츠 제공 장치(100)는 인물 인식 장치(200)와 네트워크를 통해 연결되는 스토리지, 예를 들어 NAS((Network Attached Storage) 등이 될 수 있으나, 여기서 열거한 예들에 한정되는 것은 아니다.
인물 인식 장치(200)는 일종의 서버이며, 인물 인식 장치(200)에서 생성하여 제공한 인물 출연 구간에 대한 정보는 디스플레이 장치, 사용자 단말 등에 전송되어 최종적으로 사용자에게 제공될 수 있다.
동영상 콘텐츠 제공 장치(100)로부터 동영상이 입력되면 콘텐츠 분리부(210)는 수신한 동영상을 비디오 콘텐츠와 오디오 콘텐츠로 구분한다.
콘텐츠 분리부(210)에 의해 분리된 오디오 콘텐츠는 오디오 프로세서(220)로, 비디오 콘텐츠는 비디오 프로세서(220)로 공급된다.
비디오 프로세서(220)는 콘텐츠 분리부(210)로부터 입력되는 비디오에 대해 주기적으로 프레임 이미지를 추출하고, 추출된 프레임 단위로 얼굴 검출 및 정렬을 수행한다. 비디오 프로세서(220)는 또한 정렬된 얼굴 이미지에 대해 얼굴 인식을 수행하고, 얼굴 트래킹을 통해 도출된 동영상 내 얼굴 인식 구간에 대한 정보를 출력한다.
오디오 프로세서(230)는 콘텐츠 분리부(210)로부터 입력되는 오디오를 음성 부분 및 음악 부분으로 분리한다. 오디오 프로세서(230)는 분리된 음성 부분에 대해 세그멘테이션을 수행한 후 딥러닝을 이용해 화자 인식을 수행하고, 도출된 동영상 내 화자 인식 구간에 대한 정보를 출력한다.
인물인식 구간정보 제공부(240)는 동영상 내 얼굴인식 구간에 대한 정보 및 동영상 내 화자인식 구간에 대한 정보를 종합 분석해 동영상 내 인물인식 구간에 대한 정보를 제공한다.
도 2는 본 발명의 일 실시예에 따른 동영상 내 인물 등장 구간 인식 방법의 개념도이다.
도 2는 본 발명에 따른 동영상 내 얼굴 인식 구간 정보와 동영상 내 화자 인식 구간 정보를 통합하여 동영상 내에 인물이 등장하는 구간에 대한 정보를 도출하는 과정을 나타낸 개념도이다.
본 발명의 일 실시에에 따르면 동일한 인물이 비슷한 시간 대에 등장하는 것으로 인식된 시간 구간들을 동일한 씬(Scene)으로 간주하고, 해당 구간들을 통합하여 해당 인물이 등장하는 구간으로 인식할 수 있다.
예를 들어, 도 2에 도시된 그래프의 섹션 1(S1)에서 얼굴 인식 결과와 화자 인식 결과를 분석한 결과 해당 얼굴이 동일 인물의 얼굴인 것으로 판단되면 얼굴 인식 결과 구간과 화자 인식 결과 부분이 시간 축에서 겹치는지 확인한다. 얼굴 인식 결과 구간 및 화자 인식 결과 부분이 일부 혹은 전체 중첩하는 경우 해당 인물의 출연 구간은 얼굴 인식 결과 구간 및 화자 인식 결과 부분의 합집합으로 결정될 수 있다. 즉, 도 2의 섹션 1에서 해당 인물이 출연 구간은 t1 으로 확장될 수 있다.
유사하게, 도 2의 섹션 2(S2) 경우, 얼굴 인식 결과와 화자 인식 결과가 동일 인물이지만 얼굴인식 결과 구간 및 화자인식 결과 구간이 겹치지는 않지만 두 구간의 시간 차이 t3 이 사전에 정의한 임계값보다 작다면, 해당 인물 또는 배우의 출연 구간은 얼굴 인식 결과 구간 및 화자 인식 결과 구간, 그리고 두 구간간의 갭을 합한 구간으로 결정될 수 있다. 즉, 2의 섹션 1에서 해당 인물이 출연 구간은 t2 로 확장될 수 있다.
하지만, 구간의 차이, 예를 들어 도 2의 t4 가 사전에 정의한 임계값보다 크다면, 해당 배우의 출연 구간은 확장되지 않고, 해당 구간의 차이를 기준으로 상호 분리된다.
도 2를 통해 살펴본 바와 같이 본 발명에 따르면 얼굴 인식 기술을 이용한 배우 인식 정보와 화자 인식 기술을 이용한 인식 정보를 통합하여 인물 인식 구간을 확장할 수 있다.
도 3는 본 발명의 일 실시예에 따른 인물 인식 방법의 동작 흐름도이다.
본 발명에 따른 인물 인식 방법은 동영상 콘텐츠 내에 인물이 등장하는 시간 구간을 분석하여 제공하며, 예를 들어, 앞서 도 1을 통해 살펴본 인물 인식 장치 또는 이후 도 7을 통해 살펴볼 인물 인식 장치에 의해 수행될 수 있다. 다만, 본 발명의 일 실시예에 따른 인물 인식 방법의 동작 주체가 인물 인식 장치에 국한되는 것은 아니다.
도 3을 참조하면, 인물 인식 장치는 입력된 동영상 콘텐츠를 이미지 관련 정보인 비디오와 음성 정보인 오디오로 구분한다(S300, S310). 분리된 오디오 콘텐츠는 오디오 프로세싱 과정(S320)을, 비디오 콘텐츠는 비디오 프로세싱 과정(S330)을 거치게 된다.
비디오 프로세싱 과정(S320)은 입력되는 비디오에 대해 주기적으로 프레임 이미지를 추출하고, 추출된 프레임 단위로 얼굴 검출 및 정렬을 수행한다. 비디오 프로세싱 과정(S320)에서는 또한 정렬된 얼굴 이미지에 대해 얼굴 인식을 수행하고, 도출된 동영상 내 얼굴 인식 구간에 대한 정보를 출력한다.
오디오 프로세싱 과정(S330)은 입력되는 오디오를 음성 부분 및 음악 부분으로 분리한다. 오디오 프로세싱 과정(S330)에서는 분리된 음성 부분에 대해 세그멘테이션을 수행한 후 딥러닝을 이용해 화자 인식을 수행하고, 도출된 동영상 내 화자 인식 구간에 대한 정보를 출력한다.
인물 인식 장치는, 비디오 프로세싱 과정(S320)으로부터 도출된 동영상 내 얼굴인식 구간에 대한 정보 및 오디오 프로세싱 과정(S330)으로부터 도출된 동영상 내 화자인식 구간에 대한 정보를 종합 분석해 동영상 내 인물인식 구간에 대한 정보를 도출한다(S340).
도 4는 본 발명의 다른 실시예에 따른 화자 인식을 위한 학습 데이터 확보 방법의 동작 흐름도이다.
일반적으로 딥러닝을 이용한 화자 인식을 학습하기 위해서는 다수의 음성 데이터가 필요하고 이는 얼굴 인식을 위해 얼굴 이미지를 수집하는 것보다 더 많은 시간과 노력이 필요하다. 얼굴 이미지 수집은 검색 엔진의 이미지 검색 결과 또는 웹이미지를 크롤링하여 학습 데이터를 확보할 수 있는 데 반해 음성 인식을 위한 학습 데이터는 쉽게 확보할 수 없다는 어려움이 있다.
따라서, 음성 인식 학습을 위한 자동화된 데이터 수집 방법이 필요한데 본 발명에서는 얼굴 인식 결과를 음선 인식 학습을 위한 데이터로 이용한다. 즉, 다수의 영화/드라마 동영상을 확보한 후, 얼굴 인식 기술을 통해 동영상에서 배우의 얼굴 인식 구간 정보를 얻고, 해당 구간의 음성을 추출하여 화자 인식의 학습 데이터로 이용할 수 있다.
도 4에 도시된 화자 인식을 위한 학습 데이터 확보 방법은 도 1을 통해 살펴본 인물 인식 장치에 의해 수행될 수 있으며, 도 1의 인물 인식 장치의 세부 블록들을 거의 그대로 사용할 수 있다. 도 1에서 사용하는 모듈을 거의 그대로 사용할 수 있는 점은 매우 큰 장점이라 할 수 있다.
도 4를 참조하면, 인물 인식 장치가 입력된 동영상을 이미지 관련 정보인 비디오와 음성 정보인 오디오로 구분한다(S410). 동영상이 입력되면 비디오 프로세싱(S420)을 통해 얼굴 검출 및 정렬, 얼굴 인식, 얼굴 트래킹를 거쳐 동영상 얼굴 인식 구간 정보를 확보할 수 있다. 동영상 얼굴 인식 구간 정보는 인식된 캐릭터/배우의 ID, 출연 시작 시간, 출연 종료 시간을 포함할 수 있다. 비디오 프로세싱 결과를 바탕으로 동영상 얼굴 인식 구간에 대응하는 오디오를 추출하고(S430), 음원 분리 및 세그먼테이션을 수행한다(S440). 음원 분리를 통한 음성 추출 및 세그멘테이션 과정을 포함한 오디오 프로세싱의 결과로, 화자인식을 위한 학습 데이터를 확보할 수 있으며(S450), 확보한 학습 데이터를 이용해 화자 인식 학습을 수행할 수 있다(S460).
영화나 드라마와 같은 콘텐츠는 주로 음성과 음악이 같이 나오는 경우가 많기 때문에 음원 분리를 통하여 사람의 음성만 따로 분리함으로써 화자 인식 성능을 높일 수 있다. 도 4에 도시된 바와 같은 자동화된 프로세스를 통하여 다수의 학습데이터를 확보할 수 있으며, 이 데이터를 이용하여 딥러닝 기반의 화자 인식 학습 모델을 생성할 수 있다.
도 5는 본 발명에 따른 인물 인식을 위한 비디오 프로세싱의 세부 동작 순서도이다.
도 5에서는 비디오 프로세싱의 세부 동작 방법을 도시하며, 상기 동작 방법은 본 발명에 따른 인물 인식 장치 또는 비디오 프로세서에 의해 수행될 수 있다.
동영상 콘텐츠로부터 분리된 비디오 데이터가 수신되기 시작하면 비디오 프로세서는 비디오 프레임 별로 이미지를 추출한다(S321). 이후 프레임마다 추출된 이미지 별로 얼굴 검출 및 얼굴 정렬을 수행한다(S322). 본 발명에서는 얼굴 검출을 수행한 후 얼굴 정렬을 수행함으로써 얼굴 인식 정확도를 향상시킬 수 있다. 여기서, 본 발명의 일 실시예에 따른 얼굴 검출에서는 하르-유사 특징(Haar-like feature) 또는 딥러닝 기반의 객체 검출 기술을 사용하여 얼굴 부분의 이미지를 검출할 수 있다.
통상적으로 얼굴 검출을 위해 널리 사용되는 방법 중 하나가 AdaABoost(Adaptive Boosting) 알고리즘인데, AdaABoost 알고리즘은 가장 대중적인 부스팅(Boosting) 알고리즘으로서 단순하면서도 효율적인 방법이다. 이러한 AdaBoost 알고리즘을 사용하여 얼굴을 감지하기 위해서는 사람의 얼굴에서 많은 수의 특징점을 추출해야 하는데, 이러한 문제를 해결하기 위해 제안된 방법 중 하나가 하르 유사 특징(Haar-like features)을 이용하는 방법이다.
하르 유사 특징(Haar-like features)을 이용한 얼굴 검출 방식에서는, 검출 윈도우에서 위치, 모양, 크기에 따라 다양하게 인접하는 직사각형 영역들을 고려하여, 각 영역의 픽셀 세기를 합산하고 이들 합들간의 차이를 계산한다. 계산된 차이값은 이미지의 서브섹션을 유형화하는데, 즉 얼굴 영역과 비-얼굴 영역 간의 차이를 드러내는 데 사용된다.
또한, 얼굴 정렬은 검출된 얼굴 이미지의 특징점을 기반으로 2차원 변환 또는 3차원 변환 과정을 거쳐 정렬된 얼굴 이미지를 생성한다. 얼굴 정렬 과정은 얼굴 인식 성능을 높이는 중요한 과정이다. 얼굴 검출 및 정렬이 완료되면 딥러닝을 이용한 얼굴 인식이 수행된다(S323). 여기서, 얼굴 인식은 정렬된 얼굴을 입력으로 받아들여 1:N 얼굴 식별(identification) 결과를 출력함으로써 이루어진다. 본 발명에 따른 얼굴 인식은 딥러닝 기반의 알고리즘을 사용함으로써 얼굴 인식 성능을 향상시킬 수 있다.
딥러닝 기반의 알고리즘을 사용하기 위하여 다수의 학습 데이터가 필요한데, 검색 엔진의 이미지 검색 결과 또는 웹이미지를 크롤링하여 배우들의 얼굴 이미지를 확보할 수 있다. 이를 위해 본 발명에 따른 인물 인식 장치는 다양한 검색 엔진과 연동할 수 있으며, 네트워크 및 검색 엔진과 연동하기 위한 통신 모듈을 포함할 수 있다. 예를 들어, 학습하고자 하는 배우 이름을 라벨(label)로 사용하고, 수집한 이미지들을 학습 데이터로 알렉스넷(AlexNet), VGG, 인셉션(Inception) 등의 네트워크를 학습시킬 수 있다.
얼굴 인식 결과가 딥러닝의 마지막 단계(또는 레이어)인 소프트맥스(Softmax)를 통과하면 해당 얼굴에 대한 배우별 인식률에 대한 벡터가 구해진다. 소프트맥스는 입력받은 값을 0 ~ 1 사이의 출력 값으로 모두 정규화하며 출력 값들의 총합은 항상 1이 되는 특성을 가진 함수로, 아래 수학식 1과 같이 표현될 수 있다.
Figure pat00001
소프트맥스 함수를 이용하는 경우, 분류하고 싶은 클래스의 수만큼을 출력으로 구성할 수 있으며, 가장 큰 출력 값을 부여받은 클래스가 확률이 가장 높은 것으로 이용될 수 있다. 수학식 1에서 인식률 벡터 δ(z)는 K 차원의 벡터이고 각각의 값들은 0에서 1 사이이며 값들의 총합은 1이 된다. 본 발명의 일 실시예에 따르면, 인식률 값들 중 가장 큰 값과 두 번째 큰 값의 차이가 임계값보다 작으면 얼굴이 인식되지 않은 것으로 판단할 수 있다.
얼굴 인식이 완료되면, 동영상에서 얼굴 인식이 성공적으로 수행된 프레임을 시작으로 얼굴 트래킹을 수행한다(S324). 트래킹 과정에서는 이전 프레임의 얼굴과 현재 프레임의 얼굴 이미지의 유사도를 계산하고, 유사도가 일정 수치 아래로 떨어지면 트래킹이 종료된 것으로 한다. 인물(예를 들어, 캐릭터 또는 배우)이 출연한 동영상 구간은 얼굴 인식이 성공하여 트래킹을 시작한 시점이 인물 출연 시작 시간이고, 트래킹이 종료되는 시점이 인물 출연 종료 시간이다.
트래킹이 종료되면 동영상 내 얼굴 인식 구간에 대한 정보가 도출된다(S325).
도 6은 본 발명에 따른 인물 인식을 위한 오디오 프로세싱의 세부 동작 순서도이다.
도 6에서는 도 3의 실시예를 통해 설명된 오디오 프로세싱의 세부 동작 방법을 도시하며, 상기 동작 방법은 본 발명에 따른 인물 인식 장치 또는 오디오 프로세서에 의해 수행될 수 있다.
동영상 콘텐츠로부터 분리된 오디오 데이터가 수신되기 시작하면 오디오 프로세서는 독립성분분석(Independent Component Analysis: ICA) 기법을 이용하여 오디오 신호를 음성 부분과 음악 부분으로 분리한다(S331).
독립성분 분석은 블라인드 신호를 분리할 때 사용하는 방법으로 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하는 계산 방법이다. 영화나 드라마와 같은 콘텐츠는 주로 음성과 음악이 같이 나오는 장면이 많기 때문에 음악 성분을 제거하고 사람의 음성만 따로 분리함으로써 화자 인식 성능을 높일 수 있다. 또한, 영화와 드라마와 같은 콘텐츠는 일반적으로 스테레오로 이루어져 있기 때문에 독립성분 분석을 이용한 음원 분리가 가능하다.
오디오 프로세서는 오디오 신호로부터 음성 부분이 분리되면 음성 신호에 대해 묵음을 기준으로 세그먼테이션을 수행한다(S332). 오디오 프로세서는 세그멘테이션에 의해 분리된 단위 음성을 입력으로 하여 화자 인식을 수행한다(S333).
비디오 프로세싱과 마찬가지로 화자 인식의 결과가 딥러닝의 마지막 레이어인 소프트맥스를(Softmax)를 통과하면 해당 목소리에 대한 배우별 인식률에 대한 벡터가 얻어진다. 앞서 살펴본 수학식 1을 다시 참조하면 아래와 같다.
Figure pat00002
수학식 1에서 인식률 벡터 δ(z)는 K 차원의 벡터이고 각각의 값들은 0에서 1사이이며 총합은 1이다. 인식률값이 가장 큰 값과 두 번째 큰 값의 차이가 임의의 임계값보다 작으면 목소리가 인식되지 않은 것으로 한다.
딥러닝을 이용한 화자 인식이 완료되면 동영상 내 화자 인식 구간에 대한 정보가 도출된다(S334). 동영상 화자 인식 구간 정보는 얼굴 인식을 통해 생성한 동영상 얼굴 인식 구간 정보와 통합 분석되어 동영상 배우 인식 구간 정보를 생성하는 데 활용된다.
도 7은 본 발명의 다른 실시예에 따른 인물 인식 장치의 블록 구성도이다.
본 발명의 다른 실시예에 따른 인물 인식 장치는 프로세서(201), 메모리(202), 통신 모듈(203) 및 인물정보 데이터베이스(300)를 포함할 수 있다.
인물정보 데이터베이스(300)는 또한, 도 7에 도시된 바와 같이 인물 인식 장치(200)와 별도의 하드웨어로서 존재할 수도 있다. 인물정보 데이터베이스(300)는 적어도 하나의 인물에 대한 정보 및 상기 적어도 하나의 인물이 등장하는 동영상 내 구간에 대한 정보를 저장할 수 있다.
도 7을 참조하면 본 발명의 다른 실시예에 따른 인물 인식 장치는 프로세서 및 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함할 수 있다.
여기서, 적어도 하나의 명령은, 동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하도록 하는 명령; 비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하도록 하는 명령; 오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하도록 하는 명령; 및 상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하도록 하는 명령을 포함할 수 있다.
인물 인식 장치는 또한, 네트워크를 통해 적어도 하나의 검색 엔진과 연동하며, 적어도 하나의 동영상 콘텐츠 제공 장치로부터 동영상 콘텐츠를 수신하여 상기 프로세서로 전달하는 통신 모듈(203)을 포함할 수 있다.
상술한 바와 같은 본 발명의 실시예들에 따르면, 얼굴 인식이 잘 작동하지 않는 환경에서는 화자 인식을 사용하여 출연 배우를 인식할 수 있고 화자 인식이 잘 작동하지 않는 환경에서는 얼굴 인식을 수행하여 출연 배우를 인식할 수 있어, 동영상에서 출연 배우를 인식할 수 있는 구간을 확장할 수 있다. 이렇게 얼굴 인식과 화자 인식을 이용하여 생성한 동영상 배우 인식 구간 정보를 이용하면 동영상 장면 검색 서비스와 같은 응용 서비스가 가능하다.
추가적으로, 화자 인식 학습을 수행하는 데 다수의 학습 데이터가 필요한데, 얼굴 인식 기술을 이용해 수집된 얼굴인식 정보를 화자 인식을 위한 학습 데이터로 활용할 수 있다. 따라서, 본 발명은 영화/드라마와 같은 상업용 콘텐츠를 대상으로 화자 인식을 수행함에 있어 화자 인식 성능을 향상시킬 수 있다.
본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.
이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 동영상 콘텐츠 제공 장치 200: 인물 인식 장치
210: 콘텐츠 분리부 220: 오디오 프로세서
230: 비디오 프로세서 240: 인물인식 구간정보 제공부
201: 프로세서 202: 메모리
203: 통신 모듈 300: 인물정보 데이터베이스

Claims (20)

  1. 동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하는 콘텐츠 분리부;
    상기 콘텐츠 분리부로부터 수신한 비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하는 비디오 프로세서;
    상기 콘텐츠 분리부로부터 수신한 오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하는 오디오 프로세서; 및
    상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐트 내 인물이 등장하는 구간에 대한 정보를 제공하는, 인물인식 구간정보 제공부를 포함하는 인물 인식 장치.
  2. 청구항 1에 있어서,
    상기 인물인식 구간정보 제공부는,
    상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보를 비교하여 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간을 선별하고, 상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는지 중첩하지 않는지 판단하는, 인물 인식 장치.
  3. 청구항 2에 있어서,
    상기 인물인식 구간정보 제공부는,
    상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는 경우 상기 얼굴 인식 구간 및 화자 인식 구간의 합집합인 구간을 인물 인식 구간으로 결정하는, 인물 인식 장치.
  4. 청구항 2에 있어서,
    상기 인물인식 구간정보 제공부는,
    상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 임계치 이내의 간격을 두고 인접하는 경우 상기 얼굴 인식 구간, 상기 화자 인식 구간, 및 상기 간격을 더한 구간을 인물 인식 구간으로 결정하는, 인물 인식 장치.
  5. 청구항 1에 있어서,
    상기 비디오 프로세서는,
    상기 콘텐츠 분리부로부터 입력되는 비디오 콘텐트에 대해 주기적으로 프레임 이미지를 추출하고 추출된 프레임 단위로 얼굴 검출 및 얼굴 정렬을 수행하며, 정렬된 얼굴 이미지에 대한 얼굴 인식을 수행하고 얼굴 트래킹을 수행하는, 인물 인식 장치.
  6. 청구항 5에 있어서,
    상기 비디오 프로세서는 딥러닝 학습 모델 출력 과정에서 소프트맥스(Softmax) 함수를 이용해 얼굴 인식을 수행하는, 인물 인식 장치.
  7. 청구항 5에 있어서,
    상기 비디오 프로세서는 하르-유사 특징(Haar-like feature) 또는 딥러닝 기반의 객체 검출 기술을 이용해 얼굴 검출을 수행하는, 인물 인식 장치.
  8. 청구항 5에 있어서,
    상기 비디오 프로세서는,
    이전 프레임의 얼굴과 현재 프레임의 얼굴 이미지의 유사도를 계산하면서 얼굴 트래킹을 수행하되, 상기 이전 프레임의 얼굴 이미지 및 현재 프레임의 얼굴 이미지 간의 유사도가 임계치 이하이면 트래킹을 종료하는, 인물 인식 장치.
  9. 청구항 1에 있어서,
    상기 오디오 프로세서는,
    독립성분분석 기법을 이용해 오디오 콘텐츠로부터 음성 신호을 추출하고, 묵음을 기준으로 음성 신호를 세그멘테이션하여, 세그멘테이션된 단위 음성에 대해 화자 인식을 수행하는, 인물 인식 장치.
  10. 청구항 1에 있어서,
    상기 오디오 프로세서는,
    상기 비디오 프로세서로부터 도출된 얼굴 인식 데이터를 화자 인식을 위한 학습 데이터로 사용하는, 인물 인식 장치.
  11. 청구항 9에 있어서,
    상기 오디오 프로세서는 딥러닝 학습 모델 출력 과정에서 소프트맥스(Softmax) 함수를 이용해 얼굴 인식을 수행하는, 인물 인식 장치.
  12. 동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하는 단계;
    비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하는 비디오 프로세싱 단계;
    오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하는 오디오 프로세싱 단계; 및
    상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하는 단계를 포함하는 인물 인식 방법.
  13. 청구항 12에 있어서,
    상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하는 단계는,
    상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보를 비교하여 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간을 선별하는 단계;
    상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는지 중첩하지 않는지 판단하는 단계; 및
    상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 중첩하는 경우 상기 얼굴 인식 구간 및 화자 인식 구간의 합집합인 구간을 인물 인식 구간으로 결정하는 단계를 포함하는, 인물 인식 방법.
  14. 청구항 13에 있어서,
    상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하는 단계는,
    상기 동일 인물에 대한 얼굴 인식 구간 및 화자 인식 구간이 임계치 이내의 간격을 두고 인접하는 경우 상기 얼굴 인식 구간, 상기 화자 인식 구간, 및 상기 간격을 더한 구간을 인물 인식 구간으로 결정하는 단계를 더 포함하는, 인물 인식 방법.
  15. 청구항 12에 있어서,
    상기 비디오 프로세싱 단계는,
    상기 콘텐츠 분리부로부터 입력되는 비디오 콘텐츠에 대해 주기적으로 프레임 이미지를 추출하는 단계;
    추출된 프레임 단위로 얼굴 검출 및 얼굴 정렬을 수행하는 단계;
    정렬된 얼굴 이미지에 대한 얼굴 인식을 수행하는 단계; 및
    인식된 얼굴에 대한 트래킹을 수행하여 얼굴 인식 구간을 생성하는 단계를 포함하는, 인물 인식 방법.
  16. 청구항 15에 있어서,
    추출된 프레임 단위로 얼굴 검출 및 얼굴 정렬을 수행하는 단계는,
    하르-유사 특징(Haar-like feature) 또는 딥러닝 기반의 객체 검출 기술을 이용해 얼굴 검출을 수행하는 단계; 및
    검출된 얼굴 이미지의 특징점을 기반으로 얼굴을 정렬하는 단계를 포함하는, 인물 인식 방법.
  17. 청구항 15에 있어서,
    상기 인식된 얼굴에 대한 트래킹을 수행하여 얼굴 인식 구간을 생성하는 단계는,
    이전 프레임의 얼굴과 현재 프레임의 얼굴 이미지의 유사도를 계산하면서 얼굴 트래킹을 수행하되, 상기 이전 프레임의 얼굴 이미지 및 현재 프레임의 얼굴 이미지 간의 유사도가 임계치 이하이면 트래킹을 종료하는 단계를 포함하는, 인물 인식 방법.
  18. 프로세서; 및
    상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고,
    상기 적어도 하나의 명령은,
    동영상 콘텐츠를 수신하여 비디오 콘텐츠 및 오디오 콘텐츠로 분리하도록 하는 명령;
    비디오 콘텐츠를 분석하여 콘텐츠 내 이미지로부터 얼굴을 인식하고 얼굴 인식 구간에 대한 정보를 도출하도록 하는 명령;
    오디오 콘텐츠를 분석하여 콘텐츠 내 음성 데이터로부터 화자를 인식하고 화자 인식 구간에 대한 정보를 도출하도록 하는 명령; 및
    상기 얼굴 인식 구간에 대한 정보 및 상기 화자 인식 구간에 대한 정보로부터 상기 동영상 콘텐츠 내 인물이 등장하는 구간에 대한 정보를 제공하도록 하는 명령을 포함하는, 인물 인식 장치.
  19. 청구항 18에 있어서,
    네트워크를 통해 적어도 하나의 검색 엔진과 연동하며, 적어도 하나의 동영상 콘텐츠 제공 장치로부터 동영상 콘텐츠를 수신하여 상기 프로세서로 전달하는 통신 모듈을 더 포함하는, 인물 인식 장치.
  20. 청구항 18에 있어서,
    적어도 하나의 인물에 대한 정보 및 상기 적어도 하나의 인물이 등장하는 동영상 내 구간에 대한 정보를 저장하는 인물정보 데이터베이스를 더 포함하는, 인물 인식 장치.
KR1020170170282A 2017-12-12 2017-12-12 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법 KR102433393B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170170282A KR102433393B1 (ko) 2017-12-12 2017-12-12 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
US15/880,763 US10915574B2 (en) 2017-12-12 2018-01-26 Apparatus and method for recognizing person

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170170282A KR102433393B1 (ko) 2017-12-12 2017-12-12 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190069920A true KR20190069920A (ko) 2019-06-20
KR102433393B1 KR102433393B1 (ko) 2022-08-17

Family

ID=66696946

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170170282A KR102433393B1 (ko) 2017-12-12 2017-12-12 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법

Country Status (2)

Country Link
US (1) US10915574B2 (ko)
KR (1) KR102433393B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210064597A (ko) * 2019-11-26 2021-06-03 서울대학교산학협력단 동영상 분석 장치 및 방법
KR20220001657A (ko) * 2020-06-30 2022-01-06 주식회사 미디어클 영상 편집 장치
KR20220144209A (ko) 2021-04-19 2022-10-26 주식회사 카라멜라 크롤링 및 딥러닝 기반의 얼굴인식장치 및 방법
KR20230073551A (ko) 2021-11-19 2023-05-26 주식회사 스파크엑스 (SPARKX Co.,Ltd.) 인물 예측 방법을 이용한 영상속에서 인물 배경 분리방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6850291B2 (ja) 2015-10-21 2021-03-31 15 セカンズ オブ フェイム,インコーポレイテッド 顔認識アプリケーションにおけるフォールスポジティブの最小化のための方法および装置
US20190294886A1 (en) * 2018-03-23 2019-09-26 Hcl Technologies Limited System and method for segregating multimedia frames associated with a character
US10936856B2 (en) 2018-08-31 2021-03-02 15 Seconds of Fame, Inc. Methods and apparatus for reducing false positives in facial recognition
US11010596B2 (en) 2019-03-07 2021-05-18 15 Seconds of Fame, Inc. Apparatus and methods for facial recognition systems to identify proximity-based connections
US11341351B2 (en) 2020-01-03 2022-05-24 15 Seconds of Fame, Inc. Methods and apparatus for facial recognition on a user device
CN111612875A (zh) * 2020-04-23 2020-09-01 北京达佳互联信息技术有限公司 一种动态图像生成方法、装置、电子设备及存储介质
CN111768760B (zh) * 2020-05-26 2023-04-18 云知声智能科技股份有限公司 一种多模态语音端点检测方法及装置
CN113593608B (zh) * 2021-06-29 2022-06-24 北京荣耀终端有限公司 基于对象识别的美音方法、电子设备及存储介质
CN114819110B (zh) * 2022-06-23 2022-10-21 之江实验室 一种实时识别视频中说话人的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792016B1 (ko) * 2006-07-25 2008-01-04 한국항공대학교산학협력단 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR20170082024A (ko) * 2016-01-05 2017-07-13 한국전자통신연구원 얼굴 인식 장치 및 방법
KR20170109728A (ko) * 2016-03-21 2017-10-10 주식회사 셀바스에이아이 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3529049B2 (ja) * 2002-03-06 2004-05-24 ソニー株式会社 学習装置及び学習方法並びにロボット装置
KR100865973B1 (ko) 2007-02-08 2008-10-30 (주)올라웍스 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
JP4577410B2 (ja) * 2008-06-18 2010-11-10 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
KR101760345B1 (ko) * 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
KR20130085315A (ko) 2012-01-19 2013-07-29 한국전자통신연구원 사람 식별을 기반으로 한 위험 인지 방법
TWI456515B (zh) 2012-07-13 2014-10-11 Univ Nat Chiao Tung 融合人臉辨識及語音辨識之身份辨識系統、其方法及其服務型機器人
CN103679125B (zh) * 2012-09-24 2016-12-21 致伸科技股份有限公司 人脸追踪的方法
US8983836B2 (en) * 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
KR102161783B1 (ko) 2014-01-16 2020-10-05 한국전자통신연구원 초고해상도 얼굴 동영상 데이터베이스를 이용한 서비스 로봇 얼굴인식 성능 평가 시스템 및 방법
EP3101838A1 (en) * 2015-06-03 2016-12-07 Thomson Licensing Method and apparatus for isolating an active participant in a group of participants
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
JP6850291B2 (ja) * 2015-10-21 2021-03-31 15 セカンズ オブ フェイム,インコーポレイテッド 顔認識アプリケーションにおけるフォールスポジティブの最小化のための方法および装置
US9892344B1 (en) * 2015-11-30 2018-02-13 A9.Com, Inc. Activation layers for deep learning networks
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
KR101720514B1 (ko) 2016-02-26 2017-04-11 서강대학교산학협력단 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
KR102616403B1 (ko) * 2016-12-27 2023-12-21 삼성전자주식회사 전자 장치 및 그의 메시지 전달 방법
US10540488B2 (en) * 2017-02-10 2020-01-21 Microsoft Technology Licensing, Llc Dynamic face and voice signature authentication for enhanced security
US20190147228A1 (en) * 2017-11-13 2019-05-16 Aloke Chaudhuri System and method for human emotion and identity detection
KR102506866B1 (ko) * 2017-12-13 2023-03-08 현대자동차주식회사 차량 환경에서 선발화 안내 장치, 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792016B1 (ko) * 2006-07-25 2008-01-04 한국항공대학교산학협력단 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR20170082024A (ko) * 2016-01-05 2017-07-13 한국전자통신연구원 얼굴 인식 장치 및 방법
KR20170109728A (ko) * 2016-03-21 2017-10-10 주식회사 셀바스에이아이 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210064597A (ko) * 2019-11-26 2021-06-03 서울대학교산학협력단 동영상 분석 장치 및 방법
KR20220001657A (ko) * 2020-06-30 2022-01-06 주식회사 미디어클 영상 편집 장치
KR20220144209A (ko) 2021-04-19 2022-10-26 주식회사 카라멜라 크롤링 및 딥러닝 기반의 얼굴인식장치 및 방법
KR20230073551A (ko) 2021-11-19 2023-05-26 주식회사 스파크엑스 (SPARKX Co.,Ltd.) 인물 예측 방법을 이용한 영상속에서 인물 배경 분리방법

Also Published As

Publication number Publication date
US10915574B2 (en) 2021-02-09
KR102433393B1 (ko) 2022-08-17
US20190179960A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
KR102433393B1 (ko) 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
US10108709B1 (en) Systems and methods for queryable graph representations of videos
US9176987B1 (en) Automatic face annotation method and system
JP4697106B2 (ja) 画像処理装置および方法、並びにプログラム
US10565435B2 (en) Apparatus and method for determining video-related emotion and method of generating data for learning video-related emotion
CN110119711A (zh) 一种获取视频数据人物片段的方法、装置及电子设备
EP2641401B1 (en) Method and system for video summarization
CN112668559B (zh) 一种多模态信息融合的短视频情感判定装置及方法
KR20070118635A (ko) 오디오 및/또는 비주얼 데이터의 서머라이제이션
US11527000B2 (en) System and method for re-identifying target object based on location information of CCTV and movement information of object
JP2011123529A (ja) 情報処理装置、情報処理方法、およびプログラム
KR101617649B1 (ko) 영상의 관심 구간 추천 시스템 및 방법
US9549162B2 (en) Image processing apparatus, image processing method, and program
KR20170082025A (ko) 기계 학습 기반 얼굴 인식을 이용한 저작권을 가진 동영상 식별 장치 및 방법
CN113891177B (zh) 一种音视频数据的摘要生成方法、装置、设备和存储介质
KR20180082950A (ko) 디스플레이 장치 및 그의 서비스 제공 방법
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
US7734096B2 (en) Method and device for discriminating obscene video using time-based feature value
Miniakhmetova et al. An approach to personalized video summarization based on user preferences analysis
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
Acar et al. Fusion of learned multi-modal representations and dense trajectories for emotional analysis in videos
Yang et al. Semi-automatic image and video annotation system for generating ground truth information
CN114064968A (zh) 一种新闻字幕摘要生成方法和系统
CN114501164A (zh) 音视频数据的标注方法、装置及电子设备
Chaloupka A prototype of audio-visual broadcast transcription system

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant