KR101072347B1 - Method and device of annotating scene context information of a moving picture - Google Patents

Method and device of annotating scene context information of a moving picture Download PDF

Info

Publication number
KR101072347B1
KR101072347B1 KR1020090042284A KR20090042284A KR101072347B1 KR 101072347 B1 KR101072347 B1 KR 101072347B1 KR 1020090042284 A KR1020090042284 A KR 1020090042284A KR 20090042284 A KR20090042284 A KR 20090042284A KR 101072347 B1 KR101072347 B1 KR 101072347B1
Authority
KR
South Korea
Prior art keywords
speaker
text
scene
information
video
Prior art date
Application number
KR1020090042284A
Other languages
Korean (ko)
Other versions
KR20100123204A (en
Inventor
박승보
김유원
차상진
조근식
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020090042284A priority Critical patent/KR101072347B1/en
Publication of KR20100123204A publication Critical patent/KR20100123204A/en
Application granted granted Critical
Publication of KR101072347B1 publication Critical patent/KR101072347B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits

Abstract

동영상 상황정보를 어노테이션하기 위하여, 경과시간 및 텍스트를 포함하는 타임드 텍스트에서 제공하는 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하고, 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식한 후, 인식된 화자와 비화자 및 타임드 텍스트의 텍스트에 관한 정보로부터 동영상의 소정 장면 내의 동작 형태를 파악하고, 동작 형태를 이용하여 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성한다. 이에 따라, 소정 장면에 대한 상황을 어노테이션할 수 있고, 이를 이용하여 동영상 내에서 원하는 위치를 용이하게 검색하고 동영상의 내용을 효과적으로 축약할 수 있다.In order to annotate the video status information, a predetermined scene in the video corresponding to the specific elapsed time is extracted by using time information about the elapsed time provided by the timed text including the elapsed time and the text, and at least appearing in the predetermined scene. After recognizing the speaker and the non-talker from the face of one character, the action type in the predetermined scene of the video is identified from the information on the recognized speaker, non-speaker, and text of the timed text, and the action type is used to determine the motion picture. Create scene context information about the scene situation. Accordingly, it is possible to annotate a situation for a predetermined scene, and use this to easily search for a desired position in the video and to effectively reduce the content of the video.

어노테이션, 얼굴인식, 비디오, 상황정보, 화자인식 Annotation, Face Recognition, Video, Situation Information, Speaker Recognition

Description

동영상 상황정보 어노테이션 방법 및 장치{METHOD AND DEVICE OF ANNOTATING SCENE CONTEXT INFORMATION OF A MOVING PICTURE}METHOOD AND DEVICE OF ANNOTATING SCENE CONTEXT INFORMATION OF A MOVING PICTURE}

본 발명은 동영상 상황정보 어노테이션 방법 및 장치에 관한 것으로, 더욱 상세하게는 얼굴 인식을 이용한 동영상 상황정보 어노테이션 방법 및 장치에 관한 것이다.The present invention relates to a video situation information annotation method and apparatus, and more particularly, to a video situation information annotation method and apparatus using face recognition.

최근, 인터넷과 디지털 멀티미디어의 발달로 인터넷 등의 다양한 수단을 통하여 각종 서비스업자가 제작한 동영상 및 개인이 만든 UCC 동영상 등 다양한 매체로부터 생성된 동영상이 기하급수적으로 증가되어 왔다.Recently, due to the development of the Internet and digital multimedia, video generated from various media such as video produced by various service providers and personally made UCC video has been increased exponentially through various means such as the Internet.

이에 따라, 상기와 같은 수많은 동영상 속에서 원하는 동영상을 찾으려는 필요성과 동영상의 축약에 대한 필요성이 지속적으로 증대되어 왔다. 이러한 동영상의 검색과 축약을 위하여, 동영상 정보에서 의미를 추출하여 영상 정보를 어노테이션(annotation)해 두는 작업이 절실히 요청된다. Accordingly, the necessity for finding a desired video from the numerous videos as described above and the need for shortening of the video have been continuously increased. In order to search and shorten such a video, there is an urgent need to annotate the video information by extracting meaning from the video information.

일반적으로, 상기 동영상의 어노테이션 방식은 텍스트 기반의 방식과 시각정보 방식으로 분류된다. 상기 텍스트 기반의 방식은 이미지의 주변의 텍스트 정보로부터 이미지의 내용을 추출하는 방식이고, 상기 시각정보 방식은 이미지 자체에 서 시각정보를 추출하여 어노테이션하는 방식이다. In general, the annotation method of the video is classified into a text-based method and a visual information method. remind The text-based method extracts the contents of an image from text information around the image, and the visual information method extracts and annotates visual information from the image itself .

상기 텍스트 기반의 방식은, 동영상 주변에서 동영상에 대하여 설명한 정보나 동영상과 관련된 정보가 존재하지 않는 경우도 있어 일정한 한계점을 가진다. 또한, 종래의 시각정보 방식은 이미지 자체에서 시각정보를 추출하여 어노테이션하므로 주변에 관련 정보가 없더라도 동영상 자체에서 직접 정보를 추출하는 점에서 장점이 있으나, 아직 정보 추출 방식에 대한 연구가 미진한 상태이다.The text-based method has a certain limitation because there is a case where there is no information related to the video or information related to the video around the video. In addition, since the conventional visual information method extracts and annotates visual information from the image itself, there is an advantage in extracting the information directly from the video itself even if there is no related information in the surroundings, but studies on the information extraction method are still insufficient.

따라서, 본 발명이 해결하고자 하는 과제는 동영상 자체 내에서 의미를 추출할 수 있는 동영상 상황정보 어노테이션 방법을 제공하는 것이다.Accordingly, an object of the present invention is to provide a video situation information annotation method capable of extracting meaning within a video itself.

본 발명이 해결하고자 하는 다른 과제는 동영상 자체 내에서 의미를 추출할 수 있는 동영상 상황정보 어노테이션 장치를 제공하는 것이다.Another object of the present invention is to provide a video contextual information annotation apparatus that can extract meaning within a video itself.

본 발명의 예시적인 일 실시예에 따른 동영상 상황정보 어노테이션(annotation) 방법은, 경과시간 및 텍스트를 포함하는 타임드 텍스트(timed text)에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계, 상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계, 상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계 및 상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함한다.In accordance with an exemplary embodiment of the present invention, a video status information annotation method includes an elapsed time and a specific elapsed time using time information about the elapsed time provided by a timed text including text. Extracting a predetermined scene in a video corresponding to the method, recognizing a speaker and a non-speaker from a face of at least one character appearing in the predetermined scene, and recognizing a text of the recognized speaker and non-speaker and the timed text. Identifying an operation form in a predetermined scene of the video from the information and generating scene situation information regarding a situation of the predetermined scene of the video using the operation form.

일 실시예로, 상기 화자와 비화자를 인식하는 단계는, 상기 등장인물의 얼굴로부터 좌안 및 우안의 위치를 검출하고, 상기 좌안 및 상기 우안 사이의 제1 거리를 산출하는 단계, 상기 좌안의 위치로부터 아래로 상기 제1 거리만큼 이격된 위치를 상기 등장인물의 입을 나타내는 박스의 좌상단 위치로 설정하고, 상기 우안의 위치로부터 아래로 상기 제1 거리에 소정 상수값인 제2 거리를 더한 거리만큼 이격 된 위치를 상기 등장인물의 입을 나타낸는 박스의 우하단 위치로 설정하는 단계 및 상기 좌상단 위치 및 상기 우하단 위치가 정의하는 상기 박스의 내부 이미지의 히스토그램 변화를 이용하여 상기 변화가 존재하는 얼굴을 상기 화자로 결정하고 상기 변화가 존재하지 않는 얼굴을 상기 비화자로 결정하는 단계를 포함할 수 있다.In one embodiment, the step of recognizing the speaker and the non-speaker, detecting the position of the left and right eyes from the face of the character, calculating a first distance between the left and right eyes, from the position of the left eye A position spaced apart by the first distance below is set to the upper left position of the box representing the mouth of the character, and spaced apart from the position of the right eye by the distance of the first distance plus a second distance which is a predetermined constant value. Setting the position to the lower right position of the box representing the mouth of the character and using the histogram change of the inner image of the box defined by the upper left position and the lower right position to present the face with the change as the speaker. And determining that the face does not have a change as the non-talker.

상기 동영상의 소정 장면 내의 상기 동작 형태는, 상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 기 설정된 규칙을 기초로 파악될 수 있다.The operation type in the predetermined scene of the video may be grasped based on a predetermined rule by using the number of speakers, the number of non-talkers, and the presence or absence of the text.

상기 장면 상황정보는, 상기 경과시간, 상기 화자의 이름, 상기 비화자의 이름, 상기 동작 형태 및 상기 텍스트의 내용 중 적어도 하나를 포함하는 XML 파일로 생성될 수 있다.The scene situation information may be generated as an XML file including at least one of the elapsed time, the name of the speaker, the name of the non-speaker, the operation form, and the content of the text.

본 발명의 예시적인 일 실시예에 따른 동영상 상황정보 어노테이션 장치는 영상 처리부, 텍스트 처리부 및 장면상황 생성부를 포함한다. 상기 영상 처리부는 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공한다. 상기 텍스트 처리부는 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공한다. 상기 장면상황 생성부는 상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성한다.The video situation information annotation apparatus according to an exemplary embodiment of the present invention includes an image processor, a text processor, and a scene situation generator. The image processor recognizes the speaker and the talker from the face of at least one character appearing in a predetermined scene in the video, and provides the first context information about the recognized speaker and the talker. The text processing unit provides second context information regarding timed text including elapsed time and text. The scene situation generation unit generates scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit and the second situation information provided from the text processing unit.

일 실시예로, 상기 영상 처리부는 얼굴 인식부 및 화자 결정부를 포함할 수 있다. 상기 얼굴 인식부는 상기 동영상 내의 소정 장면으로부터 상기 등장인물의 얼굴을 추출하고, 추출된 상기 얼굴이 누구인지 인식한다. 상기 화자 결정부는 상기 얼굴 인식부에서 인식된 얼굴 중에서 상기 화자와 비화자가 누구인지를 결정한다.In one embodiment, the image processor may include a face recognition unit and a speaker determiner. The face recognition unit extracts a face of the character from a predetermined scene in the video and recognizes who the extracted face is. The speaker determiner determines who is the speaker and the non-talker among the faces recognized by the face recognizer.

상기 동영상 상황정보 어노테이션 장치는 얼굴 데이터베이스를 더 포함할 수 있다. 상기 얼굴 데이터베이스는 상기 동영상 내에 등장하는 등장인물의 얼굴을 저장한다. 이 경우, 상기 얼굴 인식부는 상기 얼굴 데이터베이스를 이용하여 추출된 상기 얼굴이 누구인지를 인식할 수 있다.The video situation information annotation device may further include a face database. The face database stores faces of characters appearing in the video. In this case, the face recognition unit may recognize who the extracted face is using the face database.

일 실시예로, 상기 텍스트 처리부는 시간 정보부 및 텍스트 정보부를 포함할 수 있다. 상기 시간 정보부는 상기 동영상의 소정 장면에 대하여 상기 경과시간에 관한 시간정보를 포함한다. 상기 텍스트 정보부는 상기 동영상의 상기 경과시간에 해당하는 텍스트의 내용에 관한 텍스트정보를 포함한다. 상기 시간 정보부는 상기 시간정보를 상기 영상 처리부에 전달하고, 상기 영상 처리부는 상기 시간 정보부로부터 전달된 시간정보를 이용하여 상기 소정 장면을 정할 수 있다.In one embodiment, the text processing unit may include a time information unit and a text information unit. The time information unit includes time information about the elapsed time with respect to a predetermined scene of the video. The text information unit includes text information regarding the content of text corresponding to the elapsed time of the video. The time information unit may transmit the time information to the image processor, and the image processor may determine the predetermined scene by using the time information transmitted from the time information unit.

일 실시예로, 상기 장면상황 생성부는 상황정보 추출부 및 XML 생성부를 포함할 수 있다. 상기 상황정보 추출부는 상기 영상 처리부 및 상기 텍스트 처리부로부터 각각 제공된 상기 제1 상황정보 및 상기 제2 상황정보를 이용하여 상기 장면 상황정보를 추출한다. 상기 XML 생성부는 추출된 상기 장면 상황정보를 XML 파일로 변환하여 저장한다.In one embodiment, the scene situation generator may include a context information extractor and an XML generator. The contextual information extractor extracts the scene contextual information by using the first contextual information and the second contextual information respectively provided from the image processor and the text processor. The XML generator converts the extracted scene situation information into an XML file and stores the XML file.

상기 동영상 상황정보 어노테이션 장치는 상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 동작 형태를 설정한 규칙들을 저장한 규칙 데이터베이스를 더 포함할 수 있으며, 상기 장면 상황정보는 상기 규칙 데이터베이스에 저장된 규칙들을 이용하여 설정된 동작 형태를 포함할 수 있다.The video situation information annotation apparatus may further include a rule database storing rules for setting an operation type by using the number of speakers, the number of non-talkers, and the presence or absence of the text. The scene situation information may include the rules. It may include an operation type set using rules stored in a database.

상기 XML 파일은, 예를 들면, 상기 경과시간, 상기 화자의 이름, 상기 비화자의 이름, 상기 동작 형태 및 상기 텍스트의 내용 중 적어도 하나를 포함할 수 있다.The XML file may include, for example, at least one of the elapsed time, the name of the speaker, the name of the non-speaker, the operation form, and the content of the text.

본 발명에 따르면, 동영상의 특정 장면에서 등장인물의 얼굴을 인식한 후 화자와 비화자를 결정하고, 이와 함께 텍스트 정보를 이용하여 소정 장면의 상황에 관한 장면 상황정보를 생성함으로써, 상기 소정 장면에 대한 상황을 이미지 자체로부터 추출하여 어노테이션할 수 있고, 이를 이용하여 동영상 내에서 원하는 위치를 용이하게 검색하고 동영상의 내용을 효과적으로 축약할 수 있다. According to the present invention, after recognizing a face of a character in a specific scene of a moving picture, a speaker and a non-talker are determined, and together with the text information, scene situation information regarding a situation of a predetermined scene is generated. The situation can be extracted from the image itself and annotated, and this can be used to easily search for a desired position within the video and to effectively reduce the content of the video.

따라서, 동영상 검색 서비스용으로 활용될 수 있고, 영화나 UCC 동영상 서비스 제공 사이트 등에서 효과적으로 응용 서비스가 가능하며, 청각 장애우 및 외국어 교육용 소프트웨어 등으로 널리 활용 가능하다.Therefore, it can be used for a video search service, an effective application service is possible in a movie or UCC video service providing site, and the like, and can be widely used for hearing impaired people and foreign language education software.

또한, XML 파일 형식으로 장면 상황정보를 생성하는 경우 이식성이 뛰어나므로, 다양한 시스템에서 보다 용이하고 편리하게 이용될 수 있다.In addition, when the scene situation information is generated in the XML file format, the portability is excellent, and thus it may be used more easily and conveniently in various systems.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.As the inventive concept allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the text. However, this is not intended to limit the present invention to the specific disclosed form, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다. Terms such as first and second may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.

본 출원에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "having" are intended to indicate that there is a feature, number, step, action, component, part, or combination thereof described in the specification, and that one or more other features It should be understood that it does not exclude in advance the possibility of the presence or addition of numbers, steps, actions, components, parts or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않 는다.Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and shall not be construed in ideal or excessively formal meanings unless expressly defined in this application. I do not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to the preferred embodiments of the present invention, examples of which are illustrated in the accompanying drawings.

도 1은 본 발명의 일 실시예에 의한 동영상 상황정보 어노테이션 방법을 나타낸 흐름도이다.1 is a flowchart illustrating a video situation information annotation method according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따라 동영상 상황정보를 어노테이션(annotation)을 하기 위하여, 먼저 타임드 텍스트(timed text)에서 제공하는 경과시간에 관한 정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출한다(S110).Referring to FIG. 1, in order to annotate video status information according to an embodiment of the present invention, a corresponding elapsed time is first used by using information about an elapsed time provided by a timed text. The predetermined scene in the video is extracted (S110).

타임드 텍스트란 오디오, 비디오와 같은 매체와 동기화된 텍스트를 의미하는 것으로, 상기 타임드 텍스트는 영상 처음을 기준으로 경과된 시간에 해당하는 경과시간 및 상기 경과시간에 동기화된 텍스트를 포함한다. 상기 경과시간은 실제 경과된 시간일 수도 있고, 경과된 프레임 수일 수도 있다. 예를 들면, 상기 경과시간은 밀리세컨드(millisecond)단위로 표시될 수 있다. The timed text refers to text synchronized with a medium such as audio and video. The timed text includes an elapsed time corresponding to an elapsed time based on the beginning of an image and a text synchronized with the elapsed time. The elapsed time may be the actual elapsed time or the number of elapsed frames. For example, the elapsed time may be expressed in milliseconds.

일 실시예로, 상기 타임드 텍스트는 동영상과 함께 저장된 자막 정보로 DVD의 자막 정보, 컴퓨터의 동영상 재생기의 SMI 형식(예를 들면, Windows Media Player)이나 RealText(예를 들면, RealPlayer), W3C에서 제안하고 있는 DFXP 등을 포함할 수 있다.In one embodiment, the timed text is subtitle information stored with the video, DVD subtitle information, SMI format (for example, Windows Media Player), RealText (for example, RealPlayer), W3C of the video player of the computer It may include the proposed DFXP.

이어서, 상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부 터 화자와 화자가 아닌 자(이하, "비화자"라 함)를 인식한다(S120). Subsequently, a person who is not a speaker and a speaker (hereinafter referred to as “non-speaker”) is recognized from the face of at least one character appearing in the predetermined scene (S120).

상기 화자와 비화자는 등장인물의 얼굴의 변화를 통하여 인식될 수 있다. 일 실시예로, 상기 화자와 비화자는 입의 움직임을 이용하여 판단할 수 있다. 비화자는 입과 입 주변의 움직임이 거의 없어 시간에 따른 프레임에 대하여 변화가 거의 없다. 반면, 화자는 입과 입 주변이 움직임이므로 시간에 따른 프레임에 대하여 변화가 비교적 크다. 따라서, 이러한 입과 입 주변의 움직임을, 예를 들어 각 프레임별 히스트로그램 그래프를 이용하여 판단할 수 있다. The speaker and the non-talker can be recognized through the change of the face of the character. In one embodiment, the speaker and the non-talker can be determined using the movement of the mouth. The non-talker has little change in the frame over time because there is little movement around the mouth. On the other hand, since the speaker moves around the mouth and the mouth, the change is relatively large with respect to the frame over time. Therefore, the mouth and the movement around the mouth may be determined using, for example, a histogram graph for each frame.

도 2는 도 1의 화자와 비화자를 인식하는 단계의 구체적인 예를 나타낸 흐름도이고, 도 3은 도 2에 나타난 화자와 비화자를 인식하는 단계를 설명하기 위한 개념도이다. FIG. 2 is a flowchart illustrating a specific example of recognizing a speaker and a talker of FIG. 1, and FIG. 3 is a conceptual diagram illustrating a step of recognizing the speaker and the talker of FIG. 2.

도 2 및 도 3을 참조하면, 상기 화자와 비화자를 인식하기 위하여, 먼저 동영상의 장면(100) 내에 등장하는 등장인물(110)의 얼굴로부터 좌안의 위치((x1,y1)) 및 우안의 위치((x2,y2))를 검출하고, 상기 좌안 및 상기 우안 사이의 제1 거리(d1)를 산출한다(S122). 사람의 눈동자는 색의 특징으로 인하여 입보다 검출이 훨씬 용이하므로, 좌안과 우안의 위치를 먼저 검출한 후, 이로부터 상대적인 입의 위치를 검출할 수 있다. 일반적인 사람의 경우, 상기 제1 거리(d1)를 기준으로 입의 위치를 파악할 수 있다.2 and 3, in order to recognize the speaker and the non-talker, the position of the left eye ((x1, y1)) and the position of the right eye from the face of the character 110 appearing in the scene 100 of the video first. ((x2, y2)) is detected, and a first distance d1 between the left eye and the right eye is calculated (S122). Since human eyes are much easier to detect than the mouth due to the color characteristics, the position of the left and right eyes can be detected first, and then the relative position of the mouth can be detected therefrom. In a general person, the position of the mouth may be determined based on the first distance d1.

이어서, 상기 좌안의 위치로부터 아래로 상기 제1 거리(d1)만큼 이격된 위치를 상기 등장인물의 입을 나타내는 박스의 좌상단 위치((x1,y1+d1))로 설정하고(S124), 상기 우안의 위치로부터 아래로 상기 제1 거리에 소정의 제2 거리(d2)를 더한 거리만큼 이격된 위치를 상기 등장인물의 입을 나타낸는 박스의 우하단 위치((x2,y2+d1+d2))로 설정한다(S126). 상기 제2 거리(d2)는 상기 제1 거리(d1)보다 작은 값 중에서 선정하여 사용될 수 있으며, 일 예로 제1 거리의 1/3 내지 2/3의 범위에서 설정될 수 있다. 이로써, 등장인물의 입을 포함하는 박스를 설정할 수 있다. Subsequently, the position spaced apart from the position of the left eye by the first distance d1 is set to the upper left position ((x1, y1 + d1)) of the box representing the mouth of the character (S124). The position spaced apart from the position by the distance plus the predetermined second distance d2 is set to the lower right position ((x2, y2 + d1 + d2)) of the box representing the mouth of the character. (S126). The second distance d2 may be selected and used from a value smaller than the first distance d1. For example, the second distance d2 may be set in a range of 1/3 to 2/3 of the first distance. Thereby, the box containing the mouth of a character can be set.

이어서, 상기 좌상단 위치 및 상기 우하단 위치가 정의하는 상기 박스의 내부 이미지의 히스토그램 변화를 이용하여 상기 변화가 존재하는 얼굴을 상기 화자로 결정하고 상기 변화가 존재하지 않는 얼굴을 상기 비화자로 결정한다(S128). 즉, 상기 박스 내부 이미지의 히스토그램 변화가 있는 경우 입이 움직이고 있는 것으로 판단할 수 있으며, 이러한 경우를 화자의 입으로 판단할 수 있다.Then, using the histogram change of the inner image of the box defined by the upper left position and the lower right position, the face with the change is determined as the speaker and the face without the change is determined as the non-talker ( S128). That is, when there is a change in the histogram of the inner box image, it may be determined that the mouth is moving, and such a case may be determined as the speaker's mouth.

상기와 같은 화자와 비화자를 인식하는 방법은 등장인물의 옆 모습이 나타난 경우에는 적절히 변형되어 활용될 수 있다. 즉, 좌안과 우안 사이의 거리를 이용하는 대신, 하나의 눈의 크기를 검출하고 이를 이용하여 입의 위치를 파악하여 입의 움직임을 관찰할 수 있다.The method of recognizing the speaker and non-speaker as described above may be appropriately modified and used when the side of the character appears. That is, instead of using the distance between the left eye and the right eye, the size of one eye can be detected and the position of the mouth can be used to observe the movement of the mouth.

한편, 상기와 같은 화자와 비화자를 인식하는 과정 중, 혹은 인식하는 과정 이전에 상기 특정 장면에 나타나는 인물들에 대하여 등장인물 중 누구인지 소정의 등장인물의 얼굴 데이터베이스를 통하여 비교함으로써 얼굴 인식을 선행할 수 있다.Meanwhile, face recognition may be preceded by comparing a person who appears in the specific scene with the face database of a predetermined character during or before recognizing the speaker and the non-speaker. Can be.

다시 도 1을 참조하면, 다음으로, 상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악한다(S130). Referring back to FIG. 1, next, the operation type in a predetermined scene of the video is determined from information about the recognized speaker, non-speaker, and text of the timed text (S130).

상기 동작 형태는, 예를 들면, 상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 기 설정된 규칙을 기초로 파악될 수 있다. 구체적인 일 예로 다음과 같은 규칙을 기초로 상기 동작 형태를 파악할 수 있다. 표 1은 등장인물 간의 동작 형태 판단 규칙의 일 예를 나타낸다.The operation mode may be grasped based on a predetermined rule using, for example, the number of speakers, the number of non-talkers, and the presence or absence of the text. As a specific example, the operation type may be grasped based on the following rule. Table 1 shows an example of a rule for determining the action type between characters.

번호number 등장인물수Characters 화자수Number of speakers 비화자수Non-talkers 텍스트유무Text 동작 형태Operation mode 1One 22 1One 1One 있음has exist (화자) say to (청자)(Speaker) say to 22 1One 00 1One 있음has exist (청자) listen(Listener) listen 33 1One 1One 00 있음has exist (화자) speak alone(Speaker) speak alone 44 3이상3 or more 1One 2이상2 or more 있음has exist (화자) talk with (청자들)(Narrator) talk with (listeners) 55 2이상2 or more 00 2이상2 or more 있음has exist (청자들) listen(Listeners) listen 66 00 00 00 있음has exist nothing(or open caption)nothing (or open caption) 77 -- -- -- 없음none nothingnothing

표 1을 참조하면, 화자와 비화자의 수와 텍스트의 유무로부터 동작 형태를 판단할 수 있다.Referring to Table 1, the operation type can be determined from the number of speakers and non-talkers and the presence or absence of text.

화자가 인식되고 비화자도 인식된 상태에서 텍스트가 존재하는 경우, 번호 1과 같이 화자와 비화자가 각 1인으로 인식되면 화자와 비화자(청자) 사이에 말하고 있는 상태 'say to'로 판단할 수 있고, 번호 4와 같이 화자가 1인이고 비화자가 2인 이상으로 인식되면 화자가 비화자(청자)들을 대상으로 연설하거나 토론을 하는 상태 'talk with'로 판단할 수 있다.If there is text while the speaker is recognized and the speaker is also recognized, if the speaker and the speaker are recognized as one person as shown in the number 1, it can be judged as 'say to' speaking between the speaker and the speaker (listener). If, as shown in the number 4, the speaker is one person and the speaker is recognized as two or more, the speaker can be determined as 'talk with' when the speaker speaks or discusses the speaker.

화자가 인식되지 않고 비화자만 인식된 상태에서 텍스트가 존재하는 경우, 영상에 나타나지 않는 화자가 존재하는 것이므로 영상에 보이는 비화자가 청자가 되며 청자가 영상에 보이지 않는 화자의 말을 듣고 있는 상태 'listen'으로 판단할 수 있다. 이때, 번호 2와 같이 비화자가 1인으로 인식되면 비화자(청자)가 전화를 받고 있거나, 범인이 심문을 당하는 장면 등에 해당하며, 번호 5와 같이 비화자가 2인 이상으로 인식되면 비화자(청자)가 강연을 듣고 있거나 수업을 받고 있는 장면 등에 해당한다. If the text is present when the speaker is not recognized and only the non-speaker is recognized, there is a speaker that does not appear in the video, so the non-visible speaker is the listener and the listener is listening to the invisible speaker. Judging by At this time, when the non-speaker is recognized as one as shown in the number 2, the non-speaker (listener) is answering the call, or the criminal is questioned. ) Corresponds to a scene where you are listening to a lecture or taking a class.

번호 3과 같이 비화자가 인식되지 않고 화자만 인식된 상태에서 텍스트가 존재하는 경우, 장면 속에서 화자가 혼자 말하는 상태 'speak alone'으로 판단할 수 있다. 이 경우, 화자가 전화 통화중이거나, 연설자 등에 해당할 수 있다.If the text is present in the state in which the non-speaker is not recognized and only the speaker is recognized as shown in the number 3, it may be determined that the speaker speaks alone in the scene. In this case, the talker may be talking on the phone or speaking.

번호 6과 같이 화자나 비화자 모두 인식되지 않고 텍스트만 존재하는 경우, 장면에 등장인물과 관계된 어떠한 상황도 존재하지 않는 상태 'nothing'으로 판단할 수 있다. 이 경우, 텍스트는 오픈 캡션(open caption)과 같이 장면에 대한 단순한 설명이나 내레이션(narration), 또는 장면 중 나오는 문자에 대한 번역 등에 해당할 수 있다.If both the speaker and the non-talker are not recognized as shown in the number 6 and only the text exists, it can be determined as 'nothing' in which no situation related to the character exists in the scene. In this case, the text may correspond to a simple description or narration of the scene, such as an open caption, or a translation of a character appearing in the scene.

번호 7은 화자나 비화자의 인식과 관계없이 텍스트가 없는 경우로, 장면에 등장인물 사이의 대화가 이루어지고 있지 않은 상태 'nothing'으로 판단할 수 있다. 화자나 비화자 모두 인식되지 않은 경우 풍경 등을 나타내는 장면일 수 있으며, 화자나 비화자가 인식된 경우(화자가 인식된 경우는 텍스트가 없으므로 잘못 인식이 되었거나 입 모양만 내는 경우일 것이다) 등장인물이 대기 상태에 있거나, 서로 마주보는 상태 등에 해당할 수 있다. The number 7 is a case in which there is no text regardless of the speaker or non-speaker's perception, and it can be determined as 'nothing' in which no dialogue is performed between the characters in the scene. If neither the speaker nor the speaker is recognized, it may be a scene that represents a landscape, etc. If the speaker or the speaker is recognized (the speaker is recognized because there is no text, it may be misidentified or only the shape of the mouth). It may be in a standby state or a state facing each other.

다시 도 1을 참조하면, 이어서 상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성한다(S140).Referring back to FIG. 1, scene situation information regarding a situation of a predetermined scene of the video is generated using the operation mode (S140).

상기 장면 상황정보는, 예를 들면, 상기 경과시간, 상기 화자의 이름, 상기 비화자(청자)의 이름, 상기 동작 형태 및 상기 텍스트(자막)의 내용 중 적어도 하나를 포함할 수 있다. 상기 장면 상황정보는 어노테이션을 위한 여러 가지 형태로 제공될 수 있으며, 일 예로 XML 파일로 생성될 수 있다.The scene situation information may include, for example, at least one of the elapsed time, the name of the speaker, the name of the non-speaker (listener), the operation form, and the content of the text (subtitle). The scene situation information may be provided in various forms for annotation, and may be generated as an XML file as an example.

도 4는 도 1의 장면 상황정보를 생성한 결과인 XML 파일의 일 예를 나타낸다. 4 illustrates an example of an XML file that is a result of generating scene situation information of FIG. 1.

도 4를 참조하면, XML 파일(200)은 경과시간(210), 화자의 이름(220), 비화자의 이름(230), 동작 형태(240), 텍스트의 내용(250)을 포함한다.Referring to FIG. 4, the XML file 200 includes an elapsed time 210, a speaker's name 220, a speaker's name 230, an operation form 240, and text content 250.

일 예로, 도 4에 도시된 XML 파일(200)의 장면 상황정보를 이용하면, "1000"이라는 시간이 경과된 때 화자인 "갑돌이"가 청자인 "갑순이"에게 "Where are you going?"이라는 "말을 하고 있다"는 사실을 알 수 있다.For example, using the scene situation information of the XML file 200 shown in FIG. 4, when the time of "1000" has elapsed, the speaker "Gap-d" is the listener "Gap-soon". You can see that "I'm talking".

상기 XML 파일(200)은 상기 경과시간(210)에서의 장면 상황정보를 식별하기 위한 아이디(260)를 더 포함할 수 있다. 도 4에서는, 상기 아이디(260)가 상기 경과시간(210)과 같은 값으로 설정되어 있다.The XML file 200 may further include an ID 260 for identifying scene situation information at the elapsed time 210. In FIG. 4, the ID 260 is set to the same value as the elapsed time 210.

이와 같이 생성된 장면 상황정보를 이용하여 상기 소정 장면에 대한 상황을 어노테이션할 수 있고, 이를 이용하여 동영상 내에서 원하는 위치를 용이하게 검색하고 동영상의 내용을 효과적으로 축약할 수 있다. The scene situation information generated as described above may be used to annotate a situation of the predetermined scene. The scene situation information may be used to easily search for a desired position in the video and to effectively reduce the content of the video.

도 5는 본 발명의 일 실시예에 의한 동영상 상황정보 어노테이션 장치를 도시한 블록도이다.5 is a block diagram illustrating a video contextual information annotation apparatus according to an embodiment of the present invention.

도 5를 참조하면, 본 발명의 일 실시예에 의한 동영상 상황정보 어노테이션 장치(300)는 영상 처리부(310), 텍스트 처리부(320) 및 장면상황 생성부(330)를 포함한다.Referring to FIG. 5, the video situation information annotation apparatus 300 according to an embodiment of the present invention includes an image processor 310, a text processor 320, and a scene situation generator 330.

상기 영상 처리부(310)는 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공한다.The image processor 310 recognizes the speaker and the talker from the face of at least one character appearing in a predetermined scene in the video, and provides the first context information regarding the recognized talker and the talker.

일 실시예로, 상기 영상 처리부(310)는 얼굴 인식부(312) 및 화자 결정부(314)를 포함할 수 있다.In an embodiment, the image processor 310 may include a face recognition unit 312 and a speaker determiner 314.

상기 얼굴 인식부(312)는 상기 동영상 내의 소정 장면으로부터 상기 등장인물의 얼굴을 추출하고, 추출된 상기 얼굴이 누구인지 인식한다. 이 경우, 상기 동영상 상황정보 어노테이션 장치(300)는 얼굴 데이터베이스(340)를 더 포함할 수 있다. 상기 얼굴 데이터베이스(340)에는 상기 동영상 내에 등장하는 등장인물의 얼굴이 저장된다. 상기 얼굴 인식부(312)는 등장인물의 얼굴이 저장되어 있는 상기 얼굴 데이터베이스(340)를 이용하여, 추출된 상기 얼굴이 상기 등장인물 중 누구인지를 인식할 수 있다.The face recognition unit 312 extracts a face of the character from a predetermined scene in the video and recognizes who the extracted face is. In this case, the video situation information annotation apparatus 300 may further include a face database 340. The face database 340 stores faces of characters appearing in the video. The face recognition unit 312 may recognize who the extracted face is among the characters using the face database 340 in which the face of the character is stored.

상기 화자 결정부(314)는 상기 얼굴 인식부(312)에서 인식된 얼굴 중에서 상기 화자와 비화자가 누구인지를 결정한다. 상기 화자 결정부(314)는 다양한 방법을 이용하여 상기 화자와 비화자를 결정할 수 있으며, 일 실시예로 도 1 내지 도 4에서 설명된 방법을 이용하여 상기 화자와 비화자를 결정할 수 있다. 상기 제1 상황정보는 결정된 상기 화자와 비화자에 관한 정보를 포함할 수 있으며, 상기 화자와 비화자에 관한 정보는 후술되는 장면상황 생성부(330)로 제공될 수 있다. The speaker determiner 314 determines who is the speaker and the non-talker among the faces recognized by the face recognizer 312. The speaker determiner 314 may determine the speaker and the non-speaker using various methods, and may determine the speaker and the non-speaker using the method described with reference to FIGS. The first situation information may include information about the speaker and the talker determined, and the information about the speaker and the talker may be provided to the scene situation generator 330 to be described later.

상기 텍스트 처리부(320)는 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공한다. 상기 타임드 텍스트에 관한 설명은 도 1에서 설명된 바와 실질적으로 동일하므로 중복되는 상세한 설명은 생략한다. The text processing unit 320 provides second context information regarding timed text including elapsed time and text. Since the description of the timed text is substantially the same as that described with reference to FIG. 1, detailed descriptions thereof will be omitted.

일 실시예로, 상기 텍스트 처리부(320)는 시간 정보부(322) 및 텍스트 정보부(324)를 포함할 수 있다.In one embodiment, the text processing unit 320 may include a time information unit 322 and a text information unit 324.

상기 시간 정보부(322)는 상기 동영상의 소정 장면에 대하여 상기 경과시간에 관한 시간정보를 포함한다. 상기 경과시간에 관한 시간정보는 도 1에서 설명한 바와 같이 실제 경과된 시간 또는 경과된 프레임 수에 관한 정보일 수 있다. 상기 시간 정보부(322)는 상기 시간정보를 상기 영상 처리부(310)에 전달하고, 상기 영상 처리부(310)는 상기 시간 정보부(322)로부터 전달된 시간정보를 이용하여 상기 소정 장면을 정할 수 있다. 즉, 상기 영상 처리부(310)는 상기 시간 정보부(322)로부터 전달된 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출할 수 있다.The time information unit 322 includes time information about the elapsed time with respect to a predetermined scene of the video. The time information about the elapsed time may be information about an elapsed time or the number of elapsed frames as described with reference to FIG. 1. The time information unit 322 may transfer the time information to the image processor 310, and the image processor 310 may determine the predetermined scene by using the time information transmitted from the time information unit 322. That is, the image processor 310 may extract a predetermined scene in a video corresponding to a specific elapsed time by using the time information transmitted from the time information unit 322.

상기 텍스트 정보부(324)는 상기 동영상의 상기 경과시간에 해당하는 텍스트의 내용에 관한 텍스트정보를 포함한다. 예를 들면, 상기 텍스트정보는 상기 경과시간에 나타나게 되는 텍스트의 내용이다. 상기 제2 상황정보는 상기 텍스트정보를 포함할 수 있으며, 상기 텍스트정보는 후술되는 장면상황 생성부(330)에 제공될 수 있다. The text information unit 324 includes text information regarding the content of text corresponding to the elapsed time of the video. For example, the text information is the content of text that appears in the elapsed time. The second situation information may include the text information, and the text information may be provided to the scene situation generation unit 330 to be described later.

상기 장면상황 생성부(330)는 상기 영상 처리부(310)로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부(320)로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성한다.The scene situation generating unit 330 obtains scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit 310 and the second situation information provided from the text processing unit 320. Create

일 실시예로, 상기 장면상황 생성부(330)는 상황정보 추출부(332) 및 XML 생성부(334)를 포함할 수 있다.In an embodiment, the scene situation generator 330 may include a context information extractor 332 and an XML generator 334.

상기 상황정보 추출부(332)는 상기 영상 처리부(310) 및 상기 텍스트 처리부(320)로부터 각각 제공된 상기 제1 상황정보 및 상기 제2 상황정보를 이용하여 상기 장면 상황정보를 추출한다. 상기 장면 상황정보는 상기 동영상의 소정 장면 내의 등장인물의 동작 형태를 포함할 수 있다. 상기 동작 형태는 기 설정된 규칙을 기초로 파악될 수 있다.The context information extractor 332 extracts the scene context information using the first context information and the second context information provided from the image processor 310 and the text processor 320, respectively. The scene situation information may include an operation form of a character in a predetermined scene of the video. The operation type may be grasped based on a preset rule.

예를 들면, 상기 동영상 상황정보 어노테이션 장치(300)는 규칙 데이터베이스(350)를 더 포함할 수 있다. 상기 규칙 데이터베이스(350)에는 상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 동작 형태를 설정한 규칙들이 저장된다. 상기 장면 상황정보는 상기 규칙 데이터베이스(350)에 저장된 규칙들을 이용하여 설정된 등장인물의 동작 형태를 포함할 수 있다. 상기 규칙들은 예를 들어 표 1에서 설명된 바와 같이 설정될 수 있다.For example, the video situation information annotation apparatus 300 may further include a rule database 350. The rules database 350 stores rules that set an operation type by using the number of speakers, the number of non-talkers, and the presence or absence of the text. The scene situation information may include an operation form of a character set using rules stored in the rule database 350. The rules may be set, for example, as described in Table 1.

상기 XML 생성부(334)는 추출된 상기 장면 상황정보를 XML 파일로 변환하여 저장한다. 상기 XML 파일은, 예를 들면, 상기 경과시간, 상기 화자의 이름, 상기 비화자의 이름, 상기 동작 형태 및 상기 텍스트의 내용 중 적어도 하나를 포함할 수 있다. 상기 XML 파일은 일 예로 도 4에 도시된 바와 같이, 경과시간(210), 화자의 이름(220), 비화자의 이름(230), 동작 형태(240), 텍스트의 내용(250)을 포함할 수 있다.The XML generator 334 converts the extracted scene situation information into an XML file and stores the XML file. The XML file may include, for example, at least one of the elapsed time, the name of the speaker, the name of the non-speaker, the operation form, and the content of the text. For example, as shown in FIG. 4, the XML file may include an elapsed time 210, a speaker's name 220, a speaker's name 230, an operation form 240, and text content 250. have.

이와 같이 생성된 장면 상황정보를 이용하여 상기 소정 장면에 대한 상황을 어노테이션할 수 있고, 이를 이용하여 동영상 내에서 원하는 위치를 용이하게 검색하고 동영상의 내용을 효과적으로 축약할 수 있다.The scene situation information generated as described above may be used to annotate a situation of the predetermined scene. The scene situation information may be used to easily search for a desired position in the video and to effectively reduce the content of the video.

앞서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술될 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있을 것이다.  따라서, 전술한 설명 및 아래의 도면은 본 발명의 기술사상을 한정하는 것이 아닌 본 발명을 예시하는 것으로 해석되어야 한다.While the present invention has been described in connection with what is presently considered to be practical and exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit and scope of the invention. Therefore, the above description and the drawings below should be construed as illustrating the present invention, not limiting the technical spirit of the present invention.

도 1은 본 발명의 일 실시예에 의한 동영상 상황정보 어노테이션 방법을 나타낸 흐름도이다.1 is a flowchart illustrating a video situation information annotation method according to an embodiment of the present invention.

도 2는 도 1의 화자와 비화자를 인식하는 단계의 구체적인 예를 나타낸 흐름도이다.2 is a flowchart illustrating a specific example of a step of recognizing a speaker and a non-speaker of FIG. 1.

도 3은 도 2에 나타난 화자와 비화자를 인식하는 단계를 설명하기 위한 개념도이다. FIG. 3 is a conceptual diagram illustrating a step of recognizing a speaker and a non-speaker shown in FIG. 2.

도 4는 도 1의 장면 상황정보를 생성한 결과인 XML 파일의 일 예를 나타낸다. 4 illustrates an example of an XML file that is a result of generating scene situation information of FIG. 1.

도 5는 본 발명의 일 실시예에 의한 동영상 상황정보 어노테이션 장치를 도시한 블럭도이다.5 is a block diagram illustrating a video contextual information annotation apparatus according to an embodiment of the present invention.

<주요 도면번호에 대한 간단한 설명><Short Description of Main Drawing Numbers>

100 : 동영상의 장면 200 : XML 파일 100: Movie Scene 200: XML File

300 : 동영상 상황정보 어노테이션 장치 300: video status information annotation device

310 : 영상 처리부 312 : 얼굴 인식부310: image processor 312: face recognition unit

314 : 화자 결정부 320 : 텍스트 처리부314: speaker determination unit 320: text processing unit

322 : 시간 정보부 324 : 텍스트 정보부322: time information unit 324: text information unit

330 : 장면상황 생성부 332 : 상황정보 추출부330: Scene situation generation unit 332: Context information extraction unit

334 : XML 생성부 340 : 얼굴 데이터베이스334: XML generator 340: face database

350 : 규칙 데이터베이스350: rules database

Claims (12)

삭제delete 경과시간 및 텍스트를 포함하는 타임드 텍스트(timed text)에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계;Extracting a predetermined scene in a video corresponding to a specific elapsed time by using the time information about the elapsed time provided by the timed text including the elapsed time and the text; 상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계;Recognizing a speaker and a non-speaker from a face of at least one character appearing in the predetermined scene; 상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계; 및Identifying an operation type in a predetermined scene of the video from the recognized speaker, non-speaker, and information about the text of the timed text; And 상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함하고,Generating scene situation information about a situation of a predetermined scene of the video using the operation form; 상기 화자와 비화자를 인식하는 단계는, Recognizing the speaker and non-speakers, 상기 등장인물의 얼굴로부터 좌안 및 우안의 위치를 검출하고, 상기 좌안 및 상기 우안 사이의 제1 거리를 산출하는 단계;Detecting positions of left and right eyes from the face of the character and calculating a first distance between the left and right eyes; 상기 좌안의 위치로부터 아래로 상기 제1 거리만큼 이격된 위치를 상기 등장인물의 입을 나타내는 박스의 좌상단 위치로 설정하고, 상기 우안의 위치로부터 아래로 상기 제1 거리에 소정 상수값인 제2 거리를 더한 거리만큼 이격된 위치를 상기 등장인물의 입을 나타내는 박스의 우하단 위치로 설정하는 단계; 및The position spaced apart from the position of the left eye by the first distance is set to the upper left position of the box representing the mouth of the character, and the second distance, which is a predetermined constant value, is set downward from the position of the right eye. Setting the spaced apart distance by a further distance to the lower right position of the box representing the mouth of the character; And 상기 좌상단 위치 및 상기 우하단 위치가 정의하는 상기 박스의 내부 이미지의 히스토그램 변화를 이용하여 상기 변화가 존재하는 얼굴을 상기 화자로 결정하고 상기 변화가 존재하지 않는 얼굴을 상기 비화자로 결정하는 단계를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션(annotation) 방법.Determining the face with the change as the speaker and the face without the change as the non-talker using a histogram change of the inner image of the box defined by the upper left position and the lower right position. Annotation method for video status information, characterized in that the. 경과시간 및 텍스트를 포함하는 타임드 텍스트에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계;Extracting a predetermined scene in a video corresponding to a specific elapsed time using time information on the elapsed time provided by the timed text including the elapsed time and the text; 상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계;Recognizing a speaker and a non-speaker from a face of at least one character appearing in the predetermined scene; 상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계; 및Identifying an operation form in a predetermined scene of the video from the recognized speaker, non-speaker, and information about text of the timed text; And 상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함하고,Generating scene situation information about a situation of a predetermined scene of the video using the operation form; 상기 동영상의 소정 장면 내의 상기 동작 형태는,The operation form in the predetermined scene of the video, 상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 기 설정된 규칙을 기초로 파악되는 것을 특징으로 하는 동영상 상황정보 어노테이션 방법.The video situation information annotation method of claim 1, wherein the video is identified based on a predetermined rule by using the number of speakers, the number of non-talkers, and the presence or absence of the text. 경과시간 및 텍스트를 포함하는 타임드 텍스트에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계;Extracting a predetermined scene in a video corresponding to a specific elapsed time using time information on the elapsed time provided by the timed text including the elapsed time and the text; 상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계;Recognizing a speaker and a non-speaker from a face of at least one character appearing in the predetermined scene; 상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계; 및Identifying an operation type in a predetermined scene of the video from the recognized speaker, non-speaker, and information about the text of the timed text; And 상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함하고,Generating scene situation information about a situation of a predetermined scene of the video using the operation form; 상기 장면 상황정보는,The scene situation information, 상기 경과시간, 상기 화자의 이름, 상기 비화자의 이름, 상기 동작 형태 및 상기 텍스트의 내용 중 적어도 하나를 포함하는 XML 파일로 생성되는 것을 특징으로 하는 동영상 상황정보 어노테이션 방법.And an XML file including at least one of the elapsed time, the name of the speaker, the name of the non-speaker, the operation type, and the text. 삭제delete 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;An image processor for recognizing a speaker and a speaker from at least one character's face appearing in a predetermined scene in the moving image and providing first situation information regarding the recognized speaker and the speaker; 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부; 및A text processing unit for providing second context information about timed text including elapsed time and text; And 상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부를 포함하고,A scene situation generating unit generating scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit and the second situation information provided from the text processing unit; 상기 영상 처리부는,The image processor, 상기 동영상 내의 소정 장면으로부터 상기 등장인물의 얼굴을 추출하고, 추출된 상기 얼굴이 누구인지 인식하는 얼굴 인식부; 및A face recognition unit extracting a face of the character from a predetermined scene in the video and recognizing who the extracted face is; And 상기 얼굴 인식부에서 인식된 얼굴 중에서 상기 화자와 비화자가 누구인지를 결정하는 화자 결정부를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치.And a speaker determiner configured to determine who is the speaker and the non-talker among the faces recognized by the face recognition unit. 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;An image processor for recognizing a speaker and a speaker from at least one character's face appearing in a predetermined scene in the moving image and providing first situation information regarding the recognized speaker and the speaker; 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부;A text processing unit for providing second context information about timed text including elapsed time and text; 상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부; 및A scene situation generating unit generating scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit and the second situation information provided from the text processing unit; And 상기 동영상 내에 등장하는 등장인물의 얼굴을 저장한 얼굴 데이터베이스를 포함하고, A face database storing a face of a character appearing in the video, 상기 얼굴 인식부는, 상기 얼굴 데이터베이스를 이용하여 추출된 상기 얼굴이 누구인지를 인식하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치.And the face recognition unit recognizes who is the extracted face using the face database. 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;An image processor for recognizing a speaker and a speaker from at least one character's face appearing in a predetermined scene in the moving image and providing first situation information regarding the recognized speaker and the speaker; 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부; 및A text processing unit for providing second context information about timed text including elapsed time and text; And 상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부를 포함하고,A scene situation generating unit generating scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit and the second situation information provided from the text processing unit; 상기 텍스트 처리부는,The text processing unit, 상기 동영상의 소정 장면에 대하여 상기 경과시간에 관한 시간정보를 포함하는 시간 정보부; 및A time information unit including time information about the elapsed time with respect to the predetermined scene of the video; And 상기 동영상의 상기 경과시간에 해당하는 텍스트의 내용에 관한 텍스트정보를 포함하는 텍스트 정보부를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치.And a text information unit including text information on content of text corresponding to the elapsed time of the video. 제8항에 있어서,The method of claim 8, 상기 시간 정보부는 상기 시간정보를 상기 영상 처리부에 전달하고,The time information unit transmits the time information to the image processing unit, 상기 영상 처리부는 상기 시간 정보부로부터 전달된 시간정보를 이용하여 상기 소정 장면을 정하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치.And the image processing unit determines the predetermined scene using the time information transmitted from the time information unit. 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;An image processor for recognizing a speaker and a speaker from at least one character's face appearing in a predetermined scene in the moving image and providing first situation information regarding the recognized speaker and the speaker; 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부; 및A text processing unit for providing second context information about timed text including elapsed time and text; And 상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부를 포함하고,A scene situation generating unit generating scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit and the second situation information provided from the text processing unit; 상기 장면상황 생성부는,The scene situation generation unit, 상기 영상 처리부 및 상기 텍스트 처리부로부터 각각 제공된 상기 제1 상황정보 및 상기 제2 상황정보를 이용하여 상기 장면 상황정보를 추출하는 상황정보 추출부; 및A context information extracting unit extracting the scene context information using the first context information and the second context information provided from the image processor and the text processor, respectively; And 추출된 상기 장면 상황정보를 XML 파일로 변환하여 저장하는 XML 생성부를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치.And an XML generator for converting and extracting the extracted scene context information into an XML file. 동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;An image processor for recognizing a speaker and a speaker from at least one character's face appearing in a predetermined scene in the moving image and providing first situation information regarding the recognized speaker and the speaker; 경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부;A text processing unit for providing second context information about timed text including elapsed time and text; 상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부; 및A scene situation generating unit generating scene situation information about a situation of a predetermined scene of the video from the first situation information provided from the image processing unit and the second situation information provided from the text processing unit; And 상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 동작 형태를 설정한 규칙들을 저장한 규칙 데이터베이스를 포함하고,A rule database storing rules for setting an operation type by using the number of speakers, the number of non-talkers, and the presence or absence of the text; 상기 장면 상황정보는 상기 규칙 데이터베이스에 저장된 규칙들을 이용하여 설정된 동작 형태를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치.And the scene situation information includes an operation form set using rules stored in the rule database. 삭제delete
KR1020090042284A 2009-05-14 2009-05-14 Method and device of annotating scene context information of a moving picture KR101072347B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090042284A KR101072347B1 (en) 2009-05-14 2009-05-14 Method and device of annotating scene context information of a moving picture

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090042284A KR101072347B1 (en) 2009-05-14 2009-05-14 Method and device of annotating scene context information of a moving picture

Publications (2)

Publication Number Publication Date
KR20100123204A KR20100123204A (en) 2010-11-24
KR101072347B1 true KR101072347B1 (en) 2011-10-12

Family

ID=43407909

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090042284A KR101072347B1 (en) 2009-05-14 2009-05-14 Method and device of annotating scene context information of a moving picture

Country Status (1)

Country Link
KR (1) KR101072347B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102438743B1 (en) 2022-03-02 2022-08-31 인하대학교 산학협력단 Method and Apparatus for Converting 3D Manuals into 2D Interactive Videos for Cloud Service

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100724B2 (en) 2011-09-20 2015-08-04 Samsung Electronics Co., Ltd. Method and apparatus for displaying summary video
KR101994592B1 (en) * 2018-10-19 2019-06-28 인하대학교 산학협력단 AUTOMATIC VIDEO CONTENT Metadata Creation METHOD AND SYSTEM

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828166B1 (en) 2007-06-12 2008-05-08 고려대학교 산학협력단 Method of extracting metadata from result of speech recognition and character recognition in video, method of searching video using metadta and record medium thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828166B1 (en) 2007-06-12 2008-05-08 고려대학교 산학협력단 Method of extracting metadata from result of speech recognition and character recognition in video, method of searching video using metadta and record medium thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문1:전자공학회*
논문3:한국조명전기설비학회*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102438743B1 (en) 2022-03-02 2022-08-31 인하대학교 산학협력단 Method and Apparatus for Converting 3D Manuals into 2D Interactive Videos for Cloud Service
DE102022129437A1 (en) 2022-03-02 2023-09-07 Inha-Industry Partnership Institute Method and device for converting 3D manuals into 2D interactive videos for cloud services

Also Published As

Publication number Publication date
KR20100123204A (en) 2010-11-24

Similar Documents

Publication Publication Date Title
CN108028042B (en) Transcription of verbal communications
US8869222B2 (en) Second screen content
US11114091B2 (en) Method and system for processing audio communications over a network
US10885318B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
JP6058053B2 (en) Recording control system, system and program
CN107527623B (en) Screen transmission method and device, electronic equipment and computer readable storage medium
JP2003345379A6 (en) Audio-video conversion apparatus and method, audio-video conversion program
JP2003345379A (en) Audio video conversion apparatus and method, and audio video conversion program
JP2013521523A (en) A system for translating spoken language into sign language for the hearing impaired
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
CN102207844A (en) Information processing device, information processing method and program
US10388325B1 (en) Non-disruptive NUI command
US11405584B1 (en) Smart audio muting in a videoconferencing system
KR101072347B1 (en) Method and device of annotating scene context information of a moving picture
KR20170009295A (en) Device and method for providing moving picture, and computer program for executing the method
JP2019215449A (en) Conversation auxiliary apparatus, conversation auxiliary method, and program
JP6172770B2 (en) Abstract writing support system, information distribution apparatus, abstract writing support method, and program
WO2019202804A1 (en) Speech processing device and speech processing method
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
CN115359796A (en) Digital human voice broadcasting method, device, equipment and storage medium
KR20150060348A (en) Apparatus and method of communication between disabled person and disabled person
CN108281145B (en) Voice processing method, voice processing device and electronic equipment
CN114341866A (en) Simultaneous interpretation method, device, server and storage medium
CN111936964B (en) Non-interrupt NUI commands
TWI795209B (en) Various sign language translation system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151001

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160912

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170829

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee