KR101911613B1 - Method and apparatus for person indexing based on the overlay text of the news interview video - Google Patents

Method and apparatus for person indexing based on the overlay text of the news interview video Download PDF

Info

Publication number
KR101911613B1
KR101911613B1 KR1020170002366A KR20170002366A KR101911613B1 KR 101911613 B1 KR101911613 B1 KR 101911613B1 KR 1020170002366 A KR1020170002366 A KR 1020170002366A KR 20170002366 A KR20170002366 A KR 20170002366A KR 101911613 B1 KR101911613 B1 KR 101911613B1
Authority
KR
South Korea
Prior art keywords
text
person
extracting
keyword
image
Prior art date
Application number
KR1020170002366A
Other languages
Korean (ko)
Other versions
KR20180081303A (en
Inventor
조강현
이상희
Original Assignee
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단 filed Critical 울산대학교 산학협력단
Priority to KR1020170002366A priority Critical patent/KR101911613B1/en
Publication of KR20180081303A publication Critical patent/KR20180081303A/en
Application granted granted Critical
Publication of KR101911613B1 publication Critical patent/KR101911613B1/en

Links

Images

Classifications

    • G06F17/30793
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • G06F17/3082

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 뉴스 인터뷰 영상을 이용하여 인물 인덱싱 정보를 자동으로 생성 및 수집할 수 있도록 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치에 관한 것으로,
상기 방법은 뉴스 인터뷰 영상에서 오버레이 텍스트가 포함된 서브 클립만을 추출하는 단계; 상기 서브 클립의 오버레이 텍스트에서 인터뷰 대상자의 인물 정보 텍스트 및 키워드 텍스트를 추출하는 단계; 상기 서브 클립에서 상기 인터뷰 대상자의 얼굴 섬네일 이미지를 획득하는 단계; 및 상기 인터뷰 대상자의 인물 정보 텍스트, 키워드 텍스트, 및 얼굴 섬네일을 기반으로 인물 인덱싱 테이블을 생성하는 단계를 포함할 수 있다.
The present invention relates to an overlay text-based person indexing method and apparatus for automatically generating and collecting person indexing information using a news interview image,
The method includes extracting only a sub clip including an overlay text from a news interview image; Extracting the person information text and the keyword text of the interviewee from the overlay text of the sub clip; Obtaining a face thumbnail image of the interviewee in the sub clip; And generating a person indexing table based on the person information text, the keyword text, and the face thumbnail of the person to be interviewed.

Description

뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치{Method and apparatus for person indexing based on the overlay text of the news interview video}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for indexing text based on an overlay text of a news interview image,

본 발명은 뉴스 인터뷰 영상을 이용하여 인물 인덱싱 정보를 자동으로 생성 및 수집할 수 있도록 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 장치에 관한 것이다. The present invention relates to an overlay text-based person indexing apparatus for a news interview image, which enables automatic generation and collection of person indexing information using a news interview image.

일반적으로 비디오 시퀀스의 텍스트는 오버레이 텍스트와 장면 텍스트로 구분된다. 그래픽 텍스트 또는 자막이라고 하는 오버레이 텍스트는 편집시 그래픽으로 생성되어 비디오 영상 위에 인위적으로 오버레이 되는 특징을 가진다. In general, text in a video sequence is divided into overlay text and scene text. Overlay texts, called graphical texts or subtitles, are created graphically on editing and are overlaid artificially over video images.

오버레이 텍스트의 예로는 뉴스 영상의 자막, 스포츠 경기 점수가 있으며, 장면 텍스트의 예로는 거리 표지판, 트럭 번호판, 셔츠 글자 등과 같이 카메라의 영상 촬영 결과물에 기록된 각종 텍스트일 수 있다. Examples of the overlay text include a subtitle of a news video and a score of a sports game. Examples of the scene text may include various texts recorded on the image pickup result of the camera such as a street sign, a truck license plate, and a shirt letter.

오버레이 텍스트는 비디오 시퀀스에 대한 중요 정보 또는 요약 정보를 추가적으로 제공하기 위한 목적으로 주로 사용되므로, 오버레이 텍스트는 장면 이해, 색인 생성, 탐색 및 검색과 같은 자동화된 콘텐츠 분석 시스템에서 필수적인 문제이다. Overlay text is an essential problem in automated content analysis systems such as scene understanding, indexing, searching and searching, because overlay text is used primarily for the purpose of providing additional important or summary information about a video sequence.

특히, 뉴스 인터뷰 영상의 경우, 도1에서와 같이 인터뷰 대상자에 대한 이름, 나이 등과 같은 인물 정보와 함께 인터뷰 내용이 오버레이 텍스트를 통해 추가적으로 제공하는 특징을 가진다. Particularly, in the case of the news interview image, as shown in FIG. 1, the interview information has additional features such as name and age of the person to be interviewed, and the content of the interview is additionally provided through the overlay text.

이에 뉴스 인터뷰 영상을 통해 제공되는 오버레이 텍스트는 인물 인덱싱에 필요한 매우 많은 정보를 제공하고 있으나, 현재까지 이를 활용하도록 하는 기술이 전혀 개발되지 못하고 있다. Therefore, although the overlay text provided through the news interview image provides a lot of information necessary for indexing the person, no technology has been developed so far to utilize it.

다만, 국내공개특허 제10-2011-0032347호에서 자막/대본 정보 데이터베이스와 같은 별도의 수단에 접근하여 동영상 등장인물에 대한 부가 정보를 추출하도록 하는 개념만을 언급하고 있을 뿐이다. However, only the concept of extracting additional information about a moving image character is disclosed only in a separate means such as a subtitle / script information database in Korean Patent Laid-Open No. 10-2011-0032347.

국내공개특허 제10-2011-0032347호(공개일자: 2011.03.30.)Korean Patent Laid-Open No. 10-2011-0032347 (Published date: March 30, 2011)

이에 본 발명에서는 뉴스 인터뷰 영상을 이용하여 인물 인덱싱 정보를 자동으로 생성 및 수집할 수 있도록 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치를 제공하고자 한다. Accordingly, the present invention provides an overlay text-based person indexing method and apparatus for automatically generating and collecting person indexing information using a news interview image.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면, 뉴스 인터뷰 영상에서 오버레이 텍스트가 포함된 서브 클립만을 추출하는 단계; 상기 서브 클립의 오버레이 텍스트에서 인터뷰 대상자의 인물 정보 텍스트 및 키워드 텍스트를 추출하는 단계; 상기 서브 클립에서 상기 인터뷰 대상자의 얼굴 섬네일(thumbnail) 이미지를 획득하는 단계; 및 상기 인물 정보 텍스트, 상기 키워드 텍스트, 및 상기 얼굴 섬네일을 기반으로 상기 인터뷰 대상자의 인물 인덱싱 테이블을 생성하는 단계를 포함하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법을 제공한다. According to an aspect of the present invention, there is provided a method for extracting only a sub clip including an overlay text from a news interview image. Extracting the person information text and the keyword text of the interviewee from the overlay text of the sub clip; Obtaining a face thumbnail image of the interviewee in the sub clip; And generating a person indexing table of the interviewee based on the person information text, the keyword text, and the face thumbnail. The present invention also provides an overlay text-based person indexing method of a news interview image.

상기 서브 클립을 추출하는 단계는 상기 뉴스 인터뷰 영상의 에지 맵 영상으로 변환한 후, 상기 에지 맵 영상을 기반으로 에지 밀도 변화를 추적하는 단계; 상기 에지 밀도 증가량이 제1 설정값 이상이면, 상기 서브 클립의 추출을 시작하는 단계; 및 상기 에지 밀도 감소량이 제2 설정값 이상이면, 상기 서브 클립의 추출을 종료하는 단계를 포함할 수 있다. The step of extracting the sub clip may include: converting an edge map image of the news interview image, and tracking an edge density change based on the edge map image; Initiating extraction of the sub-clip if the edge density increment is greater than or equal to a first set value; And terminating extraction of the sub-clip if the edge density reduction amount is equal to or greater than a second set value.

상기 인물 정보 텍스트 및 키워드 텍스트를 추출하는 단계는 멀티 에지 맵(multiple edge map) 알고리즘을 이용하여 상기 서브 클립의 오버레이 텍스트 영역을 검출하는 단계; 상기 오버레이 텍스트 영역의 수평 투영 히스토그램을 획득하고, 상기 수평 투영 히스토그램을 기반으로 인물 정보 라인과 키워드 라인을 구분하는 단계; 및 상기 인물 정보 라인 및 상기 키워드 라인으로부터 인물 정보 텍스트와 키워드 텍스트를 각각을 추출하는 단계를 포함할 수 있다. Wherein the extracting of the person information text and the keyword text comprises: detecting an overlay text area of the sub clip using a multiple edge map algorithm; Obtaining a horizontal projection histogram of the overlay text area, and separating the character information line and the keyword line based on the horizontal projection histogram; And extracting the person information text and the keyword text from the person information line and the keyword line, respectively.

상기 서브 클립의 오버레이 텍스트 영역을 검출하는 단계는 상기 서브 클립으로부터 다수의 참고 프레임을 추출하는 단계; 상기 다수의 참고 프레임의 에지 맵 영상을 논리곱하여, 배경 영상 에지가 제거된 멀티 에지 맵 영상을 획득하는 단계; 및 상기 멀티 에지 맵 영상의 흑백 전이 개수를 기반으로 상기 오버레이 텍스트 영역을 검출하는 단계를 포함할 수 있다. Wherein detecting the overlay text area of the subclip comprises: extracting a plurality of reference frames from the subclip; A step of logically multiplying the edge map images of the reference frames to obtain a multi-edge map image from which background image edges have been removed; And detecting the overlay text area based on the number of monochrome transitions of the multi-edge map image.

상기 서브 클립의 오버레이 텍스트 영역을 검출하는 단계는 형태학적 연산을 통해 상기 오버레이 텍스트 영역을 보정하는 단계를 더 포함할 수 있다. The step of detecting an overlay text area of the sub clip may further include correcting the overlay text area through a morphological operation.

상기 인물 정보 라인과 키워드 라인을 구분하는 단계는 상기 오버레이 텍스트 영역의 수평 투영 히스토그램을 획득하는 단계; 및 상기 수평 투영 히스토그램이 기 설정값 이상인 수평 라인들 중에서 첫 번째 수평 라인은 인물 정보 라인으로, 나머지 수평라인은 키워드 라인으로 구분하는 단계를 포함할 수 있다. Wherein the step of distinguishing the character information line from the keyword line comprises: obtaining a horizontal projection histogram of the overlay text area; And dividing the first horizontal line among the horizontal lines having the horizontal projection histogram by more than a predetermined value into a character information line and the remaining horizontal lines by a keyword line.

상기 수평 투영 히스토그램을 획득하는 단계는 상기 뉴스 영상의 하위 영역에 위치하는 상기 오버레이 텍스트 영역에 대해서만 수평 투영 히스토그램을 획득하는 것을 특징으로 한다. Wherein the acquiring of the horizontal projection histogram acquires a horizontal projection histogram only for the overlay text region located in a lower region of the news image.

상기 인물 정보 텍스트와 키워드 텍스트를 각각을 추출하는 단계는 OCR(Optical Character Recognition)을 통해 상기 인물 정보 라인과 상기 키워드 라인 각각의 텍스트를 추출하는 단계; 및 상기 텍스트 추출 결과에 대한 객체명 인식 동작을 수행하여 인터뷰 대상자의 인물 정보와 인터뷰 내용에 대한 키워드를 각각 추출하는 단계를 포함할 수 있다. The step of extracting the character information text and the keyword text may include extracting texts of the character information line and the keyword line through OCR (Optical Character Recognition), respectively. And extracting the keywords of the person information of the interviewee and the interview contents by performing the object name recognition operation on the text extraction result.

상기 인물 인덱싱 테이블을 생성하는 단계는 상기 인터뷰 대상자의 인물 정보를 기반으로 인터넷 정보 검색을 수행하고, 인터넷 정보 검색 결과를 상기 인물 인덱싱 테이블에 추가 저장하는 단계를 더 포함할 수 있다. The step of generating the person indexing table may further include performing an Internet information search based on the person information of the person to be interviewed and further storing the Internet information search result in the person indexing table.

상기 인물 인덱싱 테이블을 생성하는 단계는 상기 뉴스 인터뷰 영상과 상기 인물 인덱싱 테이블을 데이터베이스에 함께 저장하는 단계를 더 포함할 수 있다. The creating of the person indexing table may further include storing the news interview image and the person indexing table together in a database.

상기 과제를 해결하기 위한 수단으로서, 본 발명의 다른 실시 형태에 따르면, 뉴스 인터뷰 영상에서 오버레이 텍스트가 포함된 서브 클립만을 추출하는 서브 클립 추출부; 상기 서브 클립의 오버레이 텍스트 영역에서 인터뷰 대상자의 인물 정보 텍스트 및 키워드 텍스트를 추출하는 텍스트 추출부; 상기 서브 클립에서 상기 인터뷰 대상자의 얼굴 섬네일 이미지를 추출하는 얼굴 섬네일 추출부; 및 상기 인터뷰 대상자의 인물 정보 텍스트, 키워드 텍스트, 및 얼굴 섬네일 이미지를 기반으로 인물 인덱싱 테이블을 생성하는 인물 인덱싱 테이블 생성부를 포함하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 장치를 제공한다. According to another embodiment of the present invention, a subtitle extracting unit extracts only a subclip including an overlay text in a news interview image. A text extraction unit for extracting a person information text and a keyword text of an interviewee in an overlay text area of the sub clip; A face thumbnail extracting unit for extracting a face thumbnail image of the interviewee from the sub clip; And a person indexing table generating unit for generating a person indexing table based on the person information text, the keyword text, and the face thumbnail image of the person to be interviewed. The present invention also provides an overlay text based person indexing apparatus for a news interview image.

본 발명의 뉴스 인터뷰 영상을 이용하여 인물 인덱싱 정보를 자동으로 생성 및 수집할 수 있도록 함으로써, 방대한 양의 인물 인덱싱 정보를 최소한의 시간과 비용으로 구축하고 제공할 수 있도록 해준다.By using the news interview image of the present invention, it is possible to automatically generate and collect person indexing information, so that a large amount of person indexing information can be constructed and provided with minimum time and cost.

도1은 일반적인 뉴스 인터뷰 영상의 일예를 도시한 도면이다.
도2는 본 발명의 일 실시예에 따른 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법을 설명하기 위한 도면이다.
도3은 본 발명의 일 실시예에 따른 서브 클립을 추출하는 단계를 보다 상세히 설명하기 위한 도면이다.
도4은 본 발명의 일 실시예에 따른 서브 클립을 추출하는 단계에서 뉴스 인터뷰 영상의 오버레이 텍스트 존재 구간 구분 방법을 설명하기 위한 도면이다.
도5은 본 발명의 일 실시예에 따른 뉴스 인터뷰 영상의 오버레이 텍스트 존재 구간에 따른 에지 밀도 변화를 설명하기 도면이다.
도6은 본 발명의 일 실시예에 따른 오버레이 텍스트 영역을 검출하는 단계를 보다 상세히 설명하기 위한 도면이다.
도7은 본 발명의 일 실시예에 따른 참고 프레임 획득 방법을 설명하기 위한 도면이다.
도8은 본 발명의 일 실시예에 따른 멀티 에지 맵 영상과 오버레이 텍스트 영역 검출 결과를 도시한 도면이다.
도9는 본 발명의 일 실시예에 따른 인물 정보 텍스트 추출하는 단계를 보다 상세히 설명하기 위한 도면이다.
도10는 본 발명의 일 실시예에 따른 키워드 텍스트 추출하는 단계를 보다 상세히 설명하기 위한 도면이다.
도11은 본 발명의 일 실시예에 따른 얼굴 섬네일 이미지를 추출하는 단계를 보다 상세히 설명하기 위한 도면이다.
도12는 본 발명의 일 실시예에 따른 인물 인덱싱 테이블을 도시한 도면이다.
도13은 본 발명의 일 실시예에 따른 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 장치를 설명하기 위한 도면이다.
1 is a view showing an example of a general news interview image.
FIG. 2 is a diagram for explaining an overlay text-based person indexing method of a news interview image according to an exemplary embodiment of the present invention.
FIG. 3 is a diagram for explaining a step of extracting a subclip according to an embodiment of the present invention in more detail.
FIG. 4 is a view for explaining a method of separating an overlay text existing section of a news interview image in a step of extracting a sub clip according to an embodiment of the present invention.
5 is a view for explaining a change in edge density according to an overlay text existence period of a news interview image according to an exemplary embodiment of the present invention.
6 is a diagram for explaining a step of detecting an overlay text area according to an embodiment of the present invention in more detail.
7 is a diagram for explaining a reference frame acquisition method according to an embodiment of the present invention.
FIG. 8 is a diagram illustrating a multi-edge map image and an overlay text area detection result according to an embodiment of the present invention.
9 is a diagram for explaining the step of extracting person information text according to an embodiment of the present invention in more detail.
FIG. 10 is a diagram for explaining the step of extracting a keyword text according to an embodiment of the present invention in more detail.
11 is a diagram for explaining a step of extracting a face thumbnail image according to an embodiment of the present invention in more detail.
12 is a view showing a person indexing table according to an embodiment of the present invention.
13 is a diagram for explaining an overlay text-based person indexing apparatus of a news interview image according to an embodiment of the present invention.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It is noted that the technical terms used in the present invention are used only to describe specific embodiments and are not intended to limit the present invention. In addition, the technical terms used in the present invention should be construed in a sense generally understood by a person having ordinary skill in the art to which the present invention belongs, unless otherwise defined in the present invention, Should not be construed to mean, or be interpreted in an excessively reduced sense. In addition, when a technical term used in the present invention is an erroneous technical term that does not accurately express the concept of the present invention, it should be understood that technical terms can be understood by those skilled in the art. In addition, the general terms used in the present invention should be interpreted according to a predefined or prior context, and should not be construed as being excessively reduced.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Furthermore, the singular expressions used in the present invention include plural expressions unless the context clearly dictates otherwise. In the present invention, terms such as "comprising" or "comprising" and the like should not be construed as encompassing various elements or various steps of the invention, Or may further include additional components or steps.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복된 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings, wherein like reference numerals refer to the same or similar elements, and redundant description thereof will be omitted.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail. It is to be noted that the accompanying drawings are only for the purpose of facilitating understanding of the present invention, and should not be construed as limiting the scope of the present invention with reference to the accompanying drawings.

도2는 본 발명의 일 실시예에 따른 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법을 설명하기 위한 도면이다. FIG. 2 is a diagram for explaining an overlay text-based person indexing method of a news interview image according to an exemplary embodiment of the present invention.

도2을 참고하면, 본 발명의 인물 인덱싱 방법은 뉴스 인터뷰 영상을 입력받는 단계(S10), 뉴스 인터뷰 영상에서 오버레이 텍스트 영역이 포함된 서브 클립만을 추출하는 단계(S20), 서브 클립의 오버레이 텍스트를 검출하는 단계(S30), 오버레이 텍스트 영역에서 인물 정보 텍스트를 추출하는 단계(S40), 오버레이 텍스트 영역에서 키워드 텍스트를 추출하는 단계(S50), 서브 클립에서 얼굴 섬네일 이미지를 추출하는 단계(S60), 그리고 인물 정보, 키워드 및 얼굴 섬네일 추출 결과를 기반으로 인물 인덱싱 테이블을 생성하는 단계(S70) 등을 포함할 수 있다. Referring to FIG. 2, the figure indexing method of the present invention includes a step of receiving a news interview image (S10), extracting only a sub clip including an overlay text area in a news interview image (S20) Extracting a character information text in an overlay text area (S40), extracting a keyword text in an overlay text area (S50), extracting a face thumbnail image in a sub clip (S60) And creating a person indexing table based on the extracted person information, keyword, and face thumbnail (S70).

즉, 본 발명에서는 뉴스 인터뷰 영상에서 인터뷰 대상자의 얼굴 이미지 뿐 만 아니라 인터뷰 대상자의 인물 정보 및 키워드까지 추출한 후, 이들 정보를 활용하여 인물 인덱싱 정보를 자동 생성하도록 함을 알 수 있다. That is, in the present invention, not only the face image of the interviewee but also the person information and the keyword of the interviewee are extracted from the news interview image, and then the person indexing information is automatically generated using the information.

도3은 본 발명의 일 실시예에 따른 서브 클립을 추출하는 단계를 보다 상세히 설명하기 위한 도면이다. FIG. 3 is a diagram for explaining a step of extracting a subclip according to an embodiment of the present invention in more detail.

도3을 참고하면, 본 발명의 서브 클립을 추출하는 단계(S20)는 캐니 에지 검출기(Canny edge detector)를 통해 뉴스 영상의 에지 맵 영상을 생성한 후(S21), 에지 맵 영상 기반으로 에지 밀도 변화를 추적하도록 한다(S22). 단계 S22의 에지 밀도 변화량 추적 결과, 에지 밀도 증가량이 제1 값 이상이 되면(S23), 서브 클립을 추출하기 시작하고(S24), 소정의 시간이 경과하여, 에지 밀도 감소량이 기 제2값 이상이 되면(S25), 서브 클립 추출을 종료하도록 한다(S26). Referring to FIG. 3, in operation S20 of extracting a subclip of the present invention, an edge map image of a news image is generated through a Canny edge detector (S21) So that the change is tracked (S22). When the edge density increase amount is equal to or larger than the first value (S23) as a result of the edge density variation amount tracing step S22, the sub clip is started to be extracted (S24). After a predetermined time has elapsed, (S25), the sub clip extraction is ended (S26).

뉴스 영상의 오버레이 텍스트는 뉴스 프로그램 제작 규칙을 준수하여 제작 및 제공되며, 예를 들어, 영상 가림 현상 발생을 최소화하기 위해 프레임 하단 또는 상단 좌우 모서리 상에 표시된다. 또한 인터뷰 영상의 경우 첫 번째 라인에는 인터뷰 대상자의 인물 정보가 기재되고, 나머지 라인을 통해 인터뷰 내용이 기재되는 특징이 있다. The overlay text of the news image is produced and provided according to the rules of news program production. For example, it is displayed on the lower or upper left corner of the frame to minimize the occurrence of image blurring. Also, in the case of the interview video, there is a characteristic that the person information of the interviewee is described in the first line, and the interview contents are described through the remaining lines.

또한, 뉴스 영상의 경우, 뉴스 영상의 모든 프레임에 오버레이 텍스트가 포함되지 않으며, 서서히 또는 갑자기 표시된 후 일정 시간 후 사라지는 특징이 있다. 이에 뉴스 영상의 제공 구간은 크게 도4에서와 같이 오버레이 텍스트가 표시되지 않는 텍스트 미존재 구간(Non-text period), 텍스트가 오버레이 되기 시작하는 전환 구간(Transition period), 텍스트가 완전히 표시되는 텍스트 존재 구간(Text period)의 세 구간으로 나누어 질 수 있다. In addition, in the case of a news video, overlay text is not included in every frame of the news video, and the feature disappears after a certain period of time after being displayed gradually or suddenly. As shown in FIG. 4, the provision period of the news image includes a non-text period in which overlay text is not displayed, a transition period in which the text starts to be overlaid, And a text period.

이에 본 발명에서는 텍스트 존재 구간(Text period)에 속하는 프레임에 대해서만 텍스트 검출 및 인식 동작을 수행함으로써, 텍스트 검출 및 인식에 소요되는 시간과 비용이 최소화될 수 있도록 한다. Accordingly, in the present invention, the text detection and recognition operation is performed only on the frames belonging to the text period, so that the time and cost required for text detection and recognition can be minimized.

텍스트는 많은 에지를 포함하기 때문에 오버레이 텍스트를 포함하는 프레임은 오버레이 텍스트를 포함하지 않는 프레임에 비해 매우 큰 에지 밀도값을 가지게 된다. 예를 들어, 도5에 도시된 바와 같이 전환 구간(Transition period)에 속하는 프레임 13 번에서부터 프레임 20 번에 걸쳐 에지 밀도가 급격히 증가하며, 텍스트 존재 구간(Text period)에 속하는 시작 프레임 21 이후에는 에지 밀도 차이가 거의 발생하지 않음을 알 수 있다. Since the text includes many edges, the frame containing the overlay text has a very large edge density value compared to the frame that does not contain the overlay text. For example, as shown in FIG. 5, the edge density rapidly increases from the frame 13 to the frame 20 belonging to the transition period, and after the start frame 21 belonging to the text existence period (Text period) It can be seen that the density difference hardly occurs.

따라서 본 발명에서는 뉴스 인터뷰 영상의 에지 밀도 변화량을 추적함으로써, 시작 프레임을 검출할 수 있으며, 시작 프레임 이후의 프레임을 서브 클립으로 추출하기 시작하도록 한다. 또한, 동일한 원리로 뉴스 인터뷰 영상의 에지 밀도 변화량을 추적함으로써, 종료 프레임의 발생한 후 서브 클립의 추출을 종료함으로써, 텍스트 존재 구간(Text period)에 속하는 프레임만을 서브 클립으로 손쉽게 추출할 수 있게 된다. Therefore, in the present invention, the start frame can be detected by tracking the edge density variation of the news interview image, and the frame after the start frame is started to be extracted as the sub clip. In addition, by tracking the edge density variation of the news interview image on the same principle, the extraction of the subclips after the generation of the end frame is ended, so that only the frames belonging to the text period can be easily extracted into subclips.

도6은 본 발명의 일 실시예에 따른 오버레이 텍스트 영역을 검출하는 단계를 보다 상세히 설명하기 위한 도면이다. 6 is a diagram for explaining a step of detecting an overlay text area according to an embodiment of the present invention in more detail.

도6을 참고하면, 본 발명의 오버레이 텍스트 영역을 검출하는 단계(S30)는 서브 클립으로부터 n개의 참조 프레임을 선택하는 단계(S31), n개의 참조 프레임의 에지 맵 영상 모두를 논리 곱 연산하여, 배경 에지 성분이 제거된 멀티 에지 맵 영상을 획득하는 단계(S32), 멀티 에지 맵 영상의 흑백 전이 개수를 기반으로 오버레이 텍스트 영역을 검출하는 단계(S33), 및 오버레이 텍스트 영역에 대한 형태학적 닫힘(closing)과 팽창(dilation) 연산을 수행하여 오버레이 텍스트 영역을 보정하는 단계(S34) 등을 포함한다. Referring to FIG. 6, the step S30 of detecting an overlay text area according to the present invention includes: selecting n reference frames from a subclip (S31); ANDing all edge map images of n reference frames, A step S32 of obtaining a multi-edge map image from which a background edge component is removed, a step S33 of detecting an overlay text area based on the number of monochrome transitions of the multi-edge map image, and a morphological closing closing and dilation operations to correct the overlay text area (S34).

서브 클립이 f frames/sec 속도로 재생되는 경우, 오버레이 텍스트는 최소 2f 프레임 이상 동안 고정된 위치에 있게 된다. k를 f 보다 작지 않은 정수로 가정하면, 연속되는 k개의 프레임들은 한 라운드(one round)라고 정의될 수 있다. If the subclip is played at f frames / sec, the overlay text will be in a fixed position for at least 2f frames. Assuming that k is an integer not less than f, consecutive k frames may be defined as one round.

이에 본 발명에서는 계산 간단화를 위해, 첫 번째 라운드에 속하는 서브 클립을 기 설정된 주기(예를 들어, k/n-1 주기)로 반복 샘플링하여 n개의 참조 프레임을 추출하도록 한다. 즉, 도7에서와 같이 첫 번째 라운드에 속하는 서브 클립을 1, [k/3], 2[k/3], 3 [k/3] 주기로 반복 샘플링하여 4개의 참조 프레임을 추출할 수 있을 것이다. In the present invention, for calculation simplification, n reference frames are extracted by repeatedly sampling subclips belonging to the first round at a predetermined period (for example, k / n-1 period). That is, as shown in FIG. 7, four reference frames can be extracted by repeatedly sampling the subclips belonging to the first round at intervals of 1, [k / 3], 2 [k / 3], and 3 [k / 3] .

이와 같이 n개의 참조 프레임이 획득되면, n개의 참조 프레임 각각의 에지 맵 영상을 지그재그 스캐닝하면서 문자의 폭(w) 또는 높이(h) 보다 큰 수평 라인 또는 수직 라인을 제거하도록 함으로써, 노이즈 에지 성분을 1차 제거하도록 한다. When the n reference frames are thus obtained, the edge map image of each of the n reference frames is zigzag scanned to eliminate the horizontal line or the vertical line which is larger than the width (w) or the height (h) First, remove it.

그리고 나서 n개의 참조 프레임의 에지 맵 영상 모두를 논리 곱하여, 도8의 (a)와 같이 배경 에지 성분이 모두 제거된 멀티 에지 맵 영상을 획득하도록 한다. Then, all the edge map images of the n reference frames are logically multiplied to obtain a multi-edge map image from which all the background edge components have been removed as shown in FIG. 8A.

그리고 멀티 에지 맵 영상을 지그재그 스캐닝하면서 수학식1을 통해 흑백 전이 개수(Ntrans)를 획득한 후, 흑백 전이 개수가 기 설정된 값 이상인 영역을 모두 합하여 오버레이 텍스트 영역을 획득하도록 한다. After acquiring the number of monochrome transitions (N trans ) using Equation (1) while zigzag scanning the multi-edge map image, an overlay text area is obtained by combining all the regions having the number of monochrome transitions greater than a predetermined value.

[수학식1][Equation 1]

Figure 112017001992722-pat00001
Figure 112017001992722-pat00001

이때, w 및 h는 스캐닝 윈도우의 폭과 높이이고, b(ㅇ)는 멀티 에지 맵 영상이며, 스캐닝 윈도우의 크기는 문자의 크기에 종속되어 결정된다. In this case, w and h are the width and height of the scanning window, b (o) is the multi-edge map image, and the size of the scanning window is determined depending on the size of the character.

그리고 마지막으로, 형태학적 닫힘과 팽창(morphological closing and dilation) 연산을 순차 수행하여, 도8의 (b)와 같이 오버레이 텍스트 영역을 보정하도록 한다. 즉, 형태학적 닫힘과 팽창 연산을 통해 참조 프레임 에지 영상 모두의 논리 곱으로 발생한 문자의 일부 픽셀이 손실되는 문제가 해결되도록 한다. Finally, morphological closing and dilation operations are sequentially performed to correct the overlay text area as shown in FIG. 8 (b). In other words, it solves the problem of loss of some pixels of characters caused by the logical multiplication of all the reference frame edge images through morphological closing and expansion operations.

도9는 본 발명의 일 실시예에 따른 인물 정보 텍스트 추출하는 단계를 보다 상세히 설명하기 위한 도면이다. 9 is a diagram for explaining the step of extracting person information text according to an embodiment of the present invention in more detail.

도9에 도시된 바와 같이, 본 발명의 인물 정보 텍스트 추출하는 단계(S40)는 오버레이 텍스트 영역에 대한 수평 투영을 수행하여 수평 투영 히스토그램을 구하고, 수평 투영 히스토그램이 기 설정값 이상인 수평라인들 중에서 첫 번째 라인을 인물 정보 라인으로 획득하는 단계(S41), 인물 정보 라인에 대한 OCR(Optical Character Recognition)을 수행하여 인물 정보 라인에 기재된 텍스트를 검출하는 단계(S42), 텍스트 검출 결과에 대한 객체명 인식 동작을 수행하여 인터뷰 대상자의 인물 정보를 추출하는 단계(S43)를 포함할 수 있다. As shown in FIG. 9, in step S40 of extracting the person information text of the present invention, a horizontal projection histogram is obtained by performing a horizontal projection on the overlay text area, and a horizontal projection histogram (S41) of detecting a text written on the character information line by performing OCR (Optical Character Recognition) on the character information line (S42), detecting an object name And extracting the person information of the person to be interviewed by performing the operation (S43).

뉴스 영상은 방송국과 같은 전문 기관에 의해 제작되는 영상물로, 뉴스 프로그램 제작 규칙하에 오버레이 텍스트가 생성 및 제공된다. 특히, 인터뷰 영상에 대응되는 오버레이 텍스트는 프레임의 상위 영역, 중간 영역, 및 하위 영역 중 하위 영역에 표시되며, 첫 번째 라인에는 인터뷰 대상자의 인물 정보가 기재되고, 나머지 라인을 통해 인터뷰 내용이 기재되는 특징이 있다. A news video is a video produced by a professional organization such as a broadcasting station, and overlay text is generated and provided under a news program production rule. In particular, the overlay text corresponding to the interview image is displayed in the lower area of the upper area, the middle area, and the lower area of the frame, the person information of the person to be interviewed is described in the first line, and the contents of the interview are described through the remaining lines Feature.

이에 본 발명에서는 뉴스 영상의 전체 영역이 아닌 하위 영역에 위치하는 오버레이 텍스트 영역에 대해서만 수평 투영을 수행함으로써, 텍스트 검출 및 인식에 소요되는 시간과 비용이 더욱 감소될 수 있도록 한다. Accordingly, in the present invention, the horizontal projection is performed only for the overlay text area located in the lower area of the news image, rather than the entire area of the news image, so that the time and cost required for text detection and recognition can be further reduced.

그리고 본 발명은 상기의 뉴스 프로그램 제작 규칙을 고려하여, 즉 오버레이 텍스트의 첫 번째 라인에는 인터뷰 대상자의 인물 정보가 기재됨을 고려하여 오버레이 텍스트의 첫 번째 라인은 인물 정보 라인으로, 나머지 라인은 키워드 라인으로 구분하도록 한다. In consideration of the fact that the person information of the person to be interviewed is described in the first line of the overlay text, the first line of the overlay text is a character information line and the remaining line is a keyword line .

또한 본 발명의 객체명 인식 동작은 CRF(Conditional Random Fields) 기반으로 사람 이름, 소속/기관, 직업/직위 등과 같은 개체명을 인식할 수 있으며, 객체명 인식 동작에 필요한 개체명 사전은 기계 학습(machine learning) 기반으로 지속적으로 추가 또는 갱신될 수 있도록 한다. In addition, the object name recognizing operation of the present invention recognizes object names such as a person's name, affiliation / institution, occupation / position, etc. based on Conditional Random Fields (CRF) machine learning.

예를 들어, "어네스트 / 백악관 대변인"이라는 텍스트를 입력받아, "사람 이름(Person): 어네스트, 소속/기관(Organization) : 백악관, 직업/직위(Occupation): 대변인, 기타 정보: 없음"이라는 객체명 인식 결과를 획득할 수 있게 된다. For example, if you enter the text "Ernest / White House spokesperson" and you receive an object named "Person: Ernest, Organization / Organization: White House, Occupation: Spokesperson, It is possible to obtain the recognition result of the name.

도10는 본 발명의 일 실시예에 따른 키워드 텍스트 추출하는 단계를 보다 상세히 설명하기 위한 도면이다. FIG. 10 is a diagram for explaining the step of extracting a keyword text according to an embodiment of the present invention in more detail.

도10에 도시된 바와 같이, 본 발명의 키워드 정보 텍스트 추출하는 단계(S50)는 오버레이 텍스트 영역의 수평 투영을 통해 수평 투영 히스토그램을 구하고, 수평 투영 히스토그램이 기 설정값 이상인 수평라인들 중에서 첫 번째 라인 이외의 라인들을 키워드 라인으로 획득하는 단계(S51), 키워드 라인에 대한 OCR을 수행하여 키워드 라인에 기재된 텍스트를 검출하는 단계(S52), 텍스트 검출 결과에 대한 객체명 인식 동작을 수행하여 인터뷰 대상자에 관련된 키워드를 추출하는 단계(S53)를 포함할 수 있다. 10, in the step S50 of extracting the keyword information text of the present invention, the horizontal projection histogram is obtained through the horizontal projection of the overlay text area, and the horizontal projection histogram of the first line (S52) of performing text recognition on the keyword line by performing OCR on the keyword line (S52), and performing an object name recognition operation on the text detection result And extracting a related keyword (S53).

즉, 본 발명은 오버레이 텍스트의 첫 번째 줄을 인물 정보 라인으로 획득하고, 나머지 라인은 키워드 라인으로 획득한 후, 앞서 설명된 객체명 인식 동작을 동일하게 수행하여, 키워드 라인에서 추출된 텍스트로부터 인터뷰 내용을 규정할 수 있는 적어도 하나의 키워드를 추출할 수 있도록 한다. That is, in the present invention, the first line of the overlay text is acquired as the character information line, the remaining lines are acquired as the keyword line, and then the object name recognition operation described above is performed in the same manner, So that at least one keyword that can define contents can be extracted.

예를 들어 "제프리 파울씨는 북한을 떠나라는 허락을 받아 가족들과 재회를 위해 집으로 돌아오고 있습니다. 북한의 석방 결정을 환영합니다"라는 텍스트를 입력받아, "제프리 파울, 북한, 허락, 가족, 재회, 집, 석방, 결정, 환영"와 같은 객체명 인식 결과를 획득할 수 있게 된다. For example, "Jeffrey Paul is returning home for family reunion with the permission to leave North Korea," he welcomed North Korea's decision to release him, saying, "Jeffrey Paul, North Korea, permission, family , Reunion, home, release, decision, illusion ".

도11은 본 발명의 일 실시예에 따른 얼굴 섬네일 이미지를 추출하는 단계를 보다 상세히 설명하기 위한 도면이다. 11 is a diagram for explaining a step of extracting a face thumbnail image according to an embodiment of the present invention in more detail.

도11에 도시된 바와 같이, 본 발명의 얼굴 영상을 검출하는 단계(S60)는 서브 클립의 시작 프레임 영상을 획득하는 단계(S61), 시작 프레임 영상에 대한 얼굴 검출 동작을 수행하여 인터뷰 대상자의 얼굴을 검출하는 단계(S62), 단계 S62의 얼굴 검출 결과를 섬네일(thumbnail) 이미지로써 저장하는 단계(S63) 등을 포함한다. 11, step S60 of detecting a face image of the present invention includes obtaining a start frame image of a subclip (S61), performing a face detection operation on a start frame image, (S62), storing the face detection result of the step S62 as a thumbnail image (S63), and the like.

다만, 시작 프레임 영상을 통해 인터뷰 대상자 얼굴 검출이 실패하는 경우, 다음 프레임 영상을 통해 인터뷰 대상자 얼굴 검출을 수행할 수도 있도록 한다. However, if the face detection of the interviewee fails through the start frame image, the face detection of the interviewee can be performed through the next frame image.

또한 필요한 경우에는 여러 영상(예를 들어, n 개의 참고 프레임)에 대해 얼굴 검출 동작을 수행한 후, 얼굴 검출 정확도 기준으로 하나의 얼굴 검출 결과를 선택할 수도 있도록 한다. 얼굴 검출 정확도는 인터뷰 대상자의 촬영 시점, 얼굴 가림 정도, 떨림 정도, 및 화면 해상도 등을 고려하여 계산될 수 있을 것이다. In addition, if necessary, a face detection operation may be performed on various images (for example, n reference frames), and then one face detection result may be selected based on the face detection accuracy. The accuracy of face detection can be calculated considering the point of time of interview, face clipping, degree of tremor, and screen resolution.

도12는 본 발명의 일 실시예에 따른 인물 인덱싱 테이블을 도시한 도면이다. 12 is a view showing a person indexing table according to an embodiment of the present invention.

도12을 참고하면, 본 발명의 인물 인덱싱 테이블은 얼굴 섬네일, 인터뷰 대상자의 이름, 소속/기관, 직업/직위, 기타 정보, 및 키워드 등을 포함할 수 있다. Referring to FIG. 12, the person indexing table of the present invention may include a face thumbnail, a name of an interviewee, a name / affiliation / organization, a job / position, other information, and a keyword.

얼굴 섬네일에는 인터뷰 대상자의 얼굴 검출 결과가 자동 표시될 것이고, 인터뷰 대상자의 이름, 소속/기관, 직업/직위에는 인물 정보 검출 결과가 자동으로 입력되고, 키워드에는 키워드 라인의 텍스트 검출 결과가 자동으로 입력되게 된다. In the face thumbnail, the face detection result of the interviewee will be automatically displayed, the person information detection result is automatically input in the name, affiliation / institution, job / position of the interviewee, and the keyword is automatically inputted .

본 발명의 인물 인덱싱 테이블은 이름, 소속/기관, 직업/직위를 제외한 인물 정보 검출 결과를 기타 정보에 저장할 수도 있도록 한다. The person indexing table of the present invention allows the person information detection result excluding name, affiliation / institution, and occupation / position to be stored in other information.

또한 본 발명에서는 인터뷰 대상자의 인물 정보 중 이름을 기반으로 인터넷 인물DB(예를 들어, 네이버 인물정보나 위키피디아 인물정보) 검색을 수행하여, 해당 인터뷰 대상자에 관련된 인물 정보 등이 개시된 인터넷 사이트를 발견하고, 이의 링크 주소를 추가 제공할 수도 있도록 한다. 또한 획득한 인물 인덱싱 테이블 은 입력된 원본 뉴스 인터뷰 영상과 함께 데이터베이스로 저장함으로써, 차후 제3자가 해당 클립을 열람할 수도 있도록 한다. In the present invention, an Internet person DB (for example, Naver person information or Wikipedia person information) is searched based on the name of the person information of the person to be interviewed, and an Internet site in which person information related to the person to be interviewed is disclosed is found , And to provide additional link addresses for them. Also, the acquired person indexing table is stored in the database together with the input original news interview image so that the third person can browse the clip later.

도13은 본 발명의 일 실시예에 따른 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 장치를 설명하기 위한 도면이다. 13 is a diagram for explaining an overlay text-based person indexing apparatus of a news interview image according to an embodiment of the present invention.

도13에 도시된 바와 같이, 본 발명의 인물 인덱싱 장치는 뉴스 인터뷰 영상을 입력받는 뉴스 인터뷰 영상 입력부(10), 뉴스 인터뷰 영상에서 오버레이 텍스트 영역이 포함된 서브 클립을 추출하는 서브 클립 추출부(20), 서브 클립에서 인터뷰 대상자의 얼굴 섬네일 이미지를 추출하는 얼굴 섬네일 추출부(30), 서브 클립의 오버레이 텍스트 영역을 검출한 후, 오버레이 텍스트 영역에서 인터뷰 대상자의 인물정보 및 키워드를 추출해내는 텍스트 추출부(40), 및 얼굴 섬네일 추출부(30)와 텍스트 추출부(40)을 기반으로 인물 인덱싱 테이블을 생성하여, DB(Database)(60)에 원본 뉴스 인터뷰 영상과 함께 저장하는 인물 인덱싱 테이블 생성부(50) 등을 포함할 수 있다. 13, the person indexing apparatus of the present invention includes a news interview image input unit 10 for receiving a news interview image, a sub clip extracting unit 20 for extracting a sub clip including an overlay text area in a news interview image A face thumbnail extracting unit 30 for extracting a face thumbnail image of a person to be interviewed in the sub clip, a text extracting unit 30 for extracting the person information and the keyword of the interviewee in the overlay text area after detecting the overlay text area of the sub clip, And a person indexing table creating unit 40 for creating a person indexing table based on the face thumbnail extracting unit 30 and the text extracting unit 40 and storing the same in the DB 60 together with the original news interview image, (50), and the like.

또한 본 발명의 인물 인덱싱 장치는 필요한 경우, 사용자 또는 외부 장치로부터 제공되는 데이터를 수신하거나, 장치 동작 결과를 사용자 또는 외부 장치에 실시간 제공하기 위한 다양한 데이터 입출력 장치, 인물 인덱싱 테이블 생성부(50)가 인터넷 망에 접속하여 인터뷰 대상자 관련 정보를 검색할 수 있도록, 인터넷망에 접속 가능하도록 하는 통신 장치 등을 추가로 구비할 수도 있을 것이다. Also, the person indexing apparatus of the present invention may include various data input / output devices, a person indexing table generating unit 50 for receiving data provided from a user or an external apparatus, or providing a result of operation of the apparatus to a user or an external apparatus in real time And a communication device capable of connecting to the Internet network so as to be able to access the Internet network and retrieve information related to the interviewee.

이와 같이 구성되는 인물 인덱싱 장치는 하나의 하드웨어 장치로써 구현될 수 있으나, 필요한 경우 기존의 컴퓨팅 장치에 결합되는 임베디드 시스템 또는 기존의 컴퓨팅 장치에 다운로드 및 설치되는 소프트웨어 등으로 구현될 수도 있도록 한다. The person indexing device configured in this way may be implemented as a single hardware device, but may be implemented as an embedded system coupled to an existing computing device, or software downloaded and installed in an existing computing device, if necessary.

상술한 실시예에 설명된 특징, 구조, 효과 등은 본 발명의 적어도 하나의 실시예에 포함되며, 반드시 하나의 실시예에만 한정되는 것은 아니다. 나아가, 각 실시예에서 예시된 특징, 구조, 효과 등은 실시예들이 속하는 분야의 통상의 지식을 가지는 자에 의하여 다른 실시예들에 대해서도 조합 또는 변형되어 실시 가능하다.The features, structures, effects and the like described in the foregoing embodiments are included in at least one embodiment of the present invention and are not necessarily limited to one embodiment. Further, the features, structures, effects, and the like illustrated in the embodiments may be combined or modified in other embodiments by those skilled in the art to which the embodiments belong.

따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다. 또한, 이상에서 실시예들을 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예들에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부한 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, it should be understood that the present invention is not limited to these combinations and modifications. While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be construed as limiting the scope of the present invention. It can be seen that various modifications and applications are possible. For example, each component specifically shown in the embodiments may be modified and implemented. It is to be understood that the present invention may be embodied in many other specific forms without departing from the spirit or essential characteristics thereof.

Claims (11)

뉴스 인터뷰 영상에서 오버레이 텍스트가 포함된 서브 클립만을 추출하는 단계;
상기 서브 클립의 오버레이 텍스트에서 인터뷰 대상자의 인물 정보 텍스트 및 키워드 텍스트를 추출하는 단계;
상기 서브 클립에서 상기 인터뷰 대상자의 얼굴 섬네일 이미지를 획득하는 단계; 및
상기 인물 정보 텍스트, 상기 키워드 텍스트, 및 상기 얼굴 섬네일을 기반으로 상기 인터뷰 대상자의 인물 인덱싱 테이블을 생성하는 단계를 포함하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
Extracting only the subclips including the overlay text from the news interview image;
Extracting the person information text and the keyword text of the interviewee from the overlay text of the sub clip;
Obtaining a face thumbnail image of the interviewee in the sub clip; And
And generating a person indexing table of the person to be interviewed based on the person information text, the keyword text, and the face thumbnail.
제1 항에 있어서, 상기 서브 클립을 추출하는 단계는
상기 뉴스 인터뷰 영상을 에지 맵 영상으로 변환한 후, 상기 에지 맵 영상을 기반으로 에지 밀도 변화를 추적하는 단계;
상기 에지 밀도 증가량이 제1 설정값 이상이면, 상기 서브 클립의 추출을 시작하는 단계; 및
상기 에지 밀도 감소량 제2 설정값 이상이면, 상기 서브 클립의 추출을 종료하는 단계를 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
2. The method of claim 1, wherein extracting the sub-
Transforming the news interview image into an edge map image and tracking an edge density change based on the edge map image;
Initiating extraction of the sub-clip if the edge density increment is greater than or equal to a first set value; And
And terminating the extraction of the sub clip if the edge density reduction amount is equal to or greater than a second set value.
제1항에 있어서, 상기 인물 정보 텍스트 및 키워드 텍스트를 추출하는 단계는
멀티 에지 맵(multiple edge map) 알고리즘을 이용하여 상기 서브 클립의 오버레이 텍스트 영역을 검출하는 단계;
상기 오버레이 텍스트 영역의 수평 투영 히스토그램을 획득하고, 상기 수평 투영 히스토그램을 기반으로 인물 정보 라인과 키워드 라인을 구분하는 단계; 및
상기 인물 정보 라인 및 상기 키워드 라인으로부터 인물 정보 텍스트와 키워드 텍스트 각각을 추출하는 단계를 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
2. The method of claim 1, wherein extracting the person information text and the keyword text comprises:
Detecting an overlay text area of the subclip using a multiple edge map algorithm;
Obtaining a horizontal projection histogram of the overlay text area, and separating the character information line and the keyword line based on the horizontal projection histogram; And
And extracting the character information text and the keyword text from the character information line and the keyword line, respectively.
제3항에 있어서, 상기 서브 클립의 오버레이 텍스트 영역을 검출하는 단계는
상기 서브 클립으로부터 다수의 참고 프레임을 추출하는 단계;
상기 다수의 참고 프레임의 에지 맵 영상을 논리곱하여, 배경 영상 에지가 제거된 멀티 에지 맵 영상을 획득하는 단계; 및
상기 멀티 에지 맵 영상의 흑백 전이 개수를 기반으로 상기 오버레이 텍스트 영역을 검출하는 단계를 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
4. The method of claim 3, wherein detecting an overlay text area of the subclip comprises:
Extracting a plurality of reference frames from the subclip;
A step of logically multiplying the edge map images of the reference frames to obtain a multi-edge map image from which background image edges have been removed; And
And detecting the overlay text area based on the number of black-and-white transitions of the multi-edge map image.
제4항에 있어서, 상기 서브 클립의 오버레이 텍스트 영역을 검출하는 단계는
형태학적 연산을 통해 상기 오버레이 텍스트 영역을 보정하는 단계를 더 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
5. The method of claim 4, wherein detecting an overlay text area of the subclip comprises:
Further comprising the step of correcting the overlay text area through morphological operations. ≪ Desc / Clms Page number 19 >
제3항에 있어서, 상기 인물 정보 라인과 키워드 라인을 구분하는 단계는
상기 오버레이 텍스트 영역의 수평 투영 히스토그램을 획득하는 단계; 및
상기 수평 투영 히스토그램이 기 설정값 이상인 수평 라인들 중에서 첫 번째 수평 라인은 인물 정보 라인으로, 나머지 수평라인은 키워드 라인으로 구분하는 단계를 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
4. The method of claim 3, wherein the step of distinguishing the character information line from the keyword line comprises:
Obtaining a horizontal projection histogram of the overlay text area; And
The method comprising the steps of: dividing a first horizontal line among the horizontal lines having the horizontal projection histogram equal to or greater than a predetermined value into a character information line and a remaining horizontal line into a keyword line; .
제6항에 있어서, 상기 수평 투영 히스토그램을 획득하는 단계는
상기 뉴스 인터뷰 영상의 하위 영역에 위치하는 상기 오버레이 텍스트 영역에 대해서만 수평 투영 히스토그램을 획득하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
7. The method of claim 6, wherein obtaining the horizontal projection histogram comprises:
And a horizontal projection histogram is acquired only for the overlay text area located in a lower area of the news interview image.
제3항에 있어서, 상기 인물 정보 텍스트와 키워드 텍스트 각각을 추출하는 단계는
OCR(Optical Character Recognition)을 통해 상기 인물 정보 라인과 상기 키워드 라인 각각의 텍스트를 추출하는 단계; 및
상기 텍스트 추출 결과에 대한 객체명 인식 동작을 수행하여 인터뷰 대상자의 인물 정보와 인터뷰 내용에 대한 키워드를 각각 추출하는 단계를 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
4. The method of claim 3, wherein the step of extracting the character information text and the keyword text comprises:
Extracting text of each of the character information line and the keyword line through OCR (Optical Character Recognition); And
And extracting keywords of the person information and the interview contents of the interviewee by performing an object name recognition operation on the text extraction result.
제1항에 있어서, 상기 인물 인덱싱 테이블을 생성하는 단계는
상기 인터뷰 대상자의 인물 정보를 기반으로 인터넷 정보 검색을 수행하고, 인터넷 정보 검색 결과를 상기 인물 인덱싱 테이블에 추가 저장하는 단계를 더 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
2. The method of claim 1, wherein generating the person indexing table comprises:
Further comprising: performing Internet information search based on the person information of the person to be interviewed, and further storing an Internet information search result in the person indexing table.
제1항에 있어서, 상기 인물 인덱싱 테이블을 생성하는 단계는
상기 뉴스 인터뷰 영상과 상기 인물 인덱싱 테이블을 데이터베이스에 함께 저장하는 단계를 더 포함하는 것을 특징으로 하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법.
2. The method of claim 1, wherein generating the person indexing table comprises:
Further comprising the step of storing the news interview image and the person indexing table together in a database.
뉴스 인터뷰 영상에서 오버레이 텍스트가 포함된 서브 클립만을 추출하는 서브 클립 추출부;
상기 서브 클립의 오버레이 텍스트 영역에서 인터뷰 대상자의 인물 정보 텍스트 및 키워드 텍스트를 추출하는 텍스트 추출부;
상기 서브 클립에서 상기 인터뷰 대상자의 얼굴 섬네일 이미지를 추출하는 얼굴 섬네일 추출부; 및
상기 인터뷰 대상자의 인물 정보 텍스트, 키워드 텍스트, 및 얼굴 섬네일을 기반으로 인물 인덱싱 테이블을 생성하는 인물 인덱싱 테이블 생성부를 포함하는 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 장치.
A sub clip extracting unit for extracting only subclips including the overlay text in the news interview image;
A text extraction unit for extracting a person information text and a keyword text of an interviewee in an overlay text area of the sub clip;
A face thumbnail extracting unit for extracting a face thumbnail image of the interviewee from the sub clip; And
And a person indexing table generating unit for generating a person indexing table based on the person information text, the keyword text, and the face thumbnail of the person to be interviewed.
KR1020170002366A 2017-01-06 2017-01-06 Method and apparatus for person indexing based on the overlay text of the news interview video KR101911613B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170002366A KR101911613B1 (en) 2017-01-06 2017-01-06 Method and apparatus for person indexing based on the overlay text of the news interview video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170002366A KR101911613B1 (en) 2017-01-06 2017-01-06 Method and apparatus for person indexing based on the overlay text of the news interview video

Publications (2)

Publication Number Publication Date
KR20180081303A KR20180081303A (en) 2018-07-16
KR101911613B1 true KR101911613B1 (en) 2018-10-24

Family

ID=63048302

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170002366A KR101911613B1 (en) 2017-01-06 2017-01-06 Method and apparatus for person indexing based on the overlay text of the news interview video

Country Status (1)

Country Link
KR (1) KR101911613B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651322B (en) * 2020-12-22 2024-05-24 北京眼神智能科技有限公司 Cheek shielding detection method and device and electronic equipment

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101658413B1 (en) 2009-09-22 2016-09-22 삼성전자주식회사 Apparatus and method for extracting character information in a motion picture

Also Published As

Publication number Publication date
KR20180081303A (en) 2018-07-16

Similar Documents

Publication Publication Date Title
JP4271878B2 (en) Character search method and apparatus in video, and character search processing program
CN106254933B (en) Subtitle extraction method and device
Xi et al. A video text detection and recognition system
EP2041678B1 (en) Recognizing text in images
Yang et al. Lecture video indexing and analysis using video ocr technology
EP2471025B1 (en) A method and system for preprocessing the region of video containing text
US20080095442A1 (en) Detection and Modification of Text in a Image
JP2008154200A (en) Apparatus and method for detecting caption of video
CN111931775A (en) Method, system, computer device and storage medium for automatically acquiring news headlines
CN110287375B (en) Method and device for determining video tag and server
CN110796140B (en) Subtitle detection method and device
CN103514271A (en) Method and device for providing thumbnail image corresponding to webpage content
Tuna et al. Indexing and keyword search to ease navigation in lecture videos
CN115131804A (en) Document identification method and device, electronic equipment and computer readable storage medium
US20150356353A1 (en) Method for identifying objects in an audiovisual document and corresponding device
CN113361462B (en) Method and device for video processing and caption detection model
CN113435438B (en) Image and subtitle fused video screen plate extraction and video segmentation method
JP2006260570A (en) Image forming device
KR101911613B1 (en) Method and apparatus for person indexing based on the overlay text of the news interview video
US9224069B2 (en) Program, method and apparatus for accumulating images that have associated text information
Ghorpade et al. Extracting text from video
CN111079777B (en) Page positioning-based click-to-read method and electronic equipment
CN112818984B (en) Title generation method, device, electronic equipment and storage medium
JP4270118B2 (en) Semantic label assigning method, apparatus and program for video scene
JP2008004116A (en) Method and device for retrieving character in video

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant