KR100473944B1 - Text detecting method for digital image signal - Google Patents

Text detecting method for digital image signal Download PDF

Info

Publication number
KR100473944B1
KR100473944B1 KR10-2001-0060925A KR20010060925A KR100473944B1 KR 100473944 B1 KR100473944 B1 KR 100473944B1 KR 20010060925 A KR20010060925 A KR 20010060925A KR 100473944 B1 KR100473944 B1 KR 100473944B1
Authority
KR
South Korea
Prior art keywords
text
area
text area
candidate region
region
Prior art date
Application number
KR10-2001-0060925A
Other languages
Korean (ko)
Other versions
KR20030027572A (en
Inventor
최영우
윤경로
유재신
김주민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-2001-0060925A priority Critical patent/KR100473944B1/en
Publication of KR20030027572A publication Critical patent/KR20030027572A/en
Application granted granted Critical
Publication of KR100473944B1 publication Critical patent/KR100473944B1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명에 따른 디지털 영상신호의 텍스트 추출방법은, DCT 블록의 에지 밀도를 참조하여, 에지 에너지가 높은 블록을 텍스트 후보 영역으로 추출하는 단계와; 상기 추출된 텍스트 후보 영역에 대하여, 모폴로지를 이용하여 블록들을 병합하고, 노이즈 블록을 제거하는 텍스트 후보 영역 병합단계와; 상기 병합된 텍스트 후보 영역에 대하여, 텍스트 영역인지의 여부를 검증하는 텍스트 후보 영역 검증단계; 및 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정하는 텍스트 영역 설정단계; 를 포함한다.According to another aspect of the present invention, there is provided a method of extracting a text of a digital video signal, comprising: extracting a block having a high edge energy into a text candidate region by referring to an edge density of a DCT block; Merging blocks using a morphology for the extracted text candidate region and removing a noise block; A text candidate area verification step of verifying whether or not the merged text candidate area is a text area; And a text area setting step of determining a text area with respect to the verified text area by using an edge characteristic of a text area border portion. It includes.

여기서, 상기 텍스트 후보 영역에 대한 검증단계에 있어, 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출하여 텍스트 후보 영역에 대한 검증을 수행한다.Here, in the verifying of the text candidate region, the text candidate region is verified by detecting information about the difference in the horizontal edge size generated by the space between the texts.

또한, 상기 텍스트 후보 영역에 대한 검증단계에 있어서, 텍스트 영역은 일정 시간 동안 연속적으로 표시되는 특성을 이용하여, 인접 프레임 간에 변화가 발생되는 영역은 텍스트 후보 영역에서 제외시키며, 상기 텍스트 후보 영역이 일정 시간 연속적으로 표시되는 것에 대한 정보를 획득함에 있어, P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 연속적인 표시여부를 판단하고, 비부호화 매크로 블록 타입의 분포가 적은 영역은 텍스트 후보 영역에서 제외시킨다.Also, in the verifying of the text candidate area, the text area is continuously displayed for a predetermined time so that a region where a change occurs between adjacent frames is excluded from the text candidate area, and the text candidate area is constant. In obtaining the information about the time-continuous display, it is determined whether the continuous display is performed by referring to the distribution information of the unsigned macroblock type of the P frame, and the area having a low distribution of the unsigned macroblock type is selected from the text candidate area. Exclude.

Description

디지털 영상신호의 텍스트 추출방법{Text detecting method for digital image signal}Text detecting method for digital image signal

본 발명은 디지털 영상신호의 텍스트 추출방법에 관한 것으로서, 특히 압축된 동영상에 대한 복원과정 없이 참조하여 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 디지털 영상신호의 텍스트 추출방법에 관한 것이다.The present invention relates to a text extraction method of a digital video signal, and in particular, extracts a text candidate region by referring to a compressed video without reconstruction and verifies the text candidate region by using structural, spatial and temporal characteristics of the text. The present invention relates to a text extraction method of a digital video signal capable of accurately extracting a text area from a compressed video.

오늘날 컴퓨터, 압축기술, 저장매체, 고속 통신기술의 발달로 인한 멀티미디어 정보화 시대에서, 대표적인 멀티미디어 중의 하나인 디지털 비디오는 교육, 오락 등을 비롯한 각종 응용 분야에서 중요한 부분을 차지하고 있다. 이에 따라, 방대한 양의 디지털 비디오 영상을 빠르고 효과적으로 검색하기 위해 비디오 자막의 추출, 인식 및 색인에 관한 연구가 계속 진행되고 있다.In today's multimedia information age due to the development of computers, compression technologies, storage media, and high-speed communication technologies, digital video, one of the representative multimedia, plays an important part in various applications such as education, entertainment, and the like. Accordingly, researches on extracting, recognizing, and indexing video subtitles are continuously conducted to quickly and effectively search a large amount of digital video images.

비디오 영상에 포함되어 있는 텍스트는 비디오의 내용을 함축적으로 표현하고 있기 때문에, 이 텍스트를 정확하게 인식할 수 있다면, 이러한 텍스트 정보는 비디오의 색인 및 검색에 중요하게 사용될 수 있다. 또한, 비디오 텍스트는 동/정지 영상과 음성, 음향 정보에서 표현하고 있지 않는 내용도 포함하는 경우가 많이 있어서, 그 효용성이 크다.Since the text included in the video image implicitly expresses the content of the video, if the text can be correctly recognized, this text information can be important for indexing and searching the video. In addition, video texts often include contents not represented by moving / still images, audio, and sound information, and thus have great utility.

텍스트 추출에 관련된 연구를 살펴보면, 압축 영상에서 압축을 풀지 않고 텍스트 추출을 처리하는 연구와, 비압축 영상 또는 압축 영상에서 압축을 풀어서 텍스트 추출을 처리하는 연구로 나누어 살펴 볼 수 있다.The researches related to text extraction can be divided into a study of processing text extraction without decompression from compressed images and a study of processing text extraction by decompressing from uncompressed or compressed images.

비압축 영상 및 압축을 푼 영상에 대해서는 연결 요소나 명암도의 차이, 그리고 각 실험 영상의 사전 지식 정보 등을 이용하여 텍스트 추출이 처리된다. 그러나 압축된 영상에 대해서는, 압축된 영상을 복원한 후에 텍스트 추출이 수행되기 때문에, 압축영상에서 텍스트 추출을 바로 수행하는 방법에 비해 상대적으로 텍스트 추출에 대한 처리시간이 많이 걸리는 단점이 있다. 따라서, 최근에는 압축된 영상에서 압축을 풀지 않은 상태로 텍스트를 추출하는 방법에 대한 연구가 활발하게 진행되고 있다.For the uncompressed and uncompressed images, text extraction is processed using the difference in connection elements, contrast, and prior knowledge of each experimental image. However, since the text extraction is performed after reconstructing the compressed image, the compressed image takes a relatively long time to process text extraction compared to a method of directly extracting the text from the compressed image. Therefore, recently, research on a method of extracting a text from the compressed image without decompression has been actively conducted.

한편, MPEG(Moving Picture Expert Group) 압축은 낮은 비트율의 압축을 위해서 연속적인 프레임들 사이의 공간적, 시간적 중복성을 이용한다. 전형적인 MPEG 비디오 시퀀스의 구조는, 도 1에 나타낸 바와 같이, 픽쳐 그룹(GOP:Group Of Picture)들로 이루어져 있으며, 각 GOP들은 I 프레임으로부터 시작하여 몇 개의 P, B 프레임들로 이루어진다. Moving picture expert group (MPEG) compression, on the other hand, uses spatial and temporal redundancy between successive frames for low bit rate compression. The structure of a typical MPEG video sequence, as shown in FIG. 1, consists of group of pictures (GOP), each GOP consisting of several P, B frames starting from an I frame.

여기서, I 프레임은 공간적인 중복성을 이용하기 위해서 블록단위의 DCT(Discrete Cosine Transform)를 이용하여 압축된다. 그리고, P, B 프레임은 시간적인 중복성을 이용하기 위한 프레임들이다. 이때, P 프레임은 이전 I 프레임 또는 P 프레임으로부터 예측되어 압축되며, B 프레임은 이전 I 프레임 또는 P 프레임과 B 프레임 이후의 I 프레임 또는 P 프레임으로부터 양방향으로 예측되어 압축된다.In this case, the I frame is compressed using a discrete cosine transform (DCT) in units of blocks in order to use spatial redundancy. The P and B frames are frames for utilizing temporal redundancy. At this time, the P frame is predicted and compressed from the previous I frame or P frame, and the B frame is predicted and compressed in both directions from the previous I frame or P frame and the I frame or P frame after the B frame.

여기서, DCT 블록은 [수학식 1]과 같이 N x N 크기의 영상에 2 차원 DCT 변환을 행한 것이며, MPEG에서 N은 일반적으로 8을 사용한다.In this case, the DCT block is a two-dimensional DCT transformation on an N × N size image as shown in [Equation 1], and in MPEG, N generally uses 8.

여기서, {u, v = 0, 1, ..., N-1}, {Cu, Cv = 1/, u ≠0, v ≠0}, f(x,y)는 입력된 영상이며, Cuv(u=4, v=1)는 변환 후의 계수 값이다. 2 차원 DCT는 [수학식 1]과 같이 1 차원 DCT를 가로방향과 세로방향의 양방향으로 수행하여 변환한다. x 및 u는 가로방향, y 및 v는 세로방향을 각각 나타낸다.Where {u, v = 0, 1, ..., N-1}, {C u , C v = 1 / , u ≠ 0, v ≠ 0}, f (x, y) are input images, and C uv (u = 4, v = 1) is the coefficient value after conversion. Two-dimensional DCT converts by performing a one-dimensional DCT in both the horizontal and vertical directions as shown in [Equation 1]. x and u represent the horizontal direction, and y and v represent the vertical direction, respectively.

그리고, [수학식 1]의 코사인(cosine)과 같은 2 차원 기본 함수를 이용하여 표현하는 경우를 도 2와 같이, 특히 기저 영상이라고 한다. 도 2에서 알 수 있듯이, u=0, v=0의 기저 영상은 DC 성분을 나타내며, 그 외 영상은 AC 성분을 나타낸다. u가 클수록 높은 수평 주파수를, v가 클수록 높은 수직 주파수를 각각 나타낸다. 즉, 기저 영상에서 주파수별로 화상을 볼 수가 있다. [수학식 1]을 보면 변환 화상(Cuv)는 주파수마다 기저 영상의 계수이다. 따라서, DCT 블록의 AC 계수는 블록 영상의 에지 성분을 나타낸다. 이로부터, 텍스트 영역은 수직 또는 수평의 주파수 특징을 갖기 때문에 DCT 블록의 AC 계수는 텍스트를 검출하기 위한 특징으로 사용될 수 있다.In addition, a case of expressing using a two-dimensional basic function such as cosine (cosine) of Equation 1 is referred to as a base image, as shown in FIG. As can be seen in Figure 2, the base image of u = 0, v = 0 represents the DC component, other images represent the AC component. Larger u represents a higher horizontal frequency, and larger v represents a higher vertical frequency. That is, the image can be viewed for each frequency in the base image. In Equation 1, the converted image C uv is a coefficient of the base image for each frequency. Therefore, the AC coefficient of the DCT block represents the edge component of the block image. From this, the AC coefficient of the DCT block can be used as a feature for detecting text since the text area has vertical or horizontal frequency characteristics.

한편, 이와 같은 방법에 의하여 DCT 블록의 AC 계수를 참조하여 구해진 텍스트 영역에 대해서는, 그 설정된 텍스트 영역이 실제의 텍스트 영역인지의 여부를 확인하기 위한 검증과정이 필요하게 된다. 왜냐하면, 검출된 텍스트 영역 중에는 텍스트 영역이 아니지만, 에지 에너지가 높기 때문에 텍스트 영역으로 검출된 영역도 존재할 수 있기 때문이다.On the other hand, for the text area obtained by referring to the AC coefficient of the DCT block by this method, a verification process for confirming whether or not the set text area is the actual text area is required. This is because the detected text area is not a text area, but an area detected as the text area may exist because of the high edge energy.

본 발명은 상기와 같은 여건을 감안하여 창출된 것으로서, 압축된 동영상에 대한 복원과정 없이 참조하여 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 디지털 영상신호의 텍스트 추출방법을 제공함에 그 목적이 있다.The present invention was created in view of the above conditions, by extracting a text candidate region by referring to a compressed video without restoring the compressed video, and verifying the text candidate region by using structural, spatial and temporal characteristics of the text. It is an object of the present invention to provide a text extraction method of a digital video signal that can accurately extract a text area from a compressed video.

상기의 목적을 달성하기 위하여 본 발명에 따른 디지털 영상신호의 텍스트 추출방법은,In order to achieve the above object, a text extraction method of a digital video signal according to the present invention,

DCT 블록의 에지 밀도를 참조하여, 에지 에너지가 높은 블록을 텍스트 후보 영역으로 추출하는 단계와;Extracting a block having a high edge energy into a text candidate region by referring to an edge density of the DCT block;

상기 추출된 텍스트 후보 영역에 대하여, 모폴로지를 이용하여 블록들을 병합하고, 노이즈 블록을 제거하는 텍스트 후보 영역 병합단계와;Merging blocks using a morphology for the extracted text candidate region and removing a noise block;

상기 병합된 텍스트 후보 영역에 대하여, 텍스트 영역인지의 여부를 검증하는 텍스트 후보 영역 검증단계; 및A text candidate area verification step of verifying whether or not the merged text candidate area is a text area; And

상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정하는 텍스트 영역 설정단계; 를 포함하는 점에 그 특징이 있다.A text area setting step of determining a text area with respect to the verified text area by using an edge characteristic of a text area border portion; Its features are to include.

여기서, 상기 텍스트 후보 영역에 대한 검증단계에 있어, 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출하여 텍스트 후보 영역에 대한 검증을 수행하는 점에 그 특징이 있다.In the verification step for the text candidate region, the text candidate region is verified by detecting information about a difference in the horizontal edge size caused by the space between the texts.

또한, 상기 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출함에 있어, 텍스트 후보 영역의 각 라인에서 인접 블록간 수평 에지 크기가 소정 값 이상인 블록의 개수를 조사하고, 그 개수가 해당 라인의 일정 비율 이상이 되면 텍스트 후보 영역을 텍스트 라인으로 판단하는 점에 그 특징이 있다.Further, in detecting information on the difference in the horizontal edge size generated by the space between the texts, the number of blocks whose horizontal edge size between adjacent blocks is greater than or equal to a predetermined value in each line of the text candidate area is examined, and the number thereof. Is characterized by determining that the text candidate area is a text line when the ratio becomes equal to or greater than a predetermined ratio of the corresponding line.

또한, 상기 텍스트 후보 영역에 대한 검증단계에 있어서, 텍스트 영역은 일정 시간 동안 연속적으로 표시되는 특성을 이용하여, 인접 프레임 간에 변화가 발생되는 영역은 텍스트 후보 영역에서 제외시키는 점에 그 특징이 있다.Further, in the verification of the text candidate region, the text region is characterized by continually being displayed for a predetermined time so that a region where a change occurs between adjacent frames is excluded from the text candidate region.

또한, 상기 텍스트 후보 영역이 일정 시간 연속적으로 표시되는 것에 대한 정보를 획득함에 있어, P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 연속적인 표시여부를 판단하고, 비부호화 매크로 블록 타입의 분포가 적은 영역은 텍스트 후보 영역에서 제외시키는 점에 그 특징이 있다.Further, in obtaining information about the text candidate region being displayed continuously for a predetermined time, it is determined whether the text candidate region is continuously displayed by referring to distribution information of an unsigned macroblock type of a P frame, and distribution of an unsigned macroblock type. The smallest area is characterized by excluding from the text candidate area.

또한, 상기 P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 텍스트 후보 영역을 검증함에 있어, 매크로 블록의 움직임 벡터(motion vector) 정보를 참조하여, 특정 방향으로 일정하게 움직이는 텍스트 영역을 검출하며, 상기 특정 방향의 움직임 벡터는 수직 또는 수평 방향의 움직임 벡터인 점에 그 특징이 있다.Further, in verifying a text candidate region by referring to distribution information of an unsigned macroblock type of the P frame, the text region is constantly detected in a specific direction by referring to motion vector information of the macroblock. The characteristic feature is that the motion vector in the specific direction is a motion vector in the vertical or horizontal direction.

또한, 상기 P 프레임의 비부호화 매크로 블록 타입의 정보와, 매크로 블록의 움직임 벡터 정보를 참조하여 텍스트 영역을 검증함에 있어, P 프레임 내에서 비부호화 매크로 블록의 개수와 특정 방향에 대한 움직임 벡터(상, 하, 좌, 우 방향)의 비율을 참조하여 텍스트 영역을 검증하는 점에 그 특징이 있다.Further, in verifying a text area by referring to the information of the unencoded macroblock type of the P frame and the motion vector information of the macroblock, the number of unsigned macroblocks and the motion vector for a specific direction in the P frame (up The characteristic is that the text area is verified with reference to the ratio of (bottom, left, left, and right directions).

또한, 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수평 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수직방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 점에 그 특징이 있다.In addition, in determining the text area using the edge characteristics of the text area border portion, the blocks having the horizontal edge value of the text area border greater than or equal to a predetermined value are examined for the verified text area, and the number and length of the text area length are determined. If the ratio is greater than or equal to the set value, the feature is that the text area is set by extending the text area in the vertical direction.

또한, 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수직 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수평방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 점에 그 특징이 있다.In addition, in determining the text area using the edge characteristics of the text area border portion, the blocks having the vertical edge value of the text area border greater than or equal to a predetermined value are examined for the verified text area, and the number and length of the text area length are determined. If the ratio is greater than or equal to the set value, the feature is that the text area is set by extending the text area in the horizontal direction.

이와 같은 본 발명에 의하면, 압축된 동영상에 대한 복원과정 없이 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 장점이 있다.According to the present invention, the text candidate region is extracted without restoring the compressed video, and the text candidate region is verified by using the structural, spatial and temporal characteristics of the text, thereby accurately extracting the text region from the compressed video. There is an advantage to this.

일반적으로 텍스트 영역은 텍스트 라인들로 구성되는데, 텍스트 라인들은 동일한 방향으로 진행되며, 동일한 영역 내의 텍스트들은 동일한 크기의 텍스트 및 문자 사이의 간격을 갖는 구조적인 특징을 지닌다. 또한, 텍스트 영역은 영상 내에서 에지 밀도가 높은 특징과 일정 시간 이상 지속되는 특징을 갖는다. 본 발명에서는 이와 같은 구조적, 공간적, 시간적인 특징을 이용하여 압축된 동영상에서 텍스트를 추출하는 방법을 개시한다.In general, a text area consists of text lines. The text lines travel in the same direction, and texts in the same area have a structural feature with a space between text and characters of the same size. In addition, the text area has high edge density and lasts for a predetermined time in the image. The present invention discloses a method of extracting text from a compressed video using such structural, spatial and temporal features.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 3은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 의하여, 압축 동영상에서 텍스트가 추출되는 과정을 나타낸 순서도이다.3 is a flowchart illustrating a process of extracting text from a compressed video by the text extraction method of a digital video signal according to the present invention.

도 3을 참조하여 본 발명에 따른 디지털 영상신호의 텍스트 추출방법을 설명하면, 본 발명은 텍스트 영역 검출과정(단계 301)과, 텍스트 영역 병합과정(단계 302)과, 텍스트 영역 검증과정(단계 303) 및 텍스트 영역 설정과정(단계 304)을 거쳐 압축된 동영상으로부터 최종적인 텍스트를 추출한다.Referring to FIG. 3, a text extraction method of a digital video signal according to the present invention will be described. The present invention provides a text area detection process (step 301), a text area merging process (step 302), and a text area verification process (step 303). And the final text is extracted from the compressed video through the text area setting process (step 304).

먼저, 상기 단계 301의 텍스트 영역 검출과정에 대하여 살펴 보기로 한다. 여기서, 텍스트 영역의 검출이란 DCT 블록으로 이루어진 텍스트 후보 영역을 검출하는 것을 말한다.First, the text area detection process of step 301 will be described. Here, the detection of the text area refers to the detection of a text candidate area consisting of a DCT block.

본 발명에서는 I 프레임만을 대상으로 하여 압축된 상태에서 YDCT 블록들을 이용하였으며, 영상의 크기가 352 x 240일 때 DCT 블록은 44 x 30이 되었다. 따라서, 검출된 텍스트 영역은 DCT 블록들로 구성된 영역이 된다.In the present invention, YDCT blocks are used in a compressed state targeting only I frames, and when the size of an image is 352 x 240, the DCT block is 44 x 30. Thus, the detected text area becomes an area composed of DCT blocks.

이때, 텍스트 후보 영역을 검출하기 위해서 DCT 블록의 AC 계수 값으로부터 해석되는 특징을 이용하였다. 즉, 텍스트가 포함되어 있는 영역의 에지 밀도는 높게 나타나게 되는데, 이러한 특징은 DCT 블록의 AC 계수에 반영된다. 도 2를 참조하여 설명하면, u=0일 때의 AC 계수는 수직 에지 에너지를 나타내어 텍스트의 수직 에지 특성을 나타내며, v=0일 때의 AC 계수는 수평 에지 에너지를 나타내어 텍스트의 수평 에지 특성을 나타낸다.In this case, the feature interpreted from the AC coefficient value of the DCT block was used to detect the text candidate region. In other words, the edge density of the region containing the text is high, which is reflected in the AC coefficient of the DCT block. Referring to FIG. 2, the AC coefficient at u = 0 represents a vertical edge energy to represent vertical edge characteristics of the text, and the AC coefficient at v = 0 represents a horizontal edge energy to represent the horizontal edge characteristics of the text. Indicates.

따라서, 본 발명에서는 수직 에지 특성과 수평 에지 특성을 나타내는 AC 계수들의 합을 [수학식 2]와 같이 계산하여 DCT 블록의 에지 크기를 구하여 텍스트 후보 블록들을 검출하였다.Therefore, in the present invention, the sum of the AC coefficients representing the vertical edge characteristics and the horizontal edge characteristics is calculated as shown in [Equation 2] to obtain the edge size of the DCT block to detect the text candidate blocks.

여기서, Estr는 블록의 에지 크기의 합을 나타내며, Estr가 정해진 임계 값 이상인 경우에 텍스트 후보 블록으로 선정한다. 그리고, 1 ≤u ≤7, 1 ≤v ≤7과 같이 높은 주파수 성분도 포함시킨 이유는 자막 문자의 크기가 큰 경우에는 낮은 수평 또는 수직 주파수 성분이 강하게 나타나지만, 자막 문자의 크기가 작은 경우에는 높은 수평 또는 수직 주파수 성분을 갖기 때문이다.Here, E str represents the sum of the edge sizes of the blocks and is selected as a text candidate block when E str is equal to or larger than a predetermined threshold value. The reason for including high frequency components such as 1 ≦ u ≦ 7 and 1 ≦ v ≦ 7 is that low horizontal or vertical frequency components appear strongly when the size of the subtitle character is large, but high horizontal when the size of the subtitle character is small. Or because it has a vertical frequency component.

도 4는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역이 검출된 예를 나타낸 도면이다. 도 4에서 보는 바와 같이, 에지가 많이 분포된 영역을 추출하여 텍스트 후보 블록을 검출하면, 추출하고자 하는 텍스트와 함께 텍스트가 아닌 다른 영역도 포함되어 추출되는 것을 알 수 있다.4 is a diagram illustrating an example in which a text candidate region is detected in a compressed video in the text extraction method of a digital video signal according to the present invention. As shown in FIG. 4, when the text candidate block is detected by extracting an area having many edges, it can be seen that an area other than text is included together with the text to be extracted.

이에 따라, 상기 단계 301에서 추출된 텍스트 후보 영역에 모폴로지를 이용하여 블록들을 병합하고 노이즈 블록을 제거하는 텍스트 영역 병합 과정을 수행한다(단계 302).Accordingly, a text region merging process is performed to merge blocks using a morphology to the text candidate region extracted in step 301 and to remove a noise block (step 302).

검출된 텍스트 후보 영역들은 텍스트 사이의 간격이 크거나, 상대적으로 블록의 에지 크기가 작아서 떨어져 있는 영역들에 대한 병합이 필요하며, 또한 검출된 텍스트 후보 영역에서 노이즈 블록들을 제거할 필요성이 요구된다. 따라서, 텍스트 후보 블록으로 이루어진 텍스트 영역을 병합하고, 잡음 블록들을 제거하기 위하여 모폴로지를 적용한다.The detected text candidate regions need to be merged with the spaces separated from each other due to the large spacing between the texts or the relatively small edge size of the block, and also the need to remove noise blocks from the detected text candidate regions. Thus, a text area consisting of text candidate blocks is merged and a morphology is applied to remove noise blocks.

이때, 모폴로지는 1*3 메트릭스를 이용하여 클로징(closing)을 적용한 후에 오프닝(opening)을 적용한다. 이러한 모폴로지 적용 이후에는 텍스트 후보 영역들은 병합되고 노이즈 블록들은 제거될 수 있음을 도 5를 통하여 확인할 수 있다. 도 5는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 모폴로지를 적용하여 텍스트 후보 영역을 병합한 예를 나타낸 도면이다.In this case, the morphology is applied after closing using 1 * 3 matrix and then opening. After applying the morphology, it can be seen from FIG. 5 that the text candidate regions are merged and the noise blocks can be removed. 5 is a diagram illustrating an example in which a text candidate region is merged by applying a morphology to a text candidate region in a compressed video in the method of extracting text from a digital video signal according to the present invention.

그리고, 도 5에 나타낸 바와 같이, 가로 방향의 직선성분이 강한 경우에는 한 라인으로 구성된 텍스트 후보 영역이 검출된다. 그런데, 보통 자막의 문자 높이는 소정의 픽셀(예컨대 8 픽셀) 이상으로 구성되기 때문에, 자막 영역은 최소 영역의 블록(예컨대 8*8 블록)을 차지한다. 따라서, 한 개의 라인으로 구성된 후보 영역은 텍스트 영역이 아닌 것으로 판단하여 도 6에 나타낸 바와 같이 삭제하도록 한다. 도 6은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 한 라인으로 구성된 텍스트 후보 영역을 삭제한 예를 나타낸 도면이다.As shown in Fig. 5, when the horizontal component is strong, a text candidate area composed of one line is detected. By the way, since the character height of a subtitle usually consists of more than a predetermined pixel (for example, 8 pixels), the subtitle area occupies a block of the minimum area (for example, 8 * 8 blocks). Therefore, it is determined that the candidate area composed of one line is not a text area and is deleted as shown in FIG. FIG. 6 is a diagram illustrating an example in which a text candidate region having one line is deleted from a text candidate region in a compressed video in the text extraction method of a digital video signal according to the present invention.

그런데, 이와 같은 과정을 통하여 검출된 텍스트 후보 영역 중에는 텍스트 영역이 아니지만, 에지 에너지가 높기 때문에 검출된 영역들도 존재할 수 있다. 따라서, 이러한 영역들을 제거하기 위하여 텍스트 영역에 대한 검증과정이 필요하게 된다(단계 303). 이와 같은 텍스트 영역에 대한 검증과정으로써, 라인 단위의 히스토그램 검증과, P 프레임의 매크로 블록 타입을 이용한 검증을 사용하였다.However, the text candidate areas detected through the above process are not text areas, but the detected areas may exist because of high edge energy. Thus, verification of the text area is necessary to remove these areas (step 303). As the verification process for the text area, the histogram verification by line and the verification using the macro block type of the P frame were used.

여기서, 라인 단위의 히스토그램 검증은, 텍스트 라인이 갖는 구조적인 특징에 기반하여 인접 블록간 수평 에지 크기 차가 임계 값 이상인 블록들의 히스토그램을 이용한다. 그리고, P 프레임의 매크로 블록 타입을 이용한 검증은, 텍스트 프레임은 일정 시간 동안 지속되어 여러 프레임에 나타난다는 특징을 이용하여 후보 텍스트 영역 내에 비부호화 매크로 블록 타입 또는 특정 방향을 갖는 매크로 블록 타입의 분포를 이용하는 것이다. 따라서, 고정된 텍스트 영역뿐만 아니라 움직임이 있는 텍스트 영역도 검출할 수 있다.Here, the histogram verification on a line basis uses histograms of blocks whose horizontal edge size difference between adjacent blocks is greater than or equal to a threshold based on a structural feature of the text line. In addition, the verification using the macroblock type of the P frame uses a feature that the text frame lasts for a predetermined time and appears in several frames, thereby determining the distribution of an unsigned macroblock type or a macroblock type having a specific direction in the candidate text area. It is to use. Therefore, not only the fixed text area but also the moving text area can be detected.

그러면, 먼저 도 7 및 도 8을 참조하여 라인단위 히스토그램을 이용한 검증과정에 대하여 설명해 보기로 한다. 도 7은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증을 수식적으로 나타낸 도면이고, 도 8은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증에 의하여 텍스트 후보를 검증한 예를 나타낸 도면이다.Next, the verification process using the line-by-line histogram will be described first with reference to FIGS. 7 and 8. FIG. 7 is a diagram for mathematically illustrating verification using a line unit histogram in the text extraction method of a digital video signal according to the present invention, and FIG. 8 is a line unit in the text extraction method of a digital video signal according to the present invention. A diagram showing an example of verifying a text candidate by verifying using a histogram.

라인 단위 히스토그램을 이용한 검증방법은 도 7에 나타낸 바와 같이, 텍스트 영역의 각 라인에서 인접 블록간 수평 에지 크기의 차이가 임계치 이상인 블록의 개수를 조사하고, 그 개수가 해당 라인의 일정한 비율 이상이 되면 텍스트 라인으로 결정하며, 일정 비율 이하가 되면 텍스트 라인이 아닌 것으로 판정하여 그 라인을 삭제하는 것이다.In the verification method using a line-by-line histogram, as shown in FIG. 7, when the difference in the horizontal edge size between adjacent blocks in each line of the text area is greater than or equal to a threshold, the number of blocks is greater than or equal to a certain ratio of the corresponding line. If it is determined as a text line, and it is below a certain ratio, it is determined that it is not a text line and the line is deleted.

이때, 수평 에지 크기 차를 이용한 이유는, 가로 직선 성분이 강한 라인은 인접 블록간 수평 에지 크기 차가 작은 특징 때문에 쉽게 제거할 수 있고, 또한 텍스트 사이의 공간이 갖는 특징을 충분히 반영할 수 있다는 것이다. 도 8에 나타낸 바와 같이, 이러한 블록의 수평 에지 크기 차이를 기반으로 한 라인 단위의 검증이 유용함을 확인할 수 있다.In this case, the reason for using the horizontal edge size difference is that a line having a strong horizontal straight line component can be easily removed due to a small horizontal edge size difference between adjacent blocks, and can sufficiently reflect a feature of space between texts. As shown in Figure 8, it can be seen that the verification of the line unit based on the horizontal edge size difference of this block is useful.

이제, P 프레임의 매크로 블록 타입 정보를 이용한 검증과정에 대하여 살펴보기로 한다. 텍스트 영역은 일정 시간 동안에 존재하기 때문에, 텍스트 영역의 한가지 검증 방법으로서 P 프레임의 매크로 블록 타입을 이용하여 검증을 수행할 수 있다. 만일, I 프레임에 텍스트가 존재하고 바로 다음 P 프레임의 동일한 위치에 텍스트가 존재하면, 텍스트 영역의 매크로 블록 타입은 비부호화 매크로 블록 타입이 많이 분포하게 된다. 따라서, 도 9에 나타낸 바와 같이, P 프레임의 매크로 블록 타입의 분포 정도를 이용하여 텍스트 영역을 검증할 수 있다.Now, a verification process using macro block type information of a P frame will be described. Since the text area exists for a certain time, verification can be performed using a macro block type of a P frame as one verification method of the text area. If the text exists in the I frame and the text exists at the same position of the next P frame, the macroblock type of the text area may have many unsigned macroblock types. Therefore, as shown in FIG. 9, the text area can be verified using the degree of distribution of the macroblock type of the P frame.

그러나, 도 10에 나타낸 바와 같이, 비부호화 매크로 블록 타입 정보만을 이용할 경우에, 움직임을 갖는 텍스트 영역은 비부호화 매크로 블록이 분포하지 않기 때문에, 이런 상황에서는 텍스트 영역이 없는 것으로 판단되는 오류가 발생된다. 도 10에 나타낸 예는 텍스트 영역이 위로 스크롤 이동되는 경우에 대하여 설명한 것이다.However, as shown in Fig. 10, when only the unsigned macroblock type information is used, an unsigned macroblock is not distributed in the moving text area, so an error that is determined to be absent in this situation occurs. . The example illustrated in FIG. 10 has been described for the case where the text area is scrolled upward.

따라서, 이러한 단점을 보완하기 위하여 전방향 매크로 블록중 수직 방향, 또는 수평 방향의 움직임 벡터(motion vector)를 갖는 전방향 참조 매크로 블록 타입 정보도 이용한다. 이러한 특정 방향 성분을 갖는 매크로 블록을 이용하는 이유는 움직임이 있는 텍스트 영역의 경우 수직 또는 수평 방향으로 일정하게 움직이기 때문이다. 도 11은 비부호화 매크로 블록 및 특정 방향(상하, 좌우)의 움직임 벡터를 갖는 매크로 블록을 함께 이용한 검증방법의 예를 나타낸 것이며, 이러한 특징을 이용하여 움직임 텍스트 영역을 추출할 수 있음을 확인할 수 있다.Accordingly, in order to compensate for this disadvantage, omnidirectional reference macroblock type information having a motion vector in a vertical direction or a horizontal direction among omnidirectional macroblocks is also used. The reason for using the macro block having this specific direction component is that the moving text area is constantly moving in the vertical or horizontal direction. 11 illustrates an example of a verification method using an unsigned macro block and a macro block having a motion vector in a specific direction (up, down, left, and right), and it can be seen that a motion text area can be extracted using such a feature. .

그러나, 카메라 동작(팬, 틸트)이 발생했을 경우에는 P 프레임의 많은 매크로 블록들이 특정 방형(상하, 좌우)의 움직임 벡터를 갖는 전방향 참조 매크로 블록이 되기 때문에 자연 영상에서 높은 에지 에너지 특성을 갖는 영역들을 잘못 검출하는 오류가 발생할 수도 있다. 이런 문제점을 해결하기 위해, 도 12에 나타낸 바와 같이, P 프레임 내에서 비부호화 매크로 블록의 개수와 특정 방향들에 대한 비율을 이용한 검증 방법을 이용하도록 한다.However, when a camera motion (pan, tilt) occurs, many macroblocks of a P frame become omnidirectional reference macroblocks with motion vectors of a specific rectangle (up, down, left, and right), and thus have high edge energy characteristics in a natural image. Errors may also occur that incorrectly detect areas. In order to solve this problem, as shown in FIG. 12, a verification method using a number of unsigned macroblocks and a ratio with respect to specific directions in a P frame is used.

도 12에서, TRn은 I 프레임에서 검출된 텍스트 영역이며, n은 I 프레임 내의 텍스트 영역들 중 임의의 텍스트 영역을 나타낸다. 그리고, NotCodedMBn은 n 번째 영역에서 비부호화 매크로 블록 타입의 개수를 나타내며, LeftMBn, RightMBn, UpMBn, DownMBn은 각각 n 번째 영역에서 전방향 매크로 블록 중에서 움직임 방향 성분이 수평(좌, 우), 수직(위, 아래)인 매크로 블록 타입의 개수이다.In FIG. 12, TR n is the text area detected in the I frame, and n represents any text area of the text areas in the I frame. In addition, NotCodedMBn represents the number of unsigned macroblock types in the nth region, and LeftMBn, RightMBn, UpMBn, and DownMBn represent the horizontal (left, right) and vertical (up) motion components among omnidirectional macroblocks in the nth region, respectively. Is the number of macro block types

그리고, Rn은 n 영역에서 매크로 블록 타입의 비율이며, PR은 P 프레임 전체 영역에 대한 매크로 블록들의 비율을 나타낸다. 또한, 프레임의 텍스트 영역들 중 하나 이상이 비부호화 매크로 블록 타입에 의해 텍스트 영역으로 검증되면, 이 프레임에서 움직임 텍스트 영역이 없는 것으로 판단하고, 이 프레임에서는 비부호화 매크로 블록 타입 정보만을 이용한다. Rn is the ratio of the macroblock type in the n region, and PR is the ratio of the macroblocks with respect to the entire P frame. Further, if at least one of the text areas of the frame is verified as a text area by an unsigned macro block type, it is determined that there is no moving text area in this frame, and only the unsigned macro block type information is used in this frame.

따라서, 영역 내에서 비부호화 매크로 블록 또는 특정 방향 성분을 갖는 매크로 블록 분포의 비율을 이용했을 때의 오류 발생을 줄일 수 있게 되며, 이는 도 13을 통하여 확인할 수 있다. 도 13(a)는 본 발명에 따른 방법에 의하여 수행된 텍스트 후보 영역에 대한 검증결과이며, 도 13(b)는 텍스트 영역 내의 임의의 매크로 블록 타입 분포 비율만을 이용한 검증결과를 나타낸 것이다.Therefore, it is possible to reduce the occurrence of an error when using the ratio of the uncoded macroblock or the macroblock distribution having a specific direction component in the region, which can be confirmed through FIG. FIG. 13 (a) is a verification result of the text candidate area performed by the method according to the present invention, and FIG. 13 (b) shows a verification result using only an arbitrary macroblock type distribution ratio in the text area.

한편, 상기 단계 303에서 텍스트 영역 검증이 수행된 후에, 텍스트 영역 설정과정을 수행한다(단계 304). 이는 검증이 끝난 텍스트 영역에 바운딩 박스( bounding box)를 씌우고 텍스트 영역의 위치를 파악하는 과정이다. 또한, 도 14에 나타낸 바와 같이, 경우에 따라서는 텍스트 영역을 수직, 수평 방향으로 확장시킨다. Meanwhile, after the text area verification is performed in step 303, the text area setting process is performed (step 304). This is a process of placing a bounding box on the verified text area and determining the position of the text area. As shown in Fig. 14, in some cases, the text area is extended in the vertical and horizontal directions.

이때, 텍스트 영역을 수직 방향으로 확장하기 위해서는 수평 에지 크기가 임계값 이상이 되는 블록들을 조사하고, 그 개수와 영역 길이의 비율이 임계 값 이상인 경우에 확장을 수행한다. 여기서, 수평 에지 크기를 사용한 이유는 텍스트 영역의 위, 아래에서는 수평 에지가 큰 블록들이 많이 존재하며 또한 뉴스 영상에서 텍스트 영역의 배경에 직사각형의 배경이 존재하는 경우도 있기 때문이다. At this time, in order to expand the text area in the vertical direction, the blocks whose horizontal edge size is greater than or equal to the threshold value are examined, and expansion is performed when the ratio of the number and area length is greater than or equal to the threshold value. Here, the horizontal edge size is used because there are many blocks having large horizontal edges above and below the text area, and there may be a rectangular background in the background of the text area in the news image.

그리고, 수평 방향으로 영역을 확장하기 위해서는 블록의 수직 에지 크기가 임계값 이상인 블록의 개수와 영역 높이의 비율이 임계값 이상이면 확장을 수행한다. 수직 에지 크기 차를 이용한 이유는 텍스트 영역의 좌우 끝은 수직 에지가 큰 블록들이 분포하기 때문이다.In order to extend the region in the horizontal direction, the expansion is performed when the ratio of the number of blocks having the vertical edge size of the block greater than or equal to the threshold and the height of the region is greater than or equal to the threshold. The reason for using the vertical edge size difference is that blocks having large vertical edges are distributed at the left and right ends of the text area.

이상의 설명에서와 같이 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 의하면, 압축된 동영상에 대한 복원과정 없이 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 장점이 있다.As described above, according to the text extraction method of the digital video signal according to the present invention, the text candidate region is extracted without restoring the compressed video, and the text candidate region is extracted using the structural, spatial and temporal characteristics of the text. By verifying, the text area can be extracted accurately from the compressed video.

도 1은 일반적인 MPEG 비디오 시퀀스의 구조를 나타낸 도면.1 is a diagram showing the structure of a typical MPEG video sequence.

도 2는 일반적인 DCT의 기저 영상을 나타낸 도면.2 is a diagram showing a base image of a general DCT.

도 3은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 의하여, 압축 동영상에서 텍스트가 추출되는 과정을 나타낸 순서도.3 is a flowchart illustrating a process of extracting text from a compressed video by a text extraction method of a digital video signal according to the present invention.

도 4는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역이 검출된 예를 나타낸 도면.4 is a diagram illustrating an example in which a text candidate region is detected in a compressed video in the text extraction method of a digital video signal according to the present invention.

도 5는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 모폴로지를 적용하여 텍스트 후보 영역을 병합한 예를 나타낸 도면.5 is a diagram illustrating an example in which a text candidate region is merged by applying a morphology to a text candidate region in a compressed video in the method of extracting text from a digital video signal according to the present invention.

도 6은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 한 라인으로 구성된 텍스트 후보 영역을 삭제한 예를 나타낸 도면.FIG. 6 is a diagram illustrating an example of deleting a text candidate area composed of one line from a text candidate area in a compressed video in the text extraction method of a digital video signal according to the present invention; FIG.

도 7은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증을 수식적으로 나타낸 도면.FIG. 7 is a diagram for mathematically illustrating verification using a line histogram in a text extraction method of a digital video signal according to the present invention; FIG.

도 8은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증에 의하여 텍스트 후보 영역을 검증한 예를 나타낸 도면.8 is a diagram illustrating an example of verifying a text candidate region by verifying using a histogram on a line basis in the text extraction method of a digital video signal according to the present invention.

도 9는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, P 프레임의 매크로 블록 타입의 정보를 이용하여 텍스트 후보 영역을 검증한 예를 나타낸 도면.9 is a view showing an example of verifying a text candidate region using information of a macro block type of a P frame in a text extraction method of a digital video signal according to the present invention;

도 10은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 비부호화 매크로 블록만을 이용하여 텍스트 후보 영역을 검증하는 경우에, 움직임 텍스트에 대한 검출 오류의 예를 나타낸 도면.FIG. 10 is a diagram illustrating an example of a detection error for a moving text when verifying a text candidate region using only an uncoded macro block in the text extraction method of a digital video signal according to the present invention. FIG.

도 11은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 움직임 벡터 및 비부호화 매크로 블록을 고려하여 텍스트 후보 영역을 검증하는 경우에, 움직임 텍스트가 검출되는 예를 나타낸 도면.FIG. 11 illustrates an example in which a motion text is detected when a text candidate region is verified in consideration of a motion vector and an unencoded macroblock in the text extraction method of a digital video signal according to the present invention. FIG.

도 12는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 움직임 벡터 및 비부호화 매크로 블록이 고려된 텍스트 후보 영역에 대한 처리 알고리즘을 수식적으로 나타낸 도면.12 is a diagram schematically illustrating a processing algorithm for a text candidate region in which a motion vector and an uncoded macro block are considered in the text extraction method of a digital video signal according to the present invention.

도 13은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 비부호화 매크로 블록 또는 특정 방향 성분을 갖는 매크로 블록 분포의 비율을 이용한 경우의 텍스트 후보 영역에 대한 검증 결과를 나타낸 도면.FIG. 13 is a diagram illustrating a verification result of a text candidate region when a ratio of an uncoded macroblock or a macroblock distribution having a specific direction component is used in a text extraction method of a digital video signal according to the present invention. FIG.

도 14는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 텍스트 영역의 수직, 또는 수평 방향으로 텍스트 영역이 확장된 예를 나타낸 도면.FIG. 14 is a view illustrating an example in which a text area is extended in a vertical or horizontal direction of the text area in the text extraction method of a digital video signal according to the present invention; FIG.

Claims (10)

삭제delete 삭제delete 삭제delete DCT 블록의 에지 밀도를 참조하여, 에지 에너지가 높은 블록을 텍스트 후보 영역으로 추출하는 단계와;Extracting a block having a high edge energy into a text candidate region by referring to an edge density of the DCT block; 상기 추출된 텍스트 후보 영역에 대하여, 모폴로지를 이용하여 블록들을 병합하고, 노이즈 블록을 제거하는 텍스트 후보 영역 병합단계와;Merging blocks using a morphology for the extracted text candidate region and removing a noise block; 상기 병합된 텍스트 후보 영역에 대하여, P 프레임 내에서 비부호화 매크로 블록의 개수와 특정 방향에 대한 움직임 벡터의 비율을 참조하여 텍스트 영역인지의 여부를 검증하는 텍스트 후보 영역 검증단계; 및A text candidate region verification step of verifying whether or not the merged text candidate region is a text region with reference to a ratio of the number of uncoded macroblocks and a motion vector in a specific direction in a P frame; And 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정하는 텍스트 영역 설정단계; 를 포함하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법. A text area setting step of determining a text area with respect to the verified text area by using an edge characteristic of a text area border portion; Text extraction method of a digital video signal comprising a. 제 4항에 있어서,The method of claim 4, wherein 상기 텍스트 후보 영역 검증단계에 있어, 상기 P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 텍스트 후보 영역의 연속적인 표시여부를 판단하고, 비부호화 매크로 블록 타입의 분포가 적은 영역은 텍스트 후보 영역에서 제외시키는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법. In the text candidate region verification step, it is determined whether the text candidate region is continuously displayed with reference to the distribution information of the unsigned macroblock type of the P frame, and the region having a small distribution of the unsigned macroblock type is a text candidate region. Text extraction method of a digital video signal, characterized in that excluded from. 제 5항에 있어서,The method of claim 5, 상기 P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 텍스트 후보 영역을 검증함에 있어, 매크로 블록의 움직임 벡터(motion vector) 정보를 참조하여, 특정 방향으로 일정하게 움직이는 영역을 텍스트 영역으로 검출하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.In verifying a text candidate region by referring to distribution information of an unsigned macroblock type of the P frame, by referring to motion vector information of a macroblock, an area which is constantly moving in a specific direction is detected as a text region. Text extraction method of a digital video signal, characterized in that. 제 4항에 있어서, The method of claim 4 , 상기 특정 방향의 움직임 벡터는 수직 또는 수평 방향의 움직임 벡터인 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.And the motion vector in the specific direction is a motion vector in the vertical or horizontal direction. 삭제delete 제 4항에 있어서,The method of claim 4, wherein 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수평 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수직방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.In determining the text area using the edge characteristics of the text area border portion, the blocks having the horizontal edge value of the text area border greater than or equal to a predetermined value are examined and the ratio of the number and the text area length to the verified text area. When the value is greater than or equal to the set value, the text extraction method of the digital video signal, characterized in that the text area is set by extending the text area in the vertical direction. 제 4항에 있어서,The method of claim 4, wherein 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수직 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수평방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.In determining the text area using the edge characteristics of the text area border portion, the blocks having the vertical edge value of the text area border greater than or equal to a predetermined value are examined and the ratio of the number and the text area length to the verified text area. If the value is greater than or equal to the set value, the text extraction method of the digital video signal, characterized in that the text area is set by extending the text area in the horizontal direction.
KR10-2001-0060925A 2001-09-29 2001-09-29 Text detecting method for digital image signal KR100473944B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0060925A KR100473944B1 (en) 2001-09-29 2001-09-29 Text detecting method for digital image signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0060925A KR100473944B1 (en) 2001-09-29 2001-09-29 Text detecting method for digital image signal

Publications (2)

Publication Number Publication Date
KR20030027572A KR20030027572A (en) 2003-04-07
KR100473944B1 true KR100473944B1 (en) 2005-03-08

Family

ID=29563079

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0060925A KR100473944B1 (en) 2001-09-29 2001-09-29 Text detecting method for digital image signal

Country Status (1)

Country Link
KR (1) KR100473944B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140134906A (en) * 2013-05-15 2014-11-25 주식회사 칩스앤미디어 An apparatus for motion compensated frame interpolation of non-moving caption region and a method thereof
KR20140134907A (en) * 2013-05-15 2014-11-25 주식회사 칩스앤미디어 Apparatus and method for Motion Compensated Interpolation of moving caption region

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100845662B1 (en) * 2007-02-23 2008-07-10 한국정보통신대학교 산학협력단 Method and apparatus for extracting text region from videos
US20110022449A1 (en) * 2007-04-27 2011-01-27 The Regents Of The University Of California Multimedia User Interfaces For Documents And Associated Digital Videos
KR100916996B1 (en) * 2007-08-24 2009-09-14 (주)다윈텍 Image processing apparatus and method, lcd overdrive system using the same

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.22, No.4, pp.385-392(2000.4. ) *
Proceeding of the International Conference on Pattern recognition, Vol.4, pp.409-412(2000.9.3-7) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140134906A (en) * 2013-05-15 2014-11-25 주식회사 칩스앤미디어 An apparatus for motion compensated frame interpolation of non-moving caption region and a method thereof
KR20140134907A (en) * 2013-05-15 2014-11-25 주식회사 칩스앤미디어 Apparatus and method for Motion Compensated Interpolation of moving caption region
KR101581433B1 (en) * 2013-05-15 2015-12-30 주식회사 칩스앤미디어 Apparatus and method for Motion Compensated Interpolation of moving caption region
KR101590083B1 (en) 2013-05-15 2016-01-29 주식회사 칩스앤미디어 An apparatus for motion compensated frame interpolation of non-moving caption region and a method thereof

Also Published As

Publication number Publication date
KR20030027572A (en) 2003-04-07

Similar Documents

Publication Publication Date Title
US6185329B1 (en) Automatic caption text detection and processing for digital images
Shen et al. A fast algorithm for video parsing using MPEG compressed sequences
Zhang et al. Video parsing using compressed data
US6058210A (en) Using encoding cost data for segmentation of compressed image sequences
US7085420B2 (en) Text detection in continuous tone image segments
KR100865248B1 (en) Detecting subtitles in a video signal
JP5662023B2 (en) Method and apparatus for detecting banding artifacts in digital video content, and program storage device having application program
JP4377887B2 (en) Video dividing device
US6501794B1 (en) System and related methods for analyzing compressed media content
US7248782B2 (en) Image retrieving apparatus, image retrieving method and recording medium for recording program to implement the image retrieving method
JP3733161B2 (en) Image processing apparatus and method
US6823011B2 (en) Unusual event detection using motion activity descriptors
US20200304797A1 (en) Cluster refinement for texture synthesis in video coding
US7295711B1 (en) Method and apparatus for merging related image segments
EP1091317B1 (en) System and apparatus for inserting electronic watermark data
JP5503507B2 (en) Character area detection apparatus and program thereof
KR100473944B1 (en) Text detecting method for digital image signal
JP3655110B2 (en) Video processing method and apparatus, and recording medium recording video processing procedure
KR101195978B1 (en) Method and apparatus of processing object included in video
US20050002569A1 (en) Method and apparatus for processing images
KR101347933B1 (en) Collation weighting information extracting device
US5371603A (en) Digital video signal reproducing apparatus
KR100473952B1 (en) Image enhancement method for detected text domain of digital image signal
JPH11239363A (en) Device for extracting character area in video image, its method and medium for recording its method
KR100281685B1 (en) Moving object segmentation device and method of compressed image

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee