KR100272090B1 - 영상데이터에서 캡션을 검출하는 방법 및 장치 - Google Patents

영상데이터에서 캡션을 검출하는 방법 및 장치 Download PDF

Info

Publication number
KR100272090B1
KR100272090B1 KR1019970020966A KR19970020966A KR100272090B1 KR 100272090 B1 KR100272090 B1 KR 100272090B1 KR 1019970020966 A KR1019970020966 A KR 1019970020966A KR 19970020966 A KR19970020966 A KR 19970020966A KR 100272090 B1 KR100272090 B1 KR 100272090B1
Authority
KR
South Korea
Prior art keywords
caption
image
image data
frame
pixel
Prior art date
Application number
KR1019970020966A
Other languages
English (en)
Other versions
KR970078662A (ko
Inventor
타까시 사또
유끼노부 타니구찌
야수히로 니꾸라
아끼히토 아꾸쯔
요시노부 토노무라
히로시 하마다
Original Assignee
미야즈 쥰이치로
니뽄 덴신 덴와 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP13189896A external-priority patent/JPH09322173A/ja
Priority claimed from JP8262826A external-priority patent/JPH10108092A/ja
Priority claimed from JP26412396A external-priority patent/JP3386102B2/ja
Priority claimed from JP26601996A external-priority patent/JP3412737B2/ja
Application filed by 미야즈 쥰이치로, 니뽄 덴신 덴와 가부시키가이샤 filed Critical 미야즈 쥰이치로
Publication of KR970078662A publication Critical patent/KR970078662A/ko
Application granted granted Critical
Publication of KR100272090B1 publication Critical patent/KR100272090B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/27Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving both synthetic and natural picture components, e.g. synthetic natural hybrid coding [SNHC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

부호화된 영상 데이터의 프레임 화상으로의 복호화를 요구하지 않고, 움직임 보상과 예측 부호화 조합을 사용하여 부호화된 부호화 영상 데이터로부터 캡션을 검출할 수 있는 방법 및 장치에 관한 것으로, 영상 데이터의 각 픽셀/블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되었는지의 여부를 판단하고, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭이 시간 방향과 공간 방향에 집중되어 있는 영상 데이터의 영역을 캡션 영역으로 검출하고, 상기 검출은 설정된 계수 구간 동안 프레임의 각 픽셀/블럭 위치에서, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭의 출현 빈도를 계수하고, 계수된 출현 빈도와 설정된 임계값을 비교하여 구현된다.

Description

영상데이터에서 캡션을 검출하는 방법 및 장치
이 발명은 영상 데이터에서 캡션(caption)을 검출하기 위한 방법 및 장치에 관한 것으로써, 더욱 상세하게 말하자면 부호화된 영상 캡션 검출에 의해 영상 검색(video retrieval), 영상 목차 표시 디스플레이, 영상 디스플레이뿐만 아니라 부호화된 영상 데이터에서 캡션을 검출할 수 있도록 하는 방법 및 장치에 관한 것이다.
영상 검색이나 영상 편집과 같은 영상 목차를 근거로 하는 처리 동작을 실행하기 위하여 영상에서 영상 목차를 표시하는 정보를 추출하기 위한 방법에 의해, 영상에서 캡션 영역을 추출하기 위한 방법이 알려져 있다. 여기에서, 일반적으로 캡션은, 이중 인화 기술(superimpose technique)과 같은 기술을 사용하여 영상에 나타나도록 만들어진 텍스트(text), 포토 그래픽(photographs), 심볼(symbols), 패턴(patterns), 마킹(markings), 아이콘(icons) 등을 포함하고, 캡션 영역(caption region)은 픽셀(pixel) 또는 상기와 같은 캡션을 포함하는 픽셀의 집합이다.
영상에서 자동으로 캡션 영역을 추출하기 위한 종래에 알려진 방법은, 캡션영역이 배경(background) 영역에 비해 상대적으로 고명암(high intensity)을 갖고 있기 때문에 캡션 영역의 가장자리(edge)는 쉽게 검출될 수 있다는 특성을 이용하는 방법(R. Lienhart et al. : “Automatic text recognition in digitaa videos”, Image and Video Processing IV, Proc. SPIE 2660-2-. January 1996 참조)과, 캡션부분이 캡션 부분의 둘레에서 커다란 명암 차이를 갖고 있다는 사실을 이용하는 방법(M.A. Smith et al.: “Video Skimming for Quick Browing based on Audio and Image Characterization”, Carnegie Mellon University, technical Report CMU-CS-95-186, July 1995 참고)이 있다.
상기 Lienhart et al.에서는, 분할(split)이나 병합 알고리즘(mergealgorithm)에 의해 프레임 화상(frame image)이 분할되고 영역의 크기와 프레임 사이의 영역의 움직임에 따라 캡션 영역이 검출된다. 상기 방법에서, 상기 분할은 캡션이 동일한 픽셀값(pixel value)을 가지므로 명암 차이에 따라서 캡션과 배경이 효과적으로 분리된다는 사실을 이용하여 이루어진다.
상기 Smith et al.에서는, 화상의 가장자리를 구하거나 평활(smoothing)하는 것에 의해 캡션 영역이 검출된다. 이 방법은 캡션이 배경에 비하여 상대적으로 높은 콘트라스트(contrast)를 가지므로 캡션의 가장자리가 뚜렷해지는 사실을 이용한다.
상기와 같이 이미 알려져 있는 종래의 방법중에서 후자의 방법에 대한 변경으로, 배경의 변동(fluctuation)에 대한 영향을 감소하는 반면 캡션을 강조하기 위하여 캡션을 포함하는 몇 개의 프레임을 평균화하여 캡션을 추출할 때 정밀도를 향상시키기 위한 제안이 있다.
상기 언급된 프레임간 상관관계(correlation)를 사용하여 부호화된 영상에서 캡션영역을 추출하기 위하여, 상기에 언급한 것과 같은 종래에 알려진 방법들 중에 어느 하나가 사용된다면, 일단 원래의 프레임 화상을 재저장하기 위하여 완전하게 부호화된 영상을 복호화하는 것이 필요하다. 그 다음 재저장된 원래의 프레임 화상에 대하여 상기에 언급된 것과 같은 추출 처리 동작을 실행한다. 그러나, 이러한 방법은 캡션 영역을 추출하기 위한 처리 동작 외에 화상을 복 호화하기 위한 처리 동작을 요구하므로, 처리 비용이 고가이고 고속의 캡션 영역 추출이 어려워진다.
더욱이, 부호화된 영상에서 다수개의 프레임을 평균화하기 위한 종래의 방법을 적용하는 경우에는, 다수의 프레임 화상 모두가 복호화된 후에 평균처리를 실행할 필요성이 있으므로, 처리 비용이 더욱더 비싸진다.
그런데, 종래의 영상에서 캡션을 검출하기 위한 방법은 하나의 프레임 화상에서 여러 프레임 화상까지 산출되는 국부적인 특징들에 기초한다.
예를 들면, 캡션 영역 둘레에서 커다란 명암 차이가 있고, 캡션이 나타나는 프레임을 찾고, 캡션이 나타나는 프레임 전/후에 존재하는 프레임에 대한 명암과 칼라의 차이점을 산출하여 캡션이 검출되는 것을 이용하는 종래의 방법이 있다.
또한, 캡션 영역이 배경 영역에 비해 상대적으로 높은 명암을 갖고 있기 때문에 캡션 영역의 가장자리를 쉽게 검출할 수 있고, 화상의 유도적인 첫 번째 순서와 수직 방향과 수평 방향으로 에지화상을 투영함으로써 캡션이 검출되는 것을 이용한 종래의 방법이 있다.
또한, 캡션이 변화가 없고 높은 명암을 가지고, 두 프레임 사이에서 움직임이 없고 명암이 설정된 값과 같거나 더 큰 명암을 갖고 있는 부분을 산출하여 텍스트 부분이 검출되는 것을 이용한 종래의 방법이 있다. (일본 특허 출원 출원 번호, 제8-33145(1996)호 참고) ).
이와 같이, 영상에서 캡션을 검출하기 위한 종래의 방법은 하나 또는 두 개의 프레임 화상과 같은 시간-방향(time-wise) 할당 정보를 사용한다. 이러한 이유때문에, 상기와 같은 종래의 방법은 변화가 없고, 높은 명암을 갖으며, 큰 고주파성분을 갖는 특성과 같은, 캡션과 유사한 특성을 갖지만 캡션과는 다른 화상화된 피사체(object)가 캡션으로 잘못 검출될 수 있는 문제가 발생한다.
한편, 긴 시간 구간 동안 영상에 나타나는 캡션은 화상 분해(image degradation), 노이즈 등의 영향으로 흐릿한 윤곽이나 일시적인 움직임이 발생할때 캡션으로 올바르게 검출되지 않는 문제가 발생한다.
결과에 따라서, 하나의 계속적인 캡션이 다수의 시간 섹션 동안 다수회 다른 캡션으로 잘못 검출되는 문제가 발생한다.
즉, 종래 방법은 임의 짧은 시간 섹션에 따라 캡션의 존재를 판단하므로, 캡션과 다른 화상화된 피사체를 캡션으로 잘못 검출하거나 또는 노이즈 때문에 잘못하여 캡션을 못보고 넘어가는 것을 피하기 어렵다.
결과적으로, 영상에서 캡션 목록을 얻기 위하여 상기한 것과 같은 종래의 방법중 어떤 방법이 사용될 때, 캡션과는 다른 화상화된 피사체가 잘못 디스플레이되거나 또는 동일한 캡션이 한 번 이상 오버랩 되는 경우가 발생한다.
근래, 텔레비젼 방송, 디지탈 위성 방송, 레이져 디스크, 디지탈 영상 디스크, 주문형 영상(video-on-demand) 등과 같은 영상 분야(video distributions)에서의 증가하는 활동에 관련하여, 영상 데이터의 융통적인 처리요구가 증가하고 있다.
그 때문에, 영상으로의 랜덤 액세스와(또는) 영상 검색을 할 수 있도록 다양한 종류의 내용이나 인덱스 정보를 영상에 부착하는 기술 제안이 이루어지고 있다. 영상을 특정화하는 정보로서, 텍스트, 포토그래픽, 심볼, 패턴, 마킹, 아이콘 등을 일반적으로 포함하는 캡션이 영상의 뜻 또는 내용을 반영하기 때문에 중요하다. 이러한 이유 때문에, 영상에서 자동으로 캡션을 검출하기 위한 방법이 제안되어 왔다.
예를 들면, 상기한 일본 특허 출원 출원번호 제8-3314567(1996)호에, 캡션이 변화가 없고 고명암을 가지고 있다는 사실을 이용하고, 두 프레임 사이에서의 움직임이 없고 설정된 값보다 크거나 같은 명암을 갖는 부분을 구하여 텍스트 부분이 검출되는 종래의 방법이 기재되어 있다.
또한, 캡션이 뚜렷한 가장자리를 갖고 고명암을 갖는다는 특성을 이용하여, 가장자리의 뚜렷함과 프레임 화상의 명암 모두가 설정된 임계값보다 큰 블럭을 산출하여 텍스트 부분이 검출되는 종래의 방법이 있다(일본 특허 출원 출원번호 제8-212231(1996)호 참조).
이와 같이, 영상에서 캡션을 검출하기 위한 종래의 방법은 캡션 가장자리의 뚜렷함 또는 명암과 같은 캡션 자체의 특성을 이용하여 캡션을 검출함으로 캡션사이의 절환 시점(switching point)을 검출하는 능력이 낮아진다.
예를 들면, 상기한 일본 특허 출원 출원 번호 제8-212231호에는, 프레임 화상은 블럭으로 분할되어 있고, 블럭에 대응하는 텍스트 영역 데이터가 제공된다. 텍스트 영역 데이터에서, 캡션이 존재하는 각 블럭에 대해서는 “1”의 값이 저장되고, 캡션이 존재하는 않은 각 블럭에 대해서는 “0”의 값이 저장된다.
그 다음에 두 프레임 화상 사이의 텍스트 영역 데이터에서 다른 값을 가지고있는 블럭의 갯수가 계수되고, 상기 계수된 값이 설정수를 초과하는 경우에, 캡션이 다른 캡션으로 절환된 것으로 판단한다.
그러나, 이러한 종래의 방법에서, 해당 영역에서 파손(break)이나 변화가 발생하지 않고 캡션이 절환될 때 텍스트 영역 데이터에도 변화가 발생하지 않음으로, 상기와 같은 경우에 캡션 사이의 절환 시점을 검출하는 것이 여전히 불가능하다.
거대한 양의 영상 데이터에서 요구되는 영상 부분을 검출하기 위한 목적으로 영상 목차를 기초로 하는 다양한 영상 검색 방법이 존재하고, 다양한 방법중, 영상에 포함된 캡션을 검색키(retrieval key)로 사용하는 방법은, 캡션이 명확한 의미를 가지는 캐릭터(character)와 심볼에 의해 형성되기 때문에 보다 많은 관심을 끌어왔으며, 캡션의 위치에서 전형적으로 나타나는 패턴이 있기 때문에 캡션은 영상의 내용을 상당히 잘 반영할 수 있다.
종래의 영상 검색 방법에서는, 영상에서 캡션 영역의 화상을 추출하고, 캡션에 포함된 캐릭터를 인식하고, 검색키와 인식된 캐릭터 정보를 비교하여, 요구되는 영상 부분이 검색된다. 이러한 종래의 영상 수정 방법에서, 화상의 유도적인 첫 번째 순서에 따라서 가장자리의 추출이 실행되고, 에지 화상은 수직 방향과 수평 방향으로 투영되고, 캡션이 존재하는 직사각형의 영역이 추출된다. 그 다음에, 특징 벡터 인식 기술을 사용하여 캐릭터 인식이 실행된다.
그러나, 상기에 언급한 종래의 영상 수정 방법에서, 캡션이 나타나는 위치에 근거한 영상 검색을 실현하는 것이 불가능하다. 더욱이, 캐릭터 인식을 사용하여 캡션을 해석하기 위해서는, 고가의 캐릭터 인식 처리 동작을 실행해야 하는 필요성이 있다. 게다가, 캐릭터 인식 비율이 매우 높지 않기 때문에 검색 효율 또한 매우 좋지 않다. 또한, 캐릭터 인식 목표 화상이 고화질을 가지도록 요구됨으로, 고화질로 캡션 영역의 화상을 추출하기 위해서도 역시 고가의 처리 비용이 요구된다.
근래에, 영상에서의 화면 경계를 기초로 하여 영상 목차 표시를 생성하고 표시하여, 영상 목차 표시를 생성하고 표시하기 위한 방법이 종래에 알려져 있다. 예를 들면, 일본 특허 출원 공개 번호 제4-237284(1992)호는 화면 경계가 영상에서 프레임간 상관을 사용함으로써 검출되고 영상 목차 표시로 이용되는 시스템을 개시하고 있다.
게다가, 상기와 같은 종래의 시스템에서, 영상은 검출되는 화면 경계에 따라서 화면(shot)이라고 불리는 화면 섹션으로 분할되고, 각 화면의 대표적인 프레임 화상이 영상 목차 표시 디스플레이(video content indication display)로 디스플레이 된다.
그러나, 이러한 종래의 영상 목차 표시 디스플레이 시스템은 생성된 영상 목차 표시가 지나치게 미세한 입상(granularity)임으로, 영상은 화면 경계에 따라서 처리되기 때문에 영상이 너무나 작은 조각으로 절단된다.
한편, M. Mills et at.,: “A Magnifier Tool for Video Data”, Proceedings of CHI‘92, ACM, pp. 93-98, May 1992에 윤곽의 일시적인 분석에 따라서 계층적으로 일정한 시간 간격에 따라 영상을 샘플링(sampling)하여 구해지는 화상은, 영상 디스플레이상에 병렬로 디스플레이 되는 방법을 개시하고 있다. 상기 방법에서, 조잡하게 샘플링된 화상이 먼저 디스플레이 되고, 특정한 구간을 보다 상세하게 보이고자 하는 경우에는, 특정한 구간이 좀더 세밀하게 샘플링된 화상으로 디스플레이 된다.
그러나, 이러한 종래의 영상 목차 표시 디스플레이 방법은 다수개의 화면이 조잡한 영상 섹션으로 집적되는 경우에, 집적된 조잡한 영상 섹션이 실질적으로 영상 내용을 잘 반영한다고는 장담할 수 없는 문제가 발생한다.
그런데, 캡션을 포함하는 이미 사용된 영상 데이터를 재사용하여 영상을 디스플레이하고 편집할 때에, 원래 캡션의 내용이 새롭게 의도되는 영상의 사용에는 적합하지 않기 때문에, 원래의 캡션은 더 이상 바람직하지 않는 경우가 있을 수 있다. 그러한 경우에, 영상에 포함된 캡션을 모호하게 하여 영상을 디스플레이 하여, 재유용성(재사용할 수 있는 능력)을 증가시킬 수 있다.
영상의 일부를 모호하게 하기 위한 종래의 방법은, 영상 모자이크(tessellation), 평활, 픽셀 교환, 노이즈 적용 등과 같은 다양한 영상 처리 방법을 포함한다. 이러한 영상 처리 방법들에서, 영상 처리 동작은 모호하게 하고자 하는 부분을 특정지는 것에 의해 실행된다. 결과적으로, 캡션을 모호하게 하여 영상을 디스플레이하기 위해서는, 캡션 영역을 지정하여 영상 처리 동작을 실행하는 것이 필요하다.
그러나, 영상의 일부를 모호하게 하기 위해, 상기와 같은 종래에 알려진 방법중 하나를 사용하여 캡션을 모호하게 하고 영상을 디스플레이하기 위해서는, 사용자가 모호하게 되는 캡션 영역을 일일이 수동으로 지정해야 함으로, 이러한 이유 때문에, 캡션을 모호하게 하여 영상의 재유용성을 증가시키기 위해 요구되는 작업이 상당히 지겹게 되고, 그러한 지겨운 작업을 고속으로 처리하는 것이 어려워진다.
이 발명의 목적은 상기한 종래의 문제점을 해결하기 위한 것으로서, 부호화된 영상 데이터를 프레임 화상으로 복호화하지 않고, 고속, 저가의 처리 비용으로 프레임간 상관을 사용하여 부호화된 영상 데이타에서 캡션을 검출할 수 있는 방법 및 장치를 제공하기 위한 것이다.
이 발명의 다른 목적은, 글로벌 처리 장치로 노이즈의 영향을 제거하고 국부적인 검출 결과를 병합하여, 정확하게 영상 데이터에서 캡션을 검출할 수 있는 방법 및 장치를 제공하기 위한 것이다.
이 발명의 또 다른 목적은, 캡션 사이의 절환 시점을 검출할 수 있는 영상데이터에서 캡션을 검출하는 방법 및 장치를 제공하기 위한 것이다.
이 발명의 또 다른 목적은, 화상 필드상의 캡션의 공간적 위치를 검색키로 사용하여, 영상에 나타나는 캡션의 공간적 위치에 따라 저가의 처리 비용으로 영상검색이 실현될 수 있도록 하는 영상 데이터에서 캡션을 검출하는 방법 및 장치를 제공하기 위한 것이다.
이 발명의 또 다른 목적은, 지나치게 미세한 입상이지 않고, 영상 목차를 잘 반영하는 영상 목차 표시를 실행할 수 있는, 영상 데이터에서 캡션을 검출하는 방법 및 장치를 제공하기 위한 것이다.
이 발명의 또 다른 목적은, 영상을 디스플레이 하는 시간에 영상에 포함된 캡션을 자동으로 검출하고, 모호하게 할 수 있는 영상 데이터에서 캡션을 검출하는 방법 및 장치를 제공하기 위한 것이다.
제1도는 이 발명의 실시예에 따른 영상 데이터에서 캡션을 검출하는 방법에 의해 처리된 영상 데이터를 부호화하는데 사용될 수 있는 픽셀 부호화 종류를 판정하기 위한 방법의 동작 순서도이고,
제2도는 이 발명의 제1실시예에 따른 영상 데이터에서 캡션을 검출하는 방법의 제1예를 위한 동작 순서도이고,
제3도는 제2도의 처리 동작에서 계수 단계의 제1실현 방법을 위한 동작 순서도이고,
제4도는 제2도의 처리 동작에서 계수 단계의 제2실현 방법을 위한 동작 순서도이고,
제5도는 제2도의 처리 동작에서 계수 단계의 제3실현 방법을 위한 동작 순서도이고,
제6도는 제2도의 처리 동작에서 선택 단계의 제1실현 방법을 위한 동작 순서도이고,
제7도는 제2도의 처리 동작에서 계수 단계의 제2실현 방법을 위한 동작 순서도이고,
제8도는 제2도의 처리 동작에서 계수 단계의 제3실현 방법을 위한 동작 순서도이고,
제9도는 제2도의 처리 동작에서 계수 단계의 제4실현 방법을 위한 동작 순서도이고,
제10도는 이 발명의 제1실시예에 따른 영상 데이터에서 캡션을 검출하는 방법의 제2예를 위한 동작 순서도이고,
제11도는 이 발명의 제1실시예에 따른 영상 데이터에서 캡션을 검출하는 방법의 제3예를 위한 동작 순서도이고,
제12도는 이 발명의 제1실시예에 따른 영상 데이터에서 캡션을 검출하는 방법의 제4예를 위한 동작 순서도이고,
제13도는 이 발명의 제1실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 일예를 보여주는 블럭도이고,
제14도는 제13도의 장치에서 계수부의 상세한 구성을 보여주는 블럭도이고,
제15도는 제13도의 장치에서 선택부의 상세한 구성을 보여주는 블럭도이고,
제16도는 이 발명의 제2실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 구성을 나타내는 블럭도이고,
제17도는 제16도의 장치에서 사용되는 3-차원 버퍼를 설명하기 위한 도이고,
제18도는 제16도의 장치에서 캡션 후보(candidate) 픽셀 추출부의 구성을 보여주는 블럭도이고,
제19도는 제18도의 캡션 후보 픽셀 추출부에 사용된 투영 동작을 설명하기 위한 도이고,
제20도는 제16도의 장치에서 캡션 후보 픽셀 추출부의 다른 구성을 보여주는 블럭도이고,
제21도는 제16도의 장치에서 병합부에 의해 사용될 수 있는 확장(dilation)과 침식(erosion) 처리를 설명하기 위한 도이고,
제22도는 제16도의 장치에서 병합부의 구성을 보여주는 블럭도이고,
제23도는 이 발명의 제2실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 다른 예를 보여주는 블럭도이고,
제24도는 제23도의 장치에 의해 구해질 수 있는 대표적인 프레임의 타이밍을 설명하기 위한 도이고,
제25도는 제23도의 장치에서 판정부의 구성을 보여주는 블럭도이고,
제26(a)도는 제25도의 판정부에 라벨 정보를 관리하는데 사용되는 테이블 형식을보여주는 도이고,
제26(b)도는 제26(a)도의 테이블 형식에 사용되는 좌표값(coordinate value)을 설명하기위한 도이고,
제27도는 제25도의 판정부에 의해 산출될 수 있는 대표적인 프레임의 타이밍을 설명하기위한 도이고,
제28도는 이 발명의 제3실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 일예를 보여주는 블럭도이고,
제29도는 제28도의 장치에서 캡션 후보 화상 작성부의 구성을 보여주는 블럭도이고,
제30도는 이 발명의 제3실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 다른 예를 보여주는 블럭도이고,
제31도는 제30도의 장치에서 마스크 작성부의 구성을 보여주는 블럭도이고,
제32도는 제31도의 마스크 작성부에 의해 마스크를 작성하기 위한 처리 과정을 설명하기 위한 도이고,
제33도는 제30도의 장치에서 마스크 작성부의 다른 구성을 보여주는 블럭도이고,
제34도는 제28도 또는 제30도의 장치에서 판정부의 구성을 보여주는 블럭도이고,
제35도는 제34도의 판정부에서 비교 판정부의 구성을 보여주는 블럭도이고,
제36도는 제34도의 판정부에서 비교 판정부의 다른 구성을 보여주는 블럭도이고,
제37도는 이 발명의 제3실시예에 따른 영상 데이터에서 캡션을 검출하는 방법의 동작 순서도이고,
제38도는 제37도의 처리 방법에서 캡션 후보 화상 작성 단계의 동작 순서도이고,
제39도는 제37도의 처리 방법에서 다른 화상 작성 단계의 동작 순서도이고,
제40도는 제37도의 처리 방법에서 추출 단계의 동작 순서도이고,
제41도는 제37도의 처리 방법에서 판정 단계의 동작 순서도이고,
제42도는 이 발명의 제4실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 일 예를 보여주는 블럭도이고,
제43도는 이 발명의 제4실시예에서 사용될 수 있는 화상 필드에 캡션의 공간적 위치를 표현하기 위한 제1방법을 설명하기 위한 도이고,
제44(a)도와 제44(b)도는 이 발명의 제4실시예에서 사용될 수 있는 화상 필드에 캡션의 공간적 위치를 나타내기 위한 제2방법을 설명하기 위한 도이고,
제45(a)도와 제45(b)도는 이 발명의 제4실시예에서 사용될 수 있는 화상 필드에 캡션의 공간적 위치를 나타내기 위한 제3방법을 설명하기 위한 도이고,
제46도는 이 발명의 제4실시예에서 검색키로서 사용되기 위한 캡션 위치를 설명하기 위한 도이고,
제47도는 제42도의 장치에서 검색키 입력부의 구성의 일예를 보여주기 위한 블럭도이고,
제48도는 제47도의 검색키 입력부에서 입력된 검색키의 일예의 디스플레이를 보여 주는 도이고,
제49도는 제47도의 검색키 입력부에서 입력된 검색키의 다른예의 디스플레이를 보여 주는 도이고,
제50도는 제42도의 장치에서 선택부의 한에의 구성을 보여주는 블럭도이고,예
제51도는 제50도의 선택부에서 비교부에 사용될 수 있는 두 개의 비교 종류에 의해 구해지는 비교 결과를 요약하는 테이블이고,
제52도는 제42도의 장치에서 표시부에 의한 검색 결과의 디스플레이를 보여주는 도이고,
제53도는 이 발명의 제4실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 다른 예를 보여주는 블럭도이고,
제54도는 제53도의 장치에서 기록부(recoding unit)의 한예의 구성을 보여주는 블럭도이고,
제55도는 제53도의 장치에서 선택부의 일예의 구성을 보여주는 블럭도이고,
제56도는 제53도의 장치에서 표시부에 의한 검색 결과의 디스플레이를 보여주는 도이고,
제57도는 이 발명의 제5실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 예를 보여주는 블럭도이고,
제58도는 제57도의 장치에서 표시부에 의해 영상 목차 표시의 디스플레이를 보여주는 도이고,
제59도는 이 발명의 제5실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 다른 예를 보여주는 블럭도이고,
제60도는 제59도의 장치에서 표시부에 의한 영상 목차 표시의 디스플레이를 보여주는 도이고,
제61도는 제59도의 장치에서 표시부에 의한 영상 목차 표시의 다른디스플레이를 보여주는 도이고,
제62도는 제59도의 장치에서 표시부에 의한 영상 내용 표시의 또 다른 디스플레이를 보여주는 도이고,
제63도는 제57도 또는 제59도의 장치에서 분류부(classification unit)의 구성을 보여주는 블럭도이고,
제64도는 제63도의 분류부에서 각 비교기에 의해 사용되는 각 캡션 영역을 표시하기 위한 테이블을 보여주는 도이고,
제65도는 제57도 또는 제59도의 장치에서 영상 목차 표시 생성부(generation unit)의 구성을 보여주는 블럭도이고,
제66도는 제65도의 영상 목차 표시 생성부에서 논리적 산출부(calculation unit)의 구성을 보여주는 블럭도이고,
제67도는 제65도의 영상 목차 표시 생성부에서 논리적 산출부의 다른 구성을 보여 주는 블럭도이고,
제68도는 제67도의 논리적 산출부에 의해 논리적 산출 전후의 다양한 비트 시퀀스의 상태를 요약하는 테이블이고,
제69도는 제65도의 영상 목차 표시 생성부에서 논리적 산출부의 다른 구성을 보여주는 블럭도이고,
제70도는 제69도의 논리적 산출부에 의해 논리적 산출 전후의 다양한 비트 시퀀스의 상태를 요약하는 테이블이고,
제71도는 제65도의 영상 목차 표시 생성부에서 논리 산출부의 또 다른 구성을 보여주는 블럭도이고,
제72도는 제57도 또는 제59도의 장치에서 영상 목차 표시 생성부의 또 다른 구성을 보여주는 블럭도이고,
제73도는 이 발명의 제6실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 일 예를 보여주는 블럭도이고,
제74도는 이 발명의 제6실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 다른 예를 보여주는 블럭도이고,
제75도는 제73도 또는 제74도의 장치에 적합한 입력 영상 데이터를 산출하는 경우에 사용될 수 있는 MPEG 영상 데이터 복호화 장치의 구성을 보여주는 블럭도이고,
제76도는 이 발명의 제6실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 또 다른 예를 보여주는 블럭도이고,
제77도는 이 발명의 제6실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 또 다른 예를 보여주는 블럭도이다.
상기한 목적을 달성하기 위한 움직임 보상과 예측 부호화 조합을 사용하여 부호화된 영상 데이터로부터 캡션 영역을 검출하는 방법은,
영상 데이터내의 각 픽셀/블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되었는지의 여부를 판단하는 단계와;
상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭이 시간 방향과 공간 방향에 집중되어 있는 영상 데이터내의 영역을 캡션 영역으로 검출하는 단계를 포함하여 이루어진다.
상기한 목적을 달성하기 위한 움직임 보상과 예측 부호화 조합을 사용하여 부호화된 영상 데이터로부터 캡션 영역을 검출하는 장치의 구성은,
영상 데이터의 각 픽셀/블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되었는지의 여부를 판단하는 판단부와;
상기 판단부에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭이 시간 방향과 공간 방향에 집중되어 있는 영상 데이터의 영역을 캡션 영역으로 검출하는 검출부를 포함하여 이루어진다.
이하, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 이 발명을 용이하게 실시할 수 있는 가장 바람직한 실시예를 첨부된 도면을 참고로 하여 상세히 설명한다.
제1도∼제15도를 참고로 하여, 이 발명의 제1실시예를 상세하게 설명한다.
이하, 프레임간 상관을 사용하여 부호화된 영상 데이터의 한예로서, 입력데이터가 MPEG 구조에 따라 부호화된 영상 데이터의 종류로 주어지는 것으로 가정한다. 그러나, 이 발명은 단지 그러한 영상 데이타에 한정되지는 않고, 프레임간 상관을 사용하는 다른 부호화 구조에 의해 부호화되고, 부호화 종류가 한 픽셀씩 변경될 수 있는 영상 데이터에도 이 발명을 동일하게 적용하는 것도 가능하다.
이 발명의 명세서에서 픽쳐 요소(picture element) 또는 픽쳐 요소의 집합(픽쳐 요소 블럭)을 표현하기 위한 일반적인 용어로 픽셀(pixel)이란 용어를 사용한다. 결과적으로, 이하의 기재에서 픽셀에 관련된 어떠한 언급도, 일반적으로 픽셀의 블럭이나 픽셀의 집합에 대한 동일한 가치로서 해석되어야 한다.
또한, 이하, 픽셀은 H.261과 MPEG 구조에서 사용되는 것처럼 마크로-블럭의 종류로 표현되는 것으로 가정한다. 그러나, 이 발명은 그러한 픽셀의 표현에 한정되지는 않고, 다른 픽셀의 표현에 이 발명을 적용하는 것도 동일하게 가능하다.
MPEG에서, 영상 프레임은,
(1) 프레임간 상관을 사용하지 않고 단지 프레임 내의 상관을 사용하여 부호화되는 프레임과,
(2) 프레임간 상관을 사용하여 부호화되는 프레임을 포함한다.
또한, 영상 프레임(2)에서, 한 매크로 블럭씩 부호화하는 종류를 변경하는 것이 가능하다. 여기에서, 가능한 부호화의 종류는 다음의 기준에 따라 분류될 수 있다.
(a) 프레임간 상관을 사용하였는지의 여부,
(b) 움직임 보상(motion compensation)을 사용하였는지의 여부.
결과적으로 이러한 기준 (a)와 (b)에 따라 이용가능한 4개의 부호화 종류가 있다.
H.261과 MPEG 구조는 예측 부호화(predictive coding)와 움직이 보상 모두를 사용하는 것에 의해 특징화되고, 상기 부호화 구조의 이러한 특징은 이 발명의 실시예에 따른 영상 데이터에서 캡션을 검출하는 장치에서 나타난다(assume). 여기에서, 예측 부호화하는 임의 픽셀의 값이 근처 픽셀 값(프레임 내 예측 부호화로서 참조될 수 있는) 또는 다른 시간에서의 값(프레임간 예측 부호화로서 참조될 수 있는)의 형태로 표현되는 부호화 구조이다. 한편, 움직임 보상은 각 필드내 동일한 위치에서의 값분만 아니라 최소 차이(움직임 벡터에 의해 표현되는)를 갖는 주변위치에 대한 차이값(value of the differene)을 사용하는 프레임간 예측 부호화의 한 종류이다.
그런데, 이 발명의 실시예에 따른 영상 데이터에서 캡션을 검출하는 장치는 프레임간 상관을 사용하여 부호화되는 영상 데이터 사이에서, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되는 이러한 픽셀들은 시간-방향(time-wise), 공간-방향(space-wise) 모두 캡션 영역에 집중되는 경향이 있다는 것에 근거한다.
이러한 근거를 정당화하기 위한 이유는 다음에 설명한다.
첫 번째로, 픽셀의 부호화 종류를 판정할 경우 일반적으로 사용되는 방법과 특징값을 다음에 설명한다. H.261과 MPEG와 같은 프레임간 상관을 사용하는 부호화 구조에서, 다음 세가지 변화의 비교에 의해, 가능한 변화를 최소화하는 경우를 선택항 가장 유효한 픽셀 부호화 종류가 판정된다.
(1) 프레임 내의 픽셀 값의 변화(이하, var로 간략하게 표기한다).
(2) 움직임 보상을 사용하는 경우에 프레임 사이의 픽셀 값 차이의 변화(프레임간 움직임 보상 에러 변화)(이하, vmc로 간략하게 표기한다).
(3) 움직임 보상을 사용하지 않은 경우에 프레임 사이의 픽셀값 차이의 변화(프레임간 에러 변화)(이하, v0으로 간략하게 표기한다.)
이러한 방법은 제1도의 순서도를 참조로 하여 좀더 상세하게 설명한다.
첫 번째로, var과 vmc이 산출되고(단계 S21), 산출된 var과 vmc는 비교된다(단계 S22). var이 vmc보다 작을 때, 프레임간 상관을 사용하지 않고 부호화가 실행되고(단계 S23),반면에 그렇지 않으면 프레임간 상관을 사용하는 부호화가 실행된다. 프레임간 상관을 사용하는 경우에 vo가 산출되고(단계 S24), 산출된 vmc와 v0가 비교된다(단계 S25). v0가 상기 vmc보다 작을 때, 움직임 보상을 사용하지 않고 프레임간 상관을 이용하여 부호화하고(단계 S26), 그렇지 않을 경우엔 프레임간 상관관계와 움직임 보상을 사용하여 부호화가 실행된다(단계 S27). 상기 단계 S25에서, 1 보다 큰 바이어스 계수(α)가 vmc에 곱해지므로 vmc와 v0가 거의 같을 때 움직임 보상을 사용하지 않고 부호화하는 것에 좀더 높은 우선권이 주어진다. 이러한 이유는, 이러한 변화가 거의 같을 때, 픽셀값에 관련된 부호화 양은 같으므로 움직임 보상을 표시하기 위하여 부호화를 생략함으로써 유리하게 전체 부호화 양이 감소될 수 있다는 기대 때문이다.
다음, 캡션 영역과 다른 비 캡션 영역에서 픽셀에 적용되는 경향이 있는 부호화 종류로 간주하는 영상 픽셀의 특성을 설명한다.
캡션 영역에서의 픽셀들은 임의 시간 구간동안 어떠한 변화도 없이 같은 위치에서 움직이지 않은 특성을 가지고 있기 때문에, vmc가 작아지는 경향이 있다.
게다가, 캡션 영역의 픽셀들은 다른 비 캡션 영역의 픽셀과 비교할 때 상대적으로 높은 콘트라스트를 가지므로, var이 커지는 경향이 있다 결과적으로, var가 vmc보다 좀더 커지게 되고 그에 따라 프레임간 상관을 이용하는 부호화가 캡션 영역의 픽셀에 적용되는 경향이 있다.
게다가, 캡션 영역은 뚜렷한 가장자리를 가지고 캡션 영역의 주변에는 유사픽셀은 존재하지 않으므로, 프레임 사이의 픽셀에 대응하는 움직임 벡터는 “0”이 되거나 또는 매우 작은 값이 된다. 결과적으로, vmc와 vO가 거의 같아져서 움직임 보상을 사용하지 않고 부호화하는 방법이 캡션 영역의 픽셀에 적용되는 경향이 있다.
다른 비 캡션 영역에서 움직이는 부분에 대하여, vmc가 명백하게 vO보다 작아지게 됨으로, 움직임 보상을 사용하는 부호화가 그런 이동하는 부분에 존재하는 픽셀에 적용되는 경향이 있다.
한편, 정지한 배경과 같은 다른 비 캡션 영역에 존재하는 움직이지 않는 픽셀들은 디스플레이시의 깜박거림(flickering)과 노이즈 때문에 특히 “0”이 (non-zero) 아닌 v0를 갖는 경향이 있다. 그러나, 다른 비 캡션 영역에 있는 픽셀은 캡션 영역과 비교할 때 뚜렷한 가장자리를 가지고 있지 않고 상기 픽셀 주위에 유사 픽셀이 존재하므로, 실제로는 움직임이 없고 실제로 움직임이 없지만 움직임이 존재한다는 판단에 기초한 움직임 보상 때문에 v0 보다 vmc가 더 작아지는 경향이 비록 있을지라도 근처의 유사 픽셀에 대한 움직임을 가지고 있는 것으로 판단되는 경향이 있다. 이러한 이유 때문에, 움직임 보상을 사용하는 부호화는 다른 비캡션 영역에 존재하는 움직이지 않은 픽셀들에게 움직임 보상을 사용하는 부호화가 적용되는 경향이 있다.
캡션 영역에 대해서는, 디스플레이의 깜박거림과 노이즈 때문에 “0”이 아닌 v0를 갖는 유사한 경향이 있으나, 가장자리는 디스플레이의 깜박거림이나 노이즈에 대하여 여전히 뚜렷하고, 가장 자리 주위에는 유사 픽셀이 존재하지 않는다. 그러므로 움직임은 검출되지 않으므로 vmc는 v0와 거의 같은 매우 작은 값을 가지지 않는다. 결과적으로, 화면의 깜박거림과 노이즈가 비록 고려될 때에도, 여전히 움직임 보상을 사응하지 않는 부호화가 캡션 영역의 픽셀들에게 적용되는 경향이 있다.
상기한 바와 같이, 캡션 영역 내의 픽셀과 캡션 영역이 아닌 곳의 픽셀의 특성이 다르기 때문에, 움직임 보상을 사용하지 않고 프레임간 상관을 사용한 부호화가 캡션 영역 내의 픽셀에 적용되고, 반면에 캡션 영역이 아닌 곳의 픽셀에 다른종류의 부호화가 적용되는 경향이 있다. 그러므로, 상기에서 확인된 바와 같이, 프레임간 상판을 사용하여 부호화된 영상 데이터 중에서, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 픽셀들이 시간 방향과 공간 방향에서 캡션 영역에 집중되는 경향이 있다고 말할 수가 있다.
이러한 점에 착안하여, 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법은 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 픽셀이 시간 방향과 공간 방향으로 캡션 영역에 관하여 집중되는 부호화된 영상 데이터 내의 일부를 추출한다.
이제, 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법 및 장치의 제1 실시예를 다양한 예를 들어 상세하게 설명한다.
제2도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법의 제1 실시예에 대한 순서도이다.
이하, 제2도에 대하여 설명한다.
먼저, MPEG에 의해 부호화된 영상 데이터의 프레임이 입력된다(S1). 다음에, 각각 입력된 프레임이 프레임간 상관을 사용하여 부호화된 프레임인가를 판단한다(S2). 프레임간 상관을 사용하지 않고 부호화된 것으로 판단된 프레임은 비록 그 프레임이 다른 실시예에서 사용된다 할지라도, 이 제1 실시예에서는 사용되지 않는다. 프레임간 상관을 사용하여 부호화된 것으로 판단된 프레임은 매크로 블럭단위로 다음 계수 단계(S3)로 입력된다.
계수 단계(S3)에서, 입력된 매크로 블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭인지 아닌지 판단되고, 각 매크로 블럭 위치에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭의 출현이 계수되고, 계수값을 매크로 블럭의 위치에 대응하도록 제공되는 2차원 계수 매트릭스의 해당 요소에 저장한다. 이러한 계수 단계에 대하여 자세하게 설명한다.
단계 S1 내지 단계 S3의 동작은 설정된 계수 구간내에서 반복됨으로(단계 S4), 설정된 계수 구간내에서 상기 단계S1에서 단계 S3의 반복 실행에 의하여, 각 매크로 블럭 위치에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 암호화된 매크로 블럭의 출현 빈도가 계수된다.
설정 계수 구간내에서 계수 단계가 완료되면, 캡션 영역을 선택하기 위하여 계수 매트릭스의 계수값을 임계값과 비교하는 선택 단계(S5)로 진행한다. 이 선택 단계는 이하 자세히 설명한다.
이 때까지의 동작들은 하나의 계수 단계에 대한 처리로 구성되어, 현재의 계수 구간에 대한 처리는 종료되고, 필요에 따라서 단계(S6)에 있는 다음 계수 구간에 대한 처리로 진행한다.
여기에서, 제2도에 명백하게 나타나 있지는 않지만, 제2도의 처리 전에 계수 매트릭스는 이미 초기화되어 있다.
상기한 제2도의 처리에서, 계수 단계(S3)는 다음과 같이 3개 중 하나로 구체화될 수가 있다.
제3도는 제2도의 처리에서 계수 단계(S3)의 제1 실시예에 대한 순서도이다.
제3도의 계수 단계 구체화에서, 매크로 블럭 B(i, j)가 각 프레임으로부터 입력되고(S31), 각 입력된 매크로 블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭인가를 판단된다(S32). 입력된 매크로 블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭인 경우에는, 매크로 블럭의 위치에 따라서 계수 매트릭스의 해당 요소에 1이 더해진다(S33), 다음에, 프레임 내의 모든 매크로 블럭에 대해 단계(S31)에서 단계(S33)가 반복된다(S34). 프레임 내의 모든 매크로 블럭에 대한 처리가 완료되면, 현재 프레임에 대한 계수 단계의 처리가 완료된다(S35).
계수 매트릭스를 M, 매크로 블럭을 B로 표시하면 제3도의 계수 단계는 다음과 같이 표현될 수 있다.
M(i, j) ← M(i, j) + 1 : B(i, j)가 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭일 때
M(i, j) ← M(i, j) : 그렇지 않을 때
제3도의 이러한 계수 단계에서, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭이 적어도 하나 이상 나타나는 위치가 캡션 영역으로 추출되어, 사람의 판단에 의해 실수로 추출된 픽셀이 캡션 영역의 일부로 판단될 가능성이 있지만, 캡션 영역의 일부를 빠뜨릴 가능성이 감소되는 유리한 점이 있다.
제4도는 제2도의 계수 단계(S3)의 제2 실시예에 대한 순서도이다.
제4도의 계수 단계에서, 매크로 블럭 B(i, j)가 각 프레임으로부터 입력되고(S41), 입력된 매크로 블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭인가가 판단된다(S42). 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭이면, 매크로 블럭의 위치에 따라 계수 매트릭스의 해당 요소에 1이 더해지고(S43), 반면에 그렇지 않은 매크로 블럭이면 그 위치에 따라 계수 매트릭스의 해당 요소로부터 1을 뺀다(S44). 다음에, 프레임 내의 모든 매크로 블럭에 대해 단계(S41)부터 단계(S44)의 동작이 반복된다(S45). 프레임 내의 모든 매크로 블럭에 대해 처리가 완료되면, 현재의 프레임에 대한 계수 단계의 처리가 종료된다(S46).
계수 매트릭스를 M, 매크로 블럭을 B로 표시하면 제4도의 계수 단계는 다음과 같이 표현될 수 있다.
M(i, j) ← M(i, j) + 1 : B(i, j)가 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭일 때
M(i, j) ← M(i, j) -1 : 그렇지 않을 때
제4도의 계수 단계에서, 캡션 픽셀이 아닌 것을 캡션 영역의 일부로 잘못 판단하는 경우가 캡션 픽셀이 아닌 것을 캡션 영역의 일부가 아닌 것으로 바르게 판단하는 경우에 의해 상쇄될 수 있어서, 영상 캡션 추출을 잘못할 가능성이 상기한 제3도의 계수 단계와 비교하여 감소된다는 이점이 있다.
제5도는 제2도의 처리에서 계수 단계(S3)의 제3 실시예에 대한 순서도이다.
제5도의 계수 단계에서, 매크로 블럭 B(i, j)가 각 프레임으로부터 입력되고(S51), 입력된 매크로 블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭인가가 판단된다(S52). 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭이면, 매크로 블럭의 위치에 따라 계수 매트릭스의 해당 요소에 1이 더해지고(S53), 반면에 그렇지 않은 매크로 블럭이면 계수 매트릭스의 해당 요소가 0으로 설정된다(S54). 다음에, 프레임 내의 모든 매크로 블럭에 대해 단계(S51)부터 단계(S54)의 동작이 반복된다(S55). 프레임내의 모든 매크로 블럭에 대해 처리가 완료되면, 현재의 프레임에 대한 계수 단계의 처리가 종료된다(S56).
계수 매트릭스를 M, 매크로 블럭을 B로 표시하면 제5도의 계수 단계는 다음과 같이 표현될 수 있다.
M(i, j) ← M(i, j) + 1 : B(i, j)가 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 매크로 블럭일 때
M(i, j) ← 0 : 그렇지 않을 때
제5도의 계수 단계에서, 캡션 픽셀이 아닌 것을 캡션 영역의 일부로 잘못 판단하는 경우가 캡션 픽셀이 아닌 것을 캡션 영역의 일부가 아닌 것으로 바르게 판단하는 경우에 의해 상쇄될 수 있어서, 영상 캡션 추출을 잘못할 가능성이 상기한 제3도의 제1계수 단계 구현과 비교하여 감소된다는 이점이 있다.
상기한 바와 같이, 제2도의 처리에 있어서, 선택 단계(S5)는 다음과 같이 4개의 실시예로 구현될 수가 있다.
제6도는 제2도의 처리에서 선택 단계(S5)의 제1 실시예에 대한 순서도이다.
제6도의 선택 단계에서, 계수 처리에서 사용된 계수 매트릭스 M, 임계값 Th, 그리고 프레임 수 n이 입력된다(S61). 다음에, 프레임 수 n에 의해 나누어진 계수 매트릭스 M의 요소 M(i j)의 값이 임계값 Th와 비교되고, 프레임 수 n에 의해 나누어진 계수 매트릭스 M의 요소 M(i, j)의 값이 임계값보다 큰 영역이 캡션 영역으로 결정된다(S62). 다음에, 캡션 영역의 존재를 나타내는 2차원 영역 매트릭스를 R로 표현함으로써, 캡션 영역이 존재하는 위치에 대응하는 이러한 영역 매트릭스 R의 요소 값이 “1”로 설정되고(S63), 캡션 영역이 존재하지 않는 위치에 대응하는 이러한 영역 매트릭스 R의 요소 값이 “0”으로 설정된다(S64).
단계(S62)부터 단계(S64)의 동작은 계수 매트릭스 M의 모든 요소에 대해 반복되고(S65), 최종적으로 구해진 영역 매트릭스 R이 출력된다(S66).
제6도의 이러한 선택 단계는 다음과 같이 표현된다.
R(i, j) = 1 : M(i, j)/n 〉 Th 일 때
R(i, j) = 0 : 그렇지 않을 때
여기에서, 임계값 Th는 미리 특정된 상수이거나 변수이다. 예를 들면, 각 계수 구간내에서 추출된 캡션 영역의 수가 설정된 수를 초과하지 않도록 각 계수 구간동안 임계값 Th가 변화되는 것이 가능하다.
제7도는 제2도의 처리에서 선택 단계(S5)의 제2 실시예에 대한 순서도이다.
제7도의 선택 단계는 계수 단계로부터 입력된 계수 매트릭스를 수직 방향 또는 수평 방향으로 투영하여 일차원 히스토그램을 생성하는 투영 단계와, 설정된 임계값보다 큰 히스토그램 값을 가지는 섹션을 캡션 영역으로 선택하는 선택 단계를 포함한다.
제7도에서, 계산 처리에서 사용된 계수 매트릭스 M, 임계값 Th, 그리고 프레임 수 n이 입력된다(S71). 다음에, 계수 매트릭스 M이 투영 히스토그램 H를 생성하기 위해 수평 방향으로 투영된다(S72). 다음에, 프레임 수 n에 의해 나누어진 투영 히스토그램 H의 값이 임계값 Th보다 큰 섹션 [a, b)이 결정되고(S73), 결정된 섹션 [a, b)에 대응하는 영역 매트릭스 R의 요소 값이 “1”로 설정된다(S74). 이러한 단계(S73,S74)는 투영 히스토그램 H의 모든 요소가 임계값 Th와 비교될 때까지 반복되고(S75), 최종적으로 구해진 영역 매트릭스 R이 출력된다(S76).
제7도는 수평 방향으로의 투영을 사용한 대표적인 경우를 보이지만, 수직 방향으로의 투영도 마찬가지로 사용될 수가 있다.
제8도는 제2도의 처리에서 선택 단계(S5)의 제3 실시예에 대한 순서도이다.
제8도의 선택 단계에서, 제7도의 제2 실시예의 투영 히스토그램 H가 제7도의 제2 실시예에서 사용되지 않은 다른 투영 방향으로 투영되고, 설정된 임계값보다 큰 히스토그램 값을 갖는 섹션이 캡션 영역으로 선택된다.
제8도에서, 계수 처리에서 사용된 계수 매트릭스 M, 두 개의 임계값 Th1과 Th2, 그리고 프레임 수 n가 입력된다(S81). 다음에 투영 히스토그램 H1을 생성하기 위해 계수 매트릭스 M이 수평 방향으로 투영된다(S82) 다음에, 프레임 수 n에 의해 나누어진 투영 히스토그램 H1의 값이 임계값 Th1보다 큰 섹션 (a, b)이 결정된다(S83). 다음에, 투영 히스토그램 H2를 생성하기 위해 계수 매트릭스 M의 섹션 [a, b]가 수직 방향으로 다시 투영된다(S85). 그 다음에, 프레임 수 n와 섹션 [a, b)의 크기 (b - a)의 값에 의해 나누어진 투영 히스토그램 H2의 값이 임계값 Th2보다 큰 섹션 [c, d]이 결정된다(S85). 다음에, 결정된 섹션 [a, b)과 [c, d]에 대응하는 영역 매트릭스 R의 요소 값이 1로 설정된다(S86). 투영 히스토그램 H1과 H2의 모든 요소가 각각의 임계값 Th1과 Th2와 비교될 때까지 단계(S83)부터 단계(S86)가 반복되고(S87, S88), 최종적으로 구해진 영역 매트릭스 R이 출력된다(S89).
제8도는 먼저 수평 방향 투영을 사용하고 다음에 수직 방향 투영을 사용한 대표적인 경우를 나타내지만, 수평 방향 투영과 수직 방향 투영의 순서가 바뀌어도 된다. 제8도의 제3 실시예는 제7도의 제2 실시예보다 더 정확하게 캡션 영역을 추출할 수가 있다.
제9도는 제2도의 처리에서 선택 단계(S5)의 제4 실시예에 대한 순서도로, 제6도에서 제8도의 제1 실시예로부터 제3 실시예에서 구해진 선택 결과의 범위가 더 좁아진다.
제9도에서, 제6도로부터 제8도에서 구해진 영역 매트릭스 R이 다양한 영역 특성(폭, 높이 면적, 중심의 x좌표, 중심의 y자표)에 대한 상한값과 하한값과 함께 입력된다(S91). 다음에 영역 매트릭스 R의 연결 영역 R'이 구해진다(S92). 여기에서, 연결 영역은 1의 값을 갖고 인접한 영역 매트릭스 R의 요소들을 연결한 영역이다. 인접 방향에 따라, 상, 하, 좌, 우의 4방향을 채택하는 4개의 가장 인접한 이웃 연결을 사용할 수가 있고, 또한 여기에다 상우, 상좌, 하우, 하좌의 4방향을 더하여 8개의 가장 인접한 이웃 연결을 사용할 수가 있다. 연결 영역을 구하는 처리는 또한 라벨링(labeling)이라고도 한다.
다음에, 단독으로 연결 영역인 연결 영역 R의 요소 r1이 선택되고(S93), 그폭, 높이, 면적, 그리고 중심이 구해진다. 다음에, 구해진 폭, 높이, 면적, 중심의 x좌표, 그리고 중심의 y좌표가 각각의 상한값과 하한값을 만족하고 있는가가 검사된다(S94). 폭, 높이, 면적, 중심의 x 좌표, y좌표가 모두 각각의 상한값과 하한값을 모두 만족하는 부분이 차지하고 있는 부분이 마지막 영역 매트릭스 R″에 더해진다(S95), 연결 영역 R′의 모든 요소에 대해 단계(S93)부터 단계(S94)의 동작이 반복되고(S96), 최종적으로 구해진 마지막 영역 매트릭스 R″이 출력된다(S97).
여기에서, 마지막 영역 매트릭스 R″의 요소를 선택하는데 사용되는 영역 특성은 상기한 것과 다를 수도 있다. 예를 들어, 폭과 높이의 비, 영역의 주변 길이등과 같은 다른 영역 특성들이 사용될 수도 있다.
제9도의 이러한 제4 실시예에서, 전형적으로 사용되는 캡션에 따라 준비된 적당한 임계같이 사용될 때 캡션 영역이 아닌 것이 캡션 영역으로 잘못 추출되는 것을 제거할 수 있으므로, 캡션 영역 추출의 정확도를 향상시킬 수 있다.
제10도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법의 제2 실시예에 대한 순서도로 계수 단계와 선택 단계 사이에 계수 매트릭스에 저장된 계수를 병합하는 병합 단계를 포함시킴으로써 제2도의 제1 실시예와 다르다.
제10도에서, 단계 S101부터 S104, S106, 그리고 S107은 제2도의 단계 S1부터 S6과 대체로 같다. 계수 단계(S103)에 대하여, 제3도부터 제5도의 세 개의 실시예중 어느 것이 사용될 수 있다. 선택 단계(S106)에 대하여, 제6도부터 제9도까지의 네 개의 실시예 중 어느 것이 사용될 수가 있다.
병합 단계(S105)에서, 계수를 평활하기 위하여 가우시안 필터가 계수 매트릭스에 적용되어, 보다 작은 값의 영역이 덜 선택되도록 하고, 연속적인 보다 큰 값의 영역이 함께 병합되도록 한다.
이러한 병합 단계(S105)의 처리는 다음과 같이 표현될 수가 있다.
M ← G*M(x,y) = ΣΣG(u,v) · M(x-u, y-v)
이 때, * 는 컨볼루션 작동자(convilution operator)이고, G는 다음과 같이 주어지는 가우시안 필터이다.
G(i,j) = (1/2πσ2)exP(-(i2+j2)/2σ2)
여기에서, 영역을 병합하기 위한 방법은 반드시 상기한 바와 같은 가우시안필터를 사용하여야 하는 것에 한정되지 않고, 다른 평활 방법 또는 영역 병합 방법을 대신 사용하여도 된다.
제10도의 이러한 제2 실시예에서, 산란된 캡션 영역은 공간적으로 함께 모아질 수 있어서, 과도 영역 분할 문제가 해결 될 수 있다는 이점이 있다.
제11도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법의 제3 실시예에 대한 순서도로 선택 단계이후에 캡션 영역에 관한 정보를 저장하는 저장 단계를 포함함으로써 제2도의 제1 실시예와 다르다.
제11도에서, 단계 S111부터 S115와 S117은 제2도의 단계 S1부터 S6까지와 대체로 같다. 계수 단계(S113)에 대해, 제3도부터 제5도의 세 개의 실시예 중 어느 하나가 사용되어도 된다. 선택 단계(S115)에 대해서, 제6도부터 제9도의 네 개의 실시예중 어느 하나가 사용될 수가 있다. 여기에서, 저장 단계(S116)는 제10도의 제2 실시예에 포함되어질 수도 있다.
저장 단계(S116)는 추출에서 사용된 프레임의 인덱스의 하나 또는 어느 조합인 정보, 계수 매트릭스, 영역 매트릭스, 투영 히스토그램, 그리고 개별 캡션 영역의 폭, 높이, 면적, 중심과 같은 개별 캡션 영역 정보를 저장한다.
다음에, 캡션 영역에 관하여 저장된 정보는 캡션 영역을 사용하는 영상의 복호화, 검색과 편집과 같은 다양한 목적으로 사용되어질 수가 있다.
저장 정보를 저장하는 구간은 필요에 따라 다양하게 설정될 수가 있다. 예를 들면, 검색과 편집의 목적일 때, 저장 정보를 저장하는 구간은 영상을 저장하는 구간과 동일하게 설정된다. 또한, 근본적인 목적이 오랜 기간동안 저장할 필요가 없도록 영상에서 캡션 영역을 복호화할 때, 저장 정보를 저장하는 구간은 복호화에 필요한 최소 구간과 동일하게 설정된다.
또한, 동일 영역을 차지하고 있는 캡션이 반복적으로 추출될 때, 저장된 정보의 양을 감소시키기 위하여 중복되는 캡션에 관한 정보는 저장되지 않는다.
제12도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법의 제4 실시예에 대한 순서도로, 선택 단계이후에 캡션 영역만을 복호화하는 복호화 단계를 포함함으로써 제2도의 제1 실시예와 다르다.
제12도에서, 단계 S121부터 S124는 제2도의 단계 S1부터 S3과 S5와 대체로 같다. 제2도의 단계 S4에 대응하는 단계는 제12도에서 제외된다. 계수 단계(S123)에 대하여, 제3도부터 제5도의 세 개의 실시예 중 어느 하나가 사용되어도 된다. 선택단계(S124)에 대해서, 제6도부터 제9도까지의 네 개의 실시예 중 어느 하나가 사용될 수 있다. 여기에서, 복호화 단계(S125)는 제10도의 제2 실시예 또는 제11도의 제3 실시예에 포함될 수도 있다.
제12도의 제4 실시예에서, 캡션 영역은 프레임내 예측 부호화를 사용하여 부호화된 두 개의 프레임 사이의 기간을 단계(S122, S123)에서 계수 구간으로 설정하여 함으로써 캡션 영역이 추출된다. 캡션 영역을 복호하기 위해, 복호화 단계(S125)는 계수 구간 이후에 즉시 프레임내 예측 부호화된 프레임을 구성하는 매크로 블럭 중 선택 단계(S124)에 의해 선택된 캡션 영역에 대응하는 매크로 블럭만을 복호한다.
여기에서, 캡션 영역의 복호화는 제12도에 있는 계수 구간 이후에 즉시 프레임내 예측 부호화된 프레임을 사용하여 수행되지만, 계수 구간 전에 즉시 프레임내 예측 부호화된 프레임 또는 대신에 프레임간 예측 부호화된 프레임을 사용할 수도 있다.
복호 단계(S125) 이후에, 계수 매트릭스는 단계(S126)에서 초기화되고 동작은 단계(S121)로 되돌아간다.
제13도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 방법의 제1 실시예를 실현하기 위한 장치의 구성예이다.
여기에서, 부호화 영상 데이터 입력은 프레임간 상관을 사용하여 부호화된 영상 데이터의 예로써, MPEG 구조에 따라 부호화된 영상 데이터의 종류로 주어진다고 가정한다. 부호화된 영상 데이터는 영상 테이프나 마그네틱 디스크와 같은 저장 매체에 저장된 데이터, 또는 무선이나 유선 통신에 의해 전송된 데이터, 또는 LAN이나 전화망을 통해 전송된 데이터 중 하나일 수 있다.
제13도의 장치에서, 프레임간 예측 부호화에 의해 부호화된 프레임(P 프레임)과 프레임내 예측 부호화에 의해 부호화된 프레임(I 프레임)이 프레임 판별부(1)에서 판별된다. 다음에, P 프레임은 계수 매트릭스(3)를 생성하는 계수부(2)로 주어진다. 계수부(2)는 제14도와 관련하여 상세하게 설명될 것이다.
계수 매트릭스(3)는 스위치(3A)의 작용에 의해 병합부(4)로 선택적으로 주어질 수 있다. 스위치(3A)가 스위치 위치(b)로 세트될 때 계수 매트릭스(3)는 병합부(4)로 주어진다. 병합부(4)는 제10도의 제2 실시예에서 설명된 가우시안 필터를 사용하여 병합을 수행한다.
다음에, 계수 매트릭스(3) 또는 병합부(4)의 출력은 임계값과 비교하여 영역매트릭스를 생성하는 선택부(5)로 주어진다. 선택부(5)에 대해 제15도를 참조하여 자세히 설명할 것이다.
영역 매트릭스(6)는 복호부(7)로 주어지고, 복호부(7)는 영역 매트릭스(6)가 프레임 판별부(1)로부터 출력된 프레임내 예측 부호화된 프레임 내에서 “1” 값을 갖는 위치에서 매크로 블럭을 복호하고, 복호된 결과를 캡션 화상으로 출력한다.
또한, 저장부(8)는 캡션 영역 관련 정보와 복호부(7)에 의해 출력된 캡션 화상과 함께 선택부(5)로부터 출력된 영역 매트릭스(6)를 저장한다.
다음에, 제14도를 참조하여 제13도 장치의 계수부(2)를 설명한다.
제14도에 도시된 계수부(2)로 매크로 블럭이 계속하여 입력된다. 먼저, 매크로 블럭의 위치를 나타내는 심볼만이 위치 복호부(11)에 의해 복호되고 카운터 위치 정보로서 카운터(13)로 주어진다. 다음에, 부호화의 종류가 부호화 판별부(12)에서 움직임 보상을 사용하지 않고 프레임간 상관관계(제14도에서 “no-MC-coded”로 표시된다)를 사용하여 부호화되었는지를 판별한다. 이러한 판별 결과는 카운터(13)를 증가/감소시키거나 리세트시키는 데 사용된다. 스위치(13A)의 위치(a, b, c)를 사용하여 제3도에서 제5도까지의 3가지의 실시예가 구현될 수가 있다. 마지막으로, 카운터(13)에 의해 구해진 계수값이 계수 매트릭스로 출력된다.
다음에, 제15도를 참조하여, 선택부(5)에 대하여 설명한다.
제15도에 도시된 선택부로, 계수 매트릭스가 입력된다. 스위치(21A)가 스위치 위치(a)에 있을 때, 계수 매트릭스의 계수값과 임계값이 제6도의 제1 실시예에 따라서 비교부(21)에서 비교되고, 영역 매트릭스가 영역 합성부(25)에서 생성된다.
스위치(21A)가 스위치 위치(b)에 있을 때, 계수 매트릭스는 제7도 또는 제8도의 제2 실시예와 제3 실시예에 따라 처리된다. 이 경우에, 계수 매트릭스는 수평방향 투영부(22)에서 수평 방향으로 투영되어 투영 히스토그램(23)을 생성하고, 생성된 투영 히스토그램 값과 임계값이 비교부(24)에서 비교된다.
스위치(24A)가 스위치 위치(c)에 있을 때, 비교부(24)에서 구해진 비교 결과가 제7도의 제2 실시예에 따라 영역 매트릭스를 생성하는 영역 합성부(28)로 바로 입력된다. 스위치(24A)가 스위치 위치(d)에 있을 때, 투영 히스토그램(23)이 수직방향 투영부(25)에 의해 수직 방향으로 투영되어 투영 히스토그램(26)이 생성된다. 다음에, 생성된 투영 히스토그램 값과 임계값이 비교부(27)에서 비교되고, 비교 결과가 제8도의 제3 실시예에 따라 영역 매트릭스를 생성하는 영역 합성부(28)로 입력된다.
다음에, 스위치(28A)가 스위치 위치(e)에 있을 때, 영역 합성부(28)에 의해 생성된 영역 매트릭스가 바로 출력된다. 스위치(28A)가 스위치 위치(f)에 있을때, 연결 영역(30)이 제9도의 제4 실시예에 따라 연결 영역 작성부(29)에 의해 작성된다. 다음에, 각 연결 영역은 비교부(31)에서 임계값과 비교되고, 상기 비교부(31)에서 구해진 결과에 따라서, 최종 영역 매트릭스가 영역 합성부(32)에 의해 생성되어 출력된다. 게다가, 캡션 영역에 관한 정보 또한 비교부(31)에 의해 구해진 비교 결과에 따라 제13도의 저장부(8)로 출력된다.
여기에서, 상기한 제1 실시예는 계수 구간을 다양하게 설정하여 변경될 수 있다. 예를 들면, 계수 구간이 하나의 화면 경계와 또 다른 화면 경계 사이의 장면 구간과 같도록 설정될 수 있고, 또는 일정 시간 간격으로 설정될 수가 있다.
또한, 캡션 영역이 제1 실시예에 따라 복호된 다음 종래 공지된 캡션 검출방법을 사용하여 캡션 검출 정확도를 향상시키는 구성을 사용할 수가 있다.
또한, 캡션 영역이 제1 실시예에 따라 복호된 다음 텍스트 인식을 수행하는 구성을 사용할 수도 있다.
또한, 개별 캡션 영역에 대한 복호화된 원래 화상 데이터를 저장 단계에서 저장되는 개별 캡션 영역에 대한 정보로 저장할 수도 있다.
캡션이 문자(character)를 나타낼 때, 저장 단계에서 캡션 영역으로부터 구해진 문자 인식 결과를 개별 캡션 영역에 관한 정보로 저장할 수도 있다.
상기한 바와 같이, 제1 실시예에 따라, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 픽셀이 시간 방향과 공간 방향으로 집중된 부호화된 영상 데이터의 일부가 캡션 영역으로 추출되어, 부호화된 영상 데이터를 프레임 화상으로 복호하지 않고 캡션 영역을 추출할 수가 있다. 따라서, 속도가 빠르고, 비용도 저렴하게 부호화된 영상 데이터로부터 캡션 영역을 추출할 수가 있게 된다.
더욱이, 제1 실시예에 따라, 캡션 영역에 관한 정보가 부호화된 영상 데이터를 프레임 화상으로 복호하지 않고 속도가 빠르고 처리 비용이 저렴하게 캡션 영역을 추출하는 동안 저장될 수 있어서, 부호화된 영상 데이터를 프레임 화상으로 복호하지 않고 고속으로 캡션 영역을 추출하는 동안 영상 내용에 의거하여 복원, 편집과 같은 처리를 보다 쉽게 수행할 수가 있게 되고, 또한 캡션 영역만이 부호화된 영상 데이터로부터 복호된 화상 데이터를 작성할 수가 있다.
다음에, 제16도에서 제27도를 참조하여 이 발명에 따른 영상 데이터에서 캡션을 검출하는 장치의 제2 실시예에 대하여 상세하게 설명한다.
제16도는 이 발명의 제2 실시예인 영상 데이터에서 캡션을 검출하는 장치의 일예이다.
제16도의 영상 데이터에서 캡션을 검출하는 장치에서, 영상 데이터가 입력 단자(1601)로 입력되고, 캡션 후보 픽셀 추출부(1602)가 캡션 영역에 대한 후보인 각 픽셀 또는 픽셀의 집합을 입력된 영상 데이터로부터 추출한다. 예를 들어, 픽셀의 집합으로는, 8 × 8 또는 16 × 16 블럭이 사용될 수 있다.
다음에, 추출된 캡션 후보 픽셀은 버퍼(1603)에 저장된다. 버퍼(1603)는 제17도에 나타나 있듯이, 화상 필드에 평행인 공간축 x와 y, 화상 필드에 수직인 시간축 t로 표현된 3차원 저장이다. 예를 들면, 720 × 480 픽셀의 화상 필드에서 16 × 16 블럭을 사용하는 경우에, 버퍼(1603)는 폭(W)이 45이고 높이(H)가 30이다. 버퍼(1603)의 두께(T)는 영상의 시간과 같도록 시간 해상도에 의해 나누어진다. 예를 들어, 0.5초 간격으로 10분 동안 지속되는 영상을 처리하는 경우에, 버퍼(1603)의 두께(T)는 1200이다. 이러한 버퍼(1603)에 의하여, 종래에 처리할 수 있는 것보다 더 긴 영상을 처리할 수가 있게 된다.
다음에, 병합부(1604)는 시간 방향과 공간 방향으로 버퍼(1603)에 저장된 캡션 후보 픽셀을 병합하고, 병합된 캡션 후보 픽셀은 출력 단자(1605)로 출력된다. 병합부(1604)에 의하여, 짧고 미세한 변화를 무시함으로써 노이즈의 영향을 제거할수가 있다.
제18도는 제16도의 영상 데이터에서 캡션을 검출하는 장치의 캡션 후보 픽셀 추출부(1602)의 일예 구성이다.
제18도의 캡션 후보 픽셀 추출부에서, 영상 데이터는 입력 단자(1801)로부터, 입력되고, 에지생성부(1802)는 입력된 영상 데이터로부터 에지화상을 얻어서 버퍼(1803)에 저장한다. 여기에서, 에지화상을 얻기 위하여 라플라시안이나 로버트(Robert), 소볼(Sobol)과 같은 제1 또는 제2차 미분 작동자를 사용할 수가 있다.
예를 들면, 로버트 작동자는 다음과 같이 정의된다.
e(x,y) = | s(x,y)-s(x+1,y+1) | + | s(x+1,y)-s(x,y+1) |
상기에서 e(x,y)와 s(x,y)는 각각 (x,y) 위치에서의 가장 자리 화상과 소스화상의 픽셀값이다.
이러한 에지생성부(1802)에 의하여, 캡션이 큰 고주파 성분을 갖고 있다는 특성에 따라 캡션 주위에 집중된 에지화상을 얻을 수가 있다.
다음에, 수직 방향 투영부(1804)는 에지 화상을 수직 방향으로 투영하여, 제19도에 나타나 있듯이 가장자리가 집중된 부분에서 투영 계수가 높게 나타나도록 한다. 다음에 투영 계수가 임계값과 같거나 큰 범위(x0에서 x1)를 얻기 위해, 투영계수가 비교부(1805)에서 미리 설정된 임계값(1806)과 비교된다.
다음에, 구해진 범위(x0에서 x1)에 관해서만, 수평 방향 투영부(1807)가 수평 방향으로 에지 화상을 투영하여 투영 계수를 얻는다. 다음에, 구해진 투영 계수는 비교부(1808)에서 임계값(1809)과 비교되고, 투영 계수가 임계값과 같거나 보다 큰 범위(y0에서 y1)를 구한다. 이와 같은 식으로, 가장자리의 집중 레벨을 일차원적으로 평가할 수가 있다.
다음에 합성부(1810)는 구해진 범위(x0에서 x1과, y0에서 y1) 내의 부분의 픽셀값을 1로 설정하고, 그 외의 부분의 픽셀값을 0으로 설정함으로써, 가장자리가 집중되어 있는 부분에 관한 캡션 후보 픽셀을 구하고, 출력 단자(1811)로 구해진 캡션 후보 픽셀을 출력한다.
여기에서, 수직 투영이 투영 계수가 임계값과 같거나 큰 하나 이상의 범위를 작성할 때, 이러한 하나 이상의 범위 각각에 관하여 수평 방향 투영이 수행되는 것을 유의한다.
또한, 수직 방향 투영부(1804)와 수평 방향 투영부(1807)의 순서는 필요에 따라 바뀔 수도 있다.
제20도는 제16도의 영상 데이터에서 캡션을 검출하는 장치에서 캡션 후보 픽셀추출부(1602)의 또 다른 일예 구성이다. 제20도의 캡션 후보 픽셀 추출부는 MPEG와 같은 프레임간 상관을 사용하여 부호화된 영상 데이터를 처리하는 데에 적합하다.
제20도의 캡션 후보 픽셀 추출부에서, 부호화된 영상 데이터가 입력 단자(2001)로 입력되고, 위치 복호부(2002)는 각 픽셀의 위치를 복호하고 구해진 픽셀위치가 카운터(2004)의 어드레스 단자(A)로 입력된다.
마찬가지로, 종류 복호부(2003)은 각 픽셀의 부호화 종류를 복호한다. 종류 복호부(2003)에서, 픽셀이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되었을 때 1을 출력하고, 그렇지 않으면 0을 출력한다. 종류 복호부(2003)의 출력 신호는 카운터(2004)의 증가/감소를 제어한다.
카운터(2004)의 각 카운트 값은 계수 구간 내에서 증가/감소되고, 카운트 결과값은 캡션 후보 픽셀로서 출력단(2005)를 통하여 바로 출력된다. 캡션 후보 픽셀이 출력된 다음, 카운터(2004)의 모든 카운트 값은 0으로 리세트된다.
그러므로, 제20도의 캡션 후보 픽셀 추출부에서, 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 픽셀의 수는 프레임간 상관을 사용하여 부호화된 영상 데이터로부터 미리 규정된 계수 구간 내의 각 픽셀 위치에서 계수된다. 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 픽셀이 캡션에 집중되는 경향이 있다는 특성이 캡션에 있기 때문에, 구해진 카운트 값은 캡션의 픽셀일 경우 크다. 따라서 실제로 캡션 픽셀일 가능성이 보다 높을 때, 보다 큰 계수값을 가지는 캡션 후보 픽셀을 구할 수가 있다.
다음에, 3차원 평활 필터를 사룡하는 제16도의 영상 데이터에서 캡션을 검출하는 장치에서 병합부(1604)의 일예가 아래에서 상세하게 설명된다.
이 경우에, 3차원 평활 필터로서, 다음과 같이 정의된 것을 사용할 수 있다.
Figure kpo00001
이러한 3차원 가우시안 필터는 3차원 버퍼(1603) 내의 픽셀 B(x, y, t)에 관하여 다음과 같이 콘볼루트(convolute)되어진다.
Figure kpo00002
또한, 다음과 같이 정의된 일차원 가우시안 필터를 사용할 수도 있다.
Figure kpo00003
상기에서, W는 폭의 1/2이고, H는 높이의 1/2, T는 시간 방향 깊이의 1/2이다. 이 때, x y, t는 다음과 같이 3차원에서 연속적으로 콘볼루트된다.
Figure kpo00004
이와 같이, 3차원 평활 필터를 사용하여 캡션 후보 픽셀을 평활화함으로써, 이웃하는 캡션 후보 픽셀을 병합할 수가 있고, 반면에 고립된 작은 캡션 후보 픽셀을 제거할 수가 있다.
다음에, 확장 처리와 침식 처리를 사용하는 제16도의 영상 데이터에서 캡션을 검출하는 장치에서 병합부(1604)의 또 다른 일예가 상세하게 설명된다.
상기 확장 처리는 픽셀 B(x, y, t)의 값을 상기 픽셀 B(x, y, t)의 근사값 R(x, y, t)중에 최대값으로 설정한다.
즉, 픽셀 B(x, y, t)의 값은 다음과 같이 정의된 Bd(x, y, t)의 값과 동일하게 설정한다.
Bd(x, y, t) = Max{B(i, j, k) | B(i, j, k) ⊂ R(x, y. t)}
상기 확장 처리는 폭, 두께, 높이중 하나가 R보다 작은 홀(hole)이나 갭(gap)이 가득 차도록 작용한다. 예를 들면, 네 개의 가장 이웃하는 확장 처리(상, 하, 좌, 우 방향에 있는 주목 픽셀에 인접하는 네 개의 픽셀을 사용)가 제21도의 (1)에 그려진 경우에 적용될 때, 그 결과는 나타나지 않은 두 개의 빗금친 영역 사이에 있는 갭과 한 개의 빗금친 영역에 있는 홀이 채워져 있는 것을 도시한 제21도의 2와 같이 된다.
상기 침식 처리는 픽셀 B(x, y, t)의 값을 상기 픽셀 B(x, y, t)의 근사값 R(x, y, t)중 최소값으로 설정한다. 즉, 픽셀 B(x, y, t)의 값은 다음과 같이 정의된 픽셀 B(x, y, t)의 값과 동일하게 설정된다.
Be(x, y, t) = Mi{(B(i, j, k) | B(i, j, k) ⊂ R(x, y, t)}
상기 침식 처리는 폭, 높이와 두께 중 어느 하나가 R보다 작은 영역을 지우는 작용을 한다. 예를 들면, 네 개의 가장 인접한 침식 처리가 제21도의 (1)에 도시된 경우에 적용될 때, 그 결과는 “2”와 동일한 높이를 가지는 빗금친 직사각형 영역이 사라진 제21도의 3과 같이 된다.
또한, 침식 처리가 제21도의 (2)에 도시된 확장 처리의 결과에 적용될 때, 그 결과는 제21도의 (4)에 도시한 바와 같다. 제21도의 (1)과 (4)를 비교하면, 홀과 갭은 전체적인 크기를 유지하면서 제거된 것처럼 보여질 수 있다. 즉, 확장 처리와 침식처리는 상기 홀과 갭의 픽셀과 같이 빠진 픽셀을 보충하도록 하는 작용을 한다.
또한, 확장 처리가 제21도의 (3)에 도시된 침식 처리의 결과에 적용될 때, 그 결과는 제21도의 (5)에 도시된 바와 같다. 제21도의 (1)과 (5)를 비교하면, 작은 영역이 전체적인 크기를 유지하면서 제거된 것처럼 보여질 수 있다 즉, 상기 침식과 확장은 노이즈를 제거하도록 작용을 한다.
이러한 병합부(1604)의 실시예에서, 제22도에 도시된 구성은 확장/침식 처리의 순서와, 침식/확장 처리의 순서가 상호 교환될 수 있도록 사되어진다. 즉, 입력단(2201)으로 입력되는 캡션 후보 픽셀이 4개로 협동하는 스위치(2207)를 통하여 출력단(2206)에서 출력된다. 확장부(2202, 2205)와 침식부(2203, 2204)에 의해 처리되고, 상기 스위치(2207)가 상측 위치에 있을 때, 확장/침식 처리가 먼저 수행되고 다음에, 침식/확장 처리가 수행된다.
상기 스위치(2207)가 하측 위치에 있을 때, 상기 처리 순서가 반전되어 침식/확장 처리가 먼저 수행되고, 확장/침식 처리가 다음에 수행된다.
먼저 확장/침식 처리를 수행함으로써, 빠진 픽셀들의 보충이 우선 순위가 될 수 있으며, 반면 먼저 침식/확장 처리를 수행함으로써, 노이즈의 제거가 우선 순위가 될 수 있다.
상기 방법에서 확장 처리와 침식 처리를 조합하여, 고립된 작은 캡션 후보 픽셀을 제거하고, 이웃하는 캡션 후보 픽셀을 병합하는 것이 가능하다.
제23도는 이 발명의 실시예에 따른 영상의 캡션 검출 구성의 제2 실시예에서 제16도의 구성에 판정부가 첨가되어 있는 영상 데이터에서 캡션을 검출하는 장치의 구성을 보여준다.
제23도의 영상 데이터에서 캡션을 검출하는 장치에서, 상기 영상 데이터는 입력단(2301)으로 입력되고, 캡션 후보 픽셀 추출부(2302)는 입력된 영상 데이터로부터 캡션영역이 될 각각의 픽셀 또는 픽셀의 집합을 추출한다. 상기 추출된 캡션후보 픽셀은 다음에 버퍼(2303)에 저장되고, 병합부(2304)는 상기 버퍼(2303)에 저장된 상기 캡션 후보 픽셀을 병합한다.
다음에, 캡션을 나타내기 위해서 판정부(2305)는 병합된 캡션 후보 픽셀로부터 대표적인 프레임을 판정하고, 상기 판정된 대표적인 프레임을 출력단(2306)에서 출력한다.
제23도의 상기 영상 데이터에서 캡션을 검출하는 장치에서 판정부(2305)에 대한 하나의 실시예는 다음에 상세히 설명한다.
상기 실시예에서, 캡션 후보 픽셀이 존재하지 않는 시간 섹션 바로 이전 또는 이후에 있는 프레임은 상기 캡션을 나타내기 위한 대표적인 프레임으로 판정된다.
예를 들면, 수평축이 시간 축(t-축)을 나태내고 수직 축이 공간 축(x-축, y-축)을 나타내고 있는 제24도에 도시되어 있듯이, 캡션 A∼G가 시간 순서로 배열되어 있다고 가정한다.
제24도에서, F1∼ F4는 캡션 후보 픽셀이 존재하지 않는 시간 섹션 바로 이후의 프레임들을 표시하는 반면, Fi∼ Fiv는 캡션 후보 픽셀이 존재하지 않는 시간섹션 바로 이전의 프레임들을 표시한다.
F1∼ F4가 표시하는 프레임을 대표적인 프레임으로 사용함으로써, 상기 캡션 A, B, D, F 그리고 G가 상기 대표적인 프레임에 반영될 수 있으나, 다른 캡션이 나타나는 동안에 나타나는 캡션 C과 E는 대표적인 프레임에 반영되지 않을 것이다.
한편, Fi∼ Fiv가 표시하는 프레임을 대표적인 프레임으로 사용 함으로써, 상기 캡션 A, B, C, D와 F는 대표적인 프레임에 반영될 수 있으나, 상기 A, B, C, D, F 캡션이 여전히 나타나는 동안 사라지는 상기 캡션 E와 G는 대표적인 프레임에 반영되지 않는다.
따라서, 상기 캡션 후보 픽셀이 존재하지 않는 시간 섹션의 검출은 비교적 쉽게 실현되어질 수 있음으로, 이 실시예는 간단하고 용이하게 캡션 후보 픽셀이 존재하지 않는 영역을 검출할 수 있는 이점이 있다.
다음으로, 제23도에 도시된 라벨링을 사용하는 상기 영상 데이터에서 캡션을 검출하는 장치의 판정부(2305)의 다른 실시예를 상세히 설명한다.
제25도는 이 실시예에서의 판정부의 대표적인 구성을 나타내고, 캡션 후보픽셀이 입력단(2501)에서 입력되고, 이웃하는 픽셀에 대한 연결 요소가 구해지고, 라벨링부(2502)에 의해 라벨링되고, 라벨 정보로서 라벨 정보 저장부(2503)에 저장된다. 상기 라벨링부(2502)에 의해 각각 개별적으로 캡션을 확인하는 것이 가능해진다.
상기 라벨 정보는 제26(a)도에 도시된 테이블 형태로 관리되고, 상기 테이블에서 라벨의 위치는 제26(b)도에 도시된 바와 같이 외접하는 직사각형 평행육면체의 좌표값의 형태로 표현된다.
다음에, 판정부(2504)는 대표적인 프레임의 시간으로서 t0≤t≤t1의 범위내에 있는 시간 t를 선택하고 선택된 시간 t를 출력 단자(2506)를 통하여 출력한다.
예를 들면, 캡션 A 내지 G의 캡션이 제24도와 유사하게 제27도에 도시된 바와 같이 시간으로 배열되었다고 가정하면, 상기 캡션 A ∼G에서 하나를 각각 확인하는 것이 가능해지고, 해당 시간 범위를 구하는 것이 가능해진다.
제27도에서, T1 ∼ T6은 캡션 A∼G에 대한 대표적인 프레임의 타이밍을 표시하고, 각각의 대표적인 프레임은 각 캡션이 나타나는 프레임을 선택하여 구해진다. 따라서, 이 실시예에서, 정확하게 개별 캡션을 나타내기 위한 대표적인 프레임을 구하는 것이 가능하다.
또한, 각 캡션이 사라지기 바로 이전의 프레임(t1) 또는 to와 t1사이의 중간 프레임은 to 대신에 대표적인 프레임으로 사용될 수 있음을 유의한다.
또한, 영상 데이터에서 캡션을 검출하는 장치의 제2 실시예가 대표적인 프레임을 표시하고, 캡션 검출 결과에 따라 영상 캡션의 목록을 작성하도록 변경될수도 있다.
상기한 바와 같이, 제2실시예에 따르면, 캡션과 유사한 화상화된 피사체의 짧은 출현에 의한 잘못된 검출과, 화질 저하 또는 노이즈에 의한 일시적으로 캡션검출을 간과하는 것을 제거할 수 있으므로, 캡션이 영상으로부터 정확하게 검출될 수 있다.
제28도내지 제41도를 참조로 하여, 이 발명에 따른 영상 데이터에서 캡션을 검출하는 장치의 제3 실시예를 상세히 설명한다.
제28도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 장치의 제3실시예에서의 영삼 검출 가독성에 대한 구조적 구성을 나타낸다.
제28도의 영상 데이터에서 캡션을 검출하는 장치에서, 영상 데이터가 입력(2801)단자로 입력되고, 캡션 후보 화상 작성부(2801)가 캡션이 존재하는 각 픽셀의 값을 “1”로 설정하고, 그 외의 다른 픽셀의 값을 “0”으로 설정하여, 입력된 영상으로부터 캡션 후보 화상을 작성한다.
한편, 차이 화상 작성부(2803)는 각 픽셀의 값을 두 개의 시간 방향으로 분리된 프레임 화상 사이의 차이의 절대값으로 설정하여, 차이 화상을 작성한다. 여기에서, 차이 화상을 구하는데 사용된 프레임 사이의 프레임간격은 근접한 프레임 사이의 간격 또는, 다수의 프레임으로 떨어져 있는 프레임 사이의 간격일 수 있다.
다음에, 추출부(2804)가 캡션 후보 화상이 “0”값을 가지는 차이 화상의 부분이 “0”으로 설정되도록 캡션 후보 화상과 차이 화상간의 논리곱을 산출한다.
이 실시예에 사용된 “0”과 “1”의 값과 동일한 의미를 가진다면, 이 실시예에서 사용된 “1”과 “0” 이외의 값들이 캡션 후보 화상에 주어질 수 있음에 유의하여야 한다.
다음에, 판정부(2805)가 상기 캡션 후보 화상 작성부(2802)에서 출력되는 캡션 후보 화상과 추출부(2804)에서 출력되는 차이 화상에 따라 캡션의 존재를 판정하고, 캡션이 출력 단자(2806)를 통하여 출력된다.
이 발명의 제3실시예에는 캡션 부호 화상이 존재하는 부분에서만 차이 화상이 평가됨으로, 캡션간의 절환 시점을 검출하는 것이 가능해지는 이점을 가진다.
캡션 부호 화상 작성부(2802)에서의 캡션 후보 검출에 대하여, 제2도에 도시된 바와 같은 상기한 제1실시예의 영상 데이터에서 캡션을 검출하는 장치를 사용하는 것이 가능하다.
그런 경우에, 캡션 후보 검출은 제29도에 도시된 구성에 의하여 실현될 수 있으며, 여기에서 프레임 판정부(2901)는 부호화된 영상 데이터로부터, 프레임간 상관을 사용하여 부호화된 프레임을 추출한다.
계수부(2902)는 추출된 프레임의 매크로 블럭중에서, 설정된 계수 구간내에 각 매크로 블럭의 위치에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호하된 매크로 블럭의 출현 빈도를 계수함으로, 계수 매트릭스가 구해진다.
구해진 계수 매트릭스는 설정된 임계값과 계수 매트릭스내의 계수값을 비교하여 캡션 영역을 나타내는 영역 매트릭스를 구하는 선택부(2903)로 입력된다.
다음에, 연결 영역 작성부(2904)가 영역 매트릭스내의 연결 영역을 구하고, 캡션 후보 화상으로서 각 연결 영역을 출력한다.
제30도는 이 발명의 따른 제3 실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 다른 구조적 구성을 나타낸다.
제30도의 상기 영상 데이터에서 캡션을 검출하는 장치는 마스크 작성부(3004)를 더 포함하여 이루어짐으로써 제28도의 구성과는 다르다.
제30도에서, 상기 입력단(3001), 캡션 후보 화상 작성부(3002), 추출부(3005), 판정부(3006) 그리고 출력단(3007)은 실질적으로 제28도의 2801∼ 2806과 유사하다.
상기 마스크 작성부(3004)는 차이 화상이 구해진 영역에는 “1”을 설정하고, 그 외의 영역에는 “0”을 설정하는 것에 의한 차이 화상과 캡션 후보 화상을 사용하여 마스크를 작성한다.
제30도의 구성은 제28도의 구성에 비해, 상기 차이 화상이 구해지는 영역이 더욱더 좁혀질 수 있다는 점에 있어서 이점을 가진다. 예를 들면, 상기 캡션 후보 화상이, 실질적으로 캡션이 존재하는 영역보다 더 넓은 영역을 포함하는 경우에, 차이 화상을 평가하는 영역을 캡션이 실제로 존재하는 영역을 한정하는 마스크를 작성할 수가 있다. 이로 인하여, 캡션의 배경의 영향을 감소시켜 보다 정확한 캡션 검출을 실현하는 것이 가능하게 된다.
제31도는 제30도의 영상 데이터에서 캡션을 검출하는 장치에서 마스크 작성부(3004)의 구성을 나타낸다.
제31도의 마스크 작성부에서, 상기 캡션 후보 화상은 입력한(3101)에 입력되고, 새로이 나타나는 후보 픽셀 검출부(3102)는 새로이 나타난 캡션 후보 픽셀들을 추출하기 위해, 입력된 캡션 후보 화상과 이전 프레임을 비교한다. 여기서, 캡션 후보 화상의 변화를 구하는데 사용되는 프레임간격은, 인접한 프레임간의 간격 또는, 다수의 프레임으로 떨어져 있는 프레임간의 간격일 수 있지만, 차이 화상을 구하는 경우와 동일한 프레임을 간격을 사용하는 것이 적합하다.
한편, 차이 화상은 입력(3103)단에 입력되고, 불변 픽셀 검출부(3104)는 차이 화상의 픽셀값이 설정된 임계값보다 작고, 해당 캡션 후보 화상의 픽셀값이 “1”인 픽셀만을 추출한다.
다음에, OR 회로(3105)는 새로이 나타난 후보 픽셀 검출부(3102)와 불변 픽셀 검출부(3104)의 출력을 논리합(OR)을 산출함으로, 적어도 하나 이상의 새로이 나타난 후보 픽셀 검출 결과와 불변 픽셀 검출 결과가 “1”값을 가지는 픽셀에 “1”을 설정하고, 그 외의 다른 픽셀에는 “0”을 설정하여 마스크를 작성한다. 작성된 마스크는 출력단(3106)에서 출력된다.
제31도의 마스크 작성부의 처리는 제32도를 참조로 하여 상세하게 설명한다.
제32도에서의 (1)과 (2)는 실제 캡션을 구성하고, 도(1)에 도시된 이전 프레임으로부터 도(2)에 도시된 현재 프레임 까지 시간에 따라 변화된 픽셀을 포함하는 캡션 후보 화상을 나타내고, 상기에서 실선(solid line)으로 둘러싸인 밝게 빗금친 부분은 캡션 후보 화상 부분을 나타내고, 어둡게 빗금친 부분은 실제 캡션을 구성하는 픽셀을 나타낸다.
제31도의 (1)과 (2)에서, 새로이 나타나는 후보 픽셀 검출부(3102)에 의하여 현재 프레임에 대한 캡션 후보 화상의 우측 반내의 “C” 주변의 캡션 후보 픽셀이 검출될 것임으로, 제32도의 (3)에 도시된 마스크의 우측 부분상의 전체 직사각형 영역이 “1”의 값을 가진다.
또한, 제32도의 (1)과 (2)사이에서, “B”의 배경 부분내의 픽셀의 변화가 큰 경우에는, 단지 실제 캡션을 구성하는 픽셀이 불변 픽셀 검출부(3104)에 의하여 검출됨으로, (3)에 도시된 마스크의 중앙 부분이, 캡션을 구성하는 픽셀에 대응하는 부분에서만 “1”값을 가진다.
이전 프레임에 대한 캡션 후보 화상의 좌측 반의 “A”에 대해서는, 캡션이(2)의 타이밍에서 사라짐으로, (3)에 도시된 상기 마스크의 좌측 부분에 대응하는 부분이 “0”의 값을 가진다.
상기의 방법에서, 상기 캡션이 변하지 않는 영역내의 캡션을 구성하는 픽셀에 대응하는 부분과, 캡션이 새로이 나타나는 영역에서 캡션 부호 화상이 “1”값을 가지는 부분에 “1”을 설정하여, 마스크가 작성될 수 있다.
제33도는 제30도의 상기 영상 데이터에서 캡션을 검출하는 장치에서 상기 마스크 작성부(3004)의 다른 구성을 보여준다.
제33도의 마스크 작성 부에서, 3301∼3303의 요소는 제31도의 새로이 나타난 후보 픽셀 검출부(3102)를 구성하고, 상기에서 캡션 후보 화상은 입력(3301)단에 입력되고, 입력된 캡션 후보 화상의 한 프레임이 버퍼(3302)에 저장된다. 다음에, AND 회로(3303)가 현재 프레임의 캡션 후보 화상과 이전 프레임의 캡션 후보 화상을 비교한다. 여기서, 캡션 후보가 단지 현재 프레임에만 존재하고 이전 프레임에는 존재하지 않는 경우에 “1”이 출력되고, 그렇지 않으면 “0”이 출력된다.
한편, 3304∼3308 요소는 제31도의 불변 픽셀 검출부(3104)를 구성하고, 상기에서 입력단(3304)에 입력되는 차이 화상은 비교기(3306)에 의해 입력단(3305)에 입력되는 임계값(D)과 비교된다.
여기서 차이 화상은 한 픽셀씩 임계값(D)과 비교되며, 임계값이 더 큰 경우에는 “1”이 출력되고, 그령지 않으면 “0”이 출력된다. 다음에, AND 회로(3307)가 상기 캡션 후보 화상에 있지 않는 픽셀에 “0”값을 설정한다. 상기 AND 회로(3307)의 출력중 한 프레임은 버퍼(3308)에 저장된다.
다음에, OR 회로(3309)는 AND 회로(3303)의 출력과 버터(3308)의 출력의 논리합(OR)을 산출함으로, OR 회로(3309) 입력이 적어도 하나가 “1”인 경우에는 “1”이 설정되고, OR 회로(3309) 입력이 모두 “0”인 경우에는 “0”이 설정되어, 출력단(3310)에서 출력하고자 하는 마스크가 구해진다.
제34도는 제28도의 상기 영상 데이터에서 캡션을 검출하는 장치에서의 판정부(2805) 또는 제30도의 영상 데이터에서 캡션을 검출하는 장치에서의 판정부(3006)의 구성을 나타낸다.
제34도의 판정부에서, 판정하고자 하는 영역의 화상은 입력한(3401)에 입력되고, 계수부(3402)는 판정하고자 하는 영역내의 픽셀 값이 “1”인 픽셀의 수를 계수한다. 여기서 판정하고자 하는 영역의 화상은, 제28도의 영상 데이터에서 캡션을 검출하는 장치의 경우에서 캡션 후보 화상 작성부(2802)에 의해 작성된 캡션 후보 화상의 화상 또는, 제30도의 영상 데이터에서 캡션을 검출하는 장치의 경우에 마스크 작성부(3004)에 의해 작성된 마스크의 화상이다. 이러한 계수부(34020)에 의하여, 판정하고자 하는 영역의 범위가 구해진다.
한편, 판정하고자 하는 영역내의 차이 화상이 입력단(3403)에 입력된다. 여기서, 상기 제28도의 추출부(2804) 또는 제30도의 추출부(3005)의 출력이 입력된다. 다음에, 비교기(3405)가 입력된 차이 화상의 각 픽셀의 픽셀값과 입력단(3404)에 입력된 임계값(D)을 비교하여, 픽셀값이 임계값(D)보다 큰 경우에는 “1”을 출력하고, 그렇지 않은 경우에는 “0”을 출력한다. 다음에, 계수부(3406)가 상기 비교기(3405)의 출력에서 “1”값의 수를 계수한다.
상기 비교기(3405)와 계수부(3406)에 의해, 판정하고자 하는 영역내에서 차이가 임계값(D)보다 큰 부분의 범위가 구해진다.
그리고, 비교 판정부(3407)는 상기 계수부(3402)의 출력을 입력 “a” 로서 수신하고, 계수부(3406)의 출력을 입력 “b”로서 수신하고, 상기 “a”와 “b” 의 비교 결과를 출력단(3408)에서 출력한다.
제35도는 제34도의 판정부에서 상기 비교 판정부(3407)의 구성을 나타낸다.
제35도의 비교 판정부에서, 판정되는 영역의 범위 “a”는 입력단(3501)으로 입력되고, 판정되는 영역내에서 차이가 임계값(D)보다 큰 부분의 범위 “b”가 입력단(3503)에 입력된다. 비교기(3502)는 범위 “a”와 설정된 임계값(A)을 비교하여 상기 범위 “a”가 임계값(A)보다 큰 경우에 “1”을 출력하고, 그렇지 않을 경우에 “0”을 출력한다.
한편, 곱셈기(multiplier)(3504)는 범위 “a”에 설정값(R)을 곱한다. 다음에 비교기(3505)는 범위 “b”와 상기 곱셈기(3504)에서 구해진 값“aR”을 비교하여, 값 “aR”이 범위 “b”보다 클 때 “1”을 출력하고, 그렇지 않을 경우에 “0”을 출력한다.
다음에, AND 회로(3506)는 상기 비교기(3502와 3505)의 두 출력을 논리곱 연산하여, 상기 비교기(3502와 3505)의 두 출력이 모두 “1”또는 “0”인 경우에는 “1”을 출력하고, 그렇지 않을 경우에는 “0”을 출력한다.
제35도의 상기 비교 판정부에서, 값 “1”은 a〉A 그리고 aR〉b일 때 즉, 상기 캡션이 존재하고, 프레임 화상의 변화가 검사되는 판정되는 영역의 범위가 충분히 크고, 판정되는 영역내의 프레임 화상의 변화가 충분히 작을 때, “1”이 출력되고, 그렇지 않은 경우에 “0”이 출력된다.
캡션이 절환되는 것과 같이 판단되는 영역내에서 프레임 화상이 크게 변화하는 경우에, 상기 출력은 “0”이 된다. 따라서, 상기 값 “1”은 어떤 캡션이 연속적으로 나타나는 동안 출력되고, 값 “0”은 캡션이 존재하지 않거나, 캡션이 절환될 때 출력된다.
제36도는 제34도의 판정부에서 비교 판정부의 다른 구성을 나타내고, 출력측에 타이머 메카니즘(mechanism)이 포함하여 특정화된다.
제36도의 3601∼3605 요소들은 실제로 제35도의 3501∼3505와 동일하고, 3606∼3608 요소는 타이머 메카니즘을 구성한다. 상기 비교기(3602)의 출력은 증가 신호로서 계수기(3607)로 입력되고, 비교기(3602와 3605)의 출력은 OR 회로(3606)로 입력되어, 상기 OR 회로(3606)는 상기 비교기(3602)의 출력이 “0”이거나, 상기 비교기(3605)의 출력이 “1”인 경우에 “1”을 출력하고, 그렇지 않은 경우에는 “0”을 출력한다. 상기 OR 회로(3606)의 출력은 리셋(reset) 신호로서 상기 계수기(3607)로 입력된다.
상기 계수기(3607)의 값은 비교기(3608)에서 설정된 임계값(T)과 비교되고, 상기 비교기(3608)는 상기 계수기(3607)의 값이 임계값(T)보다 클 때 “1”을 출력하고, 그렇지 않을 경우에 “0”을 출력한다.
제36도의 비교 판정 부에서, 상기 카운터 값은 a〉a 와 aR〉b일 때 즉, 프레임화상의 변화가 검사되고, 캡션이 존재하는 판정되는 영역의 범위가 충분히 크고, 판정되는 영역내의 프레임 화상의 변화가 충분히 작을 때, 1씩 증가되고, 그렇지 않은 경우에 계수기간이 리셋된다.
캡션이 절환되는 것과 같이, 캡션으로 판정되는 영역내의 프레임 화상이 크게 변화하는 경우에는, 상기 계수기가 리셋된다. 따라서, 상기 계수기 값은 어떤 캡션이 계속해서 나타나는 동안 1씩 증가되고, 캡션이 존재하지 않거나 캡션이 절환되는 경우에 계수기값이 리셋된다. 즉, 상기 계수기(3607)는 캡션이 계속적으로 나타나는 시간 구간을 측정하는 기능을 가진다.
더욱이, 상기 비교기(3608)는 임의 시간 구간 동안 연속하는 경우에 “1”을 출력한다. 이런 식으로, 단지 짧은 시간 구간 동안에 존재하는 캡션을 제거하는 것이 가능하게 된다.
비록 캡션 이외의 화상화된 피사체가 잘못하여 캡션 후보가 되는 경우에도, 그러한 화상화된 피사체가 짧은 시간 구간만 연속하여 나타나는 한은, 제거될 수 있다.
제37도는 이 발명에 따른 영상 데이터에서 캡션을 검출하는 장치의 제3 실시예에서 처리 과정에 대한 동작 순서도를 나타낸다.
우선, 화상 입력 단계(3701)에서 화상이 입력되고, 캡션 후보 화상 작성 단계(3701)에서, 캡션 후보가 검출되고, 캡션이 존재하는 픽셀에 대하여 “1”의 값을 가지고, 그 외 다른 픽셀에 대하여 “0”의 값을 가지는 캡션 후보 화상이 작성되고, 차이 화상 작성 단계(3703)에서, 두 개의 시간 방향으로 분리된 프레임 화상 사이의 차이의 절대값과 동일한 픽셀값을 가지는 차이 화상이 작성된다.
여기서, 차이를 구하는데 사용되는 프레임사이의 프레임간격이 인접하는 프레임간의 간격 또는 다수 프레임에 의해 떨어져 있는 프레임간의 간격일 수 있다.
여기서 캡션 후보 화상 작성 단계(3702)와 상기 차이 화상 작성 단계(3703) 중 어느 하나는 먼저 실행될 수 있음에 유의한다.
다음에, 추출 단계(3704)는 캡션 후보 화상이 “0”의 값을 가지는 차이 화상부분에 “0”을 설정하고, 판단 단계(3703)가 캡션의 존재를 판정한다.
다음의 보다 상세한 제37도의 처리에 사용되는 다양한 변수들이 기술된다.
입력 화상은 배열 “scr”로 입력되고, 상기 입력 화상의 개개의 픽셀은 픽셀번호 “p”에 의해 지정되는 “scr[p]”로서 표시된다. 블럭(block)은 하나의 픽셀 또는 하나 이상의 픽셀 집합으로 형성되고, 블럭 번호 “b”에 의해 지정된다. 캡션 후보 화상은 블럭 단위로 관리되고, “text[b]”로 표시된다. 상기에서 캡션 후보이면, tel[b] = 1이고, 그렇지 않을 경우에는 tel[b] = 0이다.
또한, 이전 처리 단계에서 상기 프레임의 캡션 후보 화상은 “pretel[b]”로 표시된다. 상기 차이 화상은 픽셀 단위로 관리되고 “diff[p]”로 표시된다. 또한 이전 처리 단계에서 상기 프레임의 차이 화상은 “prediff[p]”로 표시된다.
제38도는 제37도의 처리 과정의 캡션 후보 화상 작성 단계(3702)의 동작 순서도를 나타낸다.
우선, 상기 블럭 넘버 b가 단계(3801)에서 “0”으로 초기화된다. 다음에, 상기 블럭 넘버 b에 의해 지정된 블럭이 캡션 후보인지의 여부가 단계(3802)에서 검사된다. 상기 블럭이 캡션 후보일 때, 단계(3803)에서 값 “1”이 tel[b]로 입력되고, 그령지 않을 경우에 값 “0”이 단계(3804)에서 tel(b)로 입력된다. 상기 캡션 후보 검출에 대해서, 제2도에 도시된 바와 같은 상기한 제1 실시예의 상기 영상 데이터에서 캡션을 검출하는 장치를 이용하는 것도 가능하다는 것을 유의한다.
다음, 상기 블럭 번호 b의 값이 단계(3805)에서 증가되고, 단계(3806)에서 블럭 번호가 전체 블럭수와 동일한지의 여부가 판정된다. 상기 단계(3802)에서부터 단계(3805)까지의 처리는 상기 블럭 번호 b가 전체 블럭수와 동일해질 때까지 반복된다. 이러한 제38도의 절차에 의해, 캡션 후보 화상 tel[b]가 작성된다.
제39도는 제37도의 처리의 차이 화상 작성 단계(3703)의 동작 순서도를 나타낸다.
우선, 상기 픽셀 번호 p가 단계(3901)에서 “0”으로 초기화된다. 다음에, 단계(3902)에서 현재 프레임의 픽셀 값 scr[p]과 이전 프레임의 픽셀 값 diff[p] 간의 차이의 절대값이 차이 화상의 픽셀 값 diff[p]에 저장된다.
다음에, 상기 픽셀 번호 p가 단계(3903)에서 하나 증가되고, 단계(3904)에서 상기 픽셀 번호가 전체 픽셀 번호와 동일한지의 여부가 판정된다. 상기 단계(3902)에서 단계(3903)까지의 처리는 상기 픽셀 번호 p가 전체 픽셀 번호와 동일해질때까지 반복된다. 제39도의 절차에 의해 상기 차이 화상 diff[p]가 작성된다.
제40도는 제37도의 처리에서의 추출단계(3704)의 동작 순서도를 나타낸다.
요약하면, 제3 실시예에서, 상기 불변 픽셀 또는 입력 화상중에 새로이 캡션후보가 되는 픽셀 중 임의의 집합이 판단하고자 하는 영역으로서 취해지고, 판단하고자 하는 영역내에 포함된 차이 화상이 추출된다. 다음에, 판정하고자 하는 영역의 범위 “count” 뿐만 아니라 판정하고자 하는 영역내의 차이 화상이 큰 부분의 범위 “cdiff” 즉, 프레임 화상이 변화되는 부분이 계산되고, 출력된다. 판정하고자 하는 영역내에서, 불변 픽셀이 m[p]으로 표시된다.
우선, “count”, “cdiff”와 픽셀 번호 p 모두가 단계(4001)에서 “0”으로 초기화된다. 다음에, 각각의 픽셀 번호 p에 대해서 다음 처리가 수행된다.
상기 픽셀 번호 p에 대응하는 블럭 번호 b는 단계(4002)에서 구해지고, 상기m[p] = 1의 조건(불변 픽셀) 또는 두 개의 tel[b]=1과 pretel[p] = 0의 조건(이전프레임이 아닌 현재 프레임내에서 캡션 후보인 블럭 번호(b)의 블럭) 중 하나가 유지되는지가 단계(4003)에서 판정된다. 만약 상기의 경우이면 처리가 단계(4004)로 진행되고, 반면 그렇지 않을 경우에는 처리가 단계(4003)로 진행된다. 상기 단계(4003)는 불변 픽셀 또는 새로이 캡션 후보가 되는 픽셀인지를 판정한다.
다음에, “count”의 값이 단계(4004)에서 하나 증가되고, 단계(4005)에서 상기 픽셀 번호 p에 대한 차이 화상의 픽셀 값 diff[p]이 설정된 임계값(D)보다 큰지의 여부가 검사된다. diff[p]가 임계값(D)보다 클 때, 처리가 “cdiff”의 값을 하나씩 증가시키는 단계(4006)로 진행하고, 그렇지 않을 경우에는 처리가 단계(4007)로 진행한다.
다음에, 단계(4007)에서 상기 픽셀 번호 p의 값이 하나 증가되고, 단계(4008)에서 증가된 픽셀 번호 p가 전체 픽셀 수와 동일한지의 여부가 판정된다. 상기 단계(4002)에서 단계(4007)까지의 처리는 상기 픽셀 번호 p가 전체 픽셀수와 동일해질 때까지 반복된다.
상기 단계(4008)까지의 처리에 의해, 프레임 화상의 변화가 검사되고, 캡션이 존재하는 판정하고자 하는 영역의 범위 “count” 범위뿐만 아니라 프레임 화상이 판정하고자 하는 영역내에서 변화하는 부분의 범위 “cdiff”를 구하는 것이 가능하다.
다음, 상기 단계(4009)에서 단계(4015)까지의 처리에 의하여, 불변 픽셀 m[p]이 구해지고, “pretel”과 “prescr”이 작성된다. 우선, 상기 픽셀 번호 p는 단계(4009)에서 “0”으로 초기화되고, 상기 픽셀 번호 p에 대응하는 블럭 번호 b가 단계(4010)에서 구해진다. 다음에, 단계(4011)에서 tel[b] = 1(블럭 번호 p의 블럭이 캡션 후보)이고, diff[p]≤d(차이 화상내의 픽셀 번호 p의 픽셀에 대한 픽셀값이 임계값 D와 같거나 작은 지의 여부)인지가 판정된다. 만약 상기와 같을 경우에 처리가 m[p]의 값이 “1”과 동일하게 설정되는 단계(4012)로 진행되고, 그렇지 않을 경우에는 처리가 m[p]의 값이 “0”과 동일하게 설정되는 단계(4013)로 진행된다.
다음에, 상기 픽셀 번호 p는 단계(4014)에서 하나 증가되고, 단계(4015)에서 픽셀 번호 p가 전체 픽셀 수와 동일하는지의 여부가 판정된다. 상기 단계(4010)에서 단계(4014)까지의 처리는 상기 픽셀 번호 p가 전체 픽셀수와 동일해질 때까지 반복된다.
상기 단계까지의 처리에 의해, 상기 불변 픽셀 m(p)을 구하는 것이 가능하다. 상기 불변 픽셀 값은 다음 추출 단계에서 사용될 것이다.
다음에, 단계(4016)에서 다음 처리 단계를 위한 준비로서, 현재 프레임에 대한 “tel”과 “scr”의 값이 “prescr”과 “pretel”로 복사되고, 상기 처리에 의해 구해진 “cdiff”와 “count”의 값이 단계(4017)에서 출력된다.
제41도는 제37도의 처리에서 판정 단계(3705)의 동작 순서도를 나타낸다.
요약하면, 제3실시예에서, 상기 프레임 화상의 변화가 검사되는 판정하고자하는 영역의 범위 “count”와, 상기 프레임 화상이 판정하고자 하는 영역 내에서 변화되는 영역의 범위 “cdiff”가 입력으로서 입력된다. 변수 t는 상기 캡션이 연속하여 나타나는 시간의 구간을 표시하고, 정수 값을 가진다. 상기 “count”와 “cdiff”는 비교되고, 상기 변수 t의 값은 상기 캡션이 계속해서 나타나는 동안 하나씩 증가한다. 반면에, 상기 변수 t의 값은 캡션이 나타나지 않거나 캡션이 절환될 때, “0”으로 리셋된다. 짧은 시간 구간 동안에 나타나는 노이즈를 제거하기 위하여, 단지 설정된 임계값(T)보다 오래 지속되는 캡션만 인식된다. 상기 임계값(T)과 변수 t가 비교되고, 해당 서브 루틴을 수행하기 위하여 상기 비교 결과에 따른 각각의 경우가 “캡션 시작(caption start)”, “캡션 계속(caption continue)”와 “캡션 종료)caption end”중 하나로서 판정된다.
여기서, 서브 루틴은 이 실시예에서 특별하게 정의되지 않지만, 적용에 따라 정의될 수 있다. 예를 들면, 스크린상의 검출 상태를 디스플레이하기 위하여, 드로잉(drawing) 기능이 서브 루틴으로서 정의될 수 있다.
우선 단계(4101)에서 상기 변수 t가 “0”보다 큰 지의 여부가 검사되고, 상기 t가 “0”보다 큰 경우에는 즉, 현재 타이밍에서 캡션이 존재하지 않는 경우에, 처리가 단계(4102)로 진행되고, 반면에 그렇지 않으면, 처리가 단계(4104)로 진행된다.
상기 단계(4102)에서, 상기 “count”는 임계값(A)과 비교되고, 단지 “count”이 임계값(A)보다 큰 경우에만, 캡션의 시작을 표시하기 위하여, 단계(4103)에서 상기 변수 t의 값이 “1”과 동일하게 설정된다.
상기 단계(4104)에서, 상기 “count”는 임계값(A)과 비교되고, “count”에 의해 나누어진 “cdiff”가 임계값(R)과 비교되고, count〈A인 조건 또는, cdiff/count〉R인 조건중 하나가 유지될 때, 처리가 단계(4106)로 진행되고, 그렇지 않을 경우에, 처리가 단계(4105)로 진행된다.
상기 단계(4104)에서, 캡션이 존재하지 않는 경우인지, 또는 판정하고자 하는 영역내에서 화상 변화가 큰 경우인지가 검사된다. 단계(4105)에서, 상기 단계(4104)의 두 가지 조건 모두가 유효하지 않은 것과 같이 즉, 캡션이 계속적으로 나타날 때, 상기 변수 t의 값은 하나씩 증가된다.
단계(4106)에서, 상기 단계(4104)의 조건 중 하나가 유효함으로, 즉, 캡션이 사라지거나 절환됨으로, 변수 t가 임계값 T와 같거나 큰 지의 여부가 검사된다. 이러한 조건이 유효한 경우에는 이하에 설정되는 “cation start” 서브루틴이 이미 호출되어 있음으로, 단계(4107)에서 해당 “caption end” 서브루틴이 실행된다. 어느경우에 있어서, 단계(4108)에서 변수 t의 값이 “0”으로 리셋된다. 상기 단계까지의 절차는 “count”와 “cdiff”값의 비교 결과에 따라 상기 변수 t의 값의 변화시키기 위한 처리를 구성한다.
다음, 단계(4109)에서 단계(4112)까지의 처리에 의해, 상기 변수 t는 임계값(T)과 비교되고, 서브-루틴 “caption start” 또는 “caption continue”가 호출된다. 우선, 단계(4109)에서 변수 t의 값이 임계값(T)과 동일한지의 여부가 검사되고, 상기에서 변수 t가 임계값(T)과 동일할 때, 서브-루틴 “caption start”가 실행된다. 그리고, 상기에서 변수 t가 임계값(T)과 동일하지 않을 때, 단계(4111)에서 상기변수 t가 임계값(T)보다 큰 지의 여부가 판정된다. 그리고, 변수 t가 임계값(T)보다 크다면, 서브-루틴 “caption continue”이 호출된다.
또한, 영상 데이터에서 캡션을 검출하는 장치의 제3 실시예가 최종적으로 구해진 캡션 판정 결과에 따라서 프레임 화상을 출력하고, 캡션의 목록을 작성하도록 변경될 수 있다는 것을 유의한다.
상기한 바와 같이, 제3 실시예에 따라, 캡션이 존재하는 영역내의 프레임 화상의 변화에 따라 캡션이 검출됨으로, 캡션간의 절환 시점을 검출하는 것이 가능하다.
또한, 제3 실시예에 따라, 프레임 화상의 변화가 검사되는 영역이 캡션이 존재하는 영역으로 제한될 수 있으므로, 캡션의 배경에서 변화의 영향을 받는 것이 더욱 어려위지게 되고, 캡션간의 절환 시점을 정확하게 검출할 수 있게 된다.
또한, 제3 실시예에 따라, 캡션 후보 화상이 “1”값을 가지고, 계속하여 나타나는 캡션을 구성하는 픽셀에 대응하는 부분과, 새로이 나타난 캡션의 부분에서 “1”을 가지는 마스크를 작성하는 것이 가능하다.
또한, 제3실시예에 따라, 임의 캡션이 계속적으로 나타나는 동안 “1”값이 출력되고, 캡션이 존재하지 않거나 캡션이 절환될 때, “0”이 출력된다. 그러므로, 캡션 후보 화상의 범위와, 프레임간 차이의 크기에 따라 캡션의 절환과 존재를 검출하는 것이 가능하게 된다.
또한, 제3 실시예에 따라, 캡션이 계속적으로 나타나는 시간 구간이 측정될수 있고, 짧은 시간 구간 동안에만 나타나는 캡션이 제거될 수 있으므로, 비록 캡션 이외의 화상화된 피사체가 잘못하여 캡션 후보가 되는 경우에도, 그러한 화상화된 피사체가 짧은 시간 구간 동안 계속하여 나타난다면, 제거될 수 있으므로, 캡션을 보다 정확하게 검출하는 것이 가능하게 된다.
제42도내지 제53도를 참조로 하여, 이 발명에 따른 영상 데이터에서 캡션을 검출하는 장치의 제4 실시예를 상세히 설명한다. 상기 제4 실시예는 영상 검색을 위하여 상기한 바와 같이 이 발명의 영상 데이터에서 캡션을 검출하는 장치를 사용하는 경우를 설명한다.
우선, 화상 필드에서 캡션의 공간적 위치를 나타내기 위한 세 가지 방법을 설명한다.
제43도는 화상 필드에서 캡션의 공간적 위치를 나타내기 위한 첫 번째 방법을 나타낸다. 이것은 각 캡션의 외접 직사각형의 폭과, 높이 크기와, 각 캡션의 외접사각형의 상부 좌측 코너의 좌표의 조합에 의하여 각 캡션이 표현되는 방법이다.
제43도에서, 상기 캡션에 외접하는 직사각형 R이 사용되고, 상기 캡션은 직사각형 R의 폭(w)과, 높이(h)와, 상부 좌측의 좌표(x,y)의 형태로 주어진 조합(x, y, w, h)에 의해 표현된다. 이러한 표현의 장점은 하나의 캡션이 네 개의 숫자로 나타낸 값으로 표현될 수 있는 것이다. 상기 표현의 단점은 불필요한 영역 외부의 캡션이 복잡한 형태인 캡션으로 포함되어야 하는 것이다.
제44(a)도와 제44(b)도는 화상 필드에서 캡션의 공간적 위치를 표현하기 위한 제2방법을 나타낸다. 이것은 캡션이 존재하는 각 블럭에 “1” 을 설정하고, 그 외의 다른 블럭에 “0”을 설정하여 각 캡션이 표현되는 비트 맵(bit map)을 사용하는 방법이다. 예를 들면, 제44(a)도에 도시된 상기 캡션 화상은 M×N 블럭으로 나누어지고, M×N 요소로 형성된 비트맵이 제44(b)도에 도시된 바와 같이 형성된다. 다음에, 비트값 “1”이 캡션이 존재하는 각 블럭에 대응하는 비트에 할당되고, 비트 값 “0”은 그 외의 다른 블럭에 할당된다. 이러한 표현의 장점은 작은 블럭 크기로 캡션이 보다 정확하게 표현될 수 있다는 것이다. 이러한 표현의 단점은 보다 더 작은 블럭 크기를 사용하는 경우에 비트맵을 저장하기 위하여 보다 큰 용량의 메모리가 요구되는 것이다.
제45(a)도와 제45(b)도는 화상 필드에서 캡션의 공간적 위치를 표현하기 위한 제3방법을 나타낸다. 이것은 상기한 제1/제2방법을 조합한 방법이다. 즉, 외접 직사각형에 대응하는 작은 비트 맵이 형성되고, 비트값 “1”이 캡션이 존재하는 각 블럭에 할당되고, 비트값 “0”이 비트맵의 그 외의 블럭에 할당된다. 예를 들면, 캡션은 제45(a)도에 도시된 바와 같이 (x, y, w, h)로 표현되는 캡션의 외접 직사각형과, 제45(b)도에 도시되어 있는 바와 같이 상기 외접 직사각형에 대응하는 작은 비트 맵(이 예에서는 4×2) 형태로 표현된다. 이러한 표현은 캡션이 제1방법보다 더 정확하게 표현될 수 있고, 요구되는 메모리 용량이 제2방법보다 작은 장점을 가진다.
다음에 다른 언급이 없다면, 화상 필드에서 캡션의 공간적 위치를 표현하기위한 상기 세가지 방법중 어느 것이라도 사용될 수 있다.
또한, 상부 좌측 코너의 좌표와 하부 우측 코너의 좌표를 조합하는 방법을 사용하는 방법을 고려할 수 있지만, 그러한 방법은 상기한 방법들과 본질적으로 동일하다.
다음, 제4 실시예에 따라 검색키로서 사용되는 캡션 위치를 설명한다.
영상 캡션이 나타나는 방식은 영상 작성자 사이의 관습이나 컨센서스에 의해 어떤 경향을 가진다. 즉, 제46도에 도시된 바와 같이, 시간은 화상 필드 상부 좌측부 A에 표시되고, 장소 또는 날짜는 화상의 상부 우측부 B에 표시되며, 성명 또는 장소는 화상 필드의 하부 중앙부 C 에 표시되고, 제목, 설명, 단어 또는 번역된 단어는 화상 필드의 하부 D에 표시되는 등의 일반적인 경향이 있다. 이 발명의 제4 실시예에서는, 영상 캡션이 나타나는 이러한 경향을 이용하여 영상이 검색된다.
제42도는 본 발명에 따른 제4 실시예에서 영상 검색 기능을 가진 영상 데이터에서 캡션을 검출하는 장치의 대표적인 개략적 구성을 도시하고 있다. 여기서, 입력 영상 데이터는 연속적인 프레임 화상 또는 H.261 또는 MPEG에 따라 부호화된 영상 데이터 부호화일 수 있다.
제42도의 가독성에서, 캡션 검출부(4201)은 입력 영상 데이터로부터 캡션을 검출하고 캡션 영역 데이터를 출력한다. 한편, 검색 키 입력부(4303)는 검색키로서 검색될 원하는 캡션의 공간적 위치 범위를 입력한다.
다음으로, 선택부(4302)는 검색키로 캡션 영역 데이터에 따른 화상 필드 상의 각각의 캡션의 공간적 위치를 비교하며, 비교 결과에 따른 스위치(4205)를 제어하여, 검색될 원하는 캡션에 대응하는 영상 데이터의 일부만을 표시부(4204)로 제공한다. 다음으로, 표시부(4204)는 제공된 영상 데이터를 표시한다.
캡션 검출부(4201)에 의한 캡션 검출에 대하여, 미리 영상 데이터로 주어진 캡션 정보를 사용하는 방법, 또는 화상 처리 및 화상 인식 기술을 사용하여 영상데이터를 처리하여 캡션 영역을 자동적으로 검출하는 방법을 사용할 수 있다. 후자의 방법에 대하여, 상기한 제1 내지 제3 실시예의 영상 데이터에서 캡션을 검출하는 장치가 사용될 수 있다. 상기한 제2도의 영상 데이터에서 캡션을 검출하는 장치를 사용하는 경우, 캡션 검출부(4201)는 상기한 제29도의 구성으로 실시될 수 있다.
제47도는 제42도의 가독성에서 검색 키 입력부(4203)의 대표적인 구성을 도시하고 있다.
제47도의 검색 키 입력부에서, 입력 가독성(4702)는 마우스, 디지타이저, 조이스틱 또는 터치 패널과 같은 포인팅 가독성의 형태라고 가정한다. 이러한 입력 가독성(4702)를 사용하여 사용자는 화상 필드 상에 원하는 위치에 직사각형 또는 임의의 모양으로 폐곡선 형상을 그릴 수 있다. 다음으로, 그려진 모형의 외접 직사각형의 상부 좌측 모서리 좌표 (x, y), 폭 w 및 높이 h는 색인 정보 레지스트(4701)의 외접 직사각형 필드 R에 저장된다. 더욱이, 그려진 형상 내부에서는 “1”이고 외부에서는 “0”인 비트 값은 색인 정보 레지스터(4701)의 비트 맵 필드 B에 기록된다. 색인 정보 레지스터(4701)에 저장된 이러한 값들은 실제 검색키를 구성한다.
검색키로서 사용되는 화상 필드 상의 캡션의 공간적 위치를 나타내기 위한 방법에 따라, 색인 정보 레지스터(4701)의 외접 직사각형 필드 R과 비트 맵 필드 B중 하나를 생략할 수 있음에 유의한다. 또한, CRT 가독성과 같은 표시 가독성(4204) 상에 비트 맵을 표시함으로써 검색키를 시각적으로 표시할 수 있다.
제48도 및 제49도는 검색 키 입력부(4203)에 입력된 검색키의 두 가지 대표적인 표시를 도시하고 있다. 제48도는 화상 필드(4801)에 그려진 직사각형 (제48도의 빗금친 부분)의 형태로 된 대표적인 검색키를 도시하고 있으며, 제49도는 화상 필드(4901) 상에 그려진 폐곡선 (제49도의 빗금친 부분)의 형태로 된 대표적인 검색키를 도시하고 있다. 여기서, 화상 필드(4801 또는 4901) 상의 직사각형 또는 폐곡선을 포인팅 가독성으로 자유롭게 그리는 것도 가능하다. 제48도 및 제49도에서, 직사각형 모드와 폐곡선 모드의 두 모드가 화상 필드(4801 또는 4901) 밑에 제공된 2개의 아이콘 (4802와 4803, 또는 4902와 4903)을 사용하여 전환될 수 있다.
제50도는 제42도의 가독성에서 선택부(4202)의 대표적인 구성을 도시하고 있다.
제50도의 선택부에서, 캡션의 공간적 위치 데이터는 입력된 캡션 영역 데이터에 따라 색인 정보 레지스터(5001)의 캡션 필드 T에 저장된다. 캡션 필드 T는 외접 직사각형 필드 R과 비트 맵 필드 B로 더 분할되나, 색인 정보 레지스터(5001)의 외접 직사각형 필드 R과 비트 맵 필드 B 중 하나는 영상 필드 상에 캡션의 공간적위치를 나타내는 방법에 따라 생략될 수 있다.
한편, 검색 키 입력부(4203)에서 구한 검색키는 검색 키 레지스터(5003)에 저장된다. 다음으로, 색인 정보 레지스터(5001)와 검색 키 레지스터(5003)의 값은 비교부(5002)에 의해 비교되고, 여기서 구한 비교 결과는 스위치(4205)를 제어하기 위한 온/오프 정보로서 스위치(4205)로 제공된다.
비교부(5002)는 다음의 두 종류의 비교 중 하나를 사용할 수 있다. (1)캡션의 공간적 위치가 검색키에 의해 특정된 범위 K에 포함되는지의 여부를 판단하는 비교와 (2) 캡션의 공간적 위치 D가 검색 키에 의해 특정된 범위 K와 중첩되는지의 여부를 판단하는 비교가 그것이다. 이러한 두 비교 유형에 의해 구한 비교 결과는 제51도에서 요약된다. 유형 (1)에 대해, 비교 결과는 D가 K에 포함되어 있을 때만 “참”이고 다른 경우에는 “거짓”이다. 유형 (2)에 대해, 비교 결과는 D와 K가 적어도 부분적으로 중첩될 때 “참”이 되고 K와 K가 전혀 중첩되지 않을 때에만 “거짓”이 된다.
유형 (1)에 대한 비교 결과는 다음과 같이 구해진다. 화상 필드 상의 캡션의 공간적 위치가 외접 직사각형에 의해 표시되는 경우 D는 (Xd, Yd, Wd, Hd)로 표시될 수 있고 K는 (Xk, Yk, Wk, Hk)로 표시될 수 있다. 다음으로, 비교 결과 “참”의 경우는 다음의 조건을 사용하여 구별될 수 있다.
Xk≤Xd∧ (Xk+Wk) ≥ (Xd+Wd) ∧ Yk≤Yd ∧ (Yk+Hk) ≥ (Yd+Hd)
한편, 화상 필드 상의 캡션의 공간적 위치는 비트 맵에 의해 표시되는 경우에, 비교 결과가 “참”인 경우는 다음의 비트 연산에 의해 구별될 수 있다.
D ∧ K = D
마찬가지로, 유형 (2)에 대한 비교 결과는 다음과 같이 구할 수 있다. 화상필드 상의 캡션의 공간적 위치가 외접 직사각형에 의해 표시되는 경우, 비교 결과가 “참”인 경우는 다음 조건을 사용하여 구별될 수 있다.
Xk≤(Xd+Wd) Xd≤(Xk+Wk) ∧ Yk≤(Yd+Hd) ∧ Yd≤(Yk+Hk)
한편, 화상 필드 상의 캡션의 공간적 위치가 비트 맵에 의해 표시되는 경우, 비교 결과가 “참”인 경우는 다음 비트 연산에 의해 구별될 수 있다.
D ∧ K = 0
위의 식은 D와 K의 논리곱 (AND)가 0이 됨을 의미한다.
제52도는 제42도의 가독성의 표시부(4204)에 의한 검색 결과의 대표적인 표시를 도시하고 있다. 여기서, 표시부(4204)는 입력된 검색 키에 따라 원하는 캡션을 가지는 영상 화상 프레임을 표시하고 있다.
제53도는 본 발명의 제4 실시예에 따른 영상 데이터에서 캡션을 검출하는 장치의 캡션 검출 장치의 대표적인 개략적인 구성을 도시하고 있으며, 이는 영상 검색 기능을 포함하는 것이다.
제53도의 이러한 구성은 제42도에서와 유사한 캡션 검출부(5301), 선택부(5303), 검색 키 입력부(5304) 및 표시부(5305) 외에 영상 데이터와 캡션의 공간적위치를 조합하여 색인 정보로서의 화상 필드 상에 기록하기 위한 기록부(5302)가 제공되어 색인 정보에 따라 선택부(5303)에서의 선택이 가능하다는 점에서 제42도의 구성과는 다르다. 이러한 제53도의 구성에서, 캡션 검출부(5301)와 검색 키 입력부(5304)는 제42도의 캡션 검출 입력부와 실질적으로 동일하다.
제54도는 제53도의 가독성에서 기록부(5302)의 대표적인 구성을 도시하고 있다.
제54도의 기록부에서, 입력된 영상 데이터는 색인 정보 레지스터(5401)의 프레임 필드 F에 저장된다. 이때, 프레임 화상 또는 프레임 번호도 역시 저장될 수 있다. 또한, 캡션의 공간적 위치 데이터도 입력된 캡션 영역 데이터에 따라 색인정보 레지스터(5401)의 캡션 필드 T에 저장된다. 캡션 필드 T는 외접 직사각형 필드 R과 비트 맵 필드 B로 더 세분되나, 색인 정보 레지스터(5001)의 외접 직사각형 필드 R과 비트 맵 필드 B 중 하나는 화상 필드 상의 캡션의 공간적 위치를 나타내기 위한 방법에 따라 생략될 수 있다.
색인 정보 레지스터(5401)의 값은 기록 매체(5402)에 기록된다. 여기서, 기록 매체(5402)는 반도체 메모리, 자기 디스크, CD 및 자기 테이프의 형태로 제공될수 있다.
제55도는 제53도의 가독성의 선택부(5303)의 대표적인 구성을 도시하고 있다.
제55도의 선택부에서, 색인 정보는 기록부(5302)의 기록 매체(5402)로부터 순차적으로 판독되고 색인 정보 레지스터(5502)에 저장된다. 한편, 검색 키 입력부(5304)에서 구한 검색키는 검색 키 레지스터(5504)로 저장된다.
다음으로, 색인 정보 레지스터(5502)에서 캡션 필드 T의 값과 검색 키 레지스터(5504)의 값은 비교부(5503)에서 비교된다. 여기서, 상기한 두 종류의 비교중 하나가 사용될 수 있다. 구해진 비교 결과는 스위치(5501)을 제어하기 위한 온/오프 정보로서 스위치(5501)로 제공되어 색인 정보 레지스터(5502)의 값을 표시부(5305)로 출력하는지의 여부를 결정하게 된다.
제56도는 제53도의 가독성의 표시부(5305)에서 표시되는 대표적인 예를 도시하고 있다.
표시부(5305)에서, 영상 데이터 중 프레임 화상의 리스트는 선택부(5303)에서 선택된 색인 정보 중 프레임 필드 F의 값을 사용하여 CRT와 같은 표시가독성 상에 표시된다. 여기서, 프레임 화상은 적당히 축소된 형태로 표시될 수 있다. 더욱이, 캡션이 존재하는 영역은 색인 정보 중 캡션 필드 T의 값을 사용하여 표시기에서 강조될 수 있다. 강조 표시의 방법으로서는 빨간 색과 같은 두드러진 색으로 외접 직사각형을 그리는 방법이 사용될 수 있고, 또는 다른 영역의 휘도를 낮게 하고 캡션 영역의 휘도를 높이는 방법이 사용될 수 있다.
더욱이, 리스트 표시에서 프레임 화상 중 원하는 화상은 마우스와 같은 입력가독성에 의해 지정될 수 있어서 대응 프레임으로 시작하는 영상이 표시부(5305)의 CRT 상에 재생된다.
상기한 제4 실시예는 검색 키 입력부(4203, 5204)에서 몇몇의 일반적인 캡션위치에 대응하는 몇몇의 검색키를 일시 기록하기 위해 더 변형될 수 있으므로, 기록된 검색키로부터 원하는 검색키를 선택하여 영상을 검색을 할 수 있음에 유의하여야 한다.
상기한 바와 같이, 제4 실시예에 따라, 검색키로서 화상 필드상의 캡션의 공간적 위치를 사용하여, 영상에 나타나는 캡션의 공간적 위치에 따라 영상을 선택하고 표시할 수 있게 된다. 여기서, 문자 인식 처리나 고화질 캡션 영역은 화상 추출이 필요가 없기 때문에 낮은 처리 비용으로 영상을 선택하고 표시할 수 있게 된다.
더욱이, 제4 실시예에 따라, 영상에 나타나는 캡션의 공간적 위치에 따라 영상을 검색할 수 있고 영상의 프레임 화상 리스트의 형태로 검색 결과를 표시할 수있다. 여기서, 문자 인식 처리나 고성능 캡션 영역 화상 추출이 필요 없기 때문에 영상 검색을 실현하고 낮은 처리 비용으로 리스트를 표시할 수 있게 된다.
또한, 제4 실시예에 따라, 검색키로서의 화상 필드 상의 캡션의 공간적 위치는 입력 가독성을 사용하여 화상 필드 상의 캡션의 원하는 공간적 위치를 표시하는 도형을 그리므로써 특정될 수 있다.
또한, 제4 실시예에 따라, 영상에 나타나는 캡션의 공간적 위치에 따라 화상필드 검색 키 상의 캡션의 공간적 위치와 검색키를 비교하고 검색키에 의해 특정된 범위 내에 포함되어 있거나 중첩된 공간적 위치를 선택하여 영상을 선택할 수 있다.
또한, 제4 실시예에 따라, 검색된 영상은 영상의 선택된 프레임 화상 또는 대응 영상을 표시하기 위한 표시 가독성을 제공하여, 검색된 영상이 표시될 수 있다.
이제 제57도 내지 제72도를 참조하여, 이 발명에 따른 영상 데이터에서 캡션을 검출하는 장치의 제5 실시예를 상세하게 설명된다. 제5 실시예는 영상 목차 표시를 디스플레이하기 위하여 상기한 바와 같은 이 발명의 영상 데이터에서 캡션을 검출하는 장치를 사용하는 경우에 관한 것이다.
제57도는 이 발명에 따른 제5 실시예에서 영상 목차 표시 디스플레이 기능을 가진 영상 데이터에서 캡션을 검출하는 장치의 대표적인 개략적 구성을 도시하고 있다.
제57도의 가독성은 캡션 검출부(5701), 분류부(5702), 영상 목차 표시 생성부(5703) 및 표시부(5704)로 이루어진다.
캡션 검출부(5701)는 입력 영상 데이터에서 영상에 포함된 캡션을 검출한다. 검출된 캡션의 정보는 분류부(5702)에 입력되고, 분류부(5702)는 캡션을 서로 다른 종류로 분류한다. 영상 목차 표시 생성부(5703)는 각 종류의 캡션에 대한 캡션이 존재하는 시간 구간을 관리하고, 영상 목차 표시 정보를 생성한다. 표시부(5704)는 영상 목차 표시 정보에 따라 각 분류된 종류의 캡션에 대하여 시간 축 상에 캡션이 존재하는 시간 구간을 표시한다.
캡션 검출부(5701)에 의한 캡션 검출에 대해 영상 데이터에 미리 주어진 캡션 정보를 사용하는 방법 또는, 화상 처리 및 화상 인식 기법을 사용하여 영상 데이터를 처리하여 캡션 영역을 자동적으로 검출하는 방법을 사용할 수 있다. 후자의 방법에 대하여, 상기한 제1 내지 제3 실시예의 어느 하나의 영상 데이터에서 캡션을 검출하는 장치가 사용될 수 있다. 상기한 제2도의 영상 데이터에서 캡션을 검출하는 장치를 사용하는 경우에 캡션 검출부(5701)는 상기한 제29도의 구성으로 실시될 수 있다.
분류부(5702)는 캡션 정보에 따라 캡션을 다수의 종류로 분류한다. 이 때, 캡션의 종류가 캡션 정보로서 주어지는 경우, 이러한 정보는 분류 목적으로 사용될 수 있다. 또한, 캡션에 나타나는 텍스트 목차를 분석하여 캡션을 인명, 지명, 시간 등으로 분류할 수 있다. 또한, 이하에서 설명될 화상 필드 상의 캡션의 공간적 위치 정보에 따라 캡션을 분류할 수도 있다.
영상 목차 표시 생성부(5703)는 상기 분류부 (5702)에 의해 분류된 각 캡션의 종류에 대해 캡션이 존재하는 시간 구간을 관리한다. 또한, 구간을 합치거나 분할하거나 캡션이 존재하는 시간 구간에 대해 잡음을 제거하는 등의 조작을 할 수 있다. 다음으로, 비트 시퀀스가 각 종류의 캡션에 대한 영상 목차 표시 정보로서 사용되며, 비트 위치는 프레임에 대응하여 설정되고, “1”은 캡션이 존재하는 프레임에 대응하는 비트로 할당되고 “0”은 그 외의 비트로 할당된다. 영상 목차 표시정보를 표현하기 위한 방법으로서, 상기한 비트 시퀀스 대신에 화상 필드 상의 캡션의 위치와 같은 상세한 정보를 관리하기 위한 테이블 포맷이 사용될 수 있다.
제58도는 제57도의 가독성에서 표시부(5704)에 의한 영상 목차 표시의 대표적인 표시를 도시하고 있다. 여기서, 캡션은 제목, 성명, 장소, 시간 및 로고의 다섯 종류로 분류된다. 시간은 수평축의 형태로 각각의 캡션의 종류에 제공되며, 각 종류에 대한 캡션이 존재하는 시간 구간은 시간 축 상의 굵은 선으로 표시된다. 더욱이, 분류되지 않은 캡션이 존재하는 시간 구간도 이와 마찬가지로 표시된다.
제5 실시예에서, 각 분류된 종류의 캡션에 대해 캡션이 존재하는 시간이 시간 축 상에 위치하여 캡션 종류를 기초로 하는 영상 목차 표시를 제공할 수 있다. 예를 들어, 영상에 제목이 나타나는 구간은 제목에 대한 시간 축이 굵은 선으로 표시되어 영상은 제목에 따른 시간 구분으로 처리될 수 있다.
제59도는 본 발명에 따른 제5 실시예에서 영상 목차 표시 디스플레이 기능을 가진 영상 데이터에서 캡션을 검출하는 장치의 또 다른 개략적인 구조를 도시하고 있다.
제59도의 구성은 캡션을 포함하는 프레임 화상을 생성하기 위한 프레임 화상 생성부(5705)가 추가로 제공되어 프레임 화상이 표시부(5704)에서 영상 목차 표시정보에 대응하여 표시될 수 있다는 점에서 제57도의 구성과 다르다. 제59도의 이러한 구성에서, 캡션 검출부(5701), 분류부(5702) 및 영상 목차 표시 생성부(5703)는 제57도와 실질적으로 동일하다.
프레임 화상 생성부(5705)에서, 캡션을 포함하는 프레임 화상은 캡션 검출부(5701)로부터 공급되는 신호에 따라 입력된 화상 데이터로부터 생성되고, 생성된 프레임 화상은 영상 목차 표시 생성부(5703)에 의해 관리되는 캡션이 존재하는 시간 구간에 대응하여 설정된다.
제60도는 제59도의 가독성에서 표시부(5704)에 의한 영상 목차 표시의 대표적인 디스플레이를 도시하고 있다. 이러한 경우, 각 종류의 캡션에 대해 캡션이 존재하는 시간 구간은 제57도의 가독성에 의한 영상 목차 표시 디스플레이와 유사하게 시간 축 상에 굵은 선으로 표시되고, 더욱이 각 종류의 캡션을 포함하는 프레임 화상은 캡션이 존재하는 시간 구간에 대해 굵은 선의 시작점과 함께 정렬되어 표시된다.
이러한 영상 목차 표시 디스플레이에 의해, 각 종류의 캡션에 대해 캡션이 존재하는 시간 구간이 시간 축 상에 위치하고, 각 캡션이 존재하는 시간 구간에 대응하는 프레임 화상이 표시됨으로써, 구체적인 캡션 목차를 기초로 하는 영상 목차표시와 함께 캡션의 종류를 기초로 하는 영상 목차 표시를 제공할 수 있다. 예를들면, 제목이 영상에 나타나는 시간 구간을 나타내는 굵은 선과 이러한 굵은 선에 대응하여 표시되는 프레임 화상을 함에 관찰하여, 각각의 참조된 영상 부분에 대한 구체적인 제목을 붙임으로써 제목에 따른 시간 구분으로 영상을 처리할 수 있게 된다.
캡션이 존재하는 시간 구간을 표시하는 굵은 선에 대응하는 프레임 화상은 상기한 굵은 선의 시작점보다는 굵은 선의 끝점 또는 중간 지점에 배열된다는 것에 유의해야 한다.
제61도는 제59도의 가독성에서 표시부(5704)에 의한 영상 목차 표시의 또 다른 대표적인 표시를 도시하고 있다. 이러한 경우, 캡션이 존재하는 시간 구간을 표시하는 굵은 선에 대응하는 전체 프레임 화상을 표시하는 대신, 단지 프레임 화상 내의 캡션된 영역만이 캡션이 존재하는 시간 구간을 표시하는 굵은 선에 대응하여 표시된다. 제61도의 이러한 영상 목차 표시 디스플레이에 따라, 캡션 종류를 기초로하는 영상 목차 표시 이외에 구체적인 캡션 목차를 기초로 하는 영상 목차 표시가 제60도의 경우와 유사하게 제공될 수 있다. 제60도의 이러한 영상 목차 표시 디스플레이에서, 분류된 캡션 영역 화상은 시간 축상에 위치하여 영상 목차의 시간 변화는 제60도의 영상 목차 표시 디스플레이에 비하여 보다 효과적으로 표현될 수 있다.
예를 들어, 제목으로 분류된 캡션 영역 화상의 변화를 순차적으로 관찰하여 영상에 나타나는 주제를 이해할 수 있다.
제62도는 제59도의 가독성에서 표시부(5704)에 의한 영상 목차 표시의 또 다른 대표적인 표시를 도시하고 있다. 이러한 경우에, 캡션이 존재하는 시간 구간이 표시되지 않으며, 다만 캡션 영역 화상만이 순차적으로 표시된다.
제62도의 이러한 영상 목차 표시 디스플레이에 따라, 각 종류의 캡션에 대한 구체적인 캡션 목차를 기초로 하는 영상 목차 표시가 시간 축과 별도로 제공될 수 있다. 이러한 방법으로, 제목에 따른 목차의 테이블, 성명에 따른 목차의 테이블 등을 생성하여 표시할 수 있다.
캡션 영역 화상은 상기한 바와 같이 나타나는 순서에 따라 표시되지만 텍스트 정보가 캡션 영역 화상을 해석하여 검출될 수 있을 때, 캡션 영역 화상은 알파벳 순서로 배열될 수 있음에 유의하여야 한다.
제63도는 제57도 또는 제59도의 가독성에서 분류부(5702)의 대표적인 구성을 도시 하고 있다.
제63도의 분류부에서, 각각의 비교기(6301-1 내지 6301-n)는 제64도에서 도시된 테이블에 따라 캡션의 각각의 종류에 대한 미리 설정된 공간적 위치 범위를 각각의 캡션 영역과 비교하고, 캡션 영역이 공간적 위치 범위 내에 있는 경우 버퍼(6303-1 내지 6303-n) 중 대응하는 버퍼로 “1”값을 출력하고 그 외에는 “0”값을 출력한다. 더욱이, NOR 회로(6302)는 비교기(6301-1 내지 6301-n)의 출력의 논리합의 역수를 계산하고 계산 결과를 분류되지 않은 캡션에 대한 값으로서 버퍼(6303-(n+1) )로 출력 한다.
하나 이상의 캡션이 하나의 프레임에서 나타날 확률이 있고, 이러한 경우 공간적 위치 범위를 비교하는 것이 각각의 프레임에 포함된 모든 캡션 영역에 대해 수행될 수 있으며, 비교 결과의 논리합이 버퍼에 저장됨에 유의하여야 한다. 예를 들어, 2개의 분류된 종류 c1과 c2가 있는 경우 다음 3 종류에서 출력을 구할 수 있다.
〈c1, c2, (c1 c2)〉
c1로 분류된 캡션과 c2로 분류된 캡션이 임의 프레임에서 나타낼 때, 두 비교기의 출력은 다음과 같다.
〈1, 0, 0〉및 〈0, 1, 0〉
이러한 출력의 논리합을 구하면, 버퍼에 저장된 값은
〈1, 1, 0〉
이 되며, 이러한 값은 분류부(5702)의 출력으로 사용될 수 있다.
분류된 캡션에 추가하여 분류되지 않은 캡션을 처리하는 이유는 다음과 같다. 자동 캡션 검출을 사용하는 경우, 캡션이 없는 영역은 종종 캡션으로 잘못 오인되어 검출된다. 이러한 잡음은 전체 화상 필드에 걸쳐 무작위적으로 나타나고, 이러한 잡음은 주어진 캡션 종류 중 하나로 잘못 분류될 수 있을 뿐 아니라 주어진 캡션 중 어느 하나로도 분류되지 않을 수도 있다. 결과적으로, 분류되지 않은 캡션의 존재 여부 확인에 의하여, 잡음의 존재/부재를 학습하고 분류의 정확도를 이해할 수 있다.
제65도는 제57도 또는 제59도의 가독성에서 영상 목차 표시 생성부(5703)의 대표적인 구성을 도시하고 있다. 제65도의 이러한 구성은 캡션의 한 종류에 대한 일부를 도시할 뿐이고, 실제로는 영상 목차 표시 생성부(5703)는 (캡션의 종류의 갯수) + 1 (분류되지 않은 캡션용)만큼 제65도의 이러한 구성을 포함해야 한다.
제65도의 이러한 영상 목차 표시 생성부는 분류부(5702)의 출력을 수신하는 쉬프트 레지스터(6501), 쉬프트 레지스터(6501)의 비트에서 논리 연산을 수행하는 논리 연산부(6502), 및 논리 연산부(6502)로부터 논리 연산 결과를 수신하기 위한 긴 쉬프트 레지스터(6503)를 포함한다. 쉬프트 레지스터(6501)은 각각의 프레임에 대해 우측 방향으로 이동되고, 긴 쉬프트 레지스터(6503)는 캡션이 존재하는 시간구간을 유지하는 기능을 한다. 즉, 프레임에 대응하여 쉬프트 레지스터(6501) 상에 비트 위치를 설정하여, 프레임내에 존재하는 캡션의 종류를 관리할 수 있다.
제66도는 제65도의 영상 목차 표시 생성부의 논리 연산부(6502)의 대표적인 구성을 도시하고 있으며, 쉬프트 레지스터(6501)의 값은 긴 쉬프트 레지스터(6503)로 바로 입력된다. 즉, 이는 분류부(5702)의 출력이 바로 캡션이 존재하는 시간 구간으로 되는 경우에 적당한 구성이 된다.
제67도는 제65도의 영상 목차 표시 생성부의 논리 연산부(6502)의 또 다른 대표적인 구성이다. 제67도의 구성에서, 비트값 “1”을 가진 2개의 비트가 있고 이러한 2개의 비트가 단지 k 비트로 분리되는 경우에, 단지 k 비트인 각각은 비트값“1”을 가지는 것으로 설정된다. 예를 들어, k=2일 때, 다양한 비트 시퀀스는 제68도에 요약되어 있는 바와 같이 이러한 논리 연산 전의 상태에서 이러한 논리 연산후의 상태로 전환될 수 있다.
제67도의 이러한 구성은 캡션이 논리 연산 전 및 후에 검출되는 사실에도 불구하고 캡션이 즉시 검출되지 않는 경우를 보상하는 기능을 가지고 있어서, 자동캡션 검출을 사용할 때 자주 발생되는 캡션이 생략되는 현상을 처리할 수 있다.
제69도는 제65도의 영상 목차 표시 생성부의 논리 연산부(6502)의 또 다른 대표적인 구성을 도시하고 있다. 제69도의 이러한 구성에서, 비트값 “0”을 가진 2개의 비트가 있고 이러한 2개의 비트가 단지 k 비트로 분리되는 경우, 단지 k비트인 각각은 비트값 “0”을 가지는 것으로 설정된다. 예를 들어 k=2일 때, 다양한 비트시퀀스는 제70도에 요약되어 있는 바와 같이 이러한 논리 연산 전의 상태에서 이러한 논리 연산 후의 상태로 전환될 수 있다.
제69도의 이러한 구성은 캡션이 논리 연산 전후에 검출되지 않는다는 사실에도 불구하고 캡션이 즉시 검출되는 경우를 제거하는 기능을 가지고 있어서, 자동캡션 검출을 사용할 때 자주 발생하는 초과의 캡션이 발생하는 현상을 처리할 수있다.
영상 목차 표시 생성부의 쉬프트 레지스터와 논리 연산부가 제71도에 도시된바와 같이 하나 이상의 단계로 제공될 수 있음에 유의하여야 한다. 예를 들어, 제67도의 구성에서 쉬프트 레지스터(6501)와 논리 연산부(6502) 다음에 제69도의 구성에서 쉬프트 레지스터(6501)와 논리 연산부(6502)를 제공할 수 있다. 다수의 단계는 제71도의 도시된 바와 같이 2개로 제한될 필요가 없고 필요에 따라서 3 또는 그 이상으로 될 수 있다.
제72도는 제57도 또는 제59도의 가독성에서 영상 목차 표시 생성부(5703)의 또다른 대표적인 구성을 도시하고 있다. 제72도의 이러한 영상 목차 표시 생성부에서, 인버터(7201)는 분류부(5702)의 출력 중 분류되지 않은 캡션에 대한 출력을 반전시키고, 각각의 AND 회로 (7202-1 내지 7202-n)는 캡션의 각 종류에 대해 캡션이 존재하는 시간 구간과 인버터(7201)의 출력의 논리곱을 연산하고 회로(7203-1 내지 7203-n)의 대응 회로로 논리곱 결과를 입력시키고, 분류되지 않은 캡션에 대한 분류부의 출력도 다른 회로(7203-(n+1))로 입력된다. 여기서, 각각의 회로(7203-1 내지 7203-(n+1))는 제65도에 도시되어 있는 구성(6500)을 가진다.
즉, 분류되지 않은 캡션이 존재하는 구간은 자동 캡션 검출 또는 캡션 공간적 위치에 따른 자동 분류에 의한 잡음을 포함하는 것으로 간주되어, 이러한 구간은 중요하지 않은 캡션으로 간주된다. 제72도의 이러한 구성은 모든 캡션이 영상 목차 표시에 필수적으로 반영되지 않는다는 점에서 단점을 가지나 오차가 전혀 없거나 조금 밖에 없는 영상 목차 표시를 생성할 수 있다는 점에서 유리하다.
상기한 제5 실시예는 제60도의 영상 목차 표시 디스플레이의 경우 캡션 영역을 강조하여 프레임 화상을 표시하도록 더 변경할 수 있다는 점에 유의하여야 한다.
상기한 바와 같이, 제5실시예에 따라, 캡션의 종류를 기초로 하는 영상 목차표시가 제5 실시예에 따라 생성되고 표시될 수 있어서, 영상 목차를 잘 반영하는 영상 목차 표시를 제공할 수 있다.
더욱이, 제5 실시예에 따라, 캡션 또는 프레임 화상의 캡션 영역을 포함하는 프레임 화상은 캡션이 존재하는 시간 구간에 대응하여 생성되고 표시될 수 있어서, 구체적인 캡션 목차를 기초로 하는 영상 목차 표시를 제공할 수 있다.
또한, 제5 실시예에 따라, 캡션은 캡션의 공간적 위치에 따라 분류될 수 있어서, 캡션은 일반적인 캡션 출현 패턴에 따라 분류될 수 있다.
또한, 제5 실시예에 따라, 자동 캡션 검출 결과 또는 자동 분류 결과는 논리연산에 의해 처리될 수 있어서, 캡션이 생략되는 것이나 초과 캡션 검출을 보상할 수 있고, 효율적인 영상 목차 표시가 불완전한 캡션 검출 결과로부터도 생성될 수있다.
제73도 내지 제77도를 참조하여, 본 발명에 따른 영상 데이터에서 캡션을 검출하는 장치 제6 실시예를 상세히 설명한다. 제6 실시예는 영상을 표시하기 위하여 상기한 바와 같은 본 발명의 영상 데이터에서 캡션을 검출하는 장치를 하는 경우에 관한 것이다.
제73도는 이 본 발명에 따른 제5 실시예에서 영상 표시 기능을 가진 영상 데이터에서 캡션을 검출하는 장치의 대표적인 개략적 구조를 도시하고 있다.
제73도의 이러한 가독성에서, 캡션 검출부(7302)는 입력 영상 데이터로부터 영상에 포함된 캡션 영역을 검출하고 검출 결과에 따라 스위치(7303)를 제어한다. 영상의 픽셀이 캡션 영역에 포함될 경우, 스위치(7303)는 영상 표시 가독성로 필터(7301)에 의해 처리된 픽셀을 출력하도록 제어되고, 그렇지 않은 경우에는 스위치(7303)는 영상 표시 가독성로 원래 영상의 픽셀을 출력하도록 제어된다.
캡션 검출부(5701)에 의한 캡션 검출에 대해, 영상 데이터에 미리 주어진 캡션 정보를 사용하는 방법 또는 화상 처리 및 화상 인식 기법을 사용하여 영상 데이터를 처리하여 캡션 영역을 자동적으로 검출하는 방법이 사용될 수 있다. 후자의 방법의 경우, 상기한 제1 내지 제3 실시예 중의 어떠한 영상 데이터에서 캡션을 검출하는 장치도 사용할 수 있다. 제2도의 영상 데이터에서 캡션을 검출하는 장치를 사용하는 경우, 캡션 검출부(5701)는 상기한 제29도의 구성으로 실시될 수 있다.
필터(7301)는 영상을 모호하게 하기 위한 처리를 수행한다. 이러한 처리에 대해, 각각의 픽셀을 상수의 픽셀값으로 대체하기 위한 페인팅 처리, 픽셀을 블럭으로 구분하여 각각의 블럭 내의 모든 픽셀에 대하여, 각 블럭내의 평균 픽셀값을 사용하기 위한 모자이크 처리, 가우스 필터와 같은 평활 필터(smoothing filter)에 의하여 영상을 번지게 하는 필터 처리, 픽셀을 무작위적으로 재배치하여 영상을 뒤섞는 스크램블 처리 또는 무작위적인 잡음을 가하여 영상을 뒤섞는 스크램블 처리가 가능하다.
제74도는 본 발명에 따른 제6 실시예에서 영상 표시 기능을 가진 영상 데이터에서 캡션을 검출하는 장치를 도시하고 있다.
제74도의 구성은 캡션 검출부(7302)로부터 제공된 캡션 영역 정보에 따라 검출된 캡션 영역으로부터 모호화된 영역을 선택하기 위한 영역 선택부(7304)가 추가로 제공되어 선택된 영역만이 표시된 영상에서 모호화될 수 있다는 점에서 제73도의 구성과 다르다. 제74도의 이러한 구성에서, 필터(7301), 캡션 검출부(7302) 및 스위치(7303)는 제73도와 실질적으로 동일하다.
여기서, 영역 선택부(7304)에 의한 영역 선택은 다음과 같이 수행된다.
첫째, 캡션 종류에 따른 영역 선택이 설명한다. 캡션의 종류가 미리 주어지는 경우, 이러한 정보는 분류 목적으로 사용될 수 있다. 또한, 캡션 영역 화상에 문자 인식을 사용하고 캡션에 나타나는 텍스트 목차를 해석하여 캡션을 분류할 수 있다. 캡션이 이러한 방식으로 분류되는 경우, 특정 종류의 캡션만이 선택되고 나머지 캡션을 무시될 수 있다.
다음으로, 캡션 위치에 따른 영역 선택이 설명된다. 제46도를 참조하여 이미 설명된 바와 같이, 일종의 일반적인 캡션 출현 패턴이 있다. 결과적으로, 캡션 위치에 대한 범위를 특정함으로써, 단지 특정 범위 내에 위치하는 이러한 캡션만을 선택하고 나머지 캡션은 무시할 수 있다.
다음으로, H.261 또는 MPEG의 부호화 영상 데이터와 같은 프레임간 상관관계관계를 사용하여 부호화된 영상 데이터를 처리하는 경우가 설명된다.
제75도는 MPEG의 부호화 영상 데이터를 복호화하여 제73도 또는 제74도의 가독성에 적당한 입력 영상 데이터를 구하는데 사용되는 MPEG 영상 데이터 복호화 가독성의 대표적인 구성을 도시하고 있다. 제75도의 이러한 복호화 가독성에서, 입력MPEG 부호화 영상 데이터는 IQ(7501)에 의해 역양자화(inverse quantized)되고, IDCT(7502)에 의해 역 불연속 코사인 변환(inverse discrete cosine transform)이 사용된다. 다음으로, 프레임 메모리(7506-1 및 7506-2)에 순차적으로 저장되어 있는 프레임으로부터 순방향 MC(7503), 양방향 MC(7504), 역방향 MC(7505)에서 구한 움직임 보상 요소가 가산기(7507)에서 가산되어 복호화 영상 데이터를 생성한다.
제76도는 본 발명에 따른 제6 실시예에서 영상 표시 기능을 가진 영상 데이터에서 캡션을 검출하는 장치의 또 다른 구성을 도시하고 있다.
제76도의 이러한 구성에서, 제73도의 구성 중 필터(7301), 캡션 검출부(7302) 및 스위치(7303)는 제75도의 MPEG 영상 데이터 복호화 가독성 구성과 결합된다. 필터(7301)은 IDCT(7502)의 출력을 처리하고, 스위치는 IDCT(7502)의 출력측에 제공된다. 캡션 검출부(7302)는 MPEG 부호화 영상 데이터로부터 캡션 영역을 바로 검출한다.
또한, 제76도의 이러한 구성은 IQ(7501)의 입력측에서 버퍼(7508)을 결합하고, 버퍼는 캡션 검출에 필요한 시간만큼 부호화 영상 데이터를 일시적으로 저장하는 기능을 하여 캡션 검출 및 캡션 모호화 처리 때문에 생기는 시간 지연을 보상한다.
제77도는 이 발명에 따른 제6 실시예에서 영상 표시 기능을 가진 영상 데이터에서 캡션을 검출하는 장치의 또 다른 대표적인 개략적 구성을 도시하고 있다.
제77도의 이러한 구성은 제76도의 필터 대신에 IQ(7501)의 출력측에 접속된 DC성분 복호기(7509)가 제공된다는 점에서 제76도의 구성과 다르다. 제77도의 이러한 구성에서, 불연속적인 코사인 변환 데이터의 DC 성분이 픽셀 블럭에 대한 평균 픽셀값을 나타낸다는 특성이 사용되어, 캡션에 포함된 픽셀은 역 불연속 코사인 변환이 사용되는 대신에 CD성분 복호기(7509)에서 픽셀 블럭에 대한 DC 성분을 사용하여 복호화된다. 이러한 방식으로, 캡션 영역 상의 모자이크 처리는 고속으로 수행된다.
제75도 내지 제77도의 구성은 MPEG 부호화 영상 데이터를 처리하는 경우에 한정될 필요가 없고 다른 종류의 부호화캡션의 차단된 영상 데이터를 처리하는데도 사용될 수 있음에 유의하여야 한다.
상기한 바와 같이 제6 실시예에 따라, 영상에 포함된 캡션이 검출되어 모호화된 형태(obscured form)로 표시될 수 있다. 결과적으로, 캡션을 모호화함으로써, 영상의 재사용성을 증가시키기 위한 작업에서 사용자가 모호화하고자 하는 캡션 영역을 일일이 수동으로 특정할 필요가 없고, 따라서, 이러한 작업을 고속으로 수행하면서 이러한 작업에 필요한 작업 부하를 감소시킬 수 있게 된다.
또한, 제6 실시예에 따라, 각각의 검출된 캡션을 모호화할 것인지 여부가 적당한 영역 선택을 사용하여 제어될 수 있다.
또한, 제6 실시예에 따라, 프레임간 상관을 사용하여 부호화된 영상 데이터에서 나타나는 캡션의 픽셀은 모호화된 형태로 복호화될 수 있고 나머지 픽셀은 정상적으로 복호화될 수 있다.
이 발명에 따라 상기한 실시예 중 임의 영상 데이터에서 캡션을 검출하는 장치를 기초로 하는 영상의 캡션 검출 시스템이 명세서의 기술에 따라 종래의 일반적인 목적으로 프로그램된 디지탈 컴퓨터를 사용하여 편리하게 수행될 수 있으며, 이는 컴퓨터 분야의 당업자에 명백해질 것이다.
적절한 소프트 웨어 부호화가 개시된 기술을 기초로 하여 프로그래머에 의하여 즉시 준비될 수 있으며, 이는 컴퓨터 분야의 당업자에 명백해질 것이다.
이러한 소프트 웨어 패키지는 이 발명의 처리와 개시된 기능을 수행하기 위한 컴퓨터를 프로그램하는데 사용되는 저장된 컴퓨터 부호를 포함하는 기억 매체를 사용하는 컴퓨터 프로그램 제품일 수 있다.
상기 기억 매체는 종래의 플로피 디스크, 광학 디스크, CD-롬, 자기 광학 디스크, ROM, RAM, EPROM, EEPROM, 자기 또는 광학 카드 중의 어느 하나, 또는 전기적 명령을 저장하기 위한 다른 적절한 매체를 포함할 수 있으며, 이에 한정되지는 않는다.
또한 상기에 언급된 바를 제외하고, 상기 실시예의 다양한 변경과 변화가 이발명의 새롭고 유리한 특징을 벗어나지 않고 이루어질 수 있다. 따라서, 모든 변경과 변화는 첨부된 청구항의 범위내에 포함될 것이다.

Claims (49)

  1. 움직임 보상과 예측 부호화 조합을 사용하여 부호화된 영상 데이터로부터 캡션 영역을 검출하는 방법에서, 영상 데이터내의 각 픽셀/블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되었는지의 여부를 판단하는 단계와; 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭이 시간 방향과 공간 방향에 집중되어 있는 영상 데이터내의 영역을 캡션 영역으로 검출하는 단계를 포함하여 이루어지는 영상 데이터에서 캡션을 검출하는 방법.
  2. 청구항 1에 있어서, 상기 검출 단계는 미리 설정된 계수 구간 동안 프레임의 각 픽셀/블럭 위치에서, 상기 판단단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭의 출현 빈도를 계수하는 단계와; 미리 설정된 임계값과 상기 계수 단계에서 계수된 출현 빈도를 비교하여 캡션 영역을 선택하는 단계를 포함하여 이루어진 영상 데이터에서 캡션을 검출하는 방법.
  3. 청구항 2에 있어서, 상기 검출 단계는, 상기 계수 단계에서 계수된 각 픽셀/블럭 위치에서의 출현 빈도를 표시하는 2차원 계수 매트릭스를 형성하는 단계와; 계수 매트릭스를 한정하는 적어도 하나 이상의 방향으로 계수 매트릭스를 투영하여 투영 히스토그램을 작성하는 단계를 포함하여 이루어지고, 상기 선택 단계가 투영 히스토그램에 의해 표시되는 출현 빈도와 설정된 임계값을 비교하는, 영상 데이터에서 캡션을 검출하는 방법.
  4. 청구항 3에 있어서, 작성 단계에서 계수 매트릭스를 제1방향으로 투영하여 제1투영 히스토그램을 구하고, 제1투영 히스토그램에 의하여 표시되는 출현 빈도가 제1설정값보다 큰 제1방향을 따라서 제1섹션을 결정하고, 제1투영 히스토그램을 제1섹션내의 제2방향에 투영하여 투영 히스토그램을 구하고, 상기 선택 단계에서 투영 히스토그램에 의하여 표시되는 출현 빈도가 설정된 임계값보다 큰 제2방향을 따라서 제2섹션을 결정하고, 제1섹션과 제2섹션내의 픽셀/블럭을 캡션 영역으로 선택하는 영상 데이터에서 캡션을 검출하는 방법.
  5. 청구항 2에 있어서, 상기 검출 단계는, 하나 이상인 출현 빈도의 공간적 특성에 따라 계수 단계에서 계수된대로 하나 이상의 픽셀/블럭에 대한 하나 이상의 출현 빈도를 병합하는 단계를 더 포함하여 이루어지고, 상기 선택 단계에서, 병합 단계에서 병합된 출현 빈도가 비교되는 영상 데이터에서 캡션을 검출하는 방법.
  6. 청구항 5에 있어서, 병합 단계에서 평활 필터를 상기 계수 단계에서 계수된 하나 이상의 출현 빈도에 사용하는, 영상 데이터에서 캡션을 검출하는 방법.
  7. 청구항 2에 있어서, 상기 계수 단계에서, 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭의 각각 출현시에, “1”로서 출현 빈도를 증가시켜 출현 빈도를 계수하는 영상 데이터에서 캡션을 검출하는 방법.
  8. 청구항 2에 있어서, 상기 계수 단계에서, 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭의 각각의 출현시에, “1”로서 출현 빈도를 증가시켜 출현 빈도를 계수하고, 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단되지 않은 픽셀/블럭의 각각의 출현시에는 “-1”로서 출현 빈도를 감소시켜 출현 빈도를 측정하는 영상 데이터에서 캡션을 검출하는 방법.
  9. 청구항 2에 있어서, 상기 계수 단계에서 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭의 각각의 출현시에는, “1”로서 출현 빈도를 증가시켜 출현 빈도를 계수하고, 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단되지 않은 픽셀/블럭의 각각의 출현시에는 출현 빈도를 “0”으로 리세트시키는, 영상 데이터에서 캡션을 검출하는 방법.
  10. 청구항 2에 있어서, 상기 선택 단계에서, 프레임당 출현 빈도가 설정 임계값 보다 큰 픽셀/블럭을 캡션 영역으로 선택하고, 상기에서 프레임당 출현 빈도는 상기 계수 단계에서 계수된 출현 빈도를 설정 계수 구간내에 포함되는 프레임 수로 나누어서 구하는, 영상 데이터에서 캡션을 검출하는 방법.
  11. 청구항 1에 있어서, 상기 검출 단계에서 검출된 캡션 영역의 정보를 저장하는 단계를 더 포함하여 이루어지는 영상 데이터에서 캡션을 검출하는 방법.
  12. 청구항 1에 있어서, 상기 검출 단계에서 검출된 캡션 영역에 대해서만 영상 데이터를 복호화하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  13. 청구항 1에 있어서, 프레임내 예측 보호화, 움직임 보상을 사용하는 프레임간 예측 부호화, 움직임 보상을 사용하지 않는 프레임간 예측 부호화 중에서 각 픽셀에 대한 부호화구조를 선택하여 영상 데이터를 부호화하고, 판단 단계에서 영상 데이터내의 각 픽셀/블럭이 움직임 보상을 사용하지 않고 프레임간 예측 부호화에 의하여 부호화되었는지의 여부를 판단하고, 상기 검출 단계에서 상기 판단 단계에서 움직임 보상을 사용하지 않고 프레임간 예측 부호화에 의하여 부호화된 것으로 판단된 픽셀/ 블럭이 시간 방향과 공간 방향으로 집중되어 있는 영상 데이터의 영역을 캡션 영역으로 검출하는, 영상 데이터에서 캡션을 검출하는 방법.
  14. 청구항 1에 있어서, 다른 타이밍에서 검출 단계에 의하여 검출된 다수의 캡션 영역의 픽셀/블럭을 캡션 후보 픽셀로서 두 개의 공간축과 시간축에 의해 정의된 3차원 버퍼로 저장하는 단계와; 상기 3차원 버퍼에 저장된 다른 타이밍에 대한 다수의 캡션 후보 픽셀/블럭을 병합하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  15. 청구항 14에 있어서, 상기 병합 단계에서 3차원 평활 필터를 다른 타이밍에 대한 캡션 후보 픽셀/블럭에 사용하는, 영상 데이터에서 캡션을 검출하는 방법.
  16. 청구항 14에 있어서, 상기 병합 단계에서 각 캡션 후보 픽셀/블럭의 픽셀/블럭값을 이웃하는 캡션 후보 픽셀/블럭중에서 최대인 픽셀/블럭 값으로 대체하기 위한 확장 처리와, 각 캡션 후보 픽셀/블럭의 픽셀/블럭값을 이웃하는 캡션 후보 픽셀/블럭중에서 최소인 픽셀/블럭값으로 대체하기 위한 침식 처리를 사용하는, 영상 데이터에서 캡션을 검출하는 방법.
  17. 청구항 14에 있어서, 캡션 후보 픽셀/블럭이 존재하지 않는 시간 섹션 바로 전 또는 후 프레임을, 시간 섹션 바로 전 또는 후에 존재하는 캡션의 대표적인 프레임으로 판단하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  18. 청구항 14에 있어서, 상기 병합 단계에서 병합된 캡션 후보 픽셀/블럭의 각 연결된 성분을 구별되게 라벨링하는 단계와; 상기 라벨링 단계에서 구별되게 라벨링된 각 연결된 성분의 캡션 후보 픽셀/블럭을 포함하는 프레임을, 각 연결된 성분의 캡션 후보 픽셀/블럭에 의하여 형성된 캡션의 대표적인 프레임으로서 판단하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  19. 청구항 1에 있어서, 상기 검출 단계에서 검출된 각 캡션 영역에 “1”을 할당하고, 그외 영역에는 “0”을 할당하여 영상 데이터의 한 프레임 화상으로부터 캡션 후보 화상을 작성하는 단계와; 상기 영상 데이터의 상기 한 프레임 화상과 다른 프레임 화상 사이의 차이 화상을 작성하는 단계와; 차이 화상의 각 부분에서 캡션 후보 화상의 값에 따라 차이 화상 부분을 추출하는 단계와; 상기 차이 화상 부분과 캡션 후보 화상에 따라 캡션의 존재를 판단하는 단계를 더 포함하여 이루어지는 영상 데이터에서 캡션을 검출하는 방법.
  20. 청구항 19에 있어서, 상기 추출 단계는, 캡션 후보 화상이 “1”을 가지는 차이 화상의 부분을 차이 화상 부분으로 추출하는, 영상 데이터에서 캡션을 검출하는 방법.
  21. 청구항 19에 있어서, 상기 추출 단계는, 캡션 후보 화상과 차이 화상 부분으로부터, 캡션의 존재를 판단하기 위하여 캡션 후보 화상과 차이 화상 부분이 평가되는 각 영역에서 “1”값을 가지고, 그외영역에서 “0”값을 가지는 마스크를 생성하는 단계와; 상기 마스크가 “1”을 가지는 차이의 부분을 차이 화상 부분으로서 추출하는 단계를 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  22. 청구항 21에 있어서, 상기 생성 단계는, 픽셀/블럭값이 상기 한 프레임 화상과 다른 프레임 화상 사이에서 변경되지 않은 각각의 변화없는 픽셀/블럭을 검출하는 단계와; 상기 한 프레임에서 각각 새롭게 나타난 캡션 후보 영역을 검출하는 단계와; 적어도 하나 이상의 변화없는 픽셀/블럭과 새롭게 나타나는 캡션 후보 영역이 존재하는 각 영역에 “1”값을 할당하고, 그외 영역에는 “0”값을 할당하여 마스크를 작성하는 단계를 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  23. 청구항 19에 있어서, 상기 판단 단계는, 캡션 후보 화상이 “1”값을 가지는 픽셀/블럭의 제1갯수를 계수하는 단계와; 차이 화상 부분이 설정된 임계값 보다 큰 픽셀/블럭값을 가지는 픽셀/블럭의 제2갯수를 계수하는 단계와; 상기 픽셀/블럭의 제1갯수와 제2갯수에 따라 캡션의 존재를 결정하는 단계를 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  24. 청구항 23에 있어서, 상기 결정 단계는, 상기 픽셀/블럭의 제1갯수와 제2갯수에 따라, 캡션 후보 화상이 “1”값을 가지는 판단 영역의 범위가 충분하게 크고, 판단 영역내의 상기 한 프레임 화상의 변화가 충분히 작은 것으로 판단된 경우에 캡션이 존재하는 것으로 결정하는, 영상 데이터에서 캡션을 검출하는 방법.
  25. 청구항 23에 있어서, 상기 결정 단계는, 상기 픽셀/블럭의 제1갯수와 제2갯수에 따라 캡션이 연속적으로 나타나는 시간의 주기를 측정하고, 측정된 시간 주기가 설정 주기보다 긴 경우에 캡션이 존재하는 것으로 결정하는, 영상 데이터에서 캡션을 검출하는 방법.
  26. 청구항 1에 있어서, 검색되는 요구 캡션의 화상 필드상의 공간적 위치 범위에 관한 정보를 검색키로서 입력하는 단계와; 상기 검출 단계에서 검출된 각 캡션 영역과 상기 입력 단계에서 입력된 검색키를 비교하여, 상기 검색되는 요구 캡션에 대응하는 영상 데이터 부분을 선택하는 단계와; 상기 선택 단계에서 선택된 영상 데이터 부분을 표시하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  27. 청구항 26에 있어서, 상기 검출 단계에서 검출된 각 캡션 영역의 화상 필드상의 공간적 위치 정보와 영상 데이터의 조합을 인덱스 정보로서 기록하는 단계를 더 포함하여 이루어지고, 상기 선택 단계에서 상기 인덱스 정보와 검색키를 비교하여 상기 영상 데이터 부분을 선택하는, 영상 데이터에서 캡션을 검출하는 방법.
  28. 청구항 26에 있어서, 상기 입력 단계에서 입력 장치를 사용하여 그려지고, 검색되는 요구 캡션의 화상 필드상의 공간적 위치 범위를 표시하는 도형을 검색키로 입력하는, 영상 데이터에서 캡션을 검출하는 방법.
  29. 청구항 26에 있어서, 상기 선택 단계에서, 검색키에 의하여 표시된 화상 필드상의 공간적 위치 범위 정보와 상기 검출단계에서 검출된 각 캡션 영역의 화상 필드상의 공간적 위치를 비교하고, 공간적 위치가 공간적 위치 범위 또는 공간적 위치 범위와 중첩되는 공간적 위치내에 포함되는 영상 데이터의 각 부분을 선택하는, 영상 데이터에서 캡션을 검출하는 방법.
  30. 청구항 26에 있어서, 상기 표시 단계에 있어서, 각 프레임 화상내의 검색되는 요구 캡션의 표시와 함께, 상기 선택 단계에서 선택된 영상 데이터의 상기 부분의 각 프레임 화상을 표시하는, 영상 데이터에서 캡션을 검출하는 방법.
  31. 청구항 26에 있어서, 상기 표시 단계에 있어서, 상기 선택 단계에서 선택된 영상 데이터의 상기 부분에 대응하는 프레임부터 시작하여 재생된 영상 데이터를 표시하는 영상 데이터에서 캡션을 검출하는 방법.
  32. 청구항 1에 있어서, 상기 검출 단계에서 검출된 캡션 영역을 분류하는 단계와; 상기 분류 단계에서 구해진 각 분류된 캡션 영역에 대한 캡션이 존재하는 시간 섹션을 기초로 하여 영상 목차 표시를 생성하는 단계와; 상기 생성 단계에서 생성된 영상 목차 표시를 표시하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  33. 청구항 32에 있어서, 상기 생성 단계에서 각각의 분류된 캡션 영역에 대한 캡션이 존재하는 시간섹션을 시간축에 따라 표시하는 화상 목차 표시를 생성하는, 영상 데이터에서 캡션을 검출하는 방법.
  34. 청구항 32에 있어서, 상기 검출 단계에서 검출된 각 캡션 영역을 포함하는 프레임 화상을 생성하는 단계를 더 포함하여 이루어지고, 상기 표시 단계에서 영상 목차 표시에 대응하는 프레임 화상을 표시하는, 영상 데이터에서 캡션을 검출하는 방법.
  35. 청구항 32에 있어서, 상기 표시 단계에서, 영상 목차 표시에 대응하는 상기 검출 단계에서 검출된 각 캡션 영역의 화상을 표시하는, 영상 데이터에서 캡션을 검출하는 방법.
  36. 청구항 32에 있어서, 상기 분류 단계에서, 각 캡션 영역의 화상 필드상의 공간적 위치에 따라 각 캡션 영역을 분류하는, 영상 데이터에서 캡션을 검출하는 방법.
  37. 제32항에 있어서, 상기 생성 단계에서, 두 개의 캡션이 존재하는 시간 섹션 사이에 삽입된 캡션이 존재하지 않는 짧은 시간 섹션을 캡션이 존재하는 시간 섹션으로 간주하여 영상 목차 표시를 생성하는, 영상 데이터에서 캡션을 검출하는 방법.
  38. 청구항 32에 있어서, 상기 생성 단계에서 두 개의 캡션이 존재하지 않는 시간 섹션 사이에 삽입된 캡션이 존재하는 짧은 시간 섹션을 캡션이 존재하지 않는 시간 섹션으로 간주하여 영상 목차 표시를 생성하는, 영상 데이터에서 캡션을 검출하는 방법.
  39. 청구항 32에 있어서, 상기 생성 단계에서 분류되지 않은 캡션 영역이 존재하는 각각의 시간 섹션을 분류된 캡션 영역이 없는 시간 섹션으로 간주하여 영상 목차 표시를 생성하는, 영상 데이터에서 캡션을 검출하는 방법.
  40. 제1항에 있어서, 표시될 때 모호한 형태로 나타나는 처리된 영상 데이터를 산출하기 위하여 영상 데이터를 처리하는 단계와; 상기 검출 단계에서 검출된 캡션 영역에 따라 처리된 영상 데이터와 영상데이터를 선택적으로 혼합하여 표시 영상 데이터를 형성하는 단계와; 상기 형성 단계에서 구해진 표시 영상 데이터를 표시하는 단계를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
  41. 청구항 40에 있어서, 상기 형성 단계에서, 상기 검출 단계에서 검출된 각각의 캡션 영역에서 처리된 영상 데이터를 영상 데이터에 선택적으로 혼합하여 표시 영상 데이터를 형성하는, 영상 데이터에서 캡션을 검출하는 방법.
  42. 청구항 40에 있어서, 상기 검출 단계에서 검출된 캡션 영역중 원하지 않는 캡션 영역을 선택하는 단계를 더 포함하여 이루어지고, 상기 형성 단계에서 상기 선택 단계에서 선택된 각각의 원하지 않는 캡션영역에서 상기 처리된 영상 데이터를 영상 데이터에 선택적으로 혼합하여 표시 영상 데이터를 형성하는, 영상 데이터에서 캡션을 검출하는 방법.
  43. 청구항 40에 있어서, 영상 데이터를 완전하게 복호화하는 단계를 더 포함하여 이루어지고, 상기 처리 단계에서 불완전하게 영상 데이터를 복호화하여 처리된 영상 데이터를 작성하고, 형성 단계에서 상기 처리 단계에서 불완전하게 복호화된 처리된 영상 데이터와 상기 복호화 단계에서 완전하게 복호화된 영상 데이터를 선택적으로 혼합하여 표시 영상 데이터를 형성하는, 영상 데이터에서 캡션을 검출하는 방법.
  44. 움직임 보상과 예측 부호화 조합을 사용하여 부호화된 영상 데이터로부터 캡션 영역을 검출하는 장치에서, 영상 데이터의 각 픽셀/블럭이 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화되었는지의 여부를 판단하는 판단부와; 상기 판단부에서 움직임 보상을 사용하지 않고 프레임간 상관을 사용하여 부호화된 것으로 판단된 픽셀/블럭이 시간 방향과 공간 방향에 집중되어 있는 영상데이터의 영역을 캡션 영역으로 검출하는 검출부를 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 장치.
  45. 제44항에 있어서, 두 개의 공간축과 한 개의 시간축으로 규정되고, 다른 타이밍에서 상기 검출부에서 검출된 다수의 캡션 영역의 픽셀/블럭을 캡션 후보 픽셀/블럭으로 저장하는 3차원 버퍼와; 상기 3차원 버퍼에 저장된 다른 타이밍에 대한 다수의 캡션 후보 픽셀/블럭을 병합하는 병합부를 더 포함하여 이루어지는 영상 데이터에서 캡션을 검출하는 장치.
  46. 청구항 44에 있어서, 상기 검출부에서 검출된 각 캡션 영역에 “1”을 할당하고, 그외 영역에는 “0”을 할당하여 영상 데이터의 한 프레임 화상으로부터 캡션 후보 화상을 작성하는 캡션 후보 화상 작성부와, 상기 영상 데이터의 상기 한 프레임 화상과 다른 프레임 화상 사이의 차이 화상을 작성하는 차이 화상 작성부와; 차이 화상의 각 부분에서 캡션 후보 화상의 값에 따라 차이 화상 부분을 추출하는 추출부와; 상기 차이 화상 부분과 캡션 후보 화상에 따라 캡션의 존재를 판단하는 판단부를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 장치.
  47. 청구항 44에 있어서, 검색되는 요구 캡션의 화상 필드상의 공간적 위치 범위 정보를 검색키로서 입력하는 검색키 입력부와; 상기 검출부에서 검출된 각 캡션 영역과 상기 입력부에 의해 입력된 검색키를 비교하여, 상기 검색되는 요구 캡션에 대응하는 영상 데이터 부분을 선택하는 선택부와; 상기 선택부에서 선택된 영상 데이터 부분을 표시하는 표시부를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 장치.
  48. 청구항 44에 있어서, 상기 검출부에서 검출된 캡션 영역을 분류하는 분류부와; 상기 분류부에서 구해진 각각의 분류된 캡션 영역에 대한 캡션이 존재하는 시간 섹션을 기초로 하여 영상 목차 표시를 생성하는 영상 목차 표시 생성부와; 상기 영상 목차 생성부에서 생성된 영상 목차 표시를 표시하는 표시부를 더포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 장치.
  49. 청구항 44에 있어서, 표시될 때 모호한 형태로 나타나는 처리된 영상 데이터를 작성하기 위하여 영상 데이터를 처리하는 처리부와; 상기 검출부에서 검출된 캡션 영역에 따라 처리된 영상 데이터와 영상 데이터를 선택적으로 혼합하여 표시 영상 데이터를 형성하는 형성부와; 상기 형성부에서 구해진 표시 영상 데이터를 표시하는 표시부를 더 포함하여 이루어지는, 영상 데이터에서 캡션을 검출하는 방법.
KR1019970020966A 1996-05-27 1997-05-27 영상데이터에서 캡션을 검출하는 방법 및 장치 KR100272090B1 (ko)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP96-131898 1996-05-27
JP13189896A JPH09322173A (ja) 1996-05-27 1996-05-27 動画像テロップ抽出方法及び装置
JP96-262826 1996-10-03
JP8262826A JPH10108092A (ja) 1996-10-03 1996-10-03 映像表示装置
JP96-264123 1996-10-04
JP26412396A JP3386102B2 (ja) 1996-10-04 1996-10-04 映像検索方法および装置
JP96-266019 1996-10-07
JP26601996A JP3412737B2 (ja) 1996-10-07 1996-10-07 映像目次生成表示装置

Publications (2)

Publication Number Publication Date
KR970078662A KR970078662A (ko) 1997-12-12
KR100272090B1 true KR100272090B1 (ko) 2000-11-15

Family

ID=27471644

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970020966A KR100272090B1 (ko) 1996-05-27 1997-05-27 영상데이터에서 캡션을 검출하는 방법 및 장치

Country Status (3)

Country Link
US (1) US6243419B1 (ko)
KR (1) KR100272090B1 (ko)
MY (1) MY119560A (ko)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
JP2000101439A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報処理装置および方法、情報記録装置および方法、記録媒体、並びに提供媒体
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
CA2796218C (en) * 1998-11-30 2016-11-29 Gemstar Development Corporation Search engine for video and graphics
US6859799B1 (en) * 1998-11-30 2005-02-22 Gemstar Development Corporation Search engine for video and graphics
US7383504B1 (en) * 1999-08-30 2008-06-03 Mitsubishi Electric Research Laboratories Method for representing and comparing multimedia content according to rank
JP4421722B2 (ja) * 1999-12-14 2010-02-24 シャープ株式会社 液晶表示装置、駆動方法及び駆動回路
JP2001204026A (ja) * 2000-01-21 2001-07-27 Sony Corp 画像情報変換装置及び方法
DE60135567D1 (de) 2000-10-11 2008-10-09 United Video Properties Inc Systeme und verfahren zur bereitstellung von datenspeichern in servern in einem medien-auf-anfrage liefersystem
DE60229632D1 (de) * 2001-05-15 2008-12-11 Koninkl Philips Electronics Nv Untertitelerkennung in anzeigbaren Bildbereich eines Videosignals
WO2003051031A2 (en) * 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
JP3615195B2 (ja) * 2002-03-19 2005-01-26 株式会社東芝 コンテンツ記録再生装置およびコンテンツ編集方法
US20040025191A1 (en) * 2002-07-31 2004-02-05 B. Popular, Inc. System and method for creating and presenting content packages
BR0215934A (pt) * 2002-11-06 2005-08-16 Agency Science Tech & Res Método para gerar um mapa de significância orientado em qualidade para avaliar a qualidade de uma imagem ou vìdeo
GB2396069B (en) * 2002-12-03 2005-10-05 British Broadcasting Corp Analysis of digital signals
JP4233982B2 (ja) * 2003-11-06 2009-03-04 パイオニア株式会社 画像処理装置、画像処理方法、画像処理プログラムおよびそれを記録した情報記録媒体
US7817856B2 (en) * 2004-07-20 2010-10-19 Panasonic Corporation Video processing device and its method
US20060045346A1 (en) 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
JP4747537B2 (ja) * 2004-09-07 2011-08-17 日本電気株式会社 携帯端末及びその制御方法、並びに携帯端末のためのコンピュータ・プログラム
US8745687B2 (en) * 2005-02-15 2014-06-03 Sony Corporation Digital closed caption transport in standalone stream
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
JP4613867B2 (ja) * 2005-05-26 2011-01-19 ソニー株式会社 コンテンツ処理装置及びコンテンツ処理方法、並びにコンピュータ・プログラム
US8120658B2 (en) * 2006-01-19 2012-02-21 Qualcomm Incorporated Hand jitter reduction system for cameras
US7970239B2 (en) 2006-01-19 2011-06-28 Qualcomm Incorporated Hand jitter reduction compensating for rotational motion
US8019179B2 (en) * 2006-01-19 2011-09-13 Qualcomm Incorporated Hand jitter reduction for compensating for linear displacement
US8077977B2 (en) * 2006-08-15 2011-12-13 Fuji Xerox Co., Ltd. Image processing system, image processing method, computer readable medium and computer data signal
JP2008118232A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd 映像再生装置
US7465241B2 (en) * 2007-03-23 2008-12-16 Acushnet Company Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
TWI390960B (zh) * 2008-10-15 2013-03-21 Realtek Semiconductor Corp 影像處理裝置與影像處理方法
US8358331B2 (en) * 2008-12-02 2013-01-22 Lg Electronics Inc. 3D caption display method and 3D display apparatus for implementing the same
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US20120019717A1 (en) * 2009-01-06 2012-01-26 Nec Corporation Credit information segment detection method, credit information segment detection device, and credit information segment detection program
AU2012268871B2 (en) * 2009-03-27 2014-12-11 The Nielsen Company (Us), Llc Methods and apparatus for identifying primary media content in a post-production media content presentation
US8260055B2 (en) * 2009-03-27 2012-09-04 The Nielsen Company (Us), Llc Methods and apparatus for identifying primary media content in a post-production media content presentation
WO2011008821A1 (en) * 2009-07-15 2011-01-20 Home Box Office, Inc. Identification of 3d format and graphics rendering on 3d displays
US8925024B2 (en) 2009-12-31 2014-12-30 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements associated with media presentations
US20130291024A1 (en) * 2011-01-18 2013-10-31 Chad Andrew Lefevre Apparatus and method for performing video screen scrape
CN102868928B (zh) * 2011-07-05 2016-10-19 腾讯科技(深圳)有限公司 一种实现字幕隐藏的视频图像显示方法和装置
US9704111B1 (en) 2011-09-27 2017-07-11 3Play Media, Inc. Electronic transcription job market
US8805418B2 (en) 2011-12-23 2014-08-12 United Video Properties, Inc. Methods and systems for performing actions based on location-based rules
US8918311B1 (en) * 2012-03-21 2014-12-23 3Play Media, Inc. Intelligent caption systems and methods
US9117290B2 (en) * 2012-07-20 2015-08-25 Samsung Electronics Co., Ltd. Apparatus and method for filling hole area of image
TWI520609B (zh) * 2012-10-05 2016-02-01 緯創資通股份有限公司 顯示系統以及通訊方法
US9569679B1 (en) * 2012-12-04 2017-02-14 A9.Com, Inc. Adaptive image sampling for text detection
US9690464B2 (en) 2013-03-21 2017-06-27 Ntt Docomo, Inc. Terminal device and method for selecting object
US9456170B1 (en) 2013-10-08 2016-09-27 3Play Media, Inc. Automated caption positioning systems and methods
CN110837581B (zh) * 2019-11-04 2023-05-23 云目未来科技(北京)有限公司 视频舆情分析的方法、装置以及存储介质
CN113207003B (zh) * 2021-04-15 2023-01-24 上海顺久电子科技有限公司 一种视频图像的运动估计方法及电子设备
US11735186B2 (en) 2021-09-07 2023-08-22 3Play Media, Inc. Hybrid live captioning systems and methods

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
JP2980387B2 (ja) 1991-01-21 1999-11-22 日本電信電話株式会社 映像内容圧縮表示処理方法
US5121191A (en) * 1991-03-15 1992-06-09 Aware, Inc. Method and apparatus for coding motion pictures
DE69432660T2 (de) * 1993-06-30 2004-04-08 Sony Corp. Vorrichtung und verfahren zur kodierung/dekodierung von daten für untertitel
JPH07203396A (ja) * 1993-12-28 1995-08-04 Sony Corp 字幕データ復号化装置
US5508754A (en) * 1994-03-22 1996-04-16 National Captioning Institute System for encoding and displaying captions for television programs
US5521841A (en) * 1994-03-31 1996-05-28 Siemens Corporate Research, Inc. Browsing contents of a given video sequence
JP3590896B2 (ja) 1995-02-02 2004-11-17 株式会社日立製作所 字幕検出方法
DE69619002T2 (de) * 1995-03-10 2002-11-21 Toshiba Kawasaki Kk Bildkodierungs-/-dekodierungsvorrichtung
JPH08331456A (ja) 1995-05-31 1996-12-13 Philips Japan Ltd 字幕移動装置
US5956088A (en) * 1995-11-21 1999-09-21 Imedia Corporation Method and apparatus for modifying encoded digital video for improved channel utilization
MY118360A (en) * 1996-04-30 2004-10-30 Nippon Telegraph & Telephone Scheme for detecting shot boundaries in compressed video data using inter-frame/inter field prediction coding and intra-frame/intra-field coding

Also Published As

Publication number Publication date
KR970078662A (ko) 1997-12-12
US6243419B1 (en) 2001-06-05
MY119560A (en) 2005-06-30

Similar Documents

Publication Publication Date Title
KR100272090B1 (ko) 영상데이터에서 캡션을 검출하는 방법 및 장치
Moscheni et al. Spatio-temporal segmentation based on region merging
US6870945B2 (en) Video object tracking by estimating and subtracting background
US7339992B2 (en) System and method for extracting text captions from video and generating video summaries
US7184100B1 (en) Method of selecting key-frames from a video sequence
Zhang et al. Automatic partitioning of full-motion video
US6335985B1 (en) Object extraction apparatus
EP1840798A1 (en) Method for classifying digital image data
US6985527B2 (en) Local constraints for motion matching
JP3361587B2 (ja) 動画像検索装置及び方法
US20050226331A1 (en) Identifying key video frames
JP2005309746A (ja) 動物体追跡方法、動物体追跡プログラムおよびその記録媒体、ならびに、動物体追跡装置
JP4637180B2 (ja) 映像処理装置及び映像処理方法
JP2006195525A (ja) 映像オブジェクト軌跡付加装置及び映像オブジェクト軌跡付加プログラム
EP1605407A1 (en) Image processing device
JP3258924B2 (ja) シーン管理装置、シーン管理方法及び記録媒体
WO1999051022A1 (en) Method of selecting key-frames from a video sequence
US20070061727A1 (en) Adaptive key frame extraction from video data
Lu et al. An accumulation algorithm for video shot boundary detection
JP3379453B2 (ja) 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置
JPH09322173A (ja) 動画像テロップ抽出方法及び装置
JP3024574B2 (ja) 動画像検索装置
JP3386102B2 (ja) 映像検索方法および装置
Shen et al. Cut detection via compressed domain edge extraction
JP2006146823A (ja) 映像オブジェクト軌跡付加装置及び映像オブジェクト軌跡付加プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100628

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee