상기와 같은 본 발명의 목적을 달성하고 상술한 종래 기술의 문제점을 해결하기 위한 본 발명의 일면에 따른 동영상의 자막 검출 장치는, 입력 동영상으로부터 입력 장르 정보를 참조하여 후보 프레임 셋을 선택하고, 상기 선택된 후보 프레임 셋으로부터 기대 자막 영역들을 결정하는 자막 영역 검출기; 상기 검출된 기대 자막 영역들의 위치 또는 컬러 패턴의 반복성을 기반으로 목표 자막 후보 영역들을 선택하고, 상기 선택된 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화 율을 기초로 목표 자막 영역들을 결정하는 목표 자막 검출기; 및 상기 결정된 목표 자막 영역들을 분석하여 중요 문자 또는 숫자 정보 영역을 검출하는 중요 자막 검출기를 포함한다.
상기 자막 영역 검출기는, 상기 입력 동영상으로부터 상기 입력 장르 정보가 나타내는 장르에 따른 해당 후보 프레임 셋을 선택하는 후보 프레임 선택부; 상기 선택된 후보 프레임 셋으로부터 자막이 있을 가능성이 있는 기대 자막 영역들을 결정하는 자막 영역 결정부를 포함한다.
상기 목표 자막 검출기는, 상기 검출된 기대 자막 영역들을 누적하여 상기 누적된 영역들의 위치 또는 컬러 패턴의 반복성이 임계값보다 큰 영역들을 상기 목표 자막 후보 영역들로 선택하는 목표 자막 후보 선택부; 및 상기 선택된 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화율을 분석하여 상기 목표 자막 영역들을 결정하는 목표 자막 결정부를 포함한다.
상기 중요 자막 검출기는, 상기 목표 자막 영역들에 포함된 숫자 정보를 이용하여 상기 숫자 정보 영역을 검출하고, 상기 목표 자막 영역들에 포함된 문자 정보와 소정 데이터베이스 또는 웹서버로부터의 상기 입력 동영상에 관한 일정 정보를 비교하여 상기 문자 정보 영역을 검출하는 것을 특징으로 한다.
상기와 같은 본 발명의 목적을 달성하기 위한 본 발명의 다른 일면에 따른 동영상의 자막 검출 장치는, 소정 컬러 식별 알고리즘을 이용하여 입력 동영상 패턴들의 대표 컬러값들을 획득하고, 상기 대표 컬러값들을 그룹화하는 클러스터링에 따른 패턴 모델링으로부터 소정 임계값보다 큰 대표 컬러값을 가지는 클러스터들에 해당하는 영역들을 목표 자막 후보 영역들로 선택하는 목표 자막 후보 선택부; 및 상기 선택된 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화율을 분석하여 목표 자막 영역들을 결정하는 목표 자막 결정부를 포함하고, 상기 결정된 목표 자막 영역들을 분석하여 중요 문자 또는 숫자 정보 영역을 검출하는 것을 특징으로 한다.
상기와 같은 본 발명의 다른 목적을 달성하기 위한 본 발명의 일면에 따른 동영상의 자막 검출 방법은, 입력 동영상으로부터 입력 장르 정보를 참조하여 후보 프레임 셋을 선택하는 단계; 상기 선택된 후보 프레임 셋으로부터 기대 자막 영역들을 결정하는 단계; 상기 검출된 기대 자막 영역들의 위치 또는 컬러 패턴의 반복성을 기반으로 목표 자막 후보 영역들을 선택하는 단계; 상기 선택된 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화율을 기초로 목표 자막 영역들을 결정하는 단계; 및 상기 결정된 목표 자막 영역들을 분석하여 중요 문자 또는 숫자 정보 영역을 검출하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 본 발명의 다른 목적을 달성하기 위한 본 발명의 다른 일면에 따른 동영상의 자막 검출 방법은, 소정 컬러 식별 알고리즘을 이용하여 입력 동영상 패턴들의 대표 컬러값들을 획득하는 단계; 상기 대표 컬러값들을 그룹화하는 클러스터링에 따라 패턴 모델링을 수행하는 단계; 상기 패턴 모델링 결과에 따라 소정 임계값보다 큰 대표 컬러값을 가지는 클러스터들에 해당하는 영역들을 목표 자막 후보 영역들로 선택하는 단계; 상기 선택된 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화율을 분석하여 목표 자막 영역들을 결정하는 단계; 및 상기 결정된 목표 자막 영역들을 분석하여 중요 문자 또는 숫자 정보 영역을 검출하는 단계를 포함하는 것을 특징으로 한다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 자막 검출 장치(100)를 설명하기 위한 도면이다. 도 1을 참조하면, 상기 자막 검출 장치(100)는 자막 영역 검출기(110), 목표 자막 검출기(120), 중요 자막 검출기(130), 및 상세 정보 데이터베이스(131)를 포함한다.
상기 자막 검출 장치(100)는 입력되는 동영상의 자막 패턴에 대하여 시간적 위치 중복성 및 컬러 패턴 중복성을 기반으로 목표 자막을 결정하므로, 강건하고 신뢰성 있는 중요 자막 영역으로부터 중요 숫자나 문자 정보를 검출할 수 있다. 이에 따라 상기 자막 검출 장치(100)가 PVR(Personal Video Recorder)이나 와이브로(WiBro) 단말, DMB 폰 또는 개인용 홈 서버 등에 적용될 때, 동영상에서 강건하고 정확하게 검출된 중요 자막 내용에 따라 동영상의 요약, 하이라이트 검색 등이 용이하게 이루어지도록 할 수 있고, 또는 사용자의 요구에 따른 해당 장면에 대한 맞춤형 방송 서비스도 안정적으로 실현 가능하게 한다.
여기서, 목표 자막은 전술한 바와 같이 동영상 컨텐츠의 중요 문자 정보를 담고있는 정형화된 자막으로서, 예를 들어, 뉴스의 앵커 타이틀 자막이나 스포츠의 경기 정보 자막 등일 수 있다. 또한, 중요 자막 영역은 목표 자막 중에서 각각의 중요 정보를 담고 있는 로컬 자막 영역으로서, 예를 들어, 뉴스의 앵커 타이틀 자막 영역, 야구에서 이닝(inning)/스코어(score)/볼 카운트 자막 영역, 축구에서 스코어 자막 영역, 또는 골프에서 선수명/스코어 자막 영역 등일 수 있다.
이를 위하여, 상기 자막 영역 검출기(110)는 동영상 데이터(이하 '동영상' 이라 약칭함)와 장르 정보를 받아 기대 자막 영역들을 검출한다. 즉, 상기 자막 영역 검출기(110)에 포함된 후보 프레임 선택부(111)는 상기 입력 동영상으로부터 상기 입력 장르 정보가 나타내는 장르, 즉, 뉴스, 스포츠 경기(축구/야구/골프) 등에 따른 해당 후보 프레임 셋을 선택하고, 상기 자막 영역 검출기(110)에 포함된 자막 영역 결정부(112)는 상기 선택된 후보 프레임 셋으로부터 자막이 있을 가능성이 있는 상기 기대 자막 영역들을 결정한다.
이에 따라, 상기 목표 자막 검출기(120)는 본 발명에 따라 상기 검출된 기대 자막 영역들의 위치 또는 컬러 패턴의 반복성을 기반으로 목표 자막 후보 영역들을 선택하고, 상기 선택된 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화율을 기초로 목표 자막 영역들을 검출한다. 즉, 상기 목표 자막 검출기(120)에 포함된 목표 자막 후보 선택부(121)는 상기 자막 영역 검출기(110)에서 검출된 기대 자막 영역들을 누적하여 상기 누적된 영역들의 위치 또는 컬러 패턴의 반복성이 임계값보다 큰 영역들을 상기 목표 자막 후보 영역들로 선택한다. 또한, 상기 목표 자막 검출기(120)에 포함된 목표 자막 결정부(122)는 상기 목표 자막 후보 선택부(121)에서 선택된 상기 목표 자막 후보 영역들로부터 문자 또는 숫자 영역의 변화 율을 분석하여 상기 목표 자막 영역들을 결정한다.
상기 목표 자막 검출기(120)가 상기 목표 자막 영역들을 검출하면, 상기 중요 자막 검출기(130)는 상기 검출된 목표 자막 영역들을 분석하여 문자 또는 숫자 정보 영역을 검출한다. 이때, 상기 중요 자막 검출기(130)는 상기 목표 자막 영역들에 포함된 숫자 정보를 이용하여 상기 숫자 정보 영역을 검출하고, 상기 목표 자막 영역들에 포함된 문자 정보와 상기 상세 정보 데이터베이스(131)로부터의 상기 입력 동영상에 관한 상세 정보를 비교하여 상기 문자 정보 영역을 검출할 수 있다. 상기 상세 정보 데이터베이스(131)에는 상기 입력 동영상에 관한 해당 장르의 상세 정보, 예를 들어, 스포츠 경기의 선수명이나 어느 팀간의 경기인지를 나타내는 경기 정보 등일 수 있다. 여기서, 상기 중요 자막 검출기(130)는 상기 상세 정보 데이터베이스(131)로부터의 상세 정보를 참조할 수도 있지만, 이에 한정되지 않고 PVR(Personal Video Recorder)이나 와이브로(WiBro) 단말, DMB 폰 또는 개인용 홈 서버와 연동되는 웹서버로부터 해당 장르의 상세 정보를 제공 받을 수도 있다.
이하, 각 장르별로 예시하여 상기 자막 검출 장치(100)의 구체적인 동작을 설명한다.
도 2는 뉴스 동영상에서 자막 검출 방법을 설명하기 위한 흐름도이다. 먼저, 도 1의 후보 프레임 선택부(111)가 뉴스 동영상을 수신한다(S210). 이때, 해당 장르 정보, 즉, 뉴스라는 정보가 사용자에 의하여 입력되거나 사용 단말에서 EPG(electronic program guide)에 따라 동영상으로부터 추출하여 사용될 수 있다. 상기 후보 프레임 선택부(111)는 뉴스 동영상을 수신하면, 해당 장르에 따라 앵커 샷(anchor shot)을 후보 프레임 셋으로 선택할 수 있다(S220). 즉, 동영상 요약 등을 위하여 중요 자막을 획득하기 좋은 앵커의 장면이 나오는 부분의 일정 프레임 셋이 후보 프레임 셋으로 선택될 수 있다. 입력 동영상으로부터 앵커 샷을 획득하기 위하여 템플릿(template)을 이용하는 방법, 클러스터링(clustering)을 이용하는 방법, 멀티 모달(multimodal)을 이용하는 방법, 및 선 특허 출원 번호 2004-0013778에 따른 방법 등이 이용될 수 있다. 이와 같은 앵커 샷 획득 방법은 본 발명의 요지를 벗어나므로 상세한 설명을 생략한다.
한편, 위와 같이 앵커 샷이 후보 프레임 셋으로 선택되면, 자막 영역 결정부(112)는 도 3과 같이 상기 선택된 앵커 샷으로부터 자막이 있을 가능성이 있는 상기 기대 자막 영역들(310, 320)을 결정한다(S230). 자막이 있을 가능성이 있는 영역들을 검출하는 방법들은 동영상 데이터의 압축 영역 또는 복원 영역에서 이루어지 방법이 있을 수 있고, 또는 선 특허 출원 번호 2004-0010600 등에도 개시되어 있다. 이와 같은 기대 자막 영역 결정 방법은 본 발명의 요지를 벗어나므로 상세한 설명을 생략한다.
이에 따라, 도 1의 목표 자막 후보 선택부(121)는 상기 자막 영역 검출기(110)에서 검출된 기대 자막 영역들을 누적하여 상기 누적된 영역들의 위치의 반복성이 임계값보다 큰 영역들을 상기 목표 자막 후보 영역들로 선택한다(S240). 예를 들어, 도 3에서 관련기사의 타이틀을 나타내는 부분인 310은 일시적인 장면 속의 문자 부분인 320보다 반복성이 클 것이므로, 상기 목표 자막 후보 선택부(121)는 310에 해당하는 부분을 목표 자막 후보 영역(330)으로 결정한다.
상기 목표 자막 후보 영역(330)이 결정되면, 목표 자막 결정부(122)가 상기 목표 자막 후보 영역(330)으로부터 문자 영역의 변화율을 분석하여 변화율이 큰 영역을 목표 자막 영역으로 결정한다. 여기서는, 상기 목표 자막 후보 영역(330)이 문자나 숫자의 구분 없이 중요 자막이므로, 중요 자막 검출기(130)는 상기 검출된 목표 자막 영역을 중요 자막 영역으로 간주하고, 해당 영역에서 문자 또는 숫자 정보를 추출할 수 있다(S250).
도 4는 야구/축구 동영상에서 자막 검출 방법을 설명하기 위한 흐름도이다. 먼저, 도 1의 후보 프레임 선택부(111)가 야구 또는 축구 동영상을 수신한다(S410). 이때, 해당 장르 정보, 즉, 야구/축구라는 정보가 사용자에 의하여 입력되거나 사용 단말에서 EPG에 따라 동영상으로부터 추출하여 사용될 수 있다. 상기 후보 프레임 선택부(111)는 야구/축구 동영상을 수신하면, 해당 장르에 따라 야구인 경우에 피치 영상(pitch view), 또는 축구인 경우에 원거리 영상(long view)을 후보 프레임 셋으로 선택할 수 있다(S420). 즉, 동영상 요약 등을 위하여 경기 팀명, 스코어, 스트라이크, 볼, 아웃 카운트 등 중요 경기 정보를 획득하기 좋은 야구 경기의 피치 영상이나 축구의 원거리 영상이 나오는 부분의 일정 프레임 셋이 후보 프레임 셋으로 선택될 수 있다. 입력 동영상으로부터 피치 영상(pitch view), 또는 원거리 영상(long view)을 획득하기 위하여 선 특허 출원 번호 2005-0088235, 2004-0095903 등에 개시된 방법이 이용될 수 있고, 이외에도 소정 알고리즘에 따른 다른 방법들이 이용될 수 있다. 이와 같은 피치 영상(pitch view), 또는 원거리 영상(long view)의 획득 방법은 본 발명의 요지를 벗어나므로 상세한 설명을 생략한 다.
한편, 위와 같이 피치 영상, 또는 원거리 영상이 후보 프레임 셋으로 선택되면, 자막 영역 결정부(112)는 도 6과 같이 상기 선택된 후보 프레임 셋으로부터 자막이 있을 가능성이 있는 상기 기대 자막 영역들(610, 620)을 결정한다(S430). 자막이 있을 가능성이 있는 영역들은 도 2에서 설명된 방법과 유사하게 검출될 수 있다.
이에 따라, 도 1의 목표 자막 후보 선택부(121)는 상기 자막 영역 검출기(110)에서 검출된 기대 자막 영역들을 누적하여 상기 누적된 영역들의 위치의 반복성이 임계값보다 큰 영역들을 상기 목표 자막 후보 영역들로 선택한다(S440). 예를 들어, 도 6에서 관련 경기의 중요 경기 정보를 나타내는 부분인 610은 일시적인 광고 부분인 620보다 반복성이 클 것이므로, 상기 목표 자막 후보 선택부(121)는 610에 해당하는 부분을 목표 자막 후보 영역(630)으로 결정한다.
상기 목표 자막 후보 영역(630)이 결정되면, 목표 자막 결정부(122)가 상기 목표 자막 후보 영역(630)으로부터 문자 또는 숫자 영역의 변화율을 분석하여 변화율이 큰 영역을 목표 자막 영역으로 결정한다(S450).
여기서, 목표 자막 결정부(122)는 이중 이진화(double binarization)을 이용하여 상기 선택된 목표 자막 후보 영역들(630)로부터 문자 또는 숫자 영역을 추출할 수 있다. 상기 이중 이진화는 상반된 그레이(gray)를 가지는 문자 또는 숫자 영역을 용이하게 검출하기 위한 방법으로서, 5와 같이 먼저, Otsu 방법 등에 의해 결정될 수 있는 두 개의 임계값, 예를 들어, 제1 임계값(TH1), 제2 입계값(TH2)에 따 라 상기 선택된 목표 자막 후보 영역들(630)에 대하여 이진화를 수행한다(510). 상기 선택된 목표 자막 후보 영역들(630)은 도 6의 641 및 642와 같이 두 개의 영상으로 이진화될 수 있다. 예를 들어, 상기 선택된 목표 자막 후보 영역들(630)에서, 각 화소(pixel)의 그레이가 상기 제1 임계값(TH1)보다 큰 경우에 그레이 0으로 변환시키고, 그렇지 않은 경우에 최고 그레이, 예를 들어, 8비트 데이터의 경우에 255로 변환시켜, 641 영상이 획득될 수 있다. 또한, 상기 선택된 목표 자막 후보 영역들(630)에서, 각 화소의 그레이가 상기 제2 임계값(TH2)보다 작은 경우에 그레이 0으로 변환시키고, 그렇지 않은 경우에 최고 그레이로 변환시켜, 642 영상이 획득될 수 있다.
위와 같이, 상기 선택된 목표 자막 후보 영역들(630)에 대하여 이진화가 수행된 후 일정 보간 방법이나 알고리즘에 따라 노이즈가 제거된다(520). 다음에, 상기 이진화된 영상들 641 및 642를 합성(645)하여, 650과 같은 영역이 결정된다(530). 이와 같이 결정된 영역에 대하여 적절한 크기로 영역 확장하여 원하는 문자 또는 숫자 영역(660)이 획득될 수 있다.
이와 같은 이중 이진화 방법에 따라 원하는 문자 또는 숫자 영역(660)이 결정되면, 상기 목표 자막 결정부(122)는 OCR(Optical Character Recognition) 기법 등을 이용하여 문자 영역(661)/숫자 영역(662)을 구분하고, 상기 구분된 문자 또는 숫자 영역의 변화율을 분석하여 숫자 영역을 결정한다. OCR에 의한 문자 인식 기법에 따라 상기 문자 영역(661)/숫자 영역(662)의 인식 결과가 도 7과 같이 나타날 때, 음의 값 부분은 문자 영역을(661)을 나타내고, 양의 값 부분은 숫자 영역(662) 이 될 수 있다. 이에 따라, 상기 목표 자막 결정부(122)는 상기 결정된 숫자 영역(662)의 밝기(intensity) 변화율에 따라 변화율이 큰 영역을 목표 자막 영역으로 결정한다(S450). 여기서는 도 6의 숫자 영역(662)의 검은 부분이 목표 자막 영역들로 결정된다고 가정한다.
이와 같이, 목표 자막 영역들이 검출되면, 상기 중요 자막 검출기(130)는 상기 검출된 목표 자막 영역들을 분석하여 숫자 정보를 검출한다(S460~S490). 상기 중요 자막 검출기(130)는, 먼저, 상기 문자 영역(661)에 목표 자막, 즉, 경기 정보를 알리는 자막이 존재하는 경우에(S460), 상기 목표 자막 영역들, 즉 숫자 정보 영역들(662)의 검은 부분에 대한 영역별 이중 이진화(S450 참조)를 다시 이용하여 숫자 영역을 추출하고, OCR(S450 참조)을 이용하여 상기 추출된 숫자 영역의 변화율을 정밀 분석하여 숫자를 인식한다(S470, S480). 이때, 상기 중요 자막 검출기(130)는 연속성을 이용해 상기 인식된 숫자를 보상할 수 있고, 상기 보상된 숫자를 이용하여 해당 중요 숫자 정보 영역에서 해당 중요 숫자를 검출할 수 있다 (S480). 예를 들어, 도 8과 같은 시간에 따른 OCR에 의한 문자 인식 결과에서, 두 숫자 사이에서 전혀 다른 값을 갖는 숫자가 나타나는 경우에 두 값의 중간값으로 처리하거나, 숫자가 없거나 문자로 처리되어 소실되어 나타나는 경우에 양 쪽 숫자의 연속성을 이용해 해당 부분이 보상될 수 있다. 예를 들어, '1'과 '1' 사이에 숫자가 없는 경우에 사이 숫자도 '1'로 할 수 있다.
이에 따라, 축구의 경우에, 상기 중요 자막 검출기(130)는 해당 중요 숫자 정보 영역인 스코어 영역을 결정하여 해당 스코어 정보를 추출할 수 있다. 또는, 야구의 경우에, 상기 중요 자막 검출기(130)는 해당 중요 숫자 정보 영역인 스코어 영역, 이닝 영역, 스트라이크 카운트 영역, 볼 카운트 영역, 아웃 카운트 영역을 결정하여 해당 경기 정보를 추출할 수 있다(S490). 여기서, 스트라이크 영역 및 볼 카운트 영역의 결정을 위하여 도 8에서 3이 많은 나타나는 해당 영역이 볼 카운트 영역이 될 수 있고, 그 옆(좌/우)이 스트라이크 영역이 될 수 있다. 또한, 스트라이크 영역 및 볼 카운트 영역의 좌/우인 세번째 영역이 아웃 카운트 영역일 수 있다. 또한, 스코어 영역은 크기가 유사한 두 영역으로서 위치적으로 수직 또는 수평 상에 있는 영역이 스코어 영역으로 결정될 수 있다. 또한, 아웃 카운트 영역이 시간적으로 변할 때, 숫자의 크기가 커지는 영역이 이닝 영역으로 결정될 수 있다.
도 9는 골프 동영상에서 자막 검출 방법을 설명하기 위한 흐름도이다. 먼저, 도 1의 후보 프레임 선택부(111)가 골프 동영상을 수신한다(S910). 이때, 해당 장르 정보, 즉, 골프라는 정보가 사용자에 의하여 입력되거나 사용 단말에서 EPG에 따라 동영상으로부터 추출하여 사용될 수 있다. 상기 후보 프레임 선택부(111)는 골프 동영상을 수신하면, 해당 장르에 따라 야구/축구에서와 같이 원거리 영상(long view)을 후보 프레임 셋으로 선택할 수 있다(S920).
한편, 위와 같이 원거리 영상이 후보 프레임 셋으로 선택되면, 자막 영역 결정부(112)는 도 10과 같이 상기 선택된 후보 프레임 셋으로부터 자막이 있을 가능성이 있는 상기 기대 자막 영역들(1010~1040)을 결정한다(S930). 자막이 있을 가능성이 있는 영역들은 도 2에서 설명된 방법과 유사하게 검출될 수 있다.
골프에서는 시간적으로 변하는 원거리 영상들에서 목표 자막의 위치가 달라 질 수 있기 때문에, 여기서는 시간적 위치의 반복성이 이용되지 않고, 컬러 패턴의 반복성을 이용하여 목표 자막 후보 영역들이 결정된다. 즉, 도 1의 목표 자막 후보 선택부(121)는 상기 자막 영역 검출기(110)에서 검출된 기대 자막 영역들을 누적하여 상기 누적된 영역들에서 컬러 패턴의 반복성이 임계값보다 큰 영역들을 상기 목표 자막 후보 영역들로 선택한다(S940~S950).
예를 들어, 먼저, 상기 목표 자막 후보 선택부(121)는 DCD(Dominant Color Descriptor)와 같은 컬러 식별을 위한 영상 기술자를 이용하여 상기 누적된 기대 자막 영역들의 대표 컬러값들을 획득할 수 있다(S940). 다음에, 상기 목표 자막 후보 선택부(121)는 도 11과 같은 패턴 모델링 과정에 따라 상기 대표 컬러값들을 그룹화하는 클러스터링을 수행하여 목표 자막 후보 영역들을 결정할 수 있다(S940).
도 11과 같은 패턴 모델링 과정에서는, 먼저, 초기화 시에 상기 획득된 최초의 대표 컬러값에 대하여 클러스터 번호(예를 들어, 1)가 부여되고, 이때 해당 클러스터의 중심점(좌표)과 소속된 클러스터에 그룹화된 패턴(컬러값)의 수 1이 함께 기억된다(S1110). 다음에, 다음 컬러 패턴이 입력되면(S1120), DCD 에 의하여 획득되는 해당 대표 컬러값에 대한 소속 클러스터가 있는지를 판단한다(S1130). 이때, 소속 클러스터에 해당하는 지 판단을 위하여 소속 클러스터의 전체 컬러 평균의 일정 범위 내인지가 비교될 수 있다. 예를 들어, 유클리드(Euclidean) 메트릭(metric) 알고리즘에 따라 컬러들 간의 일정 거리 정보가 상기 소속 클러스터에 해당하는 지의 판단에 이용될 수 있다.
S1130 단계에서, 상기 소속 클러스터에 해당하면 같은 그룹으로 클러스터링 하고 해당 중심점을 업데이트하며, 그룹화된 패턴의 수를 1 증가 시키고, 다음 인덱스에 대하여 같은 과정을 반복한다(S1140~S1160).
S1130 단계에서, 상기 소속 클러스터에 해당하지 않으면 다른 그룹으로 클러스터링하여 다른 클러스터 번호(예를 들어, 2)를 부여하고 해당 중심점을 계산하여 저장한다(S1170~S1180). 이와 같은 과정은 인덱스(i)가 N(최대 입력 패턴의 개수)와 같아질 때까지 반복된다(S1190).
도 11과 같은 과정에 따라, 상기 대표 컬러값들이 그룹화된 개수가 일정 이상인 클러스터들이 선택될 수 있고, 이에 따라 상기 선택된 클러스터들과 일정 임계값을 비교하여 목표 자막 후보 영역들이 결정될 수 있다(S950). 예를 들어, 상기 목표 자막 후보 선택부(121)는 위와 같은 패턴 모델링으로부터 일정 임계값보다 큰 대표 컬러값을 가지는 클러스터들에 해당하는 영역들을 상기 목표 자막 후보 영역들로 선택할 수 있다.
이와 같이 상기 목표 자막 후보 영역들이 결정되면, 목표 자막 결정부(122)가 상기 목표 자막 후보 영역들로부터 도 4에서와 같이 문자 또는 숫자 영역의 변화율을 분석하여 변화율이 큰 영역을 목표 자막 영역(예를 들어, 도 12의 1210)으로 결정한다(S960).
이와 같이, 목표 자막 영역들이 검출되면, 상기 중요 자막 검출기(130)는 상기 검출된 목표 자막 영역들을 분석하여 중요 자막 정보를 검출한다(S960~S980). 상기 중요 자막 검출기(130)는, 먼저, 도 12의 1220과 같이 상기 목표 자막 영역들에 대한 영역별 이중 이진화(S450 참조)를 이용하여 문자 또는 숫자 영역을 추출하 고, OCR(S450 참조)을 이용하여 상기 추출된 문자 또는 숫자 영역의 변화율을 정밀 분석하여 중요 문자 또는 숫자 영역을 결정한다.
이에 따라, 상기 중요 자막 검출기(130)는 해당 중요 숫자 영역인 스코어 영역에서 해당 스코어 정보를 추출할 수 있고, 해당 중요 문자 영역인 선수명/팀명 영역에서 해당 선수명/팀명 정보(1230 참조)를 추출할 수 있다. 여기서, 선수명/팀명 정보와 같은 경기 정보는, 위에서도 기술된 바와 같이, 상기 상세 정보 데이터베이스(131) 또는 소정 웹서버로부터의 상기 입력 동영상에 관한 상세 정보와 비교되어 매칭되는 경우에만, 선수명/팀명에 대한 중요 자막 영역임이 결정되도록 할 수 있다.
위에서 기술한 바와 같이, 본 발명의 일실시예에 따른 자막 검출 장치(100)에서는, 자막 영역 검출기(110)가 입력 동영상으로부터 입력 장르 정보를 참조하여 앵커 샷, 피치 영상, 또는 원거리 영상 등과 같은 후보 프레임 셋을 선택하고 그 중 자막이 있을 가능성이 있는 기대 자막 영역들을 결정하면, 목표 자막 검출기(120)는 상기 검출된 기대 자막 영역들의 위치 또는 컬러 패턴의 반복성을 기반으로 목표 자막일 가능성이 있는 목표 자막 후보 영역들을 선택하고 그 중 문자 또는 숫자 영역의 변화율을 기초로 목표 자막 영역들을 결정하며, 이에 따라 중요 자막 검출기(130)는 상기 결정된 목표 자막 영역들을 분석하여 중요 문자 또는 숫자 정보 영역을 검출한다.
본 명세서에서 개시된 방법 및 장치에서 사용되는 기능은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨 터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.