KR20130136774A

KR20130136774A - 영상 내 텍스트 정보의 선택적 제거 방법 및 장치

Info

Publication number: KR20130136774A
Application number: KR1020120060449A
Authority: KR
Inventors: 전병우; 박대윤; 박순구; 박영균; 안원기
Original assignee: 성균관대학교산학협력단
Priority date: 2012-06-05
Filing date: 2012-06-05
Publication date: 2013-12-13
Also published as: KR101395822B1

Abstract

사용자의 선택에 따라 영상의 텍스트 정보를 제거하되, 별도의 구체적인 설정 없이도 간편하고 실시간으로 텍스트 정보를 제거할 수 있는 영상 내 텍스트 정보의 선택적 제거 방법 및 장치가 제공된다. 영상 내 텍스트 정보의 제거 방법은 침식 연산 및 팽창 연산을 기반으로 원본 영상 내 텍스트 정보 영역을 검출하는 단계와 상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거하는 단계 및 상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성하는 단계를 포함한다. 따라서, 사용자에게 별도의 정보를 요청하지 않고도 영상 내의 텍스트 정보를 시간 지연 없이 실시간으로 간편하게 제거할 수 있다.

Description

영상 내 텍스트 정보의 선택적 제거 방법 및 장치{METHOD OF SELECTIVE REMOVAL OF TEXT IN VIDEO AND APPARATUS FOR PERFORMING THE SAME}

본 발명은 영상 내 텍스트 정보의 선택적 제거 방법 및 장치에 관한 것으로 보다 상세하게는 영상 내의 텍스트 정보를 제거할지 여부를 사용자가 결정할 수 있도록 하고, 텍스트 정보를 제거하고자 하는 경우 시각적으로 거슬림이 없도록 텍스트 정보를 고속으로 검출하여 제거한 후 검출된 텍스트 정보가 존재하는 영역에 대해 원래의 영상 신호로 복원하는 방법 및 장치에 관한 것이다.

최근 컴퓨터 하드웨어 및 소프트웨어 기술의 급속한 발전으로 자료 저장의 대용량화, 처리 속도 고속화, 통신망을 통한 양자 간의 정보 공유 등 많은 변화가 일어나고 있다. 이러한 컴퓨터 기술의 발전은 여러 분야의 통합화 추세로 발전하고 있으며, 그 중 하나가 영상 신호 처리 기술 분야이다.

멀티미디어는 비디오와 오디오, 텍스트 정보를 포함하고 있는 다중 데이터로서 그 사용 빈도 및 중요성이 급속히 증가하고 있으며, 현재도 오락, 교육, 영화 산업 등의 광범위한 분야에서 사용되고 있다. 이 중, 영상에 존재하는 텍스트 정보는 이용자에게 영상의 내용에 대한 정확한 이해를 돕기 위하여 텍스트 형태로 영상에 삽입된다. 하지만 영상 콘텐츠를 사용하는 이용자의 요구에 의해 텍스트 정보를 제거할 필요성도 있다.

텍스트 정보 제거의 필요성의 구체적인 예로는 영상에 존재하는 자막이 있다. 자막은 시청자에게 영상 내용에 대한 이해를 돕기 위하여 텍스트 형태로 영상에 삽입된다. 이러한 자막은 콘텐츠의 정보를 시각적으로 설명해 주거나 보충해 주는 효과적인 도구이다. 예를 들어, 외국어로 방영되는 영화에서 영상 내에 자국어 자막을 삽입함으로써 동시 통역이 없이도 영화의 내용을 파악할 수 있으며, 소음이 심한 환경과 같이 소리를 제대로 들을 수 없는 환경에서도 영상 신호에 방송의 요약 정보를 자막으로 삽입하여 송출함으로써 영상 콘텐츠 내용을 시청자들이 전달받을 수 있게 된다. 그러나 이러한 자막 정보 역시 경우에 따라서는 불필요한 정보가 될 수도 있으며, 따라서 효과적으로 제거되어야 할 필요성이 있다.

예를 들어, 외국어 학습을 원하는 시청자 입장에서는 자국어 자막이 존재함으로써 학습에 방해가 될 수 있다. 따라서 시청자는 자막 정보를 선택적으로 제거할 필요성이 존재한다. 자막 정보는 원본 영상과 분리되어 전송됨으로써 자막 정보의 필요 유무에 따라 영상 신호와 함께 보이게 하거나 보이지 않도록 하는 것이 가능하다. 그러나 또 다른 많은 경우, 방송이나 영상에서 이러한 자막 정보가 영상 신호 내에 이미 영상 신호의 일부로 포함되어 전송되고 있다. 이 경우 사용자는 간단하게 자막 정보가 영상에 오버레이 되는 것을 켜거나 끄도록(on/off) 할 수 없다. 따라서 이러한 경우 자막을 의도적으로 제거하기 위해서는 새로운 방법이 요구된다.

이러한 텍스트 정보 제거의 필요성에 따라 현재 사용되고 있는 기술로는 대표적으로 하기의 두 가지 방법이 있다.

먼저, 기존의 IPTV에서 사용하는 자막 영역 가림 방식이 있다. 이 방법은 자막이 있을 것으로 예상되는 영역인 영상의 하단 중앙 부분을 무채색의 객체로 오버랩(Overlap) 함으로써 자막을 안 보이게 하는 방법이다. 즉, 자막을 안 보이게 하기 위하여 그 위치에 사전에 설정된 무채색만이 보이도록 함으로써 자막이 안 보이게 하는 것이다. 이 방식은 실시간 처리는 가능하나 기존 영상을 훼손한다는 점에서 시청자의 영상 몰입을 방해하는 단점이 있다. 또한 다양한 위치에 존재하는 자막에 대한 자막 제거 서비스는 불가능한 문제점이 있다.

예를 들어, SkyLife의 자막 제거 방법은 일반적인 자막 위치인 영상의 하단 중앙 부분을 기준으로 무채색의 객체로 자막이 있는 영역을 오버랩(Overlap) 함으로써 자막을 안 보이게 하는 방법을 사용하고 있다. 다만, 이 같은 경우에는 동일한 크기의 객체로 자막을 가려 자막이 지정된 객체의 범위를 넘어서는 경우 또는 자막의 영상이 하단 중앙부에 있지 않은 경우에는 자막이 제거되지 않는다. 게다가, 자막이 위치하는 영역에 원 영상의 중요한 정보가 있을 경우, 시청자에게 손상된 영상의 정보를 제공하게 되고 시청자의 영상 몰입에 지장을 초래하게 된다.

두 번째로, 디지털 영상처리 알고리듬의 프로그램을 사용한 자막 제거 방법이 있다. 예를 들면, Virtual Dub을 이용한 MSU 자막 필터(MSU Subtitle Filter) 기술이 있는데 상기 MSU 자막 필터 기술은 자막의 형태에 따른 복잡한 설정 방법, 자막의 낮은 검출 비율(Low detection rate) 및 실시간 처리 불가능 등의 문제점이 발생한다.

보다 구체적으로, 자막은 텍스트로 표현되기 때문에 여러 가지 폰트(font)가 존재하게 된다. MSU 필터는 다양한 폰트(font)의 초기 설정 및 자막의 두께 등에 대한 지정을 사용자가 사전에 선택해주어야 하는 문제가 있다. 이러한 설정이 부정확한 경우, 필터가 자막 자체를 인식하지 못하는 경우가 다수 발생한다. 또한, 이를 위하여 수십 번의 설정을 사용자가 반복하여야 하며, 수십 번을 반복한 경우에도 원하는 결과를 얻기가 어렵다. 또한, 영상에서 자막이 제거되는 처리 속도가 매우 느리다. 따라서 이동 단말 시스템이나 실시간을 요하는 멀티미디어 기기에 이 프로그램을 사용할 시, 실시간 영상을 제공하기 위한 속도에 미치지 못하여 사용상 불편함이 있다.

(특허 문헌) 한국 공개 특허 제 10-2006-0033202호("영상표시기기의 자막 처리장치 및 방법", 엘지전자 주식회사, 2006.04.19 공개)

전술한 문제점을 해결하기 위한 본 발명의 목적은 사용자의 선택에 따라 영상의 텍스트 정보를 제거하되, 별도의 구체적인 설정 없이도 간편하고 실시간으로 텍스트 정보를 제거할 수 있는 영상 내 텍스트 정보의 선택적 제거 방법을 제공하는 것이다.

또한, 본 발명의 다른 목적은 사용자의 선택에 따라 영상의 텍스트 정보를 제거하되, 별도의 구체적인 설정 없이도 간편하고 실시간으로 텍스트 정보를 제거할 수 있는 영상 내 텍스트 정보의 선택적 제거 장치를 제공하는 것이다.

전술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 방법은 침식 연산 및 팽창 연산을 기반으로 원본 영상 내 텍스트 정보 영역을 검출하는 단계; 상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거하는 단계; 및 상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성하는 단계를 포함할 수 있다. 여기서, 상기 텍스트 정보 영역을 검출하는 단계는 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체하여 침식 영상을 생성하는 침식 연산 단계; 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 작은 픽셀의 픽셀 값을 명도가 큰 픽셀의 픽셀 값으로 대체하여 팽창 영상을 생성하는 팽창 연산 단계; 및 상기 팽창 영상 및 상기 침식 영상의 차 영상을 생성하여 텍스트 정보 영역을 검출하는 차 연산 단계를 포함할 수 있다. 또한, 상기 텍스트 정보 영역을 검출하는 단계는 상기 차 영상 내에서 미리 설정한 임계값을 초과하는 픽셀 값을 가지는 픽셀은 제 1 픽셀 값으로 대체하고, 상기 임계값 이하의 픽셀 값을 가지는 픽셀은 제 2 픽셀 값으로 대체하여 상기 차 영상을 이진화하고 상기 제 1 픽셀 값을 가지는 픽셀을 상기 텍스트 정보 영역으로 검출하는 이진화 단계를 더 포함할 수 있다. 여기서, 상기 텍스트 정보 영역을 제거하는 단계는 상기 검출된 텍스트 정보 영역을 기반으로 복원할 텍스트 정보 영역을 확정할 수 있다. 또한, 상기 텍스트 정보 영역을 제거하는 단계는 상기 검출된 텍스트 정보 영역을 기반으로 윤곽선 내부를 포함하는 텍스트 영역을 확장하는 단계; 및 확장된 텍스트 정보 영역을 저장하는 단계를 포함할 수 있다. 여기서, 상기 텍스트 정보 영역을 복원하는 단계는 상기 검출된 텍스트 정보 영역 및 원본 영상을 기반으로 상기 텍스트 정보 영역을 복원할 수 있다. 또한, 상기 텍스트 정보 영역을 복원하는 단계는 상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 단계; 및 상기 현재 픽셀이 텍스트 정보 영역이 아닌 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 단계를 포함할 수 있다. 여기서, 상기 텍스트 정보 영역을 복원하는 단계는 상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 단계; 및 상기 현재 픽셀이 텍스트 정보 영역인 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 중심으로 하는 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 단계를 포함할 수 있다. 여기서, 상기 복원 영상 픽셀 값으로 지정하는 단계는 상기 마스크 내에 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있을 경우, 상기 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정하는 것을 특징으로 할 수 있다. 여기서, 상기 마스크는 마름모꼴의 마스크인 것을 특징으로 할 수 있고, 상기 텍스트 정보는 서브타이틀, 자막 및 캡션과 유사한 정보 중 적어도 하나를 포함하는 것을 특징으로 할 수 있다.

본 발명의 다른 목적을 달성하기 위한 영상 내 텍스트 정보의 선택적 제거 장치는 침식 연산 및 팽창 연산을 기반으로 원본 영상 내 텍스트 정보 영역을 검출하는 검출부; 상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거하는 제거부; 및 상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성하는 복원부를 포함할 수 있다. 여기서, 상기 검출부는 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체하여 침식 영상을 생성하는 침식 연산부; 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 작은 픽셀의 픽셀 값을 명도가 큰 픽셀의 픽셀 값으로 대체하여 팽창 영상을 생성하는 팽창 연산부; 및 상기 팽창 영상 및 상기 침식 영상의 차 영상을 생성하여 텍스트 정보 영역을 검출하는 차 연산부를 포함할 수 있다. 또한, 상기 검출부는 상기 차 영상 내에서 미리 설정한 임계값을 초과하는 픽셀 값을 가지는 픽셀은 제 1 픽셀 값으로 대체하고, 상기 임계값 이하의 픽셀 값을 가지는 픽셀은 제 2 픽셀 값으로 대체하여 상기 차 영상을 이진화하고 상기 제 1 픽셀 값을 가지는 픽셀을 상기 텍스트 정보 영역으로 검출하는 이진화부를 더 포함할 수 있다. 여기서, 상기 제거부는 상기 검출된 텍스트 정보 영역을 기반으로 상기 팽창 연산을 이용한 텍스트 영역 확장부; 및 확장된 영역 정보를 복원에 이용하기 위해 기록 및 저장하는 저장부를 포함할 수 있다.여기서, 상기 복원부는 상기 검출된 텍스트 정보 영역 및 원본 영상을 기반으로 상기 텍스트 정보 영역을 복원할 수 있다. 또한, 상기 복원부는 상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 텍스트 정보 영역 인식부; 및 상기 현재 픽셀이 텍스트 정보 영역이 아닌 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 복원 영상 생성부를 포함할 수 있다. 또한, 상기 복원부는 상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 텍스트 정보 영역 인식부; 및 상기 현재 픽셀이 텍스트 정보 영역인 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 중심으로 하는 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 복원 영상 생성부를 포함할 수 있다. 여기서, 상기 복원 영상 생성부는 상기 마스크 내에 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있을 경우, 상기 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정하는 것을 특징으로 할 수 있다. 또한, 상기 마스크는 마름모꼴의 마스크일 수 있고, 상기 텍스트 정보는 서브타이틀, 자막 및 캡션 중 적어도 하나를 포함할 수 있다.

전술한 영상 내 텍스트 정보의 선택적 제거 방법 및 장치에 따르면, 사용자에게 별도의 정보를 요청하지 않고도 영상 내의 텍스트 정보를 시간 지연 없이 실시간으로 간편하게 제거할 수 있다. 또한 제거된 텍스트 정보 영역을 주변 영상을 기반으로 복원함으로써, 텍스트 정보가 부가되기 전의 원 영상에 유사한 복원 영상을 제공할 수 있다. 또한, 본 발명의 텍스트 정보 제거 프로그램을 셋탑 박스(Set-Top Box), TV, PC, 스마트폰 등의 다양한 기기에 칩 형태, 또는 펌웨어 형태, 또는 일반 프로그램 형태로 내장시켜 추가 기기 없이 영상 기기 내에서 텍스트 정보의 유/무 판단, 텍스트 정보 탐색 및 복원 작업을 수행하도록 설정할 수 있다.

따라서, 영상 내 텍스트 정보를 삭제하고자 하는 사용자로 하여금 시간 지연이 없이 즉각적으로 텍스트 정보를 제거한 영상을 시청하도록 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 방법의 흐름도이다.
도 2는 도 1의 텍스트 정보 영역 검출 단계의 상세 흐름도이다.
도 3a는 도 1의 텍스트 정보 영역 복원 단계의 상세 흐름도이다.
도 3b는 도 1의 텍스트 정보 영역 복원 단계의 시간적 측면에 따른 수행의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 장치의 구성을 나타내는 블록도이다.
도 5는 도 4의 복원부의 구성을 나타내는 상세 블록도이다.
도 6은 팽창 연산, 침식 연산 및 차 연산 수행에 따른 영상의 예시도이다.
도 7은 이진화 연산의 예시도이다.
도 8a는 본 발명의 일 실시예에 따른 마스크의 예시도이다.
도 8b는 텍스트 정보 복원 과정의 시간 축에 따른 적용 예시도이다.
도 9는 텍스트 정보 영역의 영상을 복원하는 과정에서 마스크가 처리되는 순서를 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 텍스트 정보 영역 복원 단계의 상세 흐름도이다.
도 11은 텍스트 정보 영역 영상과 원 영상의 데이터 값의 예시도이다.
도 12는 현재 픽셀이 텍스트 정보 영역이 아닌 경우의 예시도이다.
도 13은 현재 픽셀이 텍스트 정보 영역인 경우의 예시도이다.
도 14는 현재 픽셀이 텍스트 정보 영역이고, 마스크 내에 텍스트 정보 영역이 더 포함된 경우의 예시도이다.
도 15는 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 장치의 구체적인 적용을 도시한 도면이다.
도 16은 PC 내장형 텍스트 정보의 선택적 제거 장치의 예시도이다.
도 17은 스마트폰 내장형 텍스트 정보의 선택적 제거 장치의 예시도이다.
도 18은 TV 내장형 텍스트 정보의 선택적 제거 장치의 예시도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

또한, 본 발명의 일 실시예에 따른 텍스트 정보 영역 검출 및 복원을 수행하는 방법에 있어서 디지털 영상처리 알고리듬을 이용할 수 있다. 상기 알고리듬을 적용하기 위해 사용된 함수들은, OPENCV 라이브러리에서 제공된 함수의 기능에 근거하여 적용할 수 있다. 그러나 OPENCV 라이브러리에 포함된 함수의 기능은 설명의 편의 또는 이해의 편의를 위한 것 일뿐, OPENCV와 같은 라이브러리를 사용하여야만 하는 것을 의미하는 것은 아니다. 따라서, 다른 디지털 영상처리 알고리듬에서 제공하는 함수로 본 발명의 실현이 가능함은 물론, 동일한 기능을 하는 다른 알고리듬으로도 구현이 가능하다.

본 출원에서 사용된 “마스크”란 용어는 단지 특정한 실시예의 용이한 설명을 하기 위해 마름모 형태의 마스크를 기준으로 설명되었을 뿐이지 본 발명을 한정하려는 의도가 아니다. 그러므로 “마스크”의 용어는 명세서상에 기재된 형태의 마스크뿐만이 아니라 불특정 다수의 마스크 및 적용 방법을 포함하는 것으로 이해되어야 한다.

영상 내 텍스트 정보의 제거 방법

도 1은 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 방법의 흐름도이고, 도 2는 도 1의 텍스트 정보 영역 검출 단계의 상세 흐름도이며, 도 3a는 도 1의 텍스트 정보 영역 복원 단계의 상세 흐름도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 방법은 먼저 셋탑 박스(Set-Top Box), TV, PC, 스마트폰 등의 다양한 기기로부터, 또는 파일 형태로 존재하는 다양한 소스로부터, 텍스트 정보가 포함된 영상신호를 입력받아 영상을 획득한다(S110). 여기서, 상기 텍스트 정보는 서브타이틀, 자막 및 캡션과 유사한 정보 중 적어도 하나를 포함할 수 있다. 상기 텍스트 정보가 포함된 영상신호를 입력받아 영상을 획득하는 단계(S110)는 셋탑 박스(Set-Top Box), TV, PC, 스마트폰 등의 다양한 기기로부터, 또는 파일 형태로 존재하는 다양한 소스로부터, 텍스트정보가 포함된 영상을 수신한다. 텍스트 정보의 제거를 위해 적절한 대응 컴포넌트(component) 연결 소자를 대응(match)시켜 연결하는 것이 바람직하며, 입력된 초기 영상 신호를 기록하기 위한 메모리 할당 작업, 초기 영상 신호 크기 등의 정보를 추출하는 작업 및 최종 처리 영상을 위한 최소한의 메모리 공간 준비 작업을 더 포함할 수 있다.

영상이 획득되면, 침식 연산 및 팽창 연산을 기반으로 상기 획득한 원본 영상 내 텍스트 정보 영역을 검출한다(S120). 상기 원본 영상 내 텍스트 정보 영역을 검출하는 단계(S120)는 디지털 영상 처리를 통한 프로그램 또는 장치에서 코드를 사용하여 연산하고, 연산 결과를 알고리듬 순서대로 처리하는 과정이 포함되어 있다.

도 2를 참조하여 보다 구체적으로 설명하면, 상기 원본 영상 내 텍스트 정보 영역을 검출하는 단계(S120)는 먼저 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체하여 침식 영상을 생성하는 침식 연산을 수행한다(S121).

도 6은 팽창 연산, 침식 연산 및 차 연산 수행에 따른 영상의 예시도이다.

도 2 및 도 6을 참조하면, 상기 침식 연산 단계(S121)는 원본 영상(610)에 대해서 침식 연산을 수행하여 침식 영상(620)을 생성한다. 침식 연산은 원본 영상 내에서 픽셀 간의 경계에 있어서, 영상의 명도 차이를 기준으로 하여 그 차이가 미리 설정한 임계값을 초과하면 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체한다. 즉, 명도가 큰 픽셀은 줄어들고, 명도가 작은 픽셀이 증가하게 된다. 여기서 상기 침식 연산은 반복적으로 실시될 수 있고, 침식 연산이 실시된 횟수만큼 상기 명도가 큰 픽셀의 픽셀 값이 명도가 작은 픽셀의 픽셀 값으로 대체된다. 결과적으로, 텍스트 정보는 도 6에 도시된 침식 영상(620)과 같이 원본 영상(610)에 비해 축소된다.

상기 침식 연산을 수행하기 위한 일 실시예로서, OpenCV Library로부터 cvErode 침식 연산 함수를 사용할 수 있다.

상기 형식을 가진 침식 연산 함수를 아래와 같이 본 발명 구현에 사용할 수 있다.

여기서 frame은 원본 영상 신호 데이터, frame_x는 침식 연산 결과가 담길 데이터 공간, element는 3x3 mask 구조화 요소, ‘1’은 침식 연산의 수행 횟수를 의미한다. 본 발명에 이를 적용시키면 도 6의 원본 영상(610)이 침식 영상(620)과 같이 테두리 외부의 어두운 픽셀 값들이 테두리 내의 밝은 픽셀 값을 픽셀 크기 1만큼 대체한 영상 신호 데이터를 얻게 된다.

팽창 연산 단계(S213)에서는 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 작은 픽셀의 픽셀 값을 명도가 큰 픽셀의 픽셀 값으로 대체하여 팽창 영상을 생성한다. 즉, 팽창 연산은 상기 침식 연산과 반대되는 개념의 연산으로, 도 6의 원본 영상(610)에 대해서 팽창 연산을 수행하여 팽창 영상(630)을 생성한다.

상기 팽창 연산을 수행하기 위한 일 실시예로서, OpenCV Library로부터 하기의 형식을 가지는 cvDilate 와 같은 함수를 사용할 수 있다.

위의 형식을 가진 침식연산 함수를 하기와 같이 본 발명에 적용할 수 있다.

여기서 frame은 원본 영상 신호 데이터, frame_y는 팽창연산 결과가 담길 데이터 공간, element는 3x3 mask 구조화 요소, ‘1’은 팽창연산의 수행 횟수를 의미한다. 본 발명에 이를 적용시키면 도 6의 원본 영상(610)이 팽창 영상(630)과 같이 테두리 내부의 밝은 픽셀 값들이 테두리 외부의 어두운 픽셀 값을 픽셀 크기 1만큼 대체한 영상 신호 데이터를 얻게 된다.

차 연산 단계(S125)에서는 상기 생성된 팽창 영상(630) 및 상기 침식 영상(620)의 차 영상을 생성하여 텍스트 정보 영역을 검출한다. 즉, 상기 팽창 영상(630)에서 상기 침식 영상(620)에 해당하는 부분을 제한다. 상기 차 연산의 결과, 도 6의 차 영상(640)을 생성할 수 있다. 상기 차 연산 단계(S125)는 상기 침식 연산 단계(S121) 및 팽창 연산 단계(S123)를 통해 얻은 두 개의 중간 단계 영상 데이터로부터 텍스트 정보 영역의 테두리 정보를 검출하기 위해 수행된다.

상기 차 연산을 수행하기 위한 일 실시예로서, OpenCV Library로부터 cvSub 연산을 사용할 수 있다.

상기의 형식을 가진 차 연산 함수를 아래와 같이 본 발명에 적용할 수 있다.

여기서 frame_y는 팽창 영상(630), frame_x는 침식 영상(620), frame_xy는 차 연산 결과 생성된 차 영상(640)이 저장될 메모리 공간, ‘0’은 별도의 마스크지정을 하지 않는다는 의미로 사용되었다. 본 발명에 이를 적용시키면 도 6의 팽창 영상(630)과 침식 영상(620)의 두 영상 신호로부터 차 영상(640)과 같은 텍스트 영역의 테두리만을 추출한 영상 데이터 신호를 얻게 된다. 일 실시 예로서, 상기 침식 연산과 팽창 연산을 1회만 수행할 경우, 원본 텍스트 영역을 1만큼 팽창·침식 연산한 데이터 결과를 차 연산하기 때문에 추출한 텍스트 영역 데이터는 픽셀 2개 크기만큼의 두께를 가지게 된다.

상기 텍스트 정보 영역을 보다 정확히 특정하기 위해, 상기 텍스트 정보 영역을 검출하는 단계(S120)는 이진화 단계(S127)를 더 포함할 수 있다. 상기 이진화 단계(S127)는 상기 차 영상 내에서 미리 설정한 임계값을 초과하는 픽셀 값을 가지는 픽셀은 제 1 픽셀 값으로 대체하고, 상기 임계값 이하의 픽셀 값을 가지는 픽셀은 제 2 픽셀 값으로 대체하여 상기 차 영상을 이진화하고 상기 제 1 픽셀 값을 가지는 픽셀을 상기 텍스트 정보 영역으로 검출할 수 있다. 예를 들어, 여기서 0 내지 255의 픽셀값을 가지는 경우, 상기 임계값은 180이 될 수 있고 제 1 픽셀 값은 0, 제 2 픽셀 값은 255가 될 수 있다.

즉, 상기 이진화 단계(S127)는 차 영상에 대해 문턱(threshold) 함수를 이용하여 차 연산으로 얻어진 텍스트 영역 데이터를 특정화할 수 있다. 문턱 함수는 입력 영상을 특정 문턱 수치를 기준으로 문턱 값보다 낮은 경우와 높은 경우를 양분하여 데이터 값을 이진화시키는 연산이다.

상기 이진화 연산을 수행하기 위한 일 실시예로서, 아래와 같은 형식의 cvThreshold 함수를 사용할 수 있다.

본 발명에서는 일례로 다음과 같은 데이터와 값을 적용시켜 본 발명에 적용할 수도 있다.

여기서, frame_xy는 차 연산을 통해 얻은 텍스트 영역의 테두리 영상 데이터 신호, frame_z는 문턱(threshold) 함수의 적용 결과 영상을 위한 메모리 공간, ‘180’은 문턱(threshold) 연산을 위해 기준이 되는 픽셀 값, 255는 기준이 되는 픽셀 값보다 클 경우에 해당 픽셀에 대체되는 픽셀 값을 의미한다.

CV_THRESH_BINARY 정의된 값은 문턱(threshold)에서의 fixed_value를 기준으로 하여 그보다 작거나 큰 경우에 대한 값 처리 방식에 대한 정의된 값으로 값 처리 방식에 대한 타입을 결정한다. 이에 대한 자세한 설명과 별도의 타입들에 대해서는 하기의 표 1에서 확인할 수 있다.

상기 표 1에서 dst는 복원될 픽셀 값, src는 원본 픽셀 값, T는 threshold값, M은 max_value에 해당되는 값을 의미한다.

도 7은 이진화 연산의 예시도이다.

예를 들어, 임계값으로 0~255의 픽셀 값 중 '180'을 설정하면, 도 7에 도시된 바와 같이 원본 영상(710)의 픽셀들 중 픽셀 값이 ‘180’이하인 픽셀 값은 이진화된 영상(720)에서 0으로 대체되고, 원본 영상(710)의 픽셀들 중 픽셀 값이 180을 넘는 값에 대해서는 이진화된 영상(720)에서 해당 픽셀 값을 255로 대체함으로써, 보다 명확히 특정된 텍스트 정보 영역을 검출할 수 있다.

일 실시예로서, 상기 침식 연산 단계(S121) 내지 이진화 단계(S127)를 포함하는 텍스트 정보 영역 검출 단계(S120)를 위해 영상 내의 특정 부분을 선택하여 처리 영역으로 설정하고, 상기 처리 영역에 대해서만 상기 텍스트 정보 영역 검출 단계(S120)가 적용될 수 있다. 예를 들어, 텍스트 정보는 영상 내의 하단 중앙부에 표시되는 경우가 가장 많은 점을 고려할 때, 상기 영상 내의 하단 중앙부에 미리 설정한 크기의 처리 영역을 지정하고, 상기 처리 영역에 대해서만 상기 텍스트 정보 영역 검출 단계(S120)를 수행할 수 있다. 상기 처리 영역의 위치는 영상 내의 하단 중앙부에 한정되는 것은 아니며, 영상 내 텍스트 정보가 위치할 것으로 예상되는 영역을 직접 설정하도록 할 수 있다.

상기와 같이 처리 영역을 별도로 지정할 경우, 제거하고자 하는 텍스트 정보 이외의 영상이 제거될 가능성이 줄어들어, 보다 정확한 텍스트 정보의 제거가 가능하며 영상의 전체 영역을 처리하는 경우에 비해 개선된 속도를 얻을 수 있다.

텍스트 정보 영역이 검출되면, 상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거한다(S130). 여기서, 상기 텍스트 정보 영역을 검출하는 단계(S120) 및 텍스트 정보 영역의 텍스트 정보 제거 단계(S130)는 사용자의 설정에 따라 선택적으로 수행될 수 있다.

텍스트 정보 영역 복원 단계(S140)에서는 상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성한다. 여기서, 상기 텍스트 정보 영역 복원 단계(S140)는 상기 검출된 텍스트 정보 영역 및 원본 영상을 기반으로 상기 텍스트 정보 영역을 복원하는 것을 특징으로 할 수 있다. 즉, 상기 검출한 텍스트 정보 영역에 관한 데이터 및 원본 영상의 데이터를 참조하여 텍스트 정보 영역에 해당하는 영상을 복원하는 과정이다.

도 3a를 참조하면, 상기 텍스트 정보 영역 복원 단계(S140)는 상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 단계(S141) 및 상기 현재 픽셀이 텍스트 정보 영역에 해당하는지 여부를 기반으로 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값을 지정하는 단계(S143)를 포함할 수 있다.

여기서, 상기 복원 영상 픽셀 값을 지정하는 단계(S143)는 상기 현재 픽셀이 텍스트 정보 영역이 아닌 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정할 수 있다.

또한, 상기 복원 영상 픽셀 값을 지정하는 단계(S143)는 상기 현재 픽셀이 텍스트 정보 영역인 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 중심으로 하는 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정할 수 있다. 또한, 상기 복원 영상 픽셀 값으로 지정하는 단계(S143)는 상기 마스크 내에 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있을 경우, 상기 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정할 수 있다. 상기 텍스트 정보 영역 복원 단계(S140)는 사용자의 설정에 따라 선택적으로 수행될 수 있다.

도 3b는 도 1의 텍스트 정보 영역 복원 단계의 시간적 측면에 따른 수행의 예시도이다.

도 3b에 도시된 바와 같이, 상기 복원 영상 픽셀 값을 인식하고 지정하는 단계는 시간적인 측면에서도 수행될 수 있다. 일례를 들어, k번째 프레임(310)에서 텍스트 정보 영역이라 인식된 영역인 경우에 해당 텍스트 영역들은 k+1(320), k+2(330),… 프레임에서도 영역의 일부분 및 전체가 텍스트 영역일 가능성이 있다. 이런 점에서, k 프레임에서 복원된 영상 픽셀 값 정보를 k+1 또는 그 이상의 텍스트 영역을 복원하기 위해 이용할 수도 있다.

도 8a는 본 발명의 일 실시예에 따른 마스크의 예시도이고, 도 9는 텍스트 정보 영역의 영상을 복원하는 과정에서 마스크가 처리되는 순서를 나타내는 도면이다. 도 9에 도시된 바와 같이, 텍스트 정보 영역의 영상을 복원함에 있어서 먼저 프레임에서 첫 픽셀로 저장된 왼쪽 상단의 픽셀(910)로부터 마지막 픽셀로 저장된 오른쪽 하단의 픽셀(920)에 이르기까지 도 8a의 인-페인트(In-paint) 필터의 적용을 위한 마스크를 기반으로 복원이 수행된다.

도 8a에 도시된 바와 같이, 본 발명의 일 실시예에 따른 텍스트 정보 영역의 복원 과정에는 마스크가 사용될 수 있다. 상기 마스크는 일례를 들어 마름모꼴의 마스크일 수 있고, 라디안(Radian)의 크기가 2일 수 있다. 즉, 도 8a에 도시된 바와 같은 형태의 마스크가 사용될 수도 있다. 마스크 내의 중앙 픽셀(810)이 현재 픽셀이 되며, 텍스트 정보 영역에 해당하는지 여부를 판단하는 기준이 되고, 원본 영상에서 마스크에 포함되는 픽셀 값들을 참조하여 복원된 결과의 값이 저장되는 위치가 된다.

도 8b는 텍스트 정보 복원 과정의 시간 축에 따른 적용 예시도이다.

도 8b에 도시된 바와 같이, 상기 텍스트 정보 영역의 복원 과정은 시간 축에서도 적용될 수 있다. 일 실시예로, 다음 그림과 같이 정사각형 마스크(3x3)를 이용하여 범위 내에서 텍스트 영역이라 인지된 중앙의 픽셀(820)의 픽셀 값과 복원에 이용된 주변 픽셀 값들이 근사하는 경우, 이전 프레임에서 복원된 픽셀 값으로 현재 프레임에서의 픽셀 값을 대체 가능하도록 할 수도 있다. 또한, 움직임 보상 및 복원 과정에서의 조건 다양화를 통해 정확한 픽셀 값 예측 및 대체가 가능하며, 필요에 따라 마스크가 2차원 및 3차원등의 다양한 형태로 변환되어 사용될 수 있다.

도 10은 본 발명의 일 실시예에 따른 텍스트 정보 영역 복원 단계의 상세 흐름도이고, 도 11은 텍스트 정보 영역 영상과 원 영상의 데이터 값의 예시도이며, 도 12는 현재 픽셀이 텍스트 정보 영역이 아닌 경우, 도 13은 현재 픽셀이 텍스트 정보 영역인 경우, 도 14는 현재 픽셀이 텍스트 정보 영역이고, 마스크 내에 텍스트 정보 영역이 더 포함된 경우의 예시도이다.

도 10 내지 도 14를 참조하여 상기 텍스트 정보 영역 복원 단계(S140)를 보다 구체적으로 설명한다. 도 10에 도시된 바와 같이, 먼저 상기 제거된 텍스트 정보 영역에 관련된 정보를 이용하여, 복원의 대상이 되는 현재 픽셀이 텍스트 정보 영역에 포함되는지 여부를 판단한다(S1010). 도 11과 같은 텍스트 정보 영역 영상과 원 영상의 데이터 값을 가지는 원본 영상을 고려할 때, 도 12에 도시된 바와 같이 현재 픽셀은 텍스트 정보 영역에 해당하지 않는 경우에는 상기 텍스트 정보 영역에 포함되는지 여부를 판단하는 단계(S1010)에서 텍스트 정보 영역이 아님을 인식할 수 있다. 따라서, 원본 영상을 참조하여 현재 픽셀에 대해 현재 픽셀과 상응하는 원본 영상의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 출력할 수 있다(S1030). 도 12에 도시된 예에 따르면, 현재 픽셀과 상응하는 복원 영상의 픽셀 값은 원본 영상의 값이 33이 출력된다.

도 13에 도시된 바와 같이, 현재 픽셀이 텍스트 정보 영역에 해당하는 경우에는 상기 텍스트 정보 영역에 포함되는지 여부를 판단하는 단계(S1010)에서 텍스트 정보 영역에 해당함을 인식할 수 있다. 이후, 상기 현재 픽셀에 대한 마스크 내에 상기 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있는지 여부를 판단한다(S1020). 도 13에 도시된 바와 같이, 현재 픽셀 이외에는 텍스트 정보 영역이 포함되어 있지 않는 경우에는, 마스크 내의 주변 픽셀 값을 통한 블러링(S1040)을 수행한다. 즉, 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정한다. 도 13에 도시된 예에 따르면, 현재 픽셀과 상응하는 복원 영상의 픽셀 값은 원본 영상 내에서 현재 픽셀과 상응하는 픽셀 값을 제외한 마스크 내의 모든 값들의 평균값인 34가 출력된다.

도 14에 도시된 바와 같이, 현재 픽셀이 텍스트 정보 영역에 포함되고(S1010), 현재 픽셀 주변의 픽셀로서 마스크 내의 픽셀 중 텍스트 정보 영역에 포함되는 픽셀이 존재하는 경우(S1020), 텍스트 정보 영역을 제외한 주변 픽셀 값을 통한 블러링(S1050)을 수행한다. 즉, 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정한다. 도 14에 도시된 예에 따르면, 현재 픽셀과 상응하는 복원 영상의 픽셀 값은 현재 픽셀 및 텍스트 정보 영역 픽셀을 제외한 마스크 내의 모든 값들의 평균값인 34가 출력된다.

각각의 픽셀들에 대해서 상기 복원 절차를 완료하면, 모든 픽셀들을 다중화(S1060)하여, 하나의 복원 영상이 생성된다.

상기 텍스트 정보 영역의 영상을 복원하는 과정은, 사용된 복원 함수를 소정의 횟수만큼 적용하여 복원 작업을 수행하는 것이 바람직하다. 복원 과정의 마지막에는 사용한 중간 단계의 영상 메모리 공간을 CPU로 되돌려주기 위한 작업과 출력을 위한 메모리 지정 작업이 추가로 포함될 수 있다.

복원 영상이 생성되면, 상기 복원 영상을 출력하는 단계(S150)를 더 포함할 수 있다. 여기서, 리모컨(Remote controller) 등으로부터 지시되는 제어(control) 신호의 디지털 입력 값을 텍스트 정보 제거기의 프로그램 소스 코드에 대응(match)시키는 단계가 포함될 수 있으며, 이에 따라 텍스트 정보의 제거 및 복원의 처리 기능이 on/off될 수 있고, 복원된 영상의 크기 조절 및 영상 종료 등의 기능이 추가될 수 있다.

즉, 영상 입력인 각 프레임과 텍스트 정보 검출 및 복원을 걸친 복원 영상의 각 프레임을 화면에 출력하기 전, 제어 신호 유/무를 확인할 수 있다. 예를 들면, 리모컨의 특정 신호에 따라 복원 영상이 출력되고 있을 경우에는 텍스트 정보가 포함되어 있는 원본 영상을, 원본 영상이 출력되고 있을 경우에는 복원된 영상을 출력하도록 설정할 수 있다. 리모컨 신호 활용 방법은 동종의 유사한 다른 방법으로도 대체될 수 있고, 일반적으로 디지털 기기의 제어에 사용되는 IR 리모콘을 사용할 수도 있다.

영상 내 텍스트 정보의 제거 장치

도 4는 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 장치의 구성을 나타내는 블록도이고, 도 5는 도 4의 복원부의 구성을 나타내는 상세 블록도이다.

도 4에 도시된 바와 같이 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 장치는 셋탑 박스(Set-Top Box), TV, PC, 스마트폰 등의 다양한 기기로부터 텍스트 정보가 포함된 영상을 획득하는 영상 획득부(410), 침식 연산 및 팽창 연산을 기반으로 원본 영상 내 텍스트 정보 영역을 검출하는 검출부(420), 상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거하는 제거부(430), 상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성하는 복원부(440), 상기 복원 영상을 조합하는 MUX(450), 복원 영상의 출력을 제어하는 사용자 선택(470) 및 상기 복원 영상을 출력하는 영상 출력부(460)를 포함할 수 있다.

여기서, 상기 검출부(420)는 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체하여 침식 영상을 생성하는 침식 연산부(421), 원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 작은 픽셀의 픽셀 값을 명도가 큰 픽셀의 픽셀 값으로 대체하여 팽창 영상을 생성하는 팽창 연산부(423), 상기 팽창 영상 및 상기 침식 영상의 차 영상을 생성하여 텍스트 정보 영역을 검출하는 차 연산부(425) 및 상기 차 영상 내에서 미리 설정한 임계값을 초과하는 픽셀 값을 가지는 픽셀은 제 1 픽셀 값으로 대체하고, 상기 임계값 이하의 픽셀 값을 가지는 픽셀은 제 2 픽셀 값으로 대체하여 상기 차 영상을 이진화하고 상기 제 1 픽셀 값을 가지는 픽셀을 상기 텍스트 정보 영역으로 검출하는 이진화부(427)를 포함할 수 있다. 여기서, 상기 제거부(430)는 상기 검출된 텍스트 정보 영역을 기반으로 텍스트 정보 영역을 확장하여 텍스트 정보 영역을 확정하고, 저장할 수 있다. 또한, 상기 복원부(440)는 상기 제거된 텍스트 정보 영역 및 원본 영상을 기반으로 상기 텍스트 정보 영역을 복원할 수 있다.

도 5에 도시된 바와 같이, 상기 복원부(440)는 상기 제거된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 텍스트 정보 영역 인식부(441) 및 상기 현재 픽셀이 텍스트 정보 영역이 아닌 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하고, 상기 현재 픽셀이 텍스트 정보 영역인 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 중심으로 하는 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀에 상응하는 복원 영상 픽셀 값으로 지정하는 복원 영상 생성부(443)를 포함할 수 있다.

여기서, 상기 복원 영상 생성부(443)는 상기 마스크 내에 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있을 경우, 상기 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정할 수 있다.

여기서, 상기 마스크는 마름모꼴의 마스크일 수 있고, 상기 텍스트 정보는 서브타이틀, 자막 및 캡션과 유사한 정보 중 적어도 하나를 포함하는 것을 특징으로 할 수 있다.

본 발명의 일 실시예에 따른 영상 내 텍스트 정보 제거 장치의 구체적인 작동은 전술한 영상 내 텍스트 정보 제거 방법에 따른다.

실시예

도 15는 본 발명의 일 실시예에 따른 영상 내 텍스트 정보의 선택적 제거 장치의 구체적인 적용을 도시한 도면이다.

도 4 및 도 15를 참조하면, 구체적인 적용의 일례로서, 도 4의 영상 획득부(410)는 도 15의 입력 장치(1520)에, 도 4의 검출부(420), 제거부(430) 및 복원부(440)는 도 15의 처리 장치(1530)에, 도 4의 영상 출력부(460)는 도 15의 출력 장치(1540)에 각각 대응될 수 있다.

또한, 도 15를 참조하면 영상 소스(1510)는 Set-Top Box, TV, PC, 스마트폰 등의 다양한 기기 또는 파일 형태와 같은 다양한 소스에서 제공받은 텍스트 정보가 포함된 영상 신호 등이 될 수 있다. 적용 일례로서, 영상 소스(1510)로부터 입력 장치(1520)가 영상을 입력받고, 상기 영상에 대해 처리 장치(1530)가 복원 작업을 수행하며, 출력 장치(1540)가 상기 복원된 영상을 출력할 수 있다. 상기 출력된 영상은 디스플레이 장치 등에 의해 영상 출력(1550)이 이루어진다. 또한, 제어 신호(1560)에 대한 신호 송수신(1570)을 통해 텍스트 정보의 제거 여부를 선택하여 출력하는 기능이 포함될 수 있다.

도 16은 PC 내장형 텍스트 정보의 선택적 제거 장치의 예시도이다.

도 16에 도시된 바와 같이, 영상 소스(1610)는 Set-Top Box, TV, PC, 스마트폰 등의 다양한 기기 또는 파일 형태와 같은 다양한 소스에서 제공받은 텍스트 정보가 포함된 영상 신호 등이 될 수 있다. 또한, PC 내장형 텍스트 정보의 선택적 제거 장치는 소스로부터 영상을 입력받는 장치인 Capture Card(1620), 복원 작업을 수행하는 부분인 CPU(1630), 복원된 영상을 출력하는 장치인 Graphic Card(1640)와 디스플레이(1650)를 포함할 수 있다. 디스플레이 장치는 모니터, TV, 스마트폰, 스마트 기기 등 다양한 멀티미디어 기기를 포함한다. 또한 리모컨(1660) 및 다양한 컨트롤 신호를 통해 원격으로 텍스트 정보의 유/무를 선택하여 영상을 출력할 수 있는 기능이 추가적으로 적용될 수 있다. 도 15에서 영상 소스로부터 영상을 입력받는 장치인 Capture Card(1620)가 입력받는 영상소스(1610)는 Component, HDMI 형식을 예시하였으나, NTSC, Composite Video 등 다양한 영상신호를 모두 포함하는 것으로 이해되어야 한다.

도 17은 스마트폰 내장형 텍스트 정보의 선택적 제거 장치의 예시도이다.

스마트폰 내장형 텍스트 정보 선택적 제거 장치에서, 영상 소스(1710)는 3G 및 4G 를 포함하는 이동 통신망으로부터 수신될 수 있으며, Wi-Fi와 같은 근거리 통신망을 통해 수신될 수도 있다. 또한, DLNA(Digital Living Network Alliance)와 같은 홈 네트워크를 통해 상기 영상 소스(1710)를 수신할 수도 있다.

스마트폰 내장형 텍스트 정보의 선택적 제거 장치는 소스로부터 영상을 입력받는 장치인 수신부(1720), 복원 작업을 수행하는 부분인 처리부(1730), 복원된 영상을 출력하는 출력부(1740)와 표시부(1750)를 포함할 수 있다. 표시부(1750)는 스마트폰에 포함된 디스플레이 패널이 될 수 있으며, DLNA와 같은 홈 네트워크를 통해 상기 네트워크 내의 TV, 모니터 등을 통해 표시될 수도 있다. 또한 입력부(1760)를 통해 텍스트 정보의 유/무를 선택하여 영상을 출력할 수 있는 기능이 추가적으로 적용될 수 있다. 상기 입력부(1760)는 스마트폰에 내장된 터치 스크린의 센서가 될 수 있다.

도 18은 TV 내장형 텍스트 정보의 선택적 제거 장치의 예시도이다.

TV 내장형 텍스트 정보 선택적 제거 장치에서, 영상 소스(1710)는 기존의 실시간 방송망을 통해 수신될 수 있으며, 또는 광대역망을 통한 IPTV 서비스를 통해 수신될 수 있다. 또한, DLNA(Digital Living Network Alliance)와 같은 홈 네트워크를 통해 상기 영상 소스(1510)를 수신할 수도 있다.

TV 내장형 텍스트 정보의 선택적 제거 장치는 소스로부터 영상을 입력받는 장치인 입력부(1820), 복원 작업을 수행하는 부분인 처리부(1830), 복원된 영상을 출력하는 출력부(1840)와 표시부(1850)를 포함할 수 있다. 표시부(1850)는 TV에 포함된 디스플레이 패널이 될 수 있으며, DLNA와 같은 홈 네트워크를 통해 상기 네트워크 내의 다른 TV나 모니터, 스마트폰 등을 통해 표시될 수도 있다. 또한 리모컨(1860) 및 리모컨 리시버(1870)와 같은 다양한 입력 장치를 통해 텍스트 정보의 유/무를 선택하여 영상을 출력할 수 있는 기능이 추가적으로 적용될 수 있다.

상기에서 본 발명에 따른 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명하였다. 상기 설명에서는 구체적인 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.

410 : 영상 획득부
420 : 검출부
421 : 침식 연산부
423 : 팽창 연산부
425 : 차 연산부
427 : 이진화부
430 : 제거부
440 : 복원부
460 : 영상출력부

Claims

원본 영상 내 텍스트 정보 영역을 검출하는 단계;
상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거하는 단계; 및
상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성하는 단계를 포함하는 영상 내 텍스트 정보의 제거 방법.
제 1항에 있어서, 상기 텍스트 정보 영역을 검출하는 단계는
침식 연산 및 팽창 연산을 기반으로 상기 텍스트 정보 영역을 검출하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 2항에 있어서, 상기 텍스트 정보 영역을 검출하는 단계는
원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체하여 침식 영상을 생성하는 침식 연산 단계;
원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 작은 픽셀의 픽셀 값을 명도가 큰 픽셀의 픽셀 값으로 대체하여 팽창 영상을 생성하는 팽창 연산 단계; 및
상기 팽창 영상 및 상기 침식 영상의 차 영상을 생성하여 텍스트 정보 영역을 검출하는 차 연산 단계를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 3항에 있어서, 상기 텍스트 정보 영역을 검출하는 단계는
상기 차 영상 내에서 미리 설정한 임계값을 초과하는 픽셀 값을 가지는 픽셀은 제 1 픽셀 값으로 대체하고, 상기 임계값 이하의 픽셀 값을 가지는 픽셀은 제 2 픽셀 값으로 대체하여 상기 차 영상을 이진화하고 상기 제 1 픽셀 값을 가지는 픽셀을 상기 텍스트 정보 영역으로 검출하는 이진화 단계를 더 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 1항에 있어서, 상기 텍스트 정보 영역을 복원하는 단계는
상기 검출된 텍스트 정보 영역 및 원본 영상을 기반으로 상기 텍스트 정보 영역을 복원하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 1항에 있어서, 상기 텍스트 정보 영역을 복원하는 단계는
상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 단계; 및
상기 현재 픽셀이 텍스트 정보 영역이 아닌 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 단계를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 1항에 있어서, 상기 텍스트 정보 영역을 복원하는 단계는
상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 단계; 및
상기 현재 픽셀이 텍스트 정보 영역인 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 중심으로 하는 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 단계를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 7항에 있어서, 상기 복원 영상 픽셀 값으로 지정하는 단계는
상기 마스크 내에 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있을 경우, 상기 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 7항에 있어서,
상기 마스크는 마름모꼴의 마스크인 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 1항에 있어서, 상기 텍스트 정보는
서브타이틀, 자막 및 캡션 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
제 1항에 있어서, 상기 텍스트 정보 영역을 검출하는 단계, 상기 텍스트 정보를 제거하는 단계 및 상기 텍스트 정보 영역을 복원하는 단계 중 적어도 하나는 사용자의 설정에 따라 선택적으로 수행되는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 방법.
원본 영상 내 텍스트 정보 영역을 검출하는 검출부;
상기 검출한 텍스트 정보 영역의 텍스트 정보를 제거하는 제거부; 및
상기 텍스트 정보가 제거된 텍스트 정보 영역을 복원하여 복원 영상을 생성하는 복원부를 포함하는 영상 내 텍스트 정보의 제거 장치.
제 12항에 있어서, 상기 검출부는
침식 연산 및 팽창 연산을 기반으로 상기 원본 영상 내 텍스트 정보 영역을 검출하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 13항에 있어서, 상기 검출부는
원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 큰 픽셀의 픽셀 값을 명도가 작은 픽셀의 픽셀 값으로 대체하여 침식 영상을 생성하는 침식 연산부;
원본 영상 내에서 명도 차이가 미리 설정한 임계값을 초과하는 픽셀 간의 경계에서 명도가 작은 픽셀의 픽셀 값을 명도가 큰 픽셀의 픽셀 값으로 대체하여 팽창 영상을 생성하는 팽창 연산부; 및
상기 팽창 영상 및 상기 침식 영상의 차 영상을 생성하여 텍스트 정보 영역을 검출하는 차 연산부를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 14항에 있어서, 상기 검출부는
상기 차 영상 내에서 미리 설정한 임계값을 초과하는 픽셀 값을 가지는 픽셀은 제 1 픽셀 값으로 대체하고, 상기 임계값 이하의 픽셀 값을 가지는 픽셀은 제 2 픽셀 값으로 대체하여 상기 차 영상을 이진화하고 상기 제 1 픽셀 값을 가지는 픽셀을 상기 텍스트 정보 영역으로 검출하는 이진화부를 더 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 12항에 있어서, 상기 복원부는
상기 검출된 텍스트 정보 영역 및 원본 영상을 기반으로 상기 텍스트 정보 영역을 복원하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 12항에 있어서, 상기 복원부는
상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 텍스트 정보 영역 인식부; 및
상기 현재 픽셀이 텍스트 정보 영역이 아닌 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀의 픽셀 값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 복원 영상 생성부를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 12항에 있어서, 상기 복원부는
상기 검출된 텍스트 정보 영역을 기반으로 현재 픽셀이 텍스트 정보 영역인지 인식하는 텍스트 정보 영역 인식부; 및
상기 현재 픽셀이 텍스트 정보 영역인 경우 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 중심으로 하는 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상 픽셀 값으로 지정하는 복원 영상 생성부를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 18항에 있어서, 상기 복원 영상 생성부는
상기 마스크 내에 현재 픽셀 이외에 텍스트 정보 영역이 더 포함되어 있을 경우, 상기 마스크 내의 픽셀들 중 상기 현재 픽셀과 상응하는 원본 영상 픽셀 및 텍스트 정보 영역에 해당하는 픽셀을 제외한 픽셀들의 픽셀 값의 평균값을 상기 현재 픽셀과 상응하는 복원 영상의 픽셀 값으로 지정하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 18항에 있어서,
상기 마스크는 마름모꼴의 마스크인 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 12항에 있어서, 상기 텍스트 정보는
서브타이틀, 자막 및 캡션 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.
제 12항에 있어서, 상기 검출부, 제거부 및 복원부는 사용자의 설정에 의해 선택적으로 작동하는 것을 특징으로 하는 영상 내 텍스트 정보의 제거 장치.