KR101527672B1

KR101527672B1 - 비디오 적응 및 재타겟팅을 위한 비디오 캡션 재-오버레이 시스템 및 방법

Info

Publication number: KR101527672B1
Application number: KR1020137031056A
Authority: KR
Inventors: 동칭 장; 홍 히더 유
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2011-05-02
Filing date: 2011-11-21
Publication date: 2015-06-09
Also published as: CN103503455B; EP2695381A4; US8754984B2; CN103503455A; US20120281139A1; KR20130140904A; EP2695381A1; WO2012149822A1

Abstract

일 실시예에 따르면, 캡션 텍스트를 갖는 전자 이미지를 처리하는 방법은, 전자 소스 이미지를 수신하는 단계, 상기 전자 소스 이미지 내의 캡션 텍스트를 검출하는 단계, 상기 전자 소스 이미지를 재포맷하는 단계, 상기 캡션 텍스트를 재포맷하는 단계, 및 상기 재포맷된 전자 이미지 위에 상기 재포맷된 캡션 텍스트를 오버레이하여 결과적인 이미지를 형성하는 단계를 포함한다.

Description

비디오 적응 및 재타겟팅을 위한 비디오 캡션 재-오버레이 시스템 및 방법{SYSTEM AND METHOD FOR VIDEO CAPTION RE-OVERLAYING FOR VIDEO ADAPTATION AND RETARGETING}

본 출원은, 명칭 "System and Method for Video Caption Re-Overlaying for Video Adaptation and Retargeting"인 2011년 5월 2일자로 출원된 미국 임시 출원 번호 61/481,421호를 주장하는, 명칭 "System and Method for Video Caption Re-Overlaying for Video Adaptation and Retargeting"인 2011년 8월 4일자로 출원된 미국 임시 출원 번호 13/198024호의 이득을 주장하고, 이 출원은 본원에서 참고로 포함된다.

본 발명은 이미지 처리에 관한 것이고, 특정 실시예들에서, 비디오 적응 및 재타겟팅(retargeting)을 위한 비디오 캡션 재-오버레이 시스템 및 방법에 관한 것이다.

모바일 콘텐츠는 벨소리, 그래픽, 할인 제공, 게임, 영화, 및 GPS 내비게이션과 같은 모바일 장치들에서 이용 또는 시청되는 임의의 타입의 미디어이다. 모바일 전화 사용이 1990년대 중반 이후에 성장함에 따라, 일상 생활에서의 장치들의 중요도(significance)가 그에 따라 성장하였다. 모바일 전화들의 소유자들은 이제 그들의 장치들을 이용하여 달력에 일정을 기록하고, 텍스트 메시지(SMS)를 주고 받으며, 음악을 듣고, 비디오를 보고, 비디오를 찍고, 구매를 위해 쿠폰을 교환하고, 오피스 문서를 보고, 지도에서 운전 지시를 얻는 것 등을 할 수 있다. 모바일 콘텐츠의 이용은 이에 따라 성장하였다.

더 빠른 모바일 네트워크들의 등장으로, 소형 스크린 장치에 비디오 디스플레이를 갖는 것은 더욱더 실제적이 되었다. 모바일 비디오는 3GPP, MPEG-4, RTSP(Real Time Streaming Protocol) 및 플래시 라이트(Flash Lite)를 포함한 몇몇 형태로 된다. 모바일 비디오는 또한 모바일 네트워크를 통해 스트리밍 비디오 프로그래밍의 형태로 송수신될 수 있다. 라이브 비디오는 또한 휴대 전화를 통해 스트리밍 및 공유될 수 있다.

자막(subtitle)은 스크린의 하부에 보통 디스플레이되는 영화 및 텔레비전 프로그램에서의 대화의 텍스트 버전이다. 자막은 청각 장애가 있거나 난청이 있는 시청자들이 대화를 따르도록(follow) 돕기 위해, 또는 음성 대화를 이해할 수 없거나 악센트 인식 문제가 있는 사람들에게 프로그램을 이해하는 데 도움을 주기 위해 정보를 부가하거나 부가하지 않고, 외국어 대화의 서면 번역(written translation) 또는 동일 언어 대화의 서면 렌더링(written rendering)의 형태로 될 수 있다. 자막 방송(closed captioning)은 거기에 액세스하기를 희망하는 개인들에게 부가 또는 해석 정보를 제공하기 위해 텔레비전, 비디오 스크린 또는 다른 시각 디스플레이에 텍스트를 디스플레이하는 프로세스이다. 자막 방송은 통상적으로, 때때로 비-음성(non-speech) 요소들을 포함하여, (말한 그대로 또는 편집 형태로) 그것이 발생할 때 프로그램의 오디오 부분의 트랜스크립션(transcription)을 나타낸다. 일반적으로, 자막은 비디오 픽처 자체에 어필하는(appeal) 그래픽이고, 자막 방송은 비디오 신호와 함께 데이터로서 송신되어 수신 장치에 의해 비디오 이미지 내에 삽입된다.

실시예에 따르면, 캡션 텍스트(caption text)를 갖는 전자 이미지를 처리하는 방법은, 전자 소스 이미지를 수신하는 단계, 상기 전자 소스 이미지 내의 캡션 텍스트를 검출하는 단계, 상기 전자 소스 이미지를 재포맷하는(reformatting) 단계, 상기 캡션 텍스트를 재포맷하는 단계, 및 상기 재포맷된 전자 이미지 위에 상기 재포맷된 캡션 텍스트를 오버레이(overlay)하여 결과적인 이미지를 형성하는 단계를 포함한다.

다른 실시예에 따르면, 비디오 캡션 텍스트를 재포맷하는 시스템은, 입력 비디오 소스에 결합된 입력 및 재포맷된 비디오 소스를 생성하도록 구성된 출력을 갖는 비디오 재포맷 블록을 포함한다. 시스템은 또한 상기 비디오 소스 내의 캡션 텍스트를 추출하도록 구성된 캡션 검출 블록, 및 상기 비디오 재포맷 블록의 상기 출력 및 상기 캡션 검출 블록의 출력에 결합된 캡션 재-레이아웃 및 재-오버레이 블록(caption re-layout and re-overlay block)을 포함한다. 상기 캡션 재-레이아웃 및 재-오버레이 블록은 상기 추출된 캡션 텍스트를 재포맷하여 상기 재포맷된 비디오 소스 내에 상기 재포맷된 캡션 텍스트를 오버레이하도록 구성된다.

추가 실시예에 따르면, 실행 가능한 프로그램을 저장한 비-일시적 컴퓨터 판독 가능한 매체가 제공되며, 상기 프로그램은, 비디오 소스 이미지를 수신하는 단계, 상기 비디오 소스 이미지 내의 캡션 텍스트를 검출하는 단계, 상기 비디오 소스 이미지를 재포맷하는 단계, 상기 캡션 텍스트를 재포맷하는 단계, 및 상기 재포맷된 비디오 소스 이미지 위에 상기 재포맷된 캡션 텍스트를 오버레이하여 결과적인 이미지를 형성하는 단계를 수행하도록 마이크로프로세서에 지시한다.

전술한 것은 뒤따르는 본 발명의 상세한 설명이 더 잘 이해될 수 있도록 하기 위해 본 발명의 실시예의 특징들의 개요를 다소 폭넓게 서술하였다. 본 발명의 실시예들에 대한 부가적인 특징들 및 이점들은 이하 설명될 것이고, 이것은 본 발명의 청구항들의 요지를 형성한다. 이 기술분야의 통상의 기술자는, 개시된 개념 및 특정 실시예들은 본 발명의 동일한 목적들을 수행하기 위해 다른 구조들 또는 프로세스들을 수정 또는 설계하기 위한 기초로서 쉽게 활용될 수 있다는 것을 인식해야 한다. 이 기술분야의 통상의 기술자는, 그러한 등가 구성들은 첨부된 청구항들에 기술된 바와 같은 본 발명의 사상 및 범위에서 벗어나지 않는다는 것도 인식해야 한다.

본 발명 및 그의 이점들에 대한 더욱 완전한 이해를 위해, 이제 첨부 도면과 함께 이루어진 다음의 설명을 참조한다.
도 1은 비디오 캡션 재-오버레이 시스템(video caption re-overlaying system)의 블록도를 제공한다.
도 2a-b는 캡션 재-레이아웃 및 오버레이의 실시예를 도시한다.
도 3은 본 발명의 실시예의 응용 시나리오를 도시한다.
도 4는 방법 실시예의 흐름도를 도시한다.
도 5는 본 발명의 방법들을 구현하는 데 활용될 수 있는 처리 시스템을 도시한다.
도 6은 캡션 크기가 조정된(re-sized) 비디오 프레임과 캡션 크기가 조정되지 않은 비디오 프레임 사이의 비교를 나타낸다.

본 바람직한 실시예들의 실시 및 이용이 아래에서 상세히 논의된다. 그러나, 본 발명은 다양한 특정 문맥에서 구체화될 수 있는 많은 적용가능한 발명 개념들을 제공한다는 것을 인식해야 한다. 논의된 특정 실시예들은 본 발명을 실시 및 이용하는 특정 방식의 예시일 뿐이고, 본 발명의 범위를 제한하지 않는다.

본 발명의 실시예들은 비디오 이미지를 처리하기 위한 시스템 및 방법을 개시한다. 예시적인 방법은, 예를 들어, 컴퓨터 비전 기반의 검출 알고리즘(computer vision based detection algorithm)을 이용하여 캡션 텍스트를 검출하는 단계, 비디오 프레임들로부터 검출된 캡션 텍스트를 크롭핑하는 단계, 크롭핑된 캡션 텍스트 및 비디오 프레임들의 나머지 부분들의 크기를 개별적으로 조정하는 단계, 및 크기 조정된 비디오 프레임들 위에 크기 조정된 캡션 텍스트를 오버레이하는 단계를 포함한다. 방법은 또한 재-오버레이된(re-overlaid) 캡션 텍스트를 배경과 더욱 심리스하게(seamlessly) 병합하는 후처리 절차를 포함할 수 있다.

본 발명의 실시예들에서, 오버레이 캡션 텍스트는 (예를 들어, 외국 영화들 또는 자막 방송을 위한) 음성 트랜스크립트(voice transcript)를 디스플레이하기 위해 또는 다른 정보를 전달하기 위해 비디오 후처리 파이프라인들 동안 비디오들에 부가되는 텍스트이다. 모바일 전화와 같은 소형 스크린 장치들에 대한 비디오 적응 및 재타겟팅의 프로세스에서, 고해상도(high-res) 비디오들(예를 들어, HD 해상도)은 소형 디스플레이들에 적합한 더 낮은 해상도의 비디오들로 다운스케일링된다(downscaled). 오버레이 캡션들은 또한 비디오 콘텐츠의 나머지와 함께 다운스케일링된다. 결과로서, 오버레이 캡션 텍스트는 너무 작아서 판독할 수 없게 될 수 있다.

이러한 과제를 해결하기 위한 하나의 해결책이 이미지 개선(image enhancement)을 통해 또는 코딩 파라미터들을 변경하여 더 많은 비트들이 인코딩 중에 오버레이 텍스트에 할당되게 함으로써 캡션 텍스트를 시각적으로 개선하는 것이다. 그러나, 소형 스크린 장치들에서는, 주요 문제가 다른 시각적 특성들 이외에 텍스트의 작은 크기일 수 있다. 따라서, 본 발명의 일부 실시예들은 더 작은 스크린 크기에 디스플레이되는 비디오(예를 들어, 모바일 비디오)에 캡션들(또는 다른 정보)을 디스플레이하는 기술을 제공한다. 본 발명의 실시예들에서, 오버레이 캡션 텍스트는 음성 트랜스크립트를 디스플레이하기 위해 또는 다른 정보를 전달하기 위해 비디오 후처리 파이프라인들 동안 비디오들에 부가되는 텍스트이다. 이러한 처리는 소형 스크린 장치들에 대한 비디오 적응 및 재타겟팅에 유리하게 이용될 수 있다.

본 발명의 실시예들은 입력 고해상도 비디오로부터 크롭핑된 고해상도 캡션 텍스트를 다운스케일링된 비디오에 재-오버레이함으로써 오버레이 캡션 텍스트의 시각 품질을 보존하기 위한 시스템 및 방법을 더 포함한다. 먼저, 컴퓨터 비전 기반의 검출 알고리즘을 이용하여 캡션 텍스트를 검출한다. 그 다음, 콘트라스트 조정과 같은 별개의 처리를 위해 비디오 프레임들로부터 검출한 캡션 텍스트를 크롭핑한다. 비디오 프레임들이 소형 크기로 조정된 후에, 캡션 텍스트가 적절한 크기 조정 및 재-레이아웃 후에 리스케일링된(re-scaled) 비디오 프레임들 위에 오버레이된다. 캡션 텍스트의 다운스케일링 비율은 통상적으로 프로세스 중의 비디오 프레임들의 다운스케일링 비율보다 작고, 이에 따라 보통의 균일한 크기 축소(downsizing)에 비해 다운스케일링된 비디오들 상의 비교적 더 크고 더 가시적인 캡션 텍스트가 생기게 한다. 재-오버레이된 캡션 텍스트를 배경과 더욱 심리스하게 병합하기 위해 후처리 절차가 더 수행된다.

본 발명의 제1 실시예가 도 1에 도시되며, 도 1은 비디오 캡션 재-오버레이 시스템(100)의 블록도를 제공한다. 소스 비디오(102)가 비디오 다운스케일링 블록(106) 및 캡션 검출 블록(104)에 입력으로서 제공된다. 캡션 이미지 처리 블록(108)은 검출된 캡션에 대해 이미지 처리를 수행하고, 캡션 재-레이아웃 및 재-오버레이 블록(110)은 다운스케일링된 비디오와 검출된 캡션을 결합한다. 병합 후처리 블록(112)은 결합된 이미지에 대해 추가 처리를 수행하여 결과적인 비디오(114)를 생성한다.

실시예에서, 소스 비디오(102)는 보통의 고화질(HD) 또는 표준 화질(SD) 비디오이지만, DCIF, 16CIF, 4SIF, CIF, 및 SIF(이것으로 한정되지 않음)를 포함하는 다른 이미지 해상도 타입들이 본 명세서에 논의된 기술들로부터 동일하게 이득을 볼 수 있다. 이 예에서, 결과 비디오는 480x320과 같은 해상도를 갖는 모바일 장치를 위한 비디오이다. 모바일 비디오 적응 시나리오에서, 비디오들은 소형 디스플레이들에 잘 들어맞도록 다운스케일링된다. 대안적인 실시예들에서, 소스 비디오를 위해 그리고 결과적인 비디오를 위해 다른 이미지 타입들 및 해상도들이 이용될 수 있다.

도 1에서, 캡션 검출 블록(104)은 자동 캡션 검출 알고리즘을 이용하여 경계 상자들(bounding boxes) 또는 다른 형태들로서 표현된 캡션 영역을 검출한다. 캡션 영역들이 검출된 후에, 그것들은 크롭핑되어 캡션 이미지 처리 블록(108)에 공급된다. 캡션 이미지 처리 블록(108)은 캡션 이미지 개선 처리, 예를 들어, 콘트라스트 조정, 검출된 캡션의 에지 샤프닝(edge sharpening), 또는 잡음 감소(de-noising) 및 히스토그램 균등화(histogram equalization)(이것으로 한정되지 않음)를 포함하는 다른 이미지 처리 동작들을 수행한다.

실시예에서, 캡션 검출 블록(104)은 비디오 프레임 내의 캡션들의 위치를 검출하는 데 이용된다. 일부 실시예들에서, Zhang, et al, Temporally Consistent Caption Detection in Videos Using a Spatiotemporal 3D Method, IEEE International Conference in Image Processing (ICIP) 2009, pp. 1881-4, 및 Zhang, et al, General and Domain-Specific Techniques for Detecting and Recognizing Superimposed Text in Video, IEEE International Conference in Image Processing (ICIP) 2002, pp. I-593-6에 설명된 캡션 검출 기술들이 이용되며, 이 문헌들은 본 명세서에서 그대로 참고로 포함된다.

캡션 검출 작업 흐름의 실시예는 피처 추출, 후보 픽셀 그룹화 및 후-필터링(post-filtering)의 3 단계를 포함한다. 피처 추출 단계에서, 텍스처 및 모션 피처들과 같은 피처들이 비디오 프레임의 각 픽셀 주위에서 추출된다. 픽셀은 피처들에 기초하여 캡션 후보 픽셀이거나 캡션 후보 픽셀이 아닌 것으로 결정된다. 결정 프로세스는 자동 분류에 의해 실현될 수 있다. 후보 픽셀 그룹화 단계는 그 다음에 서로 인근에 있는 후보 픽셀들을 함께 그룹화하여 블로브들(blobs)을 형성한다. 각 블로브는 잠재적인 텍스트 영역일 수 있다. 그 다음에 받아들이기 어려운(implausible) 블로브들을 제거하기 위해 일부 기하학적 규칙들이 실시된다. 그러한 규칙의 일 예는 영역의 애스펙트비가 너무 크지 않게 하는 것이다. 마지막으로, 시간적 필터링에 의해 가능한 위양성(false positive) 영역들을 제거하기 위해 후-필터링 프로세스가 적용된다. 일 실시예에서, 캡션 검출 알고리즘의 출력들은 캡션 텍스트의 경계 상자들이다. 캡션 이미지들은 경계 상자 출력들을 이용하여 비디오 프레임들로부터 크롭핑된다. 대안적인 실시예들에서, 입력 비디오 프레임이 블록들로 분할되고, 분류 알고리즘이 각각의 블록에 대해 직접 수행되어 블록이 캡션 텍스트를 포함하는지의 여부를 결정한다. 그러한 구현에서, 피처 추출 스테이지는 회피될 수 있다.

일부 실시예들에서, 캡션 이미지 처리 블록(108)은 추출된 캡션 이미지들을 전처리한다. 캡션들의 에지 샤프닝 및 콘트라스트 증가(이것으로 한정되지 않음)를 포함하는 다양한 전처리 프로세스들이 적용될 수 있다. 대안적인 실시예들에서, 다른 이미지 처리 동작들이 적용될 수 있다. 추가 실시예들에서, 캡션 이미지 처리 블록(108)은 생략될 수 있다.

비디오 다운스케일링 블록은 이 기술분야에 알려진 기술들을 이용하여 비디오를 작은 크기로 조정하기 위해 비디오 다운스케일링을 수행한다. 일부 실시예들에서, 비디오 다운스케일링 블록은 또한 캡션 이미지들을 더 작은 크기로 조정한다. 비디오를 다운스케일링하는 것에 의해, 스마트폰과 같은 휴대용 전자 장치들에서 이용되는 것들과 같은 소형 스크린에 잘 들어맞도록 크기가 큰 비디오들이 더 작은 비디오로 변환될 수 있다. 실시예에서, 다운스케일링 기능은 표준 다운스케일링 알고리즘들에 의해, 예를 들어, OpenCV 또는 다른 알고리즘들과 같은 특정 오픈 소스 소프트웨어를 이용하여 실현될 수 있다. 실시예들에서, 크기 축소 동작은 또한 비디오 프레임들 및 추출된 캡션들 둘다에 적용된다. 인간의 눈에 보이도록 비교적 더 크고 더 쉽게 캡션을 만들기 위하여, 캡션 이미지들의 크기 축소 비율(downsizing ratio)은 크기 축소 배급(downsizing ration) 및 개개 비디오 포맷들에 따라 비디오 프레임들의 크기 축소 비율보다 더 작게 된다.

실시예들에서, 비디오 다운스케일링 블록(106)은 또한 애스펙트비와 같은 비디오 포맷의 변화에 영향을 미칠 수 있다. 추가 실시예들에서, 비디오의 애스펙트비는 비디오를 다운스케일링하지 않고 조정될 수 있다. 추가 실시예들에서, 시스템(100)은 다운스케일링 블록(106) 대신에 또는 그것에 부가하여 비디오를 업스케일링하는 업스케일링 블록(도시되지 않음)을 가질 수 있다.

캡션 재-레이아웃 및 재-오버레이 블록(110)은 개선된 캡션 이미지들을 획득하고 검출된 캡션들이 일부 실시예들에서 하나보다 많은 이미지 조각(image piece)을 포함하는 경우에 캡션 이미지들을 재-레이아웃한다. 재-레이아웃 후에, 결과 캡션 이미지는 다운스케일링된 비디오 위에 재-오버레이된다. 캡션 재-레이아웃 및 재-오버레이 블록(110)은 크기 축소된 입력 비디오 위에 추출되고 처리되어 별개로 크기 조정된 캡션 상자들을 오버레이한다. 캡션 상자들의 크기 축소 비율이 비디오 프레임의 크기 축소 비율보다 작을 수 있기 때문에, 하나의 잠재적인 과제는 오버레이된 캡션 상자들이 비디오 프레임들의 경계 밖으로 연장할 수 있다는 것이다. 따라서, 일부 실시예들에서, 캡션 상자들은 그것들이 오버레이되기 전에 먼저 재포맷된다.

다수의 방법을 이용하여 캡션 상자들을 재포맷할 수 있다. 예를 들어, 한 방법은 긴 텍스트 라인을 2개 또는 복수개 라인으로 자르는 것이다. 글자들의 분열(fragmentation of characters)을 회피하기 위하여, General and Domain-Specific Techniques for Detecting and Recognizing Superimposed Text in Video에 설명된 캡션 텍스트 이미지들의 투영 프로파일들(projection profiles)을 이용하는 것과 같은 글자 세그먼트화 알고리즘(character segmentation algorithm)을 이용하여 먼저 글자 세그먼트화 포인트를 찾고 오직 세그먼트화 포인트들에서 텍스트 라인들을 자를 수 있다. 그러한 알고리즘의 출력의 예가 도 2a-b에 도시된다. 도 2a는 비디오 프레임(122)보다 긴 텍스트 라인(120)을 도시하고, 도 2b는 라인을 2개로 분할하도록 재포맷된 후에 비디오 프레임(122)의 텍스트 라인(124)을 도시한다. 다른 실시예들에서, 다른 재-레이아웃 동작들이 수행될 수 있다. 재-레이아웃 후에, 예를 들어, 비디오 프레임들 내의 교체 직사각형(replacing rectangle) 내의 이미지 콘텐츠를 별개로 크기 조정된 캡션 이미지 내의 콘텐츠로 교체함으로써, 캡션 상자가 비디오 프레임들 위에 오버레이된다. 실시예에서, 교체 직사각형은 별개로 크기 조정된 캡션 이미지와 동일한 크기를 갖고, 그것의 좌측 상단 코너는 재-레이아웃 프로세스 중에 결정된다.

일부 실시예들에서, 옵션의 병합 후처리 블록(112)이 비디오 프레임들 상의 처리된 캡션 이미지를 심리스 병합 알고리즘(seamless merging algorithm)으로 병합함으로써, 처리된 프레임은 더욱 자연스럽게 보이고 아티팩트들이 없게 보인다. 일 실시예에서, 예를 들어, 본 명세서에 그대로 참고로 포함되는 Perez, et al., Poisson Image Editing, Proceedings of ACM SIGGRAPH 2003, vol. 22, pp. 313-18에 설명된 바와 같이 푸아송 이미지 편집(Poisson Image Editing; PIE)이 이용된다. PIE는 객체들과 하부의 이미지 사이에 순조로운 이행(smooth transition)을 실시하면서 큰 이미지 상의 오버레이된 작은 이미지를 합성하기 위해 편미분 방정식(Partial Differential Equation; PDE) 기반의 방법들을 이용하는 방법이다. 대안적인 실시예들에서, 교체 직사각형 주위에 평활화 필터(smoothing filter)들을 적용하는 것과 같은 다른 기존의 이미지 블렌딩 알고리즘들이 또한 병합 프로세스를 위해 이용될 수 있다. 도 2는 통상적인 CDN(content distribution network) 응용 시나리오에서 본 발명의 방법을 이용하는 통상적인 시스템 아키텍처를 도시한다.

도 3은 소스 비디오(220)를 입력으로서 취하여 모바일 장치(210)에서 시청하기에 적절한 결과 비디오(222)를 전송하는 스트리밍 비디오 시스템(200)의 실시예를 도시한다. 시스템(200)은 CDN(content distribution network) 응용 시나리오에서 시스템 및 방법 실시예를 이용할 수 있다. 일 실시예에서, 근원 또는 소스 서버(202)가 예를 들어 콘텐츠 제공자들에 의해 제공되는 소스 비디오(220)를 입수한다(ingest). 적응 서버(204)가 그 다음에 비디오 개조 또는 적응 작업들, 예를 들어, 비디오 트랜스코딩을 수행한다. 본 발명의 시스템의 실시예들은 트랜스코딩 프로세스와 함께 수행될 수 있다. 그 다음에, 적응된 비디오들은 클라이언트들에 더 가까운 하나 이상의 에지 서버(206)에서 캐시된다(cached). 에지 서버(206)는 인터넷(208) 또는 다른 네트워크를 통해 적응된 비디오들을 시청 장치(210)에 스트리밍한다. 시청 장치(210)는 예를 들어, 모바일 전화, 컴퓨터, 스마트폰, 또는 다른 소비자 또는 비-소비자 장치일 수 있다.

도 4는 방법 실시예의 흐름도(300)를 도시한다. 단계(302)에서는 입력 이미지에서 캡션들이 검출된다. 일 실시예에서, 이미지는 비디오 이미지이지만, 정지 화상과 같은 다른 이미지 타입들이 이용될 수 있다. 그 다음, 단계(304)에서 입력 이미지가 다운스케일링된다. 일부 실시예들에서, 단계들(302 및 304)은 동시에 수행될 수 있다. 단계(306)에서, 캡션들에 대해 이미지 처리가 수행되고, 단계(308)에서, 캡션들은 다운스케일링된 비디오 크기 축소 비율에 따라 재포맷된다. 일부 실시예들에서, 캡션들에 적용되는 크기 축소 비율은 캡션들이 감소된 픽처 크기를 시청하는 사람에게 가시적이고 판독 가능하게 유지되도록 하기 위해 이미지의 나머지에 적용된 크기 축소 비율보다 작다.

단계(310)에서, 캡션들은 다운스케일링된 비디오 프레임 내로 재포맷된 캡션 이미지를 배치함으로써 이미지 위에 재-오버레이된다. 마지막으로, 단계(312)에서, 캡션들과 이미지는 병합되어 병합 이미지를 형성한다. 일부 실시예들에서, 위에서 실시예들에 설명된 바와 같이, 스티칭 경계(stitching boundary)를 평활화함으로써 더욱 자연스럽게 보이게 이미지 위에 캡션들이 오버레이되도록 후처리가 적용된다.

도 5는 본 발명의 방법들을 구현하는 데 활용될 수 있는 처리 시스템(400)을 도시한다. 이 경우, 주요 처리는 마이크로프로세서, 디지털 신호 프로세서 또는 임의의 다른 적절한 처리 장치일 수 있는 프로세서(402)에서 수행된다. 일부 실시예들에서, 프로세서(402)는 복수의 프로세스들을 이용하여 구현될 수 있다. 프로그램 코드(예를 들어, 위에 개시된 알고리즘들을 구현하는 코드) 및 데이터는 메모리(404)에 저장될 수 있다. 메모리(404)는 DRAM과 같은 로컬 메모리 또는 하드 드라이브, 광 드라이브 또는 다른 저장소(로컬 또는 원격일 수 있음)와 같은 대용량 저장소일 수 있다. 메모리는 기능적으로 단일 블록으로 예시되지만, 이 기능을 구현하기 위해 하나 이상의 하드웨어 블록들이 이용될 수 있다는 것을 이해한다.

일 실시예에서, 프로세서(402)는 도 1에 도시된 유닛들 중 다양한 유닛(또는 전부)을 구현하기 위해 이용될 수 있다. 예를 들어, 프로세서는 본 발명의 기술들을 수행함에 있어서 수반되는 서브 태스크들을 구현하기 위해 상이한 시간에 특정 기능 유닛으로서 작용할 수 있다. 대안적으로, 상이한 하드웨어 블록들(예를 들어, 프로세서와 동일하거나 상이함)을 이용하여 상이한 기능들을 수행할 수 있다. 다른 실시예들에서, 일부 서브 태스크들은 프로세서(402)에 의해 수행되고, 다른 서브 태스크들은 별개의 회로를 이용하여 수행된다.

도 5는 또한 프로세서로 및 프로세서로부터 비디오 및/또는 이미지 데이터를 제공하는 데 이용될 수 있는 I/O 포트(406)를 도시한다. 비디오 소스(408)(목적지는 명시적으로 도시되지 않음)는 시스템의 필수 부분이 아님을 나타내기 위해 점선으로 도시된다. 예를 들어, 소스는 인터넷과 같은 네트워크에 의해 또는 로컬 인터페이스들(예를 들어, USB 또는 LAN 인터페이스)에 의해 시스템에 링크될 수 있다.

실시예에서, 캡션 텍스트를 갖는 전자 이미지를 처리하는 방법은, 전자 소스 이미지를 수신하는 단계, 상기 전자 소스 이미지 내의 캡션 텍스트를 검출하는 단계, 상기 전자 소스 이미지를 재포맷하는 단계, 상기 캡션 텍스트를 재포맷하는 단계, 및 상기 재포맷된 전자 이미지 위에 상기 재포맷된 캡션 텍스트를 오버레이하여 결과적인 이미지를 형성하는 단계를 포함한다. 전자 소스 이미지를 재포맷하는 단계는 제1 다운스케일링 비율을 이용하여 전자 소스 이미지를 다운스케일링하는 단계를 포함할 수 있고, 캡션 텍스트를 재포맷하는 단계는 제2 다운스케일링 비율을 이용하여 캡션 텍스트를 다운스케일링하는 단계를 포함할 수 있다. 일 실시예에서, 제1 다운스케일링 비율은 제2 다운스케일링 비율보다 크다. 전자 소스 이미지는 예를 들어, 고화질 비디오 이미지(high-definition video image)인 비디오 이미지를 포함할 수 있고, 결과적인 이미지는 모바일 비디오를 위한 저화질 이미지(low-definition image)를 포함할 수 있다. 대안적으로, 다른 이미지 타입들이 이용될 수 있다.

실시예에서, 방법은 또한 재포맷된 캡션 텍스트 및 재포맷된 전자 이미지를 후처리하는 단계를 포함한다. 후처리는 상기 재포맷된 캡션 텍스트 및 상기 재포맷된 전자 이미지에 이미지 블렌딩 알고리즘을 적용하는 단계를 포함할 수 있다. 일부 실시예들에서, 캡션 텍스트를 검출하는 단계는 캡션 텍스트의 피처들을 추출하는 단계, 및 추출된 피처들에 기초하여 캡션 텍스트의 후보 픽셀들을 그룹화하는 단계를 포함한다.

일부 실시예들에서, 방법은 캡션 텍스트의 검출에 기초하여 전자 소스 이미지로부터 캡션 텍스트를 크롭핑하는 단계를 더 포함하며, 일부 실시예들에서, 캡션 텍스트를 재포맷하는 단계는 캡션 텍스트의 라인을 복수의 라인으로 분할하는 단계를 포함할 수 있다.

실시예에서, 비디오 캡션 텍스트를 재포맷하는 시스템은, 비디오 재포맷 블록, 캡션 검출 블록, 및 캡션 재-레이아웃 및 재-오버레이 블록을 포함한다. 비디오 재포맷 블록은 입력 비디오 소스에 결합된 입력 및 재포맷된 비디오 소스를 생성하도록 구성된 출력을 갖고, 캡션 검출 블록은 비디오 소스 내의 캡션 텍스트를 추출하도록 구성된다. 캡션 재-레이아웃 및 재-오버레이 블록은 비디오 재포맷 블록의 출력 및 캡션 검출 블록의 출력에 결합된다. 실시예에서, 캡션 재-레이아웃 및 재-오버레이 블록은 추출된 캡션 텍스트를 재포맷하여 재포맷된 비디오 소스 내에 재포맷된 캡션 텍스트를 오버레이하도록 구성된다.

실시예에서, 시스템은 캡션 검출 블록과 캡션 재-레이아웃 및 재-오버레이 블록 사이에 결합된 캡션 이미지 처리 블록을 더 포함한다. 캡션 이미지 처리 블록은 추출된 캡션들을 전처리하도록 구성될 수 있다. 일부 실시예들에서, 캡션 이미지 처리 블록은 추출된 캡션들의 콘트라스트를 조정하도록 구성되고, 일부 실시예들에서, 비디오 재포맷 블록은 비디오 소스의 해상도를 감소시키도록 구성된다.

시스템은 또한 캡션 재-레이아웃 및 재-오버레이 블록의 출력에 결합된 병합 후처리 블록을 포함할 수 있고, 병합 후처리 블록은 재포맷된 비디오 소스와 재포맷된 캡션 텍스트를 시각적으로 블렌딩하도록 구성된다. 일부 실시예들에서, 캡션 재-레이아웃 및 재-오버레이 블록은 캡션 텍스트의 라인을 복수의 라인으로 분할하도록 구성된다. 또한, 일부 실시예들에서, 비디오 재포맷 블록과, 캡션 검출 블록과, 캡션 재-레이아웃 및 재-오버레이 블록은 예를 들어, 컴퓨터 서버에서 실행되는 소프트웨어에 의해 구현될 수 있다.

실시예에서, 비-일시적 컴퓨터 판독 가능한 매체는 그 안에 저장된 실행 가능한 프로그램을 갖는다. 프로그램은 비디오 소스 이미지를 수신하는 단계, 비디오 소스 이미지 내의 캡션 텍스트를 검출하는 단계, 비디오 소스 이미지를 재포맷하는 단계, 캡션 텍스트를 재포맷하는 단계, 및 재포맷된 비디오 소스 이미지 위에 재포맷된 캡션 텍스트를 오버레이하여 결과적인 이미지를 형성하는 단계를 수행하도록 마이크로프로세서에 지시한다. 일부 실시예들에서, 비디오 소스 이미지를 재포맷하는 단계는 제1 다운스케일링 비율을 이용하여 전자 소스 이미지를 다운스케일링하는 단계를 포함하고, 캡션 텍스트를 재포맷하는 단계는 제2 다운스케일링 비율을 이용하여 캡션 텍스트를 다운스케일링하는 단계를 포함한다. 제1 다운스케일링 비율은 제2 다운스케일링 비율보다 클 수 있다.

실시예에서, 프로그램은 또한, 재포맷된 캡션 텍스트 및 재포맷된 비디오 소스 이미지에 대해 후처리를 수행하도록 마이크로프로세서에 지시한다. 실시예에서, 캡션 텍스트를 검출하는 단계는, 캡션 텍스트의 피처들을 추출하는 단계 및 추출된 피처들에 기초하여 캡션 텍스트의 후보 픽셀들을 그룹화하는 단계를 포함할 수 있다. 또한, 캡션 텍스트를 재포맷하는 단계는 캡션 텍스트의 라인을 복수의 라인으로 분할하는 단계를 포함할 수 있다.

실시예들의 이점들은 모바일 전화와 같은 소형 스크린 장치들에서 비디오 캡션들을 더욱 판독 가능하게 하는 능력을 포함한다. 예를 들어, 일 실시예에서, 시스템 및 방법은 캡션 가시성을 향상시키기 위한 비디오 적응 및 재타겟팅 프로세스에서 캡션 영역을 검출하고, 검출된 캡션 영역을 처리하고, 캡션 영역을 리스케일링하여(rescale) 재-레이아웃하고, 다운스케일링된 비디오들 위에 처리된 캡션들을 오버레이한다.

검출된 캡션들이 복수의 분열된 조각들(multiple fragmented pieces)을 포함할 수 있을 때 검출된 캡션들의 재-레이아웃을 수행하는 프로세스는 또한 유리한 특징이다. 일부 경우, 이들 검출된 캡션들이 원래의 공간적 배열로 비디오 프레임 위에 오버레이되는 경우, 캡션들은 크기 축소된 비디오 프레임들에 잘 들어맞지 않을 수 있다. 재-레이아웃 프로세스의 실시예는 확실히 캡션이 프레임 경계 내에서 재-오버레이될 수 있도록 하는 데 이용될 수 있다. 일부 실시예들에서, 재-레이아웃 프로세스는 미리 정의된 세트의 레이아웃 규칙들을 이용하여 수행된다.

적절한 위치들에서 크기 축소된 비디오 프레임들 상에 캡션들을 오버레이하는 재-오버레이 및 후처리 프로세스는 다른 유리한 특징이다. 이 실시예 프로세스는 명백한 편집 아티팩트들(apparent editing artifacts) 없이 캡션 이미지들을 하부의 비디오 콘텐츠와 병합할 수 있다. 캡션 병합 프로세스는 푸아송 이미지 편집과 같은 특정 기존의 이미지 처리 알고리즘들에 의해 실현될 수 있다.

또한, 본 발명의 실시예들은 다수의 문맥에서 활용될 수 있다. 예를 들어, 실시예들은 미디어 클라우드 제품(media cloud product) 또는 CDN(content delivery network) 내의 컴포넌트 또는 모듈 내에 포함될 수 있다. 이 컴포넌트는 소형 스크린 장치들에서 플레이되는 비디오들을 위한 캡션 텍스트의 시각 품질을 보존할 수 있다. 오버레이된 텍스트의 품질은 비디오들이 소형 스크린 장치들에 대해 재타겟팅된 후에 보존된다.

하나의 이득으로서, 미디어 사용자들은 모바일 전화와 같은 소형 스크린 장치들에서 플레이되는 비디오 콘텐츠를 시청함에 있어서 더 나은 품질을 경험한다. 비디오들 상의 오버레이 캡션들의 품질은 비디오들이 모바일 전화와 같은 소형 스크린 장치들에, 및/또는 저대역폭 환경에서 전송될 때 보존된다.

도 6은 본 발명의 일부 실시예들의 추가 이점을 도시한다. 비디오 프레임(502)은 입력 이미지를 나타내고, 비디오 프레임(504)은 이미지(502)의 다운스케일링된 버전을 도시한다. 도시한 바와 같이, 다운스케일링된 프레임(504) 내의 텍스트 캡션(510)은 원래 비디오 프레임(502) 내의 텍스트 캡션(508)보다 시각적으로 더 작다. 다른 한편, 프레임(506)은 텍스트 캡션(512)을 갖고, 이는 본 시스템 및 방법 실시예에 따라 개별적으로 크기 조정된다. 이에 따라, 프레임(506) 내의 비디오 캡션의 크기는 다운스케일링된 프레임(504) 내의 캡션(510)보다 가시적으로 더 크다.

본 발명은 예시적인 실시예들을 참조하여 설명하였지만, 이 설명은 제한의 의미로 해석되어서는 안 된다. 예시적인 실시예들뿐만 아니라 본 발명의 다른 실시예들의 다양한 수정 및 결합은 설명을 참조하면 이 기술분야의 통상의 기술자에게 명백할 것이다. 따라서, 첨부된 청구항들은 임의의 그러한 수정들 또는 실시예들을 포함하는 것이 의도된다.

Claims

캡션 텍스트(caption text)를 갖는 전자 이미지를 처리하는 방법으로서,
전자 소스 이미지를 수신하는 단계;
상기 전자 소스 이미지 내의 캡션 텍스트를 검출하는 단계;
상기 전자 소스 이미지를 재포맷하는(reformatting) 단계;
상기 캡션 텍스트를 재포맷하는 단계;
상기 재포맷된 전자 소스 이미지 위에 상기 재포맷된 캡션 텍스트를 오버레이(overlay)하여 결과적인 이미지를 형성하는 단계; 및
상기 재포맷된 캡션 텍스트 및 상기 재포맷된 전자 소스 이미지를 후처리하는 단계를 포함하고,
상기 후처리하는 단계는 상기 재포맷된 캡션 텍스트 및 상기 재포맷된 전자 소스 이미지에 심리스 병합 알고리즘(seamless merging algorithm)을 적용하는 단계를 포함하는 전자 이미지 처리 방법.
제1항에 있어서, 상기 전자 소스 이미지를 재포맷하는 단계는, 제1 다운스케일링 비율(downscaling ratio)을 이용하여 상기 전자 소스 이미지를 다운스케일링하는 단계를 포함하는, 전자 이미지 처리 방법.
제2항에 있어서, 상기 캡션 텍스트를 재포맷하는 단계는, 제2 다운스케일링 비율을 이용하여 상기 캡션 텍스트를 다운스케일링하는 단계를 포함하는, 전자 이미지 처리 방법.
제3항에 있어서, 상기 제1 다운스케일링 비율은 상기 제2 다운스케일링 비율보다 큰, 전자 이미지 처리 방법.
제1항에 있어서, 상기 전자 소스 이미지는 비디오 이미지를 포함하는, 전자 이미지 처리 방법.
제1항에 있어서, 상기 전자 소스 이미지는 고화질 비디오 이미지(high-definition video image)를 포함하고, 상기 결과적인 이미지는 모바일 비디오를 위한 저화질 이미지(low-definition image)를 포함하는, 전자 이미지 처리 방법.
삭제
삭제
제1항에 있어서, 상기 캡션 텍스트를 검출하는 단계는,
상기 캡션 텍스트의 피처들(features)을 추출하는 단계; 및
상기 추출된 피처들에 기초하여 상기 캡션 텍스트의 후보 픽셀들을 그룹화하는 단계
를 포함하는, 전자 이미지 처리 방법.
제1항에 있어서, 상기 캡션 텍스트의 검출에 기초하여 상기 전자 소스 이미지로부터 상기 캡션 텍스트를 크롭핑(cropping)하는 단계를 더 포함하는 전자 이미지 처리 방법.
제1항에 있어서, 상기 캡션 텍스트를 재포맷하는 단계는, 상기 캡션 텍스트의 라인을 복수의 라인으로 분할하는 단계를 포함하는, 전자 이미지 처리 방법.
비디오 캡션 텍스트를 재포맷하는 시스템으로서,
입력 비디오 소스에 결합된 입력 및 재포맷된 비디오 소스를 생성하도록 구성된 출력을 갖는 비디오 재포맷 블록;
상기 비디오 소스 내의 캡션 텍스트를 추출하도록 구성된 캡션 검출 블록;
상기 비디오 재포맷 블록의 상기 출력 및 상기 캡션 검출 블록의 출력에 결합된 캡션 재-레이아웃 및 재-오버레이 블록(caption re-layout and re-overlay block) - 상기 캡션 재-레이아웃 및 재-오버레이 블록은 상기 추출된 캡션 텍스트를 재포맷하고 상기 재포맷된 비디오 소스에 상기 재포맷된 캡션 텍스트를 오버레이하도록 구성됨; 및
상기 캡션 재-레이아웃 및 재-오버레이 블록의 출력에 결합된 병합 후처리 블록(merge post processing block) - 상기 병합 후처리 블록은 상기 재포맷된 비디오 소스와 상기 재포맷된 캡션 텍스트를 후처리하도록 구성됨 -
을 포함하고,
상기 후처리는 상기 재포맷된 캡션 텍스트 및 상기 재포맷된 비디오 소스에 심리스 병합 알고리즘을 적용하는 것을 포함하는, 재포맷 시스템.
제12항에 있어서, 상기 캡션 검출 블록과 상기 캡션 재-레이아웃 및 재-오버레이 블록 사이에 결합된 캡션 이미지 처리 블록을 더 포함하고, 상기 캡션 이미지 처리 블록은 상기 추출된 캡션 텍스트를 전처리하도록 구성되는, 재포맷 시스템.
제13항에 있어서, 상기 캡션 이미지 처리 블록은 상기 추출된 캡션 텍스트의 콘트라스트를 조정하도록 구성되는, 재포맷 시스템.
제12항에 있어서, 상기 비디오 재포맷 블록은 상기 비디오 소스의 해상도를 감소시키도록 구성되는, 재포맷 시스템.
삭제
제12항에 있어서, 상기 캡션 재-레이아웃 및 재-오버레이 블록은 캡션 텍스트의 라인을 복수의 라인으로 분할하도록 구성되는, 재포맷 시스템.
제12항에 있어서, 상기 비디오 재포맷 블록과, 상기 캡션 검출 블록과, 상기 캡션 재-레이아웃 및 재-오버레이 블록은 컴퓨터 서버에서 실행되는 소프트웨어에 의해 구현되는, 재포맷 시스템.
실행 가능한 프로그램을 저장한 비-일시적 컴퓨터 판독 가능한 매체로서,
상기 프로그램은,
비디오 소스 이미지를 수신하는 단계;
상기 비디오 소스 이미지 내의 캡션 텍스트를 검출하는 단계;
상기 비디오 소스 이미지를 재포맷하는 단계;
상기 캡션 텍스트를 재포맷하는 단계;
상기 재포맷된 비디오 소스 이미지 위에 상기 재포맷된 캡션 텍스트를 오버레이하여 결과적인 이미지를 형성하는 단계; 및
상기 재포맷된 캡션 텍스트 및 상기 재포맷된 비디오 소스 이미지를 후처리하는 단계 - 상기 후처리하는 단계는 상기 재포맷된 캡션 텍스트 및 상기 재포맷된 비디오 소스 이미지에 심리스 병합 알고리즘을 적용하는 단계를 포함함 -
를 수행하도록 마이크로프로세서에 지시하는, 비-일시적 컴퓨터 판독 가능한 매체.
제19항에 있어서,
상기 비디오 소스 이미지를 재포맷하는 단계는 제1 다운스케일링 비율을 이용하여 상기 비디오 소스 이미지를 다운스케일링하는 단계를 포함하고,
상기 캡션 텍스트를 재포맷하는 단계는, 제2 다운스케일링 비율을 이용하여 상기 캡션 텍스트를 다운스케일링하는 단계를 포함하는, 비-일시적 컴퓨터 판독 가능한 매체.
제20항에 있어서, 상기 제1 다운스케일링 비율은 상기 제2 다운스케일링 비율보다 큰, 비-일시적 컴퓨터 판독 가능한 매체.
삭제
제19항에 있어서, 상기 캡션 텍스트를 검출하는 단계는,
상기 캡션 텍스트의 피처들을 추출하는 단계; 및
상기 추출된 피처들에 기초하여 상기 캡션 텍스트의 후보 픽셀들을 그룹화하는 단계
를 포함하는, 비-일시적 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 캡션 텍스트를 재포맷하는 단계는, 상기 캡션 텍스트의 라인을 복수의 라인으로 분할하는 단계를 포함하는, 비-일시적 컴퓨터 판독 가능한 매체.