KR102592595B1

KR102592595B1 - 영상 내 문자 자동번역 시스템 및 방법

Info

Publication number: KR102592595B1
Application number: KR1020180157407A
Authority: KR
Inventors: 서영애
Original assignee: 한국전자통신연구원
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2023-10-23
Also published as: US20200184021A1; US11436418B2; KR20200069869A

Abstract

본 발명은 영상 내 문자 번역 기술에 관한 것으로, 본 발명의 실시예에 따른 영상 내 문자 자동번역 시스템의 처리 프로세서는, 번역 실행 요청이 입력된 후, 입출력 인터페이스를 통해 입력되는 신호에 대한 분석을 통해, 입력되는 신호가 문자 영역 선택 신호인지 오토 포커스 요청 신호인지를 판단하고, 판단 결과를 바탕으로 번역 대상 영역을 획득하고, 획득된 번역 대상 영역 내 문자에 대한 인식을 수행 후, 인식된 문자에 대한 번역을 수행한다.

Description

영상 내 문자 자동번역 시스템 및 방법{System and method for automatically translating character in image}

본 발명은 영상 내 문자 번역 기술에 관한 것으로, 상세하게는 영상 내 문자를 번역함에 있어서 사용자의 개입을 줄이면서 번역 서비스 이용을 용이하게 할 수 있는 영상 내 문자 자동번역 시스템 및 방법에 관한 것이다.

자동번역 서비스는 한 나라의 언어로 기술된 텍스트를 다른 나라 언어로 기술된 텍스트로 자동으로 바꾸어 주는 서비스이다.

기존의 자동번역 서비스는 키보드나 마우스, 화면터치 등을 통해 사용자에 의해 직접 입력되는 텍스트를 번역하는 형태로 많이 구현되었다.

텍스트를 직접 입력하여 자동 번역을 수행하는 경우, 번역하고자 하는 텍스트가 전자입력이 가능한 형태의 경우에는 COPY & PASTE 기능 등을 이용하여 비교적 쉽게 입력할 수 있으나, 그렇지 않을 경우에는 텍스트를 사용자가 일일이 손으로 입력하여야 한다는 불편함이 있다. 특히, 사용자가 익숙하지 않은 외국어로 된 텍스트를 입력해야 하는 경우에는 불편함이 더 커질 수 밖에 없다.

최근에는 이러한 문제점을 해결하기 위한 노력의 일환으로, 번역이 필요한 텍스트를 스마트 폰 등에 장착된 카메라 등에 의해 촬영된 영상에 대해서 문자 인식을 수행하고, 문자 인식된 결과의 텍스트를 자동 번역하여 결과를 제공하는 형태의 자동번역 서비스가 제공되고 있다.

이와 같이 촬영을 통해 획득되는 영상 내 텍스트에 대한 문자 인식 결과를 번역하는 제공하는 서비스 방식에서 사용자는 기존의 텍스트 입력과는 다른 형태의 사용자 개입을 필요로 한다.

예를 들어, 사용자는 번역하고자 하는 텍스트를 직접 입력하는 대신에, 번역하고자 하는 텍스트를 포함한 영상을 촬영하여야 하며, 이후 촬영된 영상에서 도 5에 예시된 바와 같이 번역하고자 하는 텍스트를 선택하여야 한다.

촬영된 영상에서 텍스트를 인식하고 번역하여야 하기 때문에, 영상의 선명도가 낮으면 문자 인식이 어려워지고 정확한 번역이 이루어질 수 없기 때문에, 사용자는 선명한 영상을 획득하기 위한 노력을 해야 하며, 두 번의 개입(촬영, 텍스트 선택)이 이루어져야 하는 불편함이 있다. 특히 번역하고자 하는 문자의 수가 많을 경우 사용자가 많은 선긋기 동작(또는 색 입히기 등과 같은 선택 동작)을 하여야 하여 번거롭다.

또한, 종래에 영상에서 번역하고자 하는 영역을 문지르는 방식으로 번역하고자 하는 텍스트의 범위를 결정하였는데, 이러한 방법은 선택하고자 하는 텍스트가 많은 경우 사용자의 선택 과정도 많아진다는 문제점이 있다.

대한민국 공개특허공보 제10-2010-0007722호(2010.01.22) 대한민국 공개특허공보 제10-2009-0132482호(2009.12.30)

따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은, 영상 내 문자를 번역함에 있어서 사용자의 개입을 줄이면서 번역 서비스 이용을 용이하게 할 수 있도록 하기 위하여, 번역 영역을 특정하기 위하여 입력된 닫힌 형태의 도형의 윤곽선을 바탕으로 최종 번역 대상 문자 영역을 결정하여 자동 번역을 수행하는 시스템 및 방법을 제공함에 있다.

즉, 본 발명은 번역 대상문의 글자 하나 하나를 모두 선택해야 하는 종래 기술의 번거로움을 피하기 위하여, 번역 대상문의 외곽을 둘러싸는 닫힌 도형 그리기 방식만으로 번역 대상문을 특정할 수 있는 시스템 및 방법을 제공하려는 것이다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 실시예에 따른 영상 내 문자 자동번역 시스템은, 저장 모듈에 기 저장된 프로그램에 따라 동작하여 영상 내 문자 자동번역 기능을 수행하는 처리 프로세서를 포함한다.

상기 처리 프로세서는, 번역 실행 요청이 입력된 후, 입출력 인터페이스를 통해 입력되는 신호에 대한 분석을 통해, 입력되는 신호가 문자 영역 선택 신호인지 오토 포커스 요청 신호인지를 판단하고, 판단 결과를 바탕으로 번역 대상 영역을 획득하고, 획득된 번역 대상 영역 내 문자에 대한 인식을 수행 후, 인식된 문자에 대한 번역을 수행한다.

상기 처리 프로세서는, 번역 대상 영상이 상기 입출력 인터페이스를 통해 표시된 상태에서 상기 번역 실행 요청이 입력되고, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 입력된 신호에 의해 선택된 문자 영역을 번역 대상 영역으로 획득한다.

상기 처리 프로세서는, 카메라 모듈을 통해 획득되는 영상을 번역 대상으로 하도록 설정된 경우, 상기 번역 실행 요청이 입력되면, 상기 카메라 모듈에 의해 획득되는 영상에 대한 프리뷰 화면을 상기 입출력 인터페이스를 통해 표시하고, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 입력된 신호에 의해 선택된 문자 영역을 상기 프리뷰 화면에 표시하고, 상기 프리뷰 화면에 표시된 문자 영역에 대한 오토 포커싱을 수행한 후, 오토 포커싱된 문자 영역을 번역 대상 영역으로 획득한다.

상기 처리 프로세서는, 입력된 신호가 오토 포커스 요청 신호인 것으로 판단된 경우, 오토 포커싱을 수행하여 촬영한 이후 촬영된 영상 내에서 본 발명에 따른 닫힌 도형 그리기 방식으로 번역 대상을 선택하여 번역을 한다.

다른 실시예로서, 상기 번역 대상 영상에 대해 오토 포커싱을 수행한 후, 오토 포커싱된 번역 대상 영상 전체를 번역 대상 영역으로 획득하는 방식을 취할 수 있다.

상기 처리 프로세서는, 인식된 문자에 대한 번역을 수행함에 있어서, 입력된 신호가 닫힌 형태의 도형 그리기 동작에 따른 신호인 경우에 해당하는지를 판단하고, 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하면, 문자 인식된 결과에서 도형의 윤곽선을 바탕으로 번역 문자 영역을 확정하고, 확정된 번역 문자 영역 내 문자에 대한 번역을 수행한다.

상기 처리 프로세서는, 문자 인식된 결과에서 도형의 윤곽선을 바탕으로 번역 문자 영역을 확정함에 있어서, 인식된 문자와 도형의 윤곽선을 매핑시키고, 윤곽선 내측 및 외측에 위치한 문자열 중 윤곽선에 가장 가까운 문자열의 특성을 파악하고, 파악된 내측 문자열 특성과 외측 문자열 특성을 비교하여 유사도를 판단하고, 판단된 유사도가 기준 유사도 이상이면 윤곽선을 외측 문자열을 포함하도록 확장시키고, 확장된 윤곽선 내 영역을 번역 문자 영역으로 확정한다.

상기 처리 프로세서는, 판단된 유사도가 기준 유사도 미만인 경우, 인식된 문자와 매핑된 윤곽선 내 영역을 번역 문자 영역으로 확정한다.

상기 처리 프로세서는, 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하지 않으면, 문자 인식된 결과에 대한 번역을 수행한다.

사용자가 문자 영역 선택을 위해 닫힌 도형을 그리는 과정에 있어서, 아래 그림 6e와 같이 일부가 그려지지 않은 미완성 닫힌 형태의 도형만을 그리고 문자 영역 선택을 마친 경우, 시스템은 사용자가 그린 도형의 윤곽선을 연장하여 닫힌 형태의 도형의 윤곽선을 자동 완성하여 텍스트의 범위를 선정할 수도 있다. 이 때, 미완성 도형이라 하더라도 사용자가 그린 도형의 경계선과 시스템이 완성해야 할 도형의 경계선의 길이의 비율 등을 계산하여 기준치 이상일 경우만 사용자가 텍스트 범위를 선정한 것으로 간주하고, 그 이하일 경우는 사용자가 아직까지 텍스트 범위를 선정하지 않은 것으로 간주할 수도 있다.

본 발명의 실시예에 따른 영상 내 문자 자동번역 방법은, 번역 실행 요청이 입력된 후, 입출력 인터페이스를 통해 입력되는 신호에 대한 분석을 통해, 입력되는 신호가 문자 영역 선택 신호인지 오토 포커스 요청 신호인지를 판단하는 단계; 판단 결과를 바탕으로 번역 대상 영역을 획득하는 단계; 획득된 번역 대상 영역 내 문자에 대한 인식을 수행하는 단계; 및 인식된 문자에 대한 번역을 수행하는 단계를 포함한다.

번역 대상 영상이 상기 입출력 인터페이스를 통해 표시된 상태에서 상기 번역 실행 요청이 입력된 경우에 있어서, 상기 획득하는 단계는, 입력되는 신호가 문자 영역 선택 신호인 경우, 입력된 신호에 의해 선택된 문자 영역을 번역 대상 영역으로 획득하는 단계이다.

상기 번역 실행 요청이 입력되면, 카메라 모듈에 의해 획득되는 영상에 대한 프리뷰 화면을 상기 입출력 인터페이스를 통해 표시하는 단계를 더 포함하고, 상기 획득하는 단계는, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 입력된 신호에 의해 닫힌 도형 그리기 방식으로 선택된 문자 영역을 상기 프리뷰 화면에 표시하고, 상기 프리뷰 화면에 표시된 문자 영역에 대한 오토 포커싱을 수행한 후, 오토 포커싱된 문자 영역에서 번역 대상 영역을 획득하는 단계이다.

한편, 입력된 신호가 오토 포커스 요청 신호인 것으로 판단된 경우, 오토 포커싱을 하여 촬영한 이후 촬영 영상에서 닫힌 도형 그리기 방식으로 번역 대상 문자를 선택한다.

다른 실시예로서, 사용자의 설정에 따라 현재 프리뷰에 나타나는 전체 내용을 번역 대상 영역으로 획득할 수 있다. 이는 프리뷰 화면의 테두리를 본 발명에 따른 닫힌 도형 그리기의 사용자가 그린 테두리 영역으로 간주하는 방식으로서, 이 실시예를 취할 경우 사용자는 줌인/줌아웃을 하거나 또는 카메라를 번역 대상문에 근접시키거나 멀게 하는 방식으로 영역을 선택하면 추가의 닫힌 도형 그리기를 하지 않고 촬영과 동시에 번역대상을 확정할 수 있어, 사용자의 개입을 한 단계 더 줄일 수 있는 장점이 있다.

상기 번역을 수행하는 단계는, 입력된 신호가 닫힌 형태의 도형 그리기 동작에 따른 신호인 경우에 해당하는지를 판단하고, 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하면, 문자 인식된 결과에서 도형의 윤곽선을 바탕으로 번역 문자 영역을 확정하고, 확정된 번역 문자 영역 내 문자에 대한 번역을 수행하는 단계이다.

상기 번역 문자 영역을 확정하는 것은, 문자 인식된 결과에서 도형의 윤곽선을 바탕으로 번역 문자 영역을 확정함에 있어서, 인식된 문자와 도형의 윤곽선을 매핑시키고, 윤곽선 내측 및 외측에 위치한 문자열 중 윤곽선에 가장 가까운 문자열의 특성을 파악하고, 파악된 내측 문자열 특성과 외측 문자열 특성을 비교하여 유사도를 판단하고, 판단된 유사도가 기준 유사도 이상이면 윤곽선을 외측 문자열을 포함하도록 확장시키고, 확장된 윤곽선 내 영역을 번역 문자 영역으로 확정한다.

상기 번역 문자 영역을 확정하는 것은, 판단된 유사도가 기준 유사도 미만인 경우, 인식된 문자와 매핑된 윤곽선 내 영역을 번역 문자 영역으로 확정한다.

상기 번역을 수행하는 단계는, 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하지 않으면, 문자 인식된 결과에 대한 번역을 수행하는 단계이다.

상기에서와 같은 본 발명의 실시예에 따른 영상 내 문자 자동번역 기술에 따르면, 번역 영역을 특정하기 위하여 입력된 닫힌 형태의 도형의 윤곽선을 바탕으로 최종 번역 대상 문자 영역을 결정하여 자동 번역이 수행된다.

따라서, 사용자의 한 번의 동작을 기반으로 사용자가 원하는 영역의 문자에 대한 번역이 이루어질 수 있다.

이에 따라, 영상 내 문자를 번역함에 있어서 사용자의 개입을 줄여 편의성을 향상시키는 것은 물론이고, 일상에서 어떤 대상을 특정하기 위해서 이용하는 방식과도 유사하여 보다 직관적이고 또한 각 사용자에게 친숙한 사용자 인터페이스를 제공할 수 있다.

도 1은 본 발명의 바람직한 실시예에 따른 영상 내 문자 자동번역 시스템의 일례의 구성을 도시한 도면.
도 2는 본 발명의 바람직한 실시예에 따른 영상 내 문자 자동번역 시스템의 처리 프로세서의 동작의 일례를 설명하기 위한 도면.
도 3은 본 발명의 바람직한 실시예에 따른 영상 내 문자 자동번역 시스템의 처리 프로세서의 동작 중 단계 S23에 대한 상세 동작을 설명하기 위한 도면.
도 4는 본 발명의 바람직한 실시예에 따른 영상 내 문자 자동번역 시스템의 처리 프로세서의 동작 중 단계 S23에 대한 상세 동작을 설명하기 위한 도면.
도 5는 종래 기술에서, 촬영된 영역 중에서 번역할 대상을 사용자가 손끝이나 손등, 마우스 등으로 색깔을 입히거나 선을 그어 선택한 결과를 예시한 도면.
도 6a 내지 도 6b 내지 도 6c는 사용자가 닫힌 형태의 도형 그리기 행위를 통해 영상 내 번역을 위한 영역을 선택한 경우를 예시한 도면.
도 6d 및 도 6e는 사용자에 의한 닫힌 형태의 도형 그리기 행위의 다른 유형을 예시한 도면.
도 6f는, 도 6d 및 도 6e에 예시된 닫힌 도형 그리기에서 번역대상으로 확정되는 부분을 도시한 도면.

본 명세서에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 안 된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 “~사이에”와 “바로 ~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함하다” 또는 “가지다” 등의 용어는 개시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

한편, 어떤 실시예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.

본 발명은 영상 내 문장에 대한 인식을 한 후 번역을 수행하는 기술에 관한 것으로서, 본 발명에서의 영상은 기 촬영된 영상일 수도 있고, 번역을 위해 새로 촬영되는 영상일 수도 있다.

이에 본 발명은 기 촬영된 영상을 대상으로 자동 번역을 위한 텍스트 범위를 선택하는 경우와, 촬영하여 획득되는 영상을 대상으로 자동 번역을 위한 텍스트 범위를 선택하는 경우에 적용될 수 있다.

촬영하여 획득되는 영상을 대상으로 자동 번역을 위한 텍스트 범위를 선택하는 것은 기 촬영된 영상을 대상으로 자동 번역을 위한 텍스트 범위를 선택하는 것을 포함하고 있기 때문에, 이하에서는 촬영하는 것을 포함한 예를 위주로 기술한다.

이하에서는 본 발명에서 제안하고자 하는 영상 내 문자 자동번역 시스템 및 방법에 대해서 첨부된 도면들을 참조하여 상술한다.

도 1은 본 발명의 바람직한 일 실시예에 따른 영상 내 문자 자동번역 시스템의 일례의 구성을 도시한 도면이다.

도 1에 도시된 바와 같이, 본 발명의 바람직한 일 실시예에 따른 영상 내 문자 자동번역 시스템(1, 이하 ‘시스템’)은 카메라 기능이 부가된 스마트폰과 같은 휴대용 기기, 영상을 대상을 대상으로 자동번역을 수행하고자 하는 데스크탑 컴퓨터 등 다양한 기기에 적용될 수 있다.

상기 시스템(1)은 카메라 모듈(11), 입출력 인터페이스(12), 저장 모듈(13) 및 처리 프로세서(14)로 구성될 수 있으나, 시스템(1)의 구성이 이에 한정되는 것은 아니다.

상기 카메라 모듈(11)은 번역 대상문이 포함된 피사체를 촬영하여, 획득되는 영상을 처리 프로세서(14)로 전달한다.

상기 입출력 인터페이스(12)는 처리 프로세서(14)로부터의 데이터를 표시하거나, 입력되는 신호에 상응하는 정보로 변환하여 처리 프로세서(14)로 전달한다. 입출력 인터페이스(12)는 터치 스크린으로 구현될 수 있으나, 이에 한정되는 것은 아니다.

저장 모듈(13)은 시스템(1)의 동작에 필요한 프로그램, 알고리즘, 데이터 등을 저장하고, 시스템(1)의 동작에 따라 생성되는 데이터들을 저장한다.

상기 처리 프로세서(14)는 카메라 모듈(11), 입출력 인터페이스(12) 및 저장 모듈(13)의 동작을 제어하고 카메라 모듈(11)이 촬영한 영상에서 번역 대상문을 확정하고 번역을 수행한다.

처리 프로세서(14)의 동작에 대해서는 도 2를 참조하여 이하에서 구체적으로 설명한다.

처리 프로세서(14)는 번역 프로그램이 구동되면, 카메라 모듈(11)을 제어하여 카메라 모듈(11)이 촬영 동작을 수행하도록 하도록 하고, 카메라 모듈(11)에 의해 인식(S20)된 피사물에 대한 프리뷰 화면을 입출력 인터페이스(12)를 통해 제공한다(S21).

상기 단계 S21에서와 같이 입출력 인터페이스(12)를 통해 제공된 후, 사용자는 입출력 인터페이스(12)를 통해, 기 설정된 행위에 기반하여 신호를 입력하게 되고, 입출력 인터페이스(12)를 통해 입력된 신호는 처리 프로세서(14)로 전달된다.

예를 들어, 입출력 인터페이스(12)가 터치 스크린으로 구현된 경우, 사용자는 스크린을 터치하는 행위에 기반하여 신호를 입력할 수 있다.

이에 따라, 상기 단계 S21 이후, 처리 프로세서(14)는 입출력 인터페이스(12)를 통해 입력된 신호에 대한 분석을 통해, 입력된 신호가 본 발명에 따른 닫힌 도형 그리기 방식의 문자 영역 선택 신호인지 오토 포커스 요청 신호인지를 판단한다(S22).

따라서, 상기 단계 S22에서의 판단을 위해, 처리 프로세서(14)는 문자 영역 선택 신호의 종류 및 오토 포커스 요청 신호에 대한 종류에 대한 정보를 참조할 수 있으며, 이러한 정보는 예를 들어 저장 모듈(13)에 저장되어 있을 수 있다.

예를 들어, 상기 단계 S22에서 처리 프로세서(14)는 입력된 신호가 도 6a 내지 도 6e와 예시된 바와 같은 닫힌 형태의 도형 그리기 행위로 볼 수 있는 신호이면, 문자 영역 선택 신호인 것으로 판단하고, 국소 부위의 터치 행위에 따른 신호이면 오토 포커스 요청 신호인 것으로 판단할 수 있다. 즉, 국소 부위의 터치는, 스마트폰을 이용하여 피사체를 촬영할 때 피사체에 대한 초점을 맞추기 위해 디스플레이부에 표시되는 영상 중의 관심 영역을 손가락 끝으로 터치하는 것과 동일한 행위로 보겠다는 의미이다.

본 발명에 따른 닫힌 형태의 도형 그리기 행위로 볼 수 있는 신호에 대하여 보다 구체적으로 설명하면, 도 6a에 예시된 바와 같이, 시스템이 사전에 사각형 프레임을 제공하고 사용자의 입력에 따라, 예컨대 프리뷰 화면에서의 드래그나 마우스 조작으로써, 사전 제공되는 프레임의 크기와 모양 및 위치를 조정하면서 번역 대상문을 특정하는 방식의 문자 영역 선택 신호가 입력될 수 있다.

또는 도 6b 및 도 6c에 도시된 것처럼 번역 대상문의 외곽을 둘러싸는 닫힌 도형을 손끝이나 마우스 조작을 통하여 직접 사용자가 그리는 방식으로 문자 영역 선택 신호가 입력될 수 있다.

사용자 편의성을 더 높이기 위하여, 도 6d 또는 도 6e 처럼 번역 대상문의 전체 외곽을 둘러싸지 않고 번역 대상문 영역을 손끝이나 마우스 조작을 통하여 대충 표시하는 방식으로 문자 영역 선택 신호가 입력될 수 있다.

물론, 처리 프로세서(14)가 어떠한 신호를 입력 받았을 때 입력된 신호를 문자 영역 선택 신호로 판단할지 오토 포커스 요청 신호로 판단할지에 대한 설정은 다양하게 변경 가능하다.

상기 단계 S22 이후에, 처리 프로세서(14)는 판단 결과를 바탕으로, 번역 대상 영역을 획득하고, 획득된 번역 대상 영역 내 문자에 대한 인식을 수행한다.

구체적으로, 상기 단계 S22에서, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 처리 프로세서(14)는 입력된 신호에 의해 선택된 문자 영역을 번역 대상 영역으로 획득한다(S23).

단계 S23에 대해서는 도 3을 참조하여 보다 상세하게 후술하되, 그 설명 전에 상기 단계 S22에서, 입력된 신호가 오토 포커스 요청 신호인 것으로 판단된 경우에 대하여 약술한다.

기본적인 실시예로서, 입력된 신호가 오토 포커스 요청 신호인 것으로 판단되면, 처리 프로세서(14)는 프리뷰 화면 내 영상에 대해 오토 포커싱을 수행한 후 촬영을 수행한다. 촬영 후, 촬영된 영상의 프리뷰 화면에서 닫힌 도형 그리기 방식을 통해 번역 대상문을 선택하고 획득한다(S23).

이러한 기능을 마련하는 이유는, 사용자가 프리뷰 화면에서 문자 영역을 선택할 경우 흔들리는 화면상에서 도형 그리기 등을 하고 싶지 않거나, 영상 촬영도 하고 번역도 하고 싶거나 하는 경우 등의 필요를 충족하기 위함이다. 즉, 오토포커스 후에는 사진 촬영이 이어지고 촬영된 사진 이미지가 프리뷰 된 후, 사용자는 프리뷰된 이미지에서 문자영역을 선택하게 되는데 이는 기촬영된 영상을 로딩하여 문자영역을 선택하는 것과 동일한 과정이 되는 것이다.

즉, 촬영 전 프리뷰 화면에서 번역 대상문을 선택하든, 촬영 후 촬영 이미지에서 번역 대상문을 선택하든 간에, 양 경우 모두 본 발명의 핵심적 기술 사상인 닫힌 도형 그리기 방식으로 번역 대상을 선택한다면 본 발명의 범주에 속함은 물론이다.

한편, 프리뷰 영상에 대한 입력 신호를 오토 포커스 신호로 판단한 경우에는 이하의 확장 실시예가 가능하다. 예컨대, 모드 설정에 따라, 현재 프리뷰에 나타나는 전체 내용을 번역 대상 영역으로 획득할 수 있다. 이는 프리뷰 화면의 테두리를 본 발명에 따른 닫힌 도형 그리기의 사용자가 그린 테두리 영역으로 간주하는 방식으로서, 이 실시예를 취할 경우 사용자는 줌인/줌아웃을 하거나 또는 카메라를 번역 대상문에 근접시키거나 멀게 하는 방식으로 영역을 선택하면 추가의 닫힌 도형 그리기를 하지 않고 촬영과 동시에 번역대상을 확정할 수 있어, 사용자의 개입을 한 단계 더 줄일 수 있는 장점이 있다. 번역 대상문에 대하여 닫힌 도형 그리기를 프리뷰 화면이나 촬영된 영상에 대해서 사용자가 하는 것과, 프리뷰 화면의 테두리를 닫힌 도형의 테두리로 보고 사용자가 조절하면서 번역 대상문을 선택하는 것은 본질적으로 같은 기술 사상의 범주에 든다고 할 것이다.

전술한 기본 및 확장 실시예는 미리 모드를 설정해 놓고 사용자의 모드 선택에 따라 수행될 수 있고, 또는 촬영을 위한 오토 포커스 신호인지 또는 프리뷰 화면을 테두리로 하여 닫힌 도형 그리기 방식을 이용할 것인지에 대한 사용자 입력을 달리하여 기본 및 확장 실시예의 각 동작을 선택적으로 수행하도록 구현할 수 있다. 예컨대, 촬영을 위한 오토 포커스는 프리뷰 화면을 한번 터치하고, 프리뷰 테두리로 번역 대상 확정을 위한 오토 포커스는 프리뷰 화면에 짧은 시간 안에 이어지는 두번의 터치를 하도록 하는 방법이 있을 수 있겠으며, 본 발명에 따른 방법 및 시스템이 이러한 예시적 사용자 인터페이스 방식에 한정되지 않음은 물론이다.

상기 단계(S23) 또는 단계(S24) 이후, 처리 프로세서(14)는 번역 대상 영역 내 문자에 대한 인식을 수행한 후(S25), 인식된 문자에 대한 번역을 수행하여(S26), 번역 수행 결과를 기 설정된 장치로 제공한다.

이하에서는 도 3을 참조하여 도 2에 있어서의 단계 S23에 대해서 문자 영역 선택 신호 입력 후 프리뷰에 나타나는 양상에 대하여 구체적으로 설명한다.

도 3을 참조하면, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 처리 프로세서(14)는 사용자의 행위에 따라 선택된 문자 영역을 프리뷰 화면에 표시한다(S30).

단계 S30에서, 처리 프로세서(14)는 프리뷰 화면에 기 표시되어 있던 영상에 중첩하여 문자 영역을 표시할 수 있으나, 문자 영역을 표시하는 방법이 이에 한정되는 것은 아니다.

예를 들어, 처리 프로세서(14)는 프리뷰 화면에 도 6b 내지 도 6f와 같이 촬영대상 전체와 그 중에서 닫힌 도형 그리기 방식으로 특정된 번역 대상문을 표시할 수도 있고, 프리뷰 화면에 특정된 번역 대상문 영역만을 표시할 수도 있고, 기 표시되어 있던 영상을 축소시켜 여백을 확보한 후, 확보된 여백에 문자 영역을 표시할 수도 있다.

상기 단계 S30 이후, 처리 프로세서(14)는 촬영 후 (S31), 번역 대상 영역을 획득한다(S32). 촬영 직전 특정된 번역 대상문을 중심으로 오토 포커싱을 수행하여 촬영하면 더 좋을 것임은 당연하다.

이하에서는 도 4를 참조하여 도 2에 있어서의 단계 S23에 대해서 번역 대상문의 확정 절차 관점에서 보다 구체적으로 설명한다.

도 4를 참조하면, 단계 S40에서 단계 S22에서의 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하면, 처리 프로세서(14)는 닫힌 형태의 도형의 윤곽선을 파악하고(S50), 인식된 문자(정확히는 아직 내용을 인식하기 전이므로, 형태 면에서 문자, 문자열, 문장, 문단 등으로 추정되는 영역)와 파악된 윤곽선을 매핑한다(S51).

매핑 결과, 도 6a 내지 도 6c와 같이 닫힌 도형이 문자, 문장이나 또는 문단으로 추정되는 영역을 온전히 둘러싸는 경우에는 닫힌 도형 내의 문자, 문장이나 문단을 번역 대상문으로 확정하고 단계 25로 진입하여 내용 인식 및 번역을 하면 된다.

그런데, 도 6d와 같이 정확히 번역 대상문의 외곽을 둘러 싸고 있다고 보기 어려운 경우에는 단계 S42 내지 단계 S48의 단계를 거치며 닫힌 도형을 확장하여 번역 대상문을 확정한다.

즉, 단계 S41 이후, 처리 프로세서(14)는 매핑 결과를 바탕으로, 윤곽선 내측에 위치한 문자열 중 윤곽선에 가장 가까운 문자열의 특성을 파악하고(S42), 윤곽선 외측에 위치한 문자열 중 윤곽선에 가장 가까운 문자열의 특성을 파악한다(S43).

상기 단계 S42 및 S43에서, 파악되는 문자열 특성으로는 문자열 간의 거리 정보, 문자열 라인 간의 간격 정보, 문자 크기 정보, 문자 색깔 정보, 문자 폰트 정보 등을 들 수 있다.

상기 단계 S43 이후, 처리 프로세서(14)는 단계 S42에서 파악된 내측 문자열 특성과 외측 문자열 특성을 비교하여 유사도를 판단하고(S44), 판단된 유사도가 기 설정된 기준 유사도 이상인지를 판단한다(S45).

상기 단계 S44에서 유사도를 판단하는 것은 파악되는 문자열 특성의 종류에 따라 다르게 설정될 수 있고, 유사도 판단 방법으로 문자열 특성별에 가중치를 적용하는 방법 등이 이용될 수 있으나, 유사도 판단 방법이 본 발명에서 제한되는 것은 아니다.

상기 단계 S45에서의 판단 결과, 판단된 유사도가 기준 유사도 이상인 경우(S45-예), 처리 프로세서(14)는 내측 문자열과 외측 문자열이 연결되는 문자열인 것으로 간주하여 닫힌 도형의 윤곽선을 외측 문자열을 포함하도록 확장시킨다(S46).

상기 단계 S46 이후, 처리 프로세서(14)는 확장된 윤곽선 내 영역을 번역 문자 영역으로 확정한다(S47). 즉, 도 6f와 같이 번역 대상문을 확정한다.

상기 단계 S45에서의 판단 결과, 판단된 유사도가 기준 유사도 미만인 경우(S45-아니오), 처리 프로세서(14)는 단계 S41에서의 매핑에 이용된 윤곽선 내 영역을 번역 문자 영역으로 확정한다(S48).

한편, 본 발명에 따른 시스템 및 방법에서는 사용자의 편의성을 보다 향상 시키기 위하여 완전히 폐루프를 형성하지 않는 상태의 닫힌 도형을 통해서도 번역 대상문의 확정이 가능하다. 예컨대, 도 6e와 같이 일부만 그려진 미완성 닫힌 형태의 도형의 윤곽선이 그려졌을 경우, 시스템은 사용자가 그린 도형의 윤곽선을 연장하여 닫힌 형태의 도형의 윤곽선을 완성한 후 S41의 단계를 수행한다. 따라서, 사용자가 미완성의 닫힌 도형을 그린 경우에도 도 6d의 그리기와 같이 동일하게 도 6f에 도시된 바와 같은 범위의 텍스트가 번역 대상문으로 선정된다.

이 때, 시스템은 미완성 도형이라 하더라도 사용자가 그린 도형의 경계선과 시스템이 완성해야 할 나머지 도형의 경계선의 길이의 비율 등을 계산하여 기준치 이상일 경우에는 본 발명에 따른 닫힌 도형 그리기로 인식하여 사용자가 텍스트 범위를 선정한 것으로 간주하고, 그 이하일 경우는 사용자가 아직까지 텍스트 범위를 선정하지 않은 것으로 간주할 수도 있다. 즉, 사용자가 닫힌 도형의 지나치게 적은 부분만 그리다 만 경우는, 텍스트 선택을 취소한 것으로 간주하도록 할 수 있다.

이상, 번역의 대상이 되는 영상을 새로 획득하는 경우에 있어서의 동작에 기초하여 본 발명의 영상 내 문자 자동번역 기술을 설명하였으나, 본 발명의 영상 내 문자 자동번역 기술은 기 촬영된 영상을 대상으로 적용될 수도 있음은 물론이다.

또한, 설명된 각 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 기능 혹은 모든 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

한편, 본 발명의 영상 내 문자 자동번역 시스템 및 방법을 실시예에 따라 설명하였지만, 본 발명의 범위는 특정 실시예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.

따라서, 본 발명에 기재된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

1 : 문자 자동번역 시스템
11 : 카메라 모듈
12 : 입출력 인터페이스
13 : 저장 모듈
14 : 처리 프로세서

Claims

저장 모듈에 기 저장된 프로그램에 따라 동작하여 영상 내 문자 자동번역 기능을 수행하는 처리 프로세서를 포함하고,
상기 처리 프로세서는, 번역 실행 요청이 입력된 후, 입출력 인터페이스를 통해 입력되는 신호에 대한 분석을 기초로 입력되는 신호가 닫힌 도형 형태의 문자 영역 선택 신호로 판단되면, 번역 대상 영역을 획득하고 획득된 번역 대상 영역 내 문자에 대한 인식을 수행 후 인식된 문자에 대한 번역을 수행하되,
번역 대상 영역을 획득함에 있어서, 인식된 문자와 상기 닫힌 도형의 윤곽선을 매핑시키고, 윤곽선 내측 및 외측에 위치한 문자열 중 윤곽선에 가장 가까운 내측 문자열 및 외측 문자열의 특성-문자열 간의 거리정보, 문자열 라인 간의 간격 정보, 문자 크기 정보, 문자 색깔 정보 및 문자 폰트 정보 중 적어도 하나-을 파악하고, 파악된 내측 문자열 특성과 외측 문자열 특성을 비교하여 유사도를 판단하고, 판단된 유사도가 기준 유사도 이상이면 윤곽선을 외측 문자열을 포함하도록 확장시키고 확장된 윤곽선 내측 영역을 번역 문자 영역으로 확정하여 획득하는 것
인 영상 내 문자 자동번역 시스템.
제 1 항에 있어서,
상기 처리 프로세서는, 번역 대상 영상이 상기 입출력 인터페이스를 통해 표시된 상태에서 상기 번역 실행 요청이 입력되고, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 입력된 신호에 의해 선택된 문자 영역을 번역 대상 영역으로 획득하는 것
인 영상 내 문자 자동번역 시스템.
제 1 항에 있어서,
상기 처리 프로세서는, 카메라 모듈을 통해 획득되는 영상을 번역 대상으로 하도록 설정된 경우, 상기 번역 실행 요청이 입력되면, 상기 카메라 모듈에 의해 획득되는 영상에 대한 프리뷰 화면을 상기 입출력 인터페이스를 통해 표시하고, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 입력된 신호에 의해 선택된 문자 영역을 상기 프리뷰 화면에 표시하고, 상기 프리뷰 화면에 표시된 문자 영역이 선명하게 보이도록 문자 영역에 대한 오토 포커싱을 수행한 후, 오토 포커싱된 문자 영역을 번역 대상 영역으로 획득하는 것
인 영상 내 문자 자동번역 시스템.
제 1 항에 있어서,
상기 처리 프로세서는, 입력된 신호가 오토 포커스 요청 신호인 것으로 판단된 경우, 상기 번역 대상 영상이 선명하게 보이도록 번역 대상 영상에 대해 오토 포커싱을 수행한 후, 오토 포커싱된 번역 대상 영상 전체를 번역 대상 영역으로 획득하는 것
인 영상 내 문자 자동번역 시스템.
제 1 항에 있어서,
상기 닫힌 도형이 완전히 폐루프를 형성하지 않는 상태인 경우 사용자가 그린 도형의 윤곽선을 연장하여 닫힌 형태의 도형의 윤곽선을 완성하는 것
인 영상 내 문자 자동번역 시스템.
제 5 항에 있어서,
사용자가 그린 도형의 경계선과 시스템이 완성해야 할 나머지 도형의 경계선의 길이의 비율을 계산하여 기준치 이하일 경우는 사용자가 아직까지 텍스트 범위를 선정하지 않은 것으로 간주하는 것
인 영상 내 문자 자동번역 시스템.
제 1 항에 있어서,
상기 처리 프로세서는, 판단된 유사도가 기준 유사도 미만인 경우, 인식된 문자와 매핑된 윤곽선 내 영역을 번역 문자 영역으로 확정하는 것
인 영상 내 문자 자동번역 시스템.
제 1 항에 있어서,
상기 처리 프로세서는, 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하지 않으면, 문자 인식된 결과에 대한 번역을 수행하는 것
인 영상 내 문자 자동번역 시스템.
번역 실행 요청이 입력된 후, 입출력 인터페이스를 통해 입력되는 신호에 대한 분석을 통해, 입력되는 신호가 문자 영역 선택 신호인지를 판단하는 단계;
판단 결과를 바탕으로 번역 대상 영역을 획득하는 단계;
획득된 번역 대상 영역 내 문자에 대한 인식을 수행하는 단계; 및
인식된 문자에 대한 번역을 수행하는 단계를 포함하되,
상기 번역 대상 영역을 획득하는 단계는,
입력된 신호가 닫힌 형태의 도형 그리기 동작에 따른 신호인 경우에 해당하는지를 판단하는 단계와,
입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하면, 인식된 문자와 상기 닫힌 도형의 윤곽선을 매핑시키고, 윤곽선 내측 및 외측에 위치한 문자열 중 윤곽선에 가장 가까운 내측 문자열 및 외측 문자열의 특성-문자열 간의 거리정보, 문자열 라인 간의 간격 정보, 문자 크기 정보, 문자 색깔 정보 및 문자 폰트 정보 중 적어도 하나-을 파악하고, 파악된 내측 문자열 특성과 외측 문자열 특성을 비교하여 유사도를 판단하는 단계와,
판단된 유사도가 기준 유사도 이상이면 윤곽선을 외측 문자열을 포함하도록 확장시키고 확장된 윤곽선 내측 영역을 번역 문자 영역으로 확정하는 단계를 포함하는 것
인 영상 내 문자 자동번역 방법.
제 9 항에 있어서,
번역 대상 영상이 상기 입출력 인터페이스를 통해 표시된 상태에서 상기 번역 실행 요청이 입력된 경우에 있어서,
상기 획득하는 단계는, 입력되는 신호가 문자 영역 선택 신호인 경우, 입력된 신호에 의해 선택된 문자 영역을 번역 대상 영역으로 획득하는 단계
인 영상 내 문자 자동번역 방법.
제 9 항에 있어서,
상기 번역 실행 요청이 입력되면, 상기 획득하는 단계 이전에 수행되는, 카메라 모듈에 의해 획득되는 영상에 대한 프리뷰 화면을 상기 입출력 인터페이스를 통해 표시하는 단계를 더 포함하고,
상기 획득하는 단계는, 입력된 신호가 문자 영역 선택 신호인 것으로 판단된 경우, 입력된 신호에 의해 선택된 문자 영역을 상기 프리뷰 화면에 표시하고, 상기 프리뷰 화면에 표시된 문자 영역을 번역 대상 영역으로 획득하는 단계
인 영상 내 문자 자동번역 방법.
제 9 항에 있어서, 상기 유사도를 판단하는 단계 이전에,
상기 닫힌 도형이 완전히 폐루프를 형성하지 않는 상태인 경우, 사용자가 그린 도형의 윤곽선을 연장하여 닫힌 형태의 도형의 윤곽선을 완성하는 단계를 더 포함하는 영상 내 문자 자동번역 방법.
제12항에 있어서, 상기 유사도를 판단하는 단계 이전에,
상기 닫힌 도형이 완전히 폐루프를 형성하지 않는 상태인 경우, 상기 사용자가 그린 도형의 경계선과 완성해야 할 나머지 도형의 경계선의 길이의 비율을 계산하여 기준치 이하일 경우는 사용자가 아직까지 텍스트 범위를 선정하지 않은 것으로 간주하는 단계를 더 포함하는 영상 내 문자 자동번역 방법.
제 9 항에 있어서,
상기 번역 문자 영역을 확정하는 것은, 판단된 유사도가 기준 유사도 미만인 경우, 인식된 문자와 매핑된 윤곽선 내 영역을 번역 문자 영역으로 확정하는 것
인 영상 내 문자 자동번역 방법.
제 12 항에 있어서,
상기 번역을 수행하는 단계는, 입력된 신호가 닫힌 형태의 도형 그리기 행위에 따른 신호인 경우에 해당하지 않으면, 문자 인식된 결과에 대한 번역을 수행하는 단계
인 영상 내 문자 자동번역 방법.