KR20100007722A

KR20100007722A - 카메라 기반 영상의 문자 인식 및 번역 방법

Info

Publication number: KR20100007722A
Application number: KR1020090057266A
Authority: KR
Inventors: 김상호; 황성택; 오상욱; 김현수; 김정림; 김지훈; 이동창; 오윤제; 정희원
Original assignee: 삼성전자주식회사
Priority date: 2008-07-10
Filing date: 2009-06-25
Publication date: 2010-01-22
Also published as: CN101702154B; KR101588890B1; CN101702154A

Abstract

본 발명에 따른 카메라로 촬영한 문자영상 인식 및 전자사전 연동 번역 방법은 촬영된 문자 영상에서 인식할 영역을 사용자가 직접 선택해서 문자 인식을 수행하는 과정과, 사용자가 선택한 문자 또는 단어를 연계된 사전 데이터와 연동 검색해서 그 번역 결과 정보를 화면 장치에 표시하는 과정을 포함한다.

상기 문자 인식을 수행하기 위한 과정은 인식된 문자열 또는 단어의 위치 정보를 사용자에게 제공하여 사용자가 선택한 위치 영역의 문자열 또는 단어의 번역을 지시할 수 있는 사용자 인터페이스 과정을 포함한다.

그리고 상기 사전 연동 검색 번역 과정은 상기 사용자 인터페이스 과정에서 선택된 문자 또는 단어를 전자사전 데이터 베이스와 연동 검색해서 그 번역 결과를 상기 사용자 인터페이스 과정을 통해 사용자에게 제공하는 과정을 포함한다.

문자, 단어, 인식, 카메라, 번역

Description

카메라 기반 영상의 문자 인식 및 번역 방법{METHOD OF CHARACTER RECONGNITION AND TRANSLATION BASED ON CAMERA IMAGE}

본 발명은 문자 인식에 관한 발명으로서, 특히 카메라로 촬영된 영상에 포함된 문자를 인식하고 사전과 연동해서 번역할 수 있는 카메라에 기반하는 문자 인식 및 번역 방법에 관한 발명이다.

종래의 문자 인식은 종이 문서를 스캐너(Scaner)로 스캐닝(Scannening)해서 텍스트 화일 또는 전자 문서의 형태로 변환하는 방법이 일반적이다. 그러나, 최근 에는 소형의 디지털 카메라를 장착한 형태의 휴대형 디지털 기기들을 이용해서 촬영된 영상의 문자를 인식하는 방법이 제안되고 있다.

종래 스캐너가 종이에 기재된 문자의 인식으로 제한되는 반면에, 디지털 카메라가 장착된 휴대형 디지털 기기들은 카메라를 이용한 광학 방식의 문자 인식(Optical character recongntion; OCR)이 가능하다. 즉, 휴대용 디지털 기기들에 장착된 카메라를 이용한 문자 인식은 종래 스캐너에 의해 스캐닝된 문자의 인식 방법에 비해, 다양한 매체(기념비, 도로 안내 표지판, 메뉴판, 각종 설명서 등등)에 표시된 문자를 인식할 수 있다.

그러나 상술한 바와 같이 카메라를 이용한 문자 인식은 입력 대상 문자들이 제한되지 않아 인식 대상이 되는 문자의 다양성 이외에도 문자 이외의 주변의 조명과 같이 외부 요인에 의해서 문자 인식이 불가능한 경우도 발생 될 수 있다..

도 1은 종래 기술에 따른 문자 인식 방법을 도시한 순서도로서, 촬영된 영상으로부터 문자를 인식하기 위한 방법을 나타낸다. 도 1을 참조하면, 종래의 문자 인식 방법(100)은 카메라로 문자를 포함하는 영상을 촬영하는 과정(S1)과, 촬영된 영상의 데이터 처리 과정(S2)과, 인터페이스 과정(S3)과, 개별 문자의 정규화 과정(S4)과, 정규화된 개별 문자의 특징을 추출하는 과정(S5)과, 추출된 문자의 특징을 기반으로 문자와 단어를 인식하는 과정(S6)과, 번역 결과를 제공하는 과정(S7)을 포함한다.

상기 촬영 과정(S1)은 인식의 대상이 되는 문자를 포함하는 피사체를 영상의 형태로 촬영하는 과정이고, 상기 데이터 처리 과정(S2)은 촬영된 영상을 그레이 스케일(Gray scale)의 형태로 변환시키는 과정을 의미한다. 촬영된 영상은 다양한 색을 포함하는 칼러(color) 영상일 수 있으나, 문자 인식을 위해서는 불필요한 색을 제거해서 촬영된 영상을 그레이 스케일의 상태로 변환시킬 필요가 있다.

상기 인터페이스 과정(S3)은 촬영에 이용된 카메라의 특성 및 촬영 환경에 따라서, 문자 인식에 적합한 형태로 촬영된 영상을 보상하기 위한 과정이다.

또한, 개별 문자의 정규화 과정(S4)은 촬영된 영상에 포함된 인식 대상인 문자 하나 하나(최소 단위로서 예를 들자면 한글은 자음 및 모음, 영어는 알파벳 등)를 정해진 규격의 문자 형태로 변환시키기 위한 과정이고, 개별 문자의 특징 추출 과정(S5)은 인식 대상인 문자의 특징을 추출하기 위한 과정이다.

상기 특징에 기반한 문자 인식 과정(S6)은 추출된 문자의 특징을 근거로 대상 문자를 인식(촬영된 문자를 정의)하기 위한 과정이다. 상기 번역 결과를 사전과 연동해서 사용자에게 제공하는 과정(S7)은 인식된 문자들로부터 단어를 조합해서 그 결과를 사용자에게 제공하기 위한 과정이다.

상기 문자 인식 과정으로부터 저장된 문자 인식 결과 데이트를 내부에 저장한 후, 그 인식 결과 문자 또는 단어들을 화면 장치에 출력한 후, 사용자가 선택 수단을 이용해서 선택한 단어를 전자사전 데이터 베이스와 연동 검색해서 다시 화면에 출력하는 사용자 인터페이스 과정을 최종적으로 포함한다.

상술한 바와 같은 종래의 문자 인식 및 번역 과정은 문서 영상에 대한 인식 및 사전 번역 과정에 있어서 인식 대상인 문자 영상에 포함된 문자와 실제 인식된 문자를 동시에 확인할 수 있는 사용자 인터페이스가 직관적이지 않으며, 전체 문자 영상에 대해서 인식을 수행할 경우, 하드웨어 성능의 제한 및 여러 가지 다양한 잡영들이 포함됨으로 인해서 그 인식률 자체가 높지 않을 확률이 크며 그 사용자 인터페이스 또한 직관적이지 못한 부분이 존재한다.

본 발명은 카메라로 촬영된 영상에 포함된 문자 인식이 가능한 장치에서 문자 인식의 정확도를 향상시키고, 다양한 영상 문자 인식이 가능함과 동시에 사용자 인터페이스의 편의성이 향상된 문자 인식 방법을 제공하고자 한다.

본 발명에 따른 카메라로 촬영된 영상에 포함된 문자를 인식하는 방법은,

촬영된 영상에 포함된 문자와 단어를 인식하고, 사용자가 선택한 단어를 연계된 사전의 데이터와 번역하는 문자 및 단어 인식 과정과;

상기 문자 및 단어 인식 과정에서 인식된 문자와 단어를 사용자에게 제공하고 사용자가 선택한 문자 또는 단어의 번역을 지시하는 사용자 인터페이스 과정을 포함하며,

상기 문자 및 단어 인식 과정은 상기 사용자 인터페이스 과정에서 선택된 문자 또는 단어를 번역해서 상기 사용자 인터페이스 과정을 통해 사용자에게 제공한다.

바람직하게는, 상기 사용자 인터페이스 과정은,

(a) 영상을 촬영하는 단계와;

(b) 촬영된 영상의 문자를 인식하기 위한 범위를 선택하는 단계를 포함한다.

바람직하게는, 상기 사용자 인터페이스 과정은,

(c) 상기 문자 및 단어 인식 과정에서 인식된 문자와 단어를 사용자에게 제 공하고 제공된 문자와 단어들 중 사용자가 선택한 문자 또는 단어의 번역된 결과를 사용자에게 제공하는 단계와;

(d) 사용자가 선택한 문자 또는 단어 이외의 다른 문자 또는 단어의 선택 여부를 확인해서 사용자가 다른 문자 또는 단어를 선택할 경우 상기 (c) 단계로 복귀하는 단계와;

(e) 사용자가 인식된 문자 또는 단어에 대해 선택하지 않은 경우에 상기 (a) 단계로의 복귀 여부를 사용자에게 확인하는 단계를 더 포함한다.

바람직하게는, 상기 (b) 단계에서 사용자가 촬영된 영상의 전체를 문자 인식의 대상으로 선택한 경우에, 상기 문자 또는 단어 인식 과정으로 진행한다.

바람직하게 상기 후처리 단계는,

촬영된 영상에 포함된 개별 문자들을 인식하는 단계와;

인식된 개별 문자들로부터 단어를 구성하고, 구성된 단어를 연동된 사전 데이터를 검색해서 사전적 의미를 확인하는 단계와;

인식된 문자 또는 단어를 상기 사용자 인터페이스 과정의 (c) 단계를 통해서 사용자에게 제공하는 단계를 포함한다.

바람직하게 상기 문자 또는 단어를 인식하는 과정은,

(h) 촬영된 영상을 전처리하는 단계와;

(i) 전처리된 영상에 포함된 문자들을 정규화하는 단계와;

(j) 개별 문자의 특징을 추출하는 단계와;

(k) 개별 문자의 추출된 특징을 기반으로 문자와 단어를 인식하는 단계와;

(l) 후처리 단계를 포함한다.

바람직하게 상기 (h) 단계는,

(m) 입력된 영상을 분석하는 단계와;

(n) 분석 대상의 영상 중에서 문자 영역을 선택하는 단계와;

(o) 상기 영상을 구성하는 문자 영역과 배경 영역의 명도 반전의 여부를 결정하는 단계와;

(p) 상기 문자 영역과 배경 영역과 명도를 반전시키는 단계와;

(q) 상기 (o) 또는 (p) 단계를 거친 영상의 문자 영역을 이진화시키는 단계와;

(s) 이진화된 문자 영역을 영상으로부터 분리하는 단계를 포함한다.

바람직하게는, 상기 (l) 단계는,

개별 문자의 추출된 특징을 기반으로 문자 또는 단어의 인식 결과를 분석하는 단계와;

촬영된 영상의 문자 영역과 배경 영역을 구분하는 단계와;

배경 영역을 제거하는 단계와;

상기 (i) 단계가 완료됨을 알리기 위한 정보를 생성하는 단계를 포함한다.

본 발명은 광학 방식의 영상 문자 인식 방법을 통해서 편리한 사용자 중심의 인터페이스를 구축함과 동시에 문자 인식의 오류를 최소화시킬 수 있다. 그 외에도 본 발명은 다양한 형태로 기록된 문자들을 인식할 수 있으며, 본 발명은 촬영된 영상 중 전체 또는 일부 범위를 사용자가 문자 인식의 대상으로 선택할 수 있으므로, 사용자의 선택에 따라서 연산 과정을 최소화시킬 수도 있다.

이하에서는 첨부도면들을 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다. 본 발명을 설명함에 있어서, 관련된 공지기능, 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하지 않게 하기 위하여 생략한다.

본 발명은 촬영된 영상에 포함된 문자를 인식하기 위한 방법에 관한 발명으로서, 본 발명의 일 측면에 따른 카메라로 촬영된 영상에 포함된 문자를 인식하는 방법은 촬영된 영상에 포함된 문자와 단어를 인식하고, 사용자가 선택한 단어를 연계된 사전의 데이터와 번역하는 문자 및 단어 인식 과정과, 상기 문자 및 단어 인식 과정에서 인식된 문자와 단어를 사용자에게 제공하고 사용자가 선택한 문자 또는 단어의 번역을 지시하는 사용자 인터페이스 과정을 포함하며, 상기 문자 및 단어 인식 과정은 상기 사용자 인터페이스 과정에서 선택된 문자 또는 단어를 번역해서 상기 사용자 인터페이스 과정을 통해 사용자에게 제공한다.

본 발명에 따른 문자 인식 방법은 촬영된 영상 전체를 대상으로 하거나 또는 촬영된 영상 중 사용자가 선택한 일 부분 범위만을 문자 인식의 대상으로 하는 방법으로 구분해서 설명될 수 있다. 상술한 사용자 인터페이스 과정은 문자와 단어의 인식 및 번역 과정 중에 사용자에게 제공 또는 사용자의 선택이 요구되는 다수의 단계들을 포함한다.

도 2는 본 발명의 제1 실시 예에 따른 문자 인식 방법을 설명하기 위한 순서도로서, 촬영된 영상 전체를 문자 인식의 대상으로 하는 본 발명의 일 실시 예이다. 도 2를 참조하면, 본 발명에 따른 카메라로 촬영된 영상에 포함된 문자를 인식하는 방법은 촬영된 영상에 포함된 문자와 단어를 인식하고, 인식된 단어를 연계된 사전의 데이터와 비교하는 문자 및 단어 인식 과정과, 상기 문자 및 단어 인식 과정에서 인식된 문자와 단어를 사용자에게 제공해서 사용자의 선택에 따라서 상기 문자 및 단어 인식 과정을 지시하는 사용자 인터페이스 과정을 포함한다.

상기 사용자 인터페이스 과정은 (a) 영상을 촬영하는 단계(S1)와, (b) 촬영된 영상에 포함된 문자를 인식하기 위한 영상 내의 인식 범위를 선택하는 단계(S2)와, 인식 또는 번역의 결과를 사용자에게 제공하기 위한 단계(S3~S5)와, (d) 사용자가 선택한 문자 또는 단어 이외의 다른 문자 또는 단어의 선택 여부를 사용자에게 확인해서 사용자가 다른 문자 또는 단어를 선택할 경우 상기 (c) 단계(S3~S5)로 복귀하는 단계(S6)와, (e) 사용자가 표시된 문자 또는 단어에 대해 선택하지 않은 경우에 상기 (a) 단계(S1)로의 복귀 여부를 사용자에게 확인하는 단계(S7)를 포함한다.

상기 사용자 인터페이스 과정은 상기 (b) 단계(S2)에서 사용자가 촬영된 영상의 전체를 문자 인식의 대상으로 선택한 경우에, 상기 문자 및 단어 인식 과정의 문자 인식 단계(S9)로 진행된다.

상기 문자 및 단어 인식 과정은 촬영된 영상에 포함된 개별 문자들을 인식하는 단계(S9)와, 인식된 개별 문자들로부터 단어를 구성하며 구성된 단어를 연동된 사전 데이터를 검색해서 사전적 의미를 확인하는 단계(S10)와, 확인된 단어와 인식된 문자를 상기 사용자 인터페이스 과정의 상기 (c) 단계(S3)를 통해서 인식 또는 번역 완료된 결과를 사용자에게 제공하기 위한 단계(S11)를 포함한다.

도 3은 도 2에 도시된 문자 인식 단계(S9)를 설명하기 위한 순서도이다. 도 3을 참조하면, 문자 또는 단어를 인식하는 단계(S9)는 (h) 촬영된 영상을 전처리하는 단계(410)와, (i) 전처리된 영상에 포함된 문자들을 정규화하는 단계(420)와, (j) 개별 문자의 특징을 추출하는 단계(430)와, (k) 개별 문자의 추출된 특징을 기반으로 문자와 단어를 인식하는 단계(440)와, (l) 후처리 단계(450)를 포함한다.

도 4는 도 3에 도시된 전처리 단계(410)를 설명하기 위한 순서도이다. 도 4를 참조하면, 상기 전처리 단계(410)는 (m) 입력된 영상을 분석하는 단계(411)와, (n) 분석 대상의 영상 중에서 문자 영역을 선택하는 단계(412)와, (o) 상기 영상을 구성하는 문자 영역과 배경 영역의 명도 반전의 여부를 결정하는 단계(413)와, (p) 상기 문자 영역과 배경 영역과 명도를 반전시키는 단계(414)와, (q) 상기 (o) 또는 상기 (p) 단계를 거친 영상의 문자 영역을 이진화시키는 단계(415)와, (s) 이진화된 문자 영역을 영상으로부터 분리하는 단계(416)를 포함한다.

상기 전처리 단계(410)는 사용자 인터페이스 과정에서 촬영된 영상의 히스토그램 등을 통해서 영상을 분석하고, 문자 및 배경 영역을 선별해서 색상 값(예, 명도)을 참고하여 문자 및 배경 영역의 반전 여부를 결정하는 다수의 서브 단계들을 수행할 수 있다.

도 5는 도 3에 도시된 후처리 과정(450)을 설명하기 위한 순서도이다. 도 5 를 참조하면, 상기 후처리 과정(450)은 개별 문자의 추출된 특징을 기반으로 문자 또는 단어의 인식 결과를 분석하는 과정(451)과, 촬영된 영역 내의 문자 영역과 배경 영역을 구분하는 과정(452)과, 문자 이외의 배경 영역을 제거하는 과정(453)과, 상기 (I) 과정이 완료됨을 알리기 위한 정보를 생성하는 과정(454)을 포함한다.

상기 후처리 과정(450)는 오인식되거나 잡음들로 인한 오류를 바로잡기 위한 과정로서, 인식된 문자 중 비 문자를 잘못 인식되었는지를 구별해서 처리하기 위한 과정이다.

도 6은 본 발명에 따른 문자 인식 방법의 구현 예를 설명하기 위한 도면으로서, 도 6은 터치 스크린(510)을 포함하는 장치의 문자 인식 구현 방법의 일 예이다. 도 6은 촬영된 영상의 전체를 문자 인식의 대상으로 본 발명을 적용한 예로서, 선택되지 않은 문자(501)와, 선택된 문자(502) 모두가 이미 문자 인식의 대상으로 처리되나, 그 결과는 사용자가 선택한 문자(502)에 대해 제공하는 실시 예이다.

도 6a는 터치 스크린(510)을 예로 했으나, 네비게이션 키(520) 등을 이용해서 사용자가 특정 문자나 단어를 선택하는 형태로도 구현될 수 있다. 도 6b는 촬영된 영상(610) 중 일부 범위(601)를 문자 인식의 대상으로 선택한 예로서, 선택된 범위(601) 중에서도 사용자가 선택한 문자나 단어에 대한 인식 결과를 제공하는 실시 예이다.

도 7a 내지 도 7d는 본 발명에 따른 문자 인식 방법의 구현 예를 설명하기 위한 도면들로서, 문자 인식의 대상 범위 또는 인식된 문자 또는 단어를 선택하는 방법에 대한 구현 예를 설명하기 위한 도면들이다. 도 7a 내지 도 7d는 터치 스크 린을 이용한 예로서, 별도의 터치 펜 또는 사용자의 신체 일부에 의한 구현이 가능하다. 도 7a는 선택하고자 하는 단어 위에 사선(701)을 긋는 형태의 실시 예이고, 도 7b는 선택하고자 하는 단어에 정형화되지 않은 테두리(702)를 긋는 형태이고, 도 7c와 도 7d 각각은 정형화된 형태의 사각의 박스(703, box)와 밑줄(704)을 긋는 형태의 예를 도시한 도면들이다.

도 9a 내지 도 9d는 본 발명에 따른 촬영된 영상으로부터 문자를 인식하는 또 다른 예를 설명하기 위한 도면들로서, 촬영된 영상 중 일부 범위만을 문자 인식의 대상으로 하는 예를 설명하기 위한 도면이다. 도 9d는 번역된 결과를 전체 화면으로 사용자에게 제공되는 화면의 예이다.

본 발명은 촬영된 영상의 일부 또는 전체 범위를 선택하거나, 인식 또는 번역된 문자와 단어를 선택하는 데 있어서, 터치 스크린 또는 네비게이션 키와 같은 입력 수단들이 이용될 수 있다.

본 발명은 촬영된 영상에 포함된 문자를 문자로서 인식하고, 인식된 일련의 문자들로부터 단어를 구성해서 번역하기 위한 방법에 관한 발명으로서, 카메라로 촬영된 문자 영상에 포함된 문자를 인식하는 방법은 촬영된 영상에 포함된 문자 및 일련의 문자들로 구성된 단어를 인식하고 번역해서 사용자에게 그 위치 정보를 화면을 통해 제공하거나, 사용자가 선택한 화면 상의 위치에 존재하는 단어에 대해서 전자사전의 데이터 베이스와 연동해서 번역하고 그 결과를 사용자에게 직관적으로 제공하기 위한 인터페이스 등을 제공한다.

도 8은 본 발명의 제2 실시 예에 따른 문자 인식 및 번역 방법을 설명하기 위한 순서도이고, 도 16은 본 발명의 제3 실시 예에 따른 문자 인식 및 번역 방법을 설명하기 위한 순서도들이다. 본 발명의 제2 및 제3 실시 예는 크게 2가지 측면으로 요약될 수 있다.

첫째는 촬영된 문자 영상 인식 과정에서 사용자가 직접 문자 인식할 영역을 선택하며, 문자 인식된 개별 문자 또는 단어의 위치 영역 정보가 인식된 문자 영상이 제공되고 있는 화면 상에 직접 표시되는 점과, 사용자가 최종적으로 번역하고자 하는 문자열 또는 특정 단어를 선택하면 휴대 단말에 내장된 전자사전을 이용해서 해당 단어를 번역해서 사용자에게 직관적으로 제공하기 위한 일련의 과정들이다.

둘째는 중국어 또는 일본어와 같이 언어 구조상 띄어쓰기, 즉 영어와 다르게 단어 사이에 공백이 없는 언어에 있어서, 촬영된 영상에 포함된 문자들을 문자로서 인식하고 내장된 전자사전의 데이터 베이스를 이용해서 번역하며, 이 때에 단어별 띄어쓰기가 되어 있지 않은 문자열에 대해서 단어별 띄어쓰기 및 구분을 위한 기술적 방법들이다.

도 8을 참조하면, 본 발명의 제2 실시 예에 따른 촬영된 문자 영상에 포함된 문자의 인식 및 번역 방법은 (a) 피사체가 문자로서 촬영된 영상에서 인식하고자 하는 영역을 선택하는 과정과, (b) 문자 영상의 사용자가 선택한 영역에 포함된 문자들을 문자로서 인식해서 저장하는 과정과, (c) 상기 (b) 과정에서 인식된 문자들 및 단어들을 선택 가능한 형태로 사용자에게 제공하는 과정과, (d) 상기 (c) 과정에서 제공되는 선택 가능한 문자들 또는 단어들 중 번역하고자 하는 대상을 사용자가 선택하는 과정과, (e) 사용자가 선택한 문자 또는 단어들을 검색하는 과정 및 검색된 문자 또는 단어들을 검증하는 과정과, (f) 상기 (e) 과정에서 검증이 완료된 문자 또는 단어들의 번역 결과를 사용자에게 제공하는 과정과, g) 상기 (f) 과정 이후에 전자사전을 구동시키는 과정과, (h) 상기 (g) 과정에서 상기 전자사전이 구동된 상태에서 번역 결과를 제공하는 화면으로 복귀여부를 결정하는 과정과, (i) 다른 번역 대상의 단어를 선택하는 과정과, (j) 상기 (i)과정에서 다른 번역 대상의 단어를 선택하지 않을 경우에 다른 문자 영상 내의 인식 범위을 선택하는 과정과, (k) 상기 (j)과정에서 인식되지 않은 다른 문자 영상 내의 범위를 선택하지 않았을 경우에 다른 문자 영상의 인식 여부를 판단하는 과정을 포함하며, 상기 (f) 과정 이후에 전자사전을 구동시키기 위한 상기 (g) 과정은 전자사전을 직접 구동시킬 수 있는 수단을 화면을 통해 사용자에게 제공하고, 구동 수단이 선택되면 전자사전이 구동됨을 화면을 통해 사용자에게 제공한다.

상기 (a) 과정은 휴대 단말기 등에 포함된 화면을 통해서 제공되는 문자 영상 중에서 직접 사용자가 인식하고자 하는 영역을 설정하고, 설정된 영역의 위치 정보를 화면을 통해서 사용자가 쉽게 인지할 수 있도록 화면을 통해 제공되고 있는 문자 영상 상에 중복되도록 표시하기 위한 과정이다. 상기 (a) 과정은 터치 스크린의 드래그 또는 마우스의 포인팅 장치를 이용해서 인식하고자 하는 영역을 사용자가 설정할 수 있다.

상기 (b) 과정은 상기 화면에 표시된 문자 영상에 포함된 문자들을 인식하고, 인식된 개별 문자들을 디지털 문자 데이터의 형태로 저장 및 출력하기 위해서 문자 영상 인식 및 그 결과를 저장하기 위한 과정이다. 상기 (b) 과정은 사용자가 선택한 문자 영상 내의 영역에 포함된 문자들을 대상으로 인식을 실행함으로써, 문자 인식률 및 인식에 소요되는 시간을 단축시킬 수 있다.

상기 (c) 과정은 상기 화면을 통해 제공되는 문자 영상 위에 인식된 문자들로 구성된 모든 단어들의 위치 정보를 직접 제공하기 위한 과정으로서, 상기 (c) 과정은 상기 (b) 과정에서 인식된 문자들 및 단어들을 인식 이전 상태의 문자 영상이 제공되는 화면 상에 중복되는 형태로 사용자에게 제공하며, 상기 (b) 과정에서 인식된 문자들 및 단어들을 둘러싸는 색상이 있는 사각을 형성해서 사용자가 인식된 문자 또는 단어들을 선택할 수 있도록 제공하며, 사용자가 전체 문자 영상 중 일부만을 선택한 경우에는 사용자가 선택한 영역의 위치 정보에 포함된 단어 또는 문자들의 위치 정보만을 상술한 방법으로 제공한다.

상기 (d) 과정은 상기 (c) 과정에서 제공되는 선택 가능한 문자들 또는 단어들 중 번역하고자 하는 대상을 사용자가 선택하는 과정으로서, 상기 화면을 통해 제공되는 문자 영상 위에 그 위치 정보가 표시된 단어들 중에서 사용자가 선택하고자 하는 위치에 가장 근접한 곳에 위치된 단어 또는 문자열의 위치 정보를 그 이외의 단어 또는 문자열들(선택되지 않은)과 구분가능하도록 하이라이팅(highlighting)한다. 즉, 상기 (d) 과정은 단어 또는 문자열의 시작 위치와 종료 위치 사이의 중간 위치와, 사용자가 선택한 위치 사위의 거리를 산출해서 사용자가 선택한 위치와 가장 인접하게 위치된 단어 또는 문자들의 위치를 결정하고, 사용자에 의해 선택된 것으로 판단된 단어 또는 문자열의 위치가 이웃한 다른 단어 또는 문자열들에 비해서 상대적으로 사용자가 인지하기 쉽도록 해당 위치 정보(사용자가 선택한 단어 및 문자열 또는 사용자가 선택한 단어 및 문자열에 인접한 단어 및 문자열)가 선택되지 않은 단어들 또는 문자들 간 다른 색상 또는 다른 굵기를 갖도록 설정한다.

상기 (e) 과정은 사용자가 선택한 위치의 단어 또는 문자열을 검색어 단어로 설정해서 전자사전의 데이터베이스에 연동해서 검색하고, 그 결과를 검증하기 위한 과정이다. 도 23은 본 발명의 제2 실시 예의 문자열 후처리 및 전자사전 데이터 베이스에 연동 검색 후보 단어들의 구성 방법에 대한 순서도이다. 도 23을 참조하면, 상기 (e) 과정이 적용되는 대상이 중국어 또는 일본어와 같이 단어 간 공백이 없는 언어가 대상인 경우라면, 상기 (e) 과정은 상기 문자 영상에 대한 문자 인식 후 저장된 모든 문자열 데이터들을 로딩하는 과정과, 상기 로딩된 문자열들 속에 포함된 숫자 또는 특수기호들을 필터링하는 과정과, 상기 필터링하는 과정을 거친 문자열들을 전자사전과 비교해서 검색된 단어들을 분리하는 과정과, 상기 분리된 단어들 중에서 화면을 통해서 사용자가 직접 선택한 단어들에 대해서 전자사전과 연동해서 검색하는 과정을 포함할 수 있다. 상기 (e) 과정은 전자사전을 기반으로 인식된 문자들로 구성된 단어들을 검색하고, 검색된 단어들의 리스트에 포함된 표제어 또는 키워드를 상호 비교해서 번역된 내용을 검증한다.

도 10a 및 도 10b와, 도 11a 와 도 11b는 본 발명에 따른 구체적인 실시 영상의 예를 설명하기 위한 도면들이다. 도 10a와 도 10b는 실제 촬영 및 인식된 문장 영상 및 그 위에 직접 표시되어 있는 전자사전 데이터 베이스 검색어 후보 단어들의 위치 정보를 사각형의 형태로 표시한 것을 설명한다. 도 11a 내지 도 11c는 도 10a와 도 10b에 해당하는 일련의 과정들을 도식화하여 설명하기 위한 도면들이다. 최초 인식된 개별 문자 및 문자열들에 대한 후처리 및 최종 전자사전 검색어 후보 단어들의 구성이 순차적으로 이루어짐을 나타낸다.

도 10a는 화면에 표시된 문자 영상이고, 도 10b는 화면 영상 위에 문자 인식 후처리를 통해 구성된 단어들의 위치정보가 표시된 화면의 영상이다. 도 11a는 문자 영상 인식 결과 개별 문자 데이터이고, 도 11b는 단어 데이터 베이스를 이용해서 인식된 문자들이 후처리된 상태를 도시한 도면이고, 도 11c는 특수 문자 및 기호가 제거된 후의 최종 단어 구성된 상태를 도시한 도면이다.

상기 (f) 과정은 상기 화면에 표시된 문자 영상 위에 사용자에 의해 선택된 위치의 전자사전 데이터베이스 검색어에 대해서, 상기 전자사전 데이터베이스에서 검색된 사전 표제어 또는 키워드와 그에 해당하는 의미 정보를 사용자에게 직접 제공하기 위한 과정이다. 상기 (f) 과정에서 제공되는 번역 결과들은 사용자에게 제공되는 다른 영상 정보가 투영될 수 있는 반투명한 형태로 제공하고, 이전의 검색 결과와 중복될 경우에 이전 검색 결과와 중복되지 않도록 화면을 통해 사용자에게 제공된다.

본 실시 예에 따른 문자 영상의 인식 및 번역 방법은 사용자가 인식하고자 하는 영역을 선택적으로 지정할 수 있도록 화면 표시를 구성하는 부분과, 문자 인식된 결과 데이터 정보들 중에서 화면 장치에 표시된 인식 문자 영상 위에 인식된 해당 문자열 또는 단어들의 상대적인 위치 정보를 표시해서 사용자가 쉽게 구 정보를 구별할 수 있도록 화면 장치에 표시하는 과정과, 그 식별된 단어들 중에서 사용 자가 선택하고 그 선택된 단어에 대한 전자사전 검색 후 번역 연동 결과를 사용자에게 직관적으로 제공하는 과정들로 크게 구분할 수 있다.

촬영된 문자 영상에 포함된 문자들을 문자로서 인식하기 위한 방법은 도 3에 도시된 과정에 따른다. 도 3을 참조하면, 촬영된 문자 영상의 문자 인식 과정은 해당 문자 영상의 잡영 제거 및 영상 이진화(Binarization)와 같은 전처리 과정(410)과, 이후 개별 문자를 분리해서 정규화하는 과정(420)과, 개별 문자의 특징을 대변할 수 있는 개별 문자의 특징 추출 과정(430)과, 이후 추출된 각 문자의 특징은 이미 저장되어 있는 각 문자의 개별 특징들에 대한 데이터에 비교해서 가장 우선 순위가 높은 정보들(기 저장된 각 문자의 개별 특징들에 대한 데이터에 비교해서 가장 일치하는 결과)을 출력하는 특징 기반 문자 인식 과정(440)과, 인식된 문자인식 결과들을 분류하고 저장하는 후처리 과정(450)을 포함한다.

도 9의 a 내지 c는 문자 영상 인식 후 저장된 전체 인식 데이터의 구성 형태를 설명하기 위한 도면이다. 도 9a 내지 도 9c를 참조하면, 문자 영상 인식의 결과로서 개별 인식된 문자와 개별 문자로 이루어진 개별 단어 및 개별 단어들로 이루어지는 개별 문자열 라인의 구조, 최종적으로 문자열 라인으로 이루어지는 블록의 형태로 구성되는 내용들을 순차적으로 나타내고 있다. 일반적으로 영어와 같은 경우에는 개별 단어 사이에 띄어쓰기된 형태의 문자열에 대해서 단어들 사이의 공백에 대해서도 인식하여 그 결과를 출력하여 사용자가 개별 단어들을 직접 인지할 수 있도록 구성되어 있다. 깎러나 이하 연계된 내용으로 상세 설명들을 추가로 이어나갈 것이나, 중국어나 일본어와 같이 단어 간 띄어쓰기 형태의 문자열이 아닌 언어 에 대해서 문자 영상 인식을 수행하고자 할 때에는, 별도의 단어를 분리하는 과정을 더 거쳐야 한다. 상술한 문제를 해결하기 위해 사용되고 있는 방법은 크게 다음과 같이 구분될 수 있다.

첫 번째 방법은 문자 영상에 대한 개별 문자 인식 후, 해당 국가의 언어로 씌여진 문자열 문장에 대해서 개별 의미 있는 구성 요소별 단어들을 분리하는 형태소 해소 방법이다.

두 번째 방법은 개별 문자 인식 후 해당 언어에 대한 대규모 단어 리스트 데이터 베이스를 별도 이용해서 인식된 문자열 문장에 대해서 단어별로 분리해내는 과정을 이용하는 것이다. 그러나, 상술한 방범들은 별도로 대규모의 정보 및 휴대폰 메모리와 CPU와 같은 자용이 추가로 요구되며, 이로 인해서 현재의 휴대 단말기기에 적용하는데 상당한 제약이 따른다.

문자 인식을 수행하는 과정 중에 상기 전처리 과정(410)은 도 5에 도시된 바와 같이 인식하고자 하는 문자 영상 내의 영상 문자, 즉 문자색이 문자의 바탕색보다 더 밝은 경우에도 문자 인식이 가능하도록 문자 영상 전처리 단계에서 해당 영상을 처리하는 과정을 포함한다. 상술한 과정은 문자 인식기의 종류별 차이가 있을 수 있으나, 문자 인식기 구조 자체가 상술한 과정들을 직접 포함하는 형태로도 구성될 수 있다.

도 12는 사용자에 의한 전자사전 데이터 검색어 단어의 선택 방법의 실시 예를 설명하기 위한 것이다. 화면에 해당 위치가 표시된 검색어 후보 단어들 중에서 사용자가 도 12a에 도시된 바와 같이 위치를 선택한다면, 해당 검색어 후보 단어는 검색어 단어로 선택됨과 동시에 전자사전 데이터 베이스 연동 검색 번역 결과 정보로서 사용자에게 제공될 수 있다. 선택된 검색어 단어는 이웃한 다른 검색어 후보 단어들과 쉽게 구분될 수 있도록 다양한 방법들이 이용될 수 있다. 특히 검색어 후보 단어들 중에서 검색어 단어를 사용자가 선택할 대 직접 해당 단어의 위치 영역을 선택하지 않았더라도 화면 상에서 사용자가 선택한 영영 위치에 가장 인접한 검색어 후보 단어(도 12b의 사각)의 위치를 도 12c에 도시된 바와 같이 자동으로 계산해서 선택 가능하게 제시해 주는 방법을 포함해서 구성될 수 있다.

도 14는 사용자에 의해 선택된 검색어 단어와 검색된 전자사전의 키워드 또는 표제어가 일치하는 지에 대한 검증 과정을 설명하기 위한 순서도이다. 전자사전 검색 번역 결과를 화면을 통해서 제공하는 과정에서 사용자가 선택한 검색어 단어와 이에 대응되는 전자사전의 검색 결과 정보(사전 표제어 도는 키워드)가 서로 일치하는지 한 번 더 검증하기 위한 과정들이다. 도 14에 따른 검증 방법은 전자사전의 출력 결과가 원래 문자 영상에서 인식되어 선택된 검색어 단어에 대한 오인식될 가능성이 있는 경우에 사용자가 직관적으로 검증할 수 있는 방법을 제공할 수 있다. 특히, 전자사전 종류 별로 검색 기능이 상이할 수 있으며, 검색 기능이 상이한 경우에 해당 언어를 모르는 사용자는 제공되는 정보가 정확한 정보인지 알 수 없는 문제가 있다. 그러나, 도 14에 제시된 검증 과정들을 통해서 상술한 문제들을 해소시킬 수 있다.

도 15는 사용자가 선택한 검색어 단어에 대한 전자사전 데이터 베이스의 검색 결과를 화면 상에 표시하는 예들을 구체적으로 설명하기 위한 도면들로서, 문자 영상 전체 또는 일부 영역만을 대상으로 하는 결과를 화면상에 표시하는 방법들을 설명하기 위한 도면들이다. 도 15a와 도 15b는 상기 사용자가 선택한 전자사전 검색어 단어에 대한 전자사전 데이터 베이스의 검색 결과를 표시하는 화면들 각각의 예로서, 문자 영상의 전체 또는 일부 영역을 인식 대상으로 한 결과가 제공되는 화면들이다. 도 15a는 전자사전 데이터 베이스에서 검색된 사전 키워드(또는 표제어; 802)가 반투명 창의 형태로 표시되고 있으며, 상술한 사전 키워드(802)의 검색된 결과(803)도 별도의 반투명 창으로 사용자에게 제공된다. 도 15b는 사용자가 문자 영상의 일부 영역(804)만을 선택한 예이다. 도 15c와 도 15d는 사용자가 선택한 검색어 단어에 대한 전자사전 데이터 베이스 검색 결과를 표시하는 각각의 예로서, 도 15c는 화면의 하단에 표시되는 예이고, 도 15d는 화면 상단에 표시되는 예이다.

도 16은 본 발명의 제3 실시 예에 따른 문자 영상의 인식 및 번역 방법을 설명하기 위한 순서도이다. 도 16을 참조하면, 본 실시 예에 따른 휴대 단말기에 부착된 카메라를 이용하여 문자 영상을 촬영해서 문자 영상을 인식 및 번역해서 사용자에게 제공하기 위한 방법은 (a) 상기 카메라로 촬영된 문자 영상을 상기 화면을 통해 사용자에게 사용자가 선택가능하게 제공하는 과정과, (b) 상기 (a) 과정에서 사용자에 의해 선택된 문자 영상 내의 인식 대상 영역에 포함된 문자들을 인식하고, 인식된 개별 문자들을 저장하기 위한 과정과, (c) 상기 화면을 통해 제공되는 문자 영상 중 번역하고자 하는 영역을 선택하고자 하는 과정과, (d) 상기 (c) 과정에서 선택된 영역에 포함된 문자열들 후처리 하고, 후처리된 문자열에 포함된 개별 문자들로부터 검색어 후보 단어들을 구성하고, 검색어 후보 단어들 중에서 검색어 단어를 선정하는 과정과, (e) 상기 (d) 과정에서 선정된 상기 검색어 단어에 대응되는 전자사전의 데이터 베이스에서 검색된 결과를 사용자에게 제공하는 과정과, (f) 사용자가 선택적으로 휴대 단말기에 내장된 전자사전을 구동시키거나 종료시키는 과정을 포함한다.

상기 (a) 과정은 상기 화면 장치에 표시된 문자 영상 위에서 직접 사용자가 인식하고자 하는 문자 영상 영역을 선택하고 그 해당 선택 영역을 화면 장치에 표시된 문자 영상 위에 사용자가 쉽게 인지할 수 있도록 저장하고 표시하는 과정이고, 상기 (b) 과정은 상기 화면에 표시된 영역에 해당하는 문자 영상 영역에 한해서 문자 영상에 포함된 문자들을 인식하고, 인식된 개별 문자들을 디지털 문자 데이터의 형태로 출력 또는 저장하기 위한 문자 영상 인식 및 인식 결과 문자열들에 대한 정보를 저장하는 과정이다. 상기 (c) 과정은 상기 화면 장치에 표시된 문자 영상 위에서 사용자가 단어 번역을 위해서 선택하는 부분의 위치 정보를 저장하고, 해당 위치 정보와 가장 인접한 곳에 위치되며 이미 인식되어 저장된 문자 정보와 상기 문자 정보를 포함하는 위치에 존재하는 하나의 문자열을 호출하는 과정이다.

상기 (d)과정은 상기 (c)과정에서 호출된 하나의 문자열에 대해서 이 문자열에 포함된 문자를 제외한 숫자 및 특수 기호 등을 필터링시키기 위한 선택된 문자열의 후처리 과정과, 상기 후처리된 문자열에 대해서 문자열에 포함된 개별 문자들을 이용해서 전자사전의 데이터 베이스 검색을 위한 검색어 후보 단어들을 구성하고 검색된 후보 단어들 중에서 최종 전자사전 데이터 베이스 검색어 단어를 선택하는 과정을 포함한다. 상기 (e)과정은 상기 화면에 표시된 문자 영상 위에 상기 선 정된 전자사전 데이터 베이스의 검색어 단어에 대응되는 상기 전자사전 데이터 베이스에서 검색된 결과에 해당하는 사전 표제어 또는 키워드와 의미 정보를 직접 제공하는 과정이고, 상기 (f)과정은 상기 화면에 표시된 문자 영상 위에 상기 선정된 전자사전 데이터 베이스 검색어 단어를 전자사전의 표제어 또는 키워드로 사용해서 사용자가 선택적으로 상기 휴대 단말기에 내장된 전자사전을 직접 구동시키거나 종료하는 과정이다. 본 실시 예는 중국어 및 일본어의 단어에 대한 전자사전 연동 번역시 효과적인 방법을 제공할 수 있으며, 한국어의 복합 명사 등과 같이 의미가 있는 단어별 띄어 쓰기가 이루어지지 않는 언어에 대해서도 해당 복합 명사 단어의 의미 있는 개별 단어에 대해서도 전자사전을 통한 번역 결과를 사용자에게 제공할 수 있다.

본 실시 예는 휴대용 단말기기 등에 내장된 전자사전의 데이터 베이스의 정보를 직접 이용함으로써 실제 번역하고자 하는 검색어 단어를 구별해내고, 최종적으로 사용자에 의해 선택된 단어에 대해서 다시 전자사전 데이터 베이스의 연동 검색함으로써 정확한 번역 결과를 얻을 수 있다.

도 17은 도 16의 (d) 과정을 구체적으로 설명하기 위한 순서도이다. 상기 (d)과정을 실행할 수 있는 방법은 크게 두 가지가 제시될 수 있으며, 도 17은 그 중 첫 번째 방법을 설명하기 위한 도면이다.

상기 (d) 과정은 (d-1) 사용자에 의해 그 위치가 선택된 문자열의 후처리 단계 이후, 전자사전 데이터 베이스 검색이 가능한 최대 문자열 길이를 설정하고, 사용자에 의해 선택된 위치에 해당하는 문자를 기준으로 좌측에서부터 시작되는 최대 문자열 길이에 해당하는 개수의 문자들로 이루어진 전자사전 데이터 베이스 검색어 후보 문자열을 구성하는 과정과, (d-2) 상기 전자사전 데이터 베이스 검색어 후보 문자열을 단어로 가정해서 전자사전 데이터 베이스와 연동 검색하고, 검색 결과가 상기 전자사전 데이터 베이스에 존재하는지를 판단하는 과정과, (d-3) 상기 검색어 후보 문자열이 전자사전 데이터 베이스에 존재하지 않을 경우에, 상기 후보 문자열의 길이 및 포함된 문자들을 변경해서 전자사전 데이터 베이스 검색어 후보 문자열을 갱신하는 과정(S47)과, (d-4) 갱신된 전자사전 데이터 베이스 검색어 후보 문자열을 단어로 가정해서 전자사전 데이터 베이스와 연동해서 검색하고, 상기 단어로 가정된 문자열에 대한 전자사전 데이터 베이스 검색 결과가 있는 경우에 전자사전 데이터 베이스 검색 선정을 완료하고, 해당 검색 결과를 화면을 통해 제공하는 과정을 포함한다.

상기 (d-1)과정은 사용자가 선택한 화면 상의 위치와 가장 인접한 곳에 위치된 문자가 포함된 인식 문자열을 호출하는 과정(S41)과, 인식된 문자열에서 숫자 및 특수기호들을 제거하는 과정(S42)과, 최초 전자사전 데이터 베이스 검색용 단어를 구성하기 위한 최대 문자열의 길이를 설정하는 과정(S43)과, 설정된 최대 문자열의 길이에 해당하는 전자사전 데이터 베이스 검색어 후보 문자열을 구성하는 과정(S44)를 포함한다. 상기 (d-2)과정은 구성된 후보 문자열을 단어로 가정하여 전자사전 데이터 베이스에 존재하는 검색하는 과정(S45)과, 검색어 단어가 전자 사전의 데이터 베이스에 존재하는지를 판단하는 과정(S46)을 포함한다. 상기 (d-4)과정은 상기 (d-3)의 과정(S47) 이후에 상기 (d-2)과정(S45, S46)을 다시 반복한 후, 전자사전 데이터 베이스 검색어 단어 선정 완료 정보를 전송하는 과정(S48)을 진행한 후 종료된다.

도 19와 도 20은 도 17의 인식된 문자열의 후처리 및 전자사전 데이터 베이스 검색어 단어 선정 방법이 실행된 예를 도시한 도면이다. 도 19a는 화면에 표시된 촬영 문자 영상 위에서 전자사전 데이터 베이스의 검색 대상인 개별 문자를 선택하는 화면 예이고, 도 19b는 문자 영상 위에 전자사전 데이터 베이스 검색어의 위치정보가 표시된 화면 예이다. 도 20의 (a) 내지 (f)는 전자사전 데이터 표제어를 이용해서 후처리된 문자열에 대한 단어별 라벨링 실시 예이고, 도 20의 (g)는 라벨링된 단어들 중에서 사용자에 의해 선택된 위치 영역의 단어를 전자사전 데이터 베이스 검색어 단어로 선정한 예를 보이기 위한 도면이다.

도 18은 도 16의 (d) 과정을 구체적으로 설명하기 위한 순서도로서, 그 중 두번째 방법을 설명하기 위한 도면이다. 도 18의 방법이 도 17의 방법과 다른 점은 사용자에 의해 선택된 특정 개별 문자의 위치가 아니라, 그 개별 문자의 위치 정보가 포함된 해당 문자열 전체를 이용한다는 점이다. 즉, 사용자에 의해 선택된 문자의 위치가 포함된 해당 문자열 전체에 대해서, 휴대 단말에 내장된 전자사전 데이터 베이스의 사전 표제어 도는 키워드 정보를 이용해서 해당 문자열을 구성하고 있는 단어들을 구분하고, 구분된 단어들 중에서 사용자가 최초 선택하였던 위치 영역의 개별 문자를 포함한 단어를 전자사전 검색어 단어로 선정하는 방법이다. 그 구체적 방법은 화면에서 사용자의 선택 위치와 가장 가까운 곳에 위치된 문자가 포함된 인식 문자열 호출 과정(S51), 인식된 문자열에서 숫자 및 특수기호를 제거하는 과정(S52), 문자열의 처음부터 끝까지 전자사전 데이터 베이스에서 검색된 표제어 단어를 기반으로 라벨링(labeling) 실시하는 과정(S53), 동일한 값을 라벨링된 문자들끼지 하나의 단어로 구성해서 연속된 단어들을 구성하는 과정(S54), 연속된 단어들 중에서 사용자가 선택한 위치정보를 포함하는 단어를 최종 전자사전 데이터 베이스 검색어 단어로 선정하고 완료 정보를 전송하는 과정(S55)을 포함한다.

도 21은 사용자가 선택한 검색어 단어에 대한 전자사전 데이터 베이스 검색 결과를 표시하는 방법에 있어서 전체 문자 영상 또는 문자 영상의 일부분을 선택한 실제 사진 예를 보여주기 위한 도면이다. 도 21의 (a)는 전체 문자 영상의 전체를 인식 대상으로 한 결과이고, 도 21의 (b)는 사용자에 의해 선택된 일부 영역(실선)를 대상으로 한 결과이다.

도 22와 도 23은 문자 영상에서 인식된 문자로 구성된 전자사전 데이터 베이스 검색어 단어를 사전 연동 번역한 결과를 화면을 제공된 상태로서, 보다 더 자세한 번역 결과 정보를 얻기 위해서 휴대 단말에 내장된 전자사전을 직접 연동 실행하는 방법 및 실시 예를 도시한 도면이다. 도 22의 (a)는 번역된 결과를 문자 영상 상에 중복되게 제공되는 상태의 예이고, 도 22의 (b)는 전자사전에 의해 단어의 구체적 결과를 제공하는 상태의 예이다.

도 23은 전자사전을 실행하는 과정을 설명하기 위한 도면으로서, 전자사전 실행 메뉴 선택, 전자사전 데이터 베이스 검색어 임시 메모리 저장, 전자사전 데이터 베이스 검색어를 전자사전 인터페이스 부분에 전달, 전자사전 실행과 동시에 전자사전 데이터베이스 검색어를 전자사전 키워드로 전환하는 과정들을 포함한다.

도 1은 종래의 문자 인식 방법을 설명하기 위한 순서도,

도 2는 본 발명의 제1 실시 예에 따른 문자 인식 방법을 설명하기 위한 순서도,

도 3은 도 2에 도시된 문자 인식 과정을 설명하기 위한 순서도,

도 4는 도 3에 도시된 전처리 과정을 설명하기 위한 순서도,

도 5는 도 4에 도시된 후전처리 과정를 설명하기 위한 순서도,

도 6a 내지 도 7d는 본 발명에 따른 문자 인식 방법의 구현 예를 설명하기 위한 도면들,

도 8은 본 발명의 제2 실시 예에 따른 문자 인식 및 번역 방법을 설명하기 위한 순서도,

도 9a 내지 도 9c는 문자 영상 인식 후 저장된 전체 인식 데이터의 저장 방법의 구체적인 예들을 설명하기 위한 도면들,

도 10과 도 11은 도 3의 문자 인식 과정을 실행한 예들을 설명하기 위한 도면들,

도 12는 본 발명의 제2 실시 예에 따른 문자 인식의 실행을 실시한 예를 설명하기 위한 도면,

도 13은 선택된 단어의 위치 정보를 사용자에게 제공하기 위한 방법들을 설명하기 위한 도면,

도 14는 사용자가 선택한 검색어 단어와 검색된 전자사전의 키워드 간 일치 여부를 검증하기 위한 방법을 설명하기 위한 순서도,

도 15는 사용자가 선택한 검색어 단어와 전자 사전 데이터 베이스의 검색 결과를 화면 상에 표시하는 예를 보여주기 위한 도면,

도 16은 본 발명의 제3 실시 예에 따른 문자 영상으로부터 문자를 인식하고 단어를 번역하기 위한 방법을 설명하기 위한 순서도,

도 17은 전자사전 데이터 베이스 검색어 단어의 선정 방법의 일 예를 설명하기 위한 순서도,

도 18은 전자사전 데이터 베이스 검색어 단어의 선정 방법의 또 다른 예를 설명하기 위한 순서도,

도 19와 도 20은 검색어 단어를 선정하기 위한 방법의 예를 설명하기 위한 도면들,

도 21은 문자 영상 전체 또는 부분 인식시 전자사전 데이터 베이스의 검색 결과가 제공되는 차이를 설명하기 위한 도면,

도 22는 휴대 단말기에 내장된 전자사전을 연동한 상태를 보여주기 위한 도면,

도 23은 도 22의 휴대 단말기에 내장된 전자사전을 연동하기 위한 방법을 설명하기 위한 순서도.

Claims

카메라로 촬영된 문자 영상에 포함된 문자열 또는 단어를 인식하고, 내재된 전자사전 데이터 베이스를 이용해서 인식된 특정 문자열 또는 단어를 다른 언어로 번역하는 방법에 있어서,

사용자가 선택한 문자 영상 영역 안에 포함된 문자열 또는 단어들을 인식하고, 인식된 문자열에 대해서 인식 후처리를 실시해서 상기 촬영된 문자 영상에서 문자열 또는 단어를 인식하는 과정과;

인식 후 처리된 문자열에 포함된 단어 중 사용자가 선택한 문자 또는 단어를 전자사전 데이터 베이스와 연동 검색해서 검색된 단어에 대한 번역 결과 정보를 화면 장치에 표시하는 인식된 특정 문자열 또는 단어를 다른 언어로 번역하는 과정을 포함하며,

상기 문자 인식 과정은 선택된 문자 영상 영역의 위치 및 인식된 문자열 또는 단어의 위치 정보를 사용자에게 제공해서, 사용자가 선택한 위치 영역의 문자열 또는 단어의 번역을 지시하는 사용자 인터페이스 과정을 포함하고,

상기 사전 연동해서 검색 및 번역하기 위한 과정은 상기 사용자 인터페이스 단계에서 선택된 문자 또는 단어를 전자사전 데이터 베이스와 연동 검색해서 그 번역 결과를 상기 사용자 인터페이스 과정을 통해 사용자에게 제공함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제1 항에 있어서, 상기 사용자 인터페이스 과정은,

(a) 카메라로 촬영한 문자 영상을 화면 장치에 표시한 후 문자 영상을 인식하기 위한 인식 대상 영역 범위를 선택함에 있어서, 선택 중인 또는 선택 완료된 인식 영역의 위치를 화면 장치에 표시된 문자 영상 위에 직접 표시해서 사용자가 그 선택 과정과 선택 결과를 직관적으로 확인할 수 있도록 사용자 인터페이스를 구성하는 단계와;

(b) 인식된 문자 영상 영역의 해당 문자 인식 결과 중에서, 사용자가 번역하고자 하는 단어가 인식되었는지 판단할 수 있도록 인식된 단어들의 상대적인 위치 정보를 문자 영상 위에 직접 표시하는 단계와;

(c) 인식된 문자 영상 영역에 포함된 인식된 복수개의 단어들 중에서 사용자에 의해 선택된 위치의 단어 및 그에 해당하는 전자사전 데이터 베이스에서 검색된 번역 정보를 화면 장치에 표시된 문자 영상 위에 직접 표시하는 단계를 포함하며,

상기 사용자 인터페이스 과정은 문자 영상 및 전자사전 데이터 베이스 연동 기능을 제공함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제2 항에 있어서, 상기 사용자 인터페이스 과정은,

(d) 사용자가 최초 선택한 문자 또는 단어 이외의 다른 문자 또는 단어의 선택 여부를 확인해서 사용자가 다른 문자 또는 단어를 선택할 경우 상기 (c) 단계로 복귀하는 단계와;

(e) 사용자가 인식된 문자 또는 단어에 대해 선택하지 않은 경우에 상기 (a) 단계로의 복귀 여부를 사용자에게 확인하는 단계를 더 포함함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제2 항에 있어서,

상기 (a) 단계에서 사용자가 촬영된 영상의 전체를 문자 인식의 대상 영역으로 선택한 경우에, 상기 문자 또는 단어 인식 및 번역 과정으로 진행함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제1 항에 있어서, 상기 후처리 단계는,

인식된 문자열에서 문자가 아닌 특수 문자 또는 숫자들을 필터링하기 위한 단계와;

인식된 개별 문자들로부터 단어를 구성하고, 구성된 단어를 연동된 사전 데이터를 검색해서 사전적 의미를 확인하는 단계와;

인식된 문자 또는 단어를 상기 사용자 인터페이스 과정의 (c) 단계를 통해서 사용자에게 제공하는 단계를 포함함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
문자가 포함된 피사체를 카메라로 촬영한 문자 영상에 포함된 문자열 또는 단어들을 인식하고 번역해서 그 결과를 화면 장치를 통해 사용자에게 제공하기 위한 방법에 있어서,

(a) 촬영된 문자 영상에서 인식하고자 하는 영역을 사용자가 직접 선택하며 그 선택되고 있는 영역 정보를 실시간으로 확인할 수 있는 사용자 인터페이스를 포함하는 과정과;

(b) 사용자가 선택한 영역에 포함된 문자들을 문자로서 인식해서 저장하는 과정과;

(c) 상기 (b) 과정에서 인식된 문자 또는 문자열 중에서 화면 장치에 표시되어 있는 문자 영상 위에서 사용자가 선택한 영역에 위치한 문자 또는 단어를 포함하는 위치에 존재하는 문자열에 대해서 특수 문자나 숫자를 필터링하는 후처리 단계를 실시한 후, 전자사전 데이터 베이스에 있는 단어들을 이용해서 선택 가능한 단어들의 형태로 분리해서 그 결과 정보를 임시 저장하는 과정과;

(d) 상기 (c) 과정에서 임시 저장된 단어들 중에서 사용자가 최초 선택한 영역에 위치한 단어에 대해서 전자사전의 데이터 베이스와 연동해서 검색하고 그 결과를 검증하는 과정과;

(e) 상기 (d) 과정에서 검증이 완료된 단어의 번역 결과를 사용자에게 제공하는 과정을 포함함을 특징으로 하는 카메라 기반 문자 영상의 문자 인식 및 번역
제6 항에 있어서,

피사체가 문자로서 촬영된 영상에서 인식하고자 하는 영역을 선택하기 위한 상기 (a) 과정은 터치 스크린의 드래그 또는 마우스의 포인팅 장치를 이용해서 실행됨을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제6 항에 있어서,

상기 (b) 과정은 사용자가 선택한 문자 영상 내의 영역에 포함된 문자들을 대상으로 인식을 실행하고 개별문자 및 개별 문자의 위치 정보, 개별문자로 구성된 단어 및 단어의 위치 정보, 단어로 구성된 라인 및 라인의 위치 정보, 일련의 라인으로 구성된 블록 및 블록의 위치 정보, 일련의 블록 및 해당 블록의 위치 정보 등의 구조의 형태로 인식 결과를 저장함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제6 항에 있어서,

상기 (d)과정에서 사용자에 의해 선택된 단어의 문자 영상에서의 상대적인 위치 정보는 인식 이전 상태의 문자 영상이 제공되는 화면 상에서 해당 단어를 둘 러싸는 색상이 있는 사각형과 같은 하이라이팅 표시 등이 중복되는 형태로 사용자에게 제공되며,

사용자가 전체 문자 영상 중 일부만을 선택한 경우에는 사용자가 선택한 영역의 위치 정보에 포함된 단어 또는 문자들의 위치 정보만을 제공함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제6 항에 있어서,

상기 (d) 과정에서 사용자가 실제 정확하게 번역할 단어의 위치를 지정하지 않더라도 사용자가 선택한 위치와 인식된 단어들의 위치 사이의 거리 차이를 계산해서 가장 짧은 거리에 위치한 단어를 전자사전 연동해서 번역함을 특징으로 하는 카메라 촬영 기반 영상의 문자 인식 및 번역 방법.
제6 항에 있어서, 번역의 대상이 중국어 또는 일본어와 같이 단어 간 공백이 없는 언어가 대상인 경우에 있어서, 상기 (c) 과정은,

상기 문자 영상에 대한 문자 인식 후 저장된 모든 문자열 데이터들을 로딩하는 과정과;

상기 로딩된 문자열들 속에 포함된 숫자 또는 특수기호들을 필터링하는 과정과;

상기 필터링하는 과정을 거친 문자열들을 전자사전과 비교해서 검색된 단어들을 분리하는 과정과;

상기 분리된 단어들 중에서 화면을 통해서 사용자가 직접 선택한 단어들에 대해서 전자사전과 연동해서 검색하는 과정을 포함함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제6 항에 있어서,

상기 (e) 과정에서 제공되는 번역 결과들은 사용자에게 제공되는 다른 영상 정보가 투영될 수 있는 반투명한 형태로 제공하고, 이전의 검색 결과와 중복될 경우에 이전 검색 결과와 중복되지 않도록 화면을 통해 사용자에게 제공됨을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법,
제6 항에 있어서, 카메라 기반 영상의 문자 인식 및 번역 방법에 있어서,

(f) 상기 (e) 과정 이후에 전자사전을 구동시키는 과정과;

(g) 상기 (f) 과정에서 상기 전자사전이 구동된 상태에서 번역 결과를 제공하는 화면으로 복귀 여부를 결정하는 과정과;

(h) 다른 번역 대상의 단어를 선택하는 과정과;

(i) 상기 (h)과정에서 다른 번역 대상의 단어를 선택하지 않을 경우에 다른 문자 영상 내의 인식 범위을 선택하는 과정과;

(j) 상기 (i)과정에서 인식되지 않은 다른 문자 영상 내의 범위를 선택하지 않았을 경우에 다른 문자 영상의 인식 여부를 판단하는 과정을 더 포함하고;

상기 (e) 과정 이후에 전자사전을 구동시키기 위한 상기 (f) 과정은 전자사전을 직접 구동시킬 수 있는 수단을 화면을 통해 사용자에게 제공하고, 구동 수단이 선택되면 전자사전이 구동됨을 화면을 통해 사용자에게 제공함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제6 항에 있어서, 상기 (c) 과정은,

사용자에 의해 그 위치가 선택된 문자열의 후처리 과정 이후에 문자열의 시작 문자부터 종료 문자까지 순차적으로 휴대 단말기에 내장된 전자사전 데이터 베이스의 표제어 또는 키워드 단어와 직접 연동해서 검색해서 최종 전자사전 데이터 베이스 검색 단어로 선정 가능한 후보 단어들을 획득하여 별도로 저장하는 과정과;

상기 과정에서 저장된 복수의 후보 단어들 중에서 사용자가 최초 선택한 위치에 해당하는 위치 정보를 포함하는 후보 단어를 최종 전자사전 데이터 베이스 검색 단어로 선정하는 과정을 포함함을 특징으로 하는 카메라 기반 영상의 문자 인식 및 번역 방법.
제14 항에 있어서, 중국어 또는 일본어와 같이 개별 단어들 사이를 분리하는 공백이 없는 언어의 문자열에 대한 전자사전 데이터 베이스 검색어 단어를 구성해서 검색하고자 하는 경우에 있어서,

해당 언어의 단어들의 길이별 빈도를 감안해서 최초 전자사전 데이터 베이스를 검색할 후보 문자열의 최대 길이를 설정하는 과정과;

상기 검색어 후보 문자열이 전자사전 데이터 베이스에 존재하지 않는 경우에 후보 문자열의 길이를 줄여서 포함된 문자열을 변경해서 전자사전 데이터 베이스 검색어 후보 문자열을 갱신하는 과정을 포함함을 특징으로 하는 카메라 촬영 기반 문자 영상 인식 및 번역 방법.