KR20170101125A

KR20170101125A - 정보 처리장치, 정보 처리방법, 및 기억매체

Info

Publication number: KR20170101125A
Application number: KR1020170022663A
Authority: KR
Inventors: 히로마사 카와사키
Original assignee: 캐논 가부시끼가이샤
Priority date: 2016-02-26
Filing date: 2017-02-21
Publication date: 2017-09-05
Also published as: JP2017151916A; CN107133615B; US10395131B2; US20170249526A1; JP6808330B2; KR102090973B1; CN107133615A

Abstract

문자를 포함하는 화상 위에서 유저가 자신의 손가락 등을 사용해서 범위 지정을 행해서 원하는 문자열을 추출하는 경우에, 원하는 문자열에 인접하는 위치에 놓인 특정 문자(스페이스 등)가 의도하지 않게 선택 범위에 포함되어 버리는 것을 방지한다. 화상에 포함되는 각 문자에 대응하는 문자 영역을 식별하고, 해당 식별된 문자 영역마다 문자 인식 처리를 행한다. 그리고, 문자 인식 처리의 결과로부터, 특정 문자를 판정하고, 해당 판정된 특정 문자에 대응하는 문자 영역을 확대한다. 그리고, 표시된 화상에 있어서 유저에 의해 선택된 범위를 취득하고, 해당 선택된 범위 내에 포함되는 복수의 문자 영역에 대응하는 문자 인식 결과를 출력한다.

Description

정보 처리장치, 정보 처리방법, 및 기억매체{INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND STORAGE MEDIUM}

본 발명은, 문자를 포함하는 화상에 대한 문자 인식 기술에 관한 것이다.

문자를 포함하는 화상 내의 문자 영역에 대해 문자 인식 처리(OCR 처리)를 행하고, 문자 인식 처리의 결과로부터 원하는 범위를 선택해서 임의의 문자열 만을 추출해서, 이 문자열을 전자 데이터로 변화하는 기술이 있다. 이에 따라, 화상 중의 인명과 주소 등의 특정한 문자열을 주소록에 등록하고, 문자열을 인쇄하는 것이 가능하게 된다. 그리고, 화상 내의 문자 영역으로부터 특정한 범위를 선택하는 기술로서는, 터치패널 상에서의 손가락의 조작에 의해 원하는 범위를 선택하는 수법이나, 프로젝터에 의해 투영된 조작 화면 상에서의 손가락의 움직임을 카메라로 인식해서 원하는 범위를 선택하는 수법이 존재한다.

전술한 것과 같은 터치패널 상에서의 손가락 등의 조작에 의한 범위 지정 수법이나, 카메라로 손 끝의 움직임을 인식하는 것에 의한 범위 지정의 수법에서는, 세밀하게 범위를 지정하는 것이 곤란해서, 선택하고 싶은 범위의 경계 부근에 위치한 문자나 구두점 등의 기호도 선택 범위에 포함되어 버린다고 하는 문제가 있다. 도 1a 내지 도 1c는, 명함을 스캔해서 얻어진 명함 화상의 문자 인식 결과로부터, 손가락으로 인명 부분 만을 선택하는 방식을 도시한 도면이다. 도 1a는 명함을 광학적으로 판독하여 얻어진 화상(명함 화상)을 나타내고, 도 1b는 문자 인식 결과로부터 인명 "Johnn A. Smith"의 부분을 손가락으로 범위 지정해서 선택하는 방식을 나타내고 있다. 횡서의 이 예에서는, 인명을 둘러싸는 사각형(104)의 경계 부근에 위치하는 스페이스와 콤마를 포함하여 범위가 선택된다. 그 결과, 실제로 선택되는 문자열은 도 1c에 도시된 것이 된다.

문자 인식 결과에 있어서의 구두점 등의 위치를 조정하는 기술로서는, 예를 들면, 일본국 특개 2015-103114호 공보에 개시된 기술이 있다. 일본국 특개 2015-103114호 공보에는, 문서의 화상에 대해 문자 인식 처리를 실행해서 텍스트 데이터를 취득하고, 해당 취득한 텍스트 데이터를 원래의 화상 내에 매립하는 경우에, 텍스트 데이터의 위치가 대응하는 문자 화상의 위치와 일치하도록 위치조정을 행하는 기술이 개시되어 있다. 일본국 특개 2015-103114호 공보에 따르면, 스페이스, 구두점 등이 존재해도, 매립할 텍스트 데이터의 위치와 그것에 대응하는 문자 화상의 위치가 일치하도록 위치 조정하는 것이 가능하다. 그렇지만, 매립할 텍스트 데이터를 유저가 손 끝 등으로 선택하여 정확한 범위 지정을 할 수 없는 경우, 조정 그 자체를 행하는 것이 불가능하다. 따라서, 본 발명의 목적은, 문자를 포함하는 화상 위에서 유저가 자신의 손가락 등을 사용해서 범위 지정을 행해서 원하는 문자열을 추출하는 경우에, 원하는 문자열에 인접하는 위치에 놓인 스페이스 등의 기호가 의도하지 않게 선택 범위에 포함되어 버리는 것을 방지하는 것이다.

본 발명에 따른 장치는, 화상에 포함되는 각 문자에 대응하는 문자 영역을 식별하는 것과, 식별된 상기 문자 영역마다 문자 인식 처리를 행하는 것과, 상기 문자 인식 처리의 결과로부터 특정 문자를 판정하는 것과, 판정된 상기 특정 문자에 대응하는 상기 문자 영역을 확대하는 것과, 상기 화상을 표시하는 것과, 표시된 상기 화상에 있어서 유저에 의해 선택된 범위를 취득하는 것과, 상기 선택된 범위 내에 포함되는 복수의 문자 영역에 대응하는 문자 인식 결과를 출력하는 것을 행하는 장치이다.

본 발명에 따르면, 문자를 포함하는 화상 위에서 유저가 자신의 손가락 등을 사용해서 범위 지정을 행해서 원하는 문자열을 추출하는 경우에 있어서, 원하는 문자열에 인접하는 위치에 놓인 스페이스 등의 기호가 의도하지 않게 선택 범위에 포함되어 버리는 것을 방지할 수 있다.

본 발명의 또 다른 특징은 (첨부도면을 참조하여 주어지는) 이하의 실시형태의 상세한 설명으로부터 명백해질 것이다.

도 1a 내지 도 1c는, 명함 화상의 문자 인식 결과로부터, 손가락으로 인명 부분 만을 선택하는 방식을 도시한 도면이다.
도 2는, 정보처리 시스템의 구성 예를 도시한 도면이다.
도 3은, 문자 인식 결과로부터 임의의 문자열을 선택해서 전자 데이터로 변환할 때까지의 처리의 흐름을 나타낸 흐름도다.
도 4a는, 명함 화상의 문자 속성 영역 중, 직함을 포함하는 인명 부분에 대응하는 영역을 나타내고 있다.
도 4b는, 문자 속성 영역에 대해 각각의 문자에 대한 영역 인식을 행한 결과를 나타내고 있다.
도 4c은, 변경 후의 문자 단위 영역을 나타낸 도면이다.
도 4d는, 유저에 의해 선택된 범위의 일례를 나타낸 도면이다.
도 4e는, 특정 문자의 각 인접 문자의 변경후의 문자 단위 영역을 나타낸 도면이다.
도 5는, 문자 인식 결과 테이블의 일례다.
도 6은, 실시예 1에 따른 문자 단위 영역 변경 처리의 상세를 나타낸 흐름도다.
도 7은, 실시예 2에 따른 문자 단위 영역 변경 처리의 상세를 나타낸 흐름도다.
도 8은, 실시예 3에 따른 문자 단위 영역 변경 처리의 상세를 나타낸 흐름도다.

이하, 첨부도면을 참조하여, 바람직한 실시예에 따라 본 발명을 더욱 상세히 설명한다. 이하의 실시예에 나타낸 구성은 단지 일례로서, 본 발명은 개략적으로 도시된 구성에 한정되지 않는다.

[실시예 1]

예를 들면, 명함으로부터 인명 부분 만을 추출해서 인명 부분을 전자 데이터로 변환하고 싶은 경우(전술한 도 1a 내지 도 1c를 참조), 인명의 전후에 놓인 스페이스와 콤마는 불필요하다. 그렇지만, 터치패널 상에서 손가락의 조작에 의해 범위 선택을 행하는 경우나, 카메라로 손 끝의 움직임을 인식해서 범위 선택을 행하는 경우에, 범위를 미세하게 지정하는 것이 곤란해서, 원하는 문자열 부분의 경계와 접하는 스페이스, 콤마 등을 의도하지 않게 선택해 버릴 가능성이 있다. 본 실시예에서는, 스페이스나 콤마 등의 의도하지 않는 기호가 전술한 것과 같은 범위 선택의 조작시에 포함되기 어려워지도록, 각각의 문자에 할당되는 영역의 크기를 조정한다. 이하, 상세히 설명한다.

도 2는, 본 실시예에 따른 정보처리 시스템의 구성 예를 도시한 도면이다. 도 2에 나타낸 정보처리 시스템(100)은, 정보 처리장치인 PC(110)과, 스캐너 기능 등의 복수의 기능을 갖는 MFP(Multi Function Peripheral)(120)를 포함하고, 양자가 네트워크(130)에 접속된 구성으로 되어 있다. 네트워크(130)는, 예를 들면, LAN, WAN 등이다.

PC(110)은, 콘트롤부(111), 대용량 기억부(112), UI부(113) 및 네트워크 인터페이스(114)를 구비한다. 콘트롤부(111)는 CPU와 메모리로 구성되고, PC(110) 전체의 제어를 주관한다. 문자 인식 결과로부터 임의의 문자열을 선택해서 문자열을 전자 데이터로 변환하는 처리를 포함하는 각종의 처리는, CPU가 ROM 등에 격납된 프로그램을 RAM에 판독해서 전개하고, 프로그램을 실행함으로써 실현된다. 네트워크 인터페이스(114)는, 네트워크(130)를 거쳐 MFP(120)과 각종 데이터를 통신하기 위한 인터페이스다. 대용량 기억부(112)는, 예를 들면, 하드디스크 드라이브와 플래시 메모리로 구성되고, OS와 프로그램 이외에, MFP(120)로부터 받은 스캔 화상 등의 데이터를 격납한다. UI부(113)는 유저가 입력 조작을 행하기 위한 유저 인터페이스이며, 전술한 범위 선택을 행하는 것이 가능한 터치패널 기능을 갖고 있다. 또한, UI부(113)는, 키보드, 마우스 등을 구비하고 있어도 된다. 그리고, 상기 각 부는, 버스(115)를 거쳐 서로 접속되어 있다. UI부(113)의 구성은 전술한 것에 한정되지 않는다. 예를 들면, 프로젝터에 의해 화상을 투영하고, 해당 투영된 화상에 대한 손 끝의 위치를 카메라로 촬영해서 손 끝의 움직임을 인식함으로써, 전술한 범위 선택을 포함하는 유저의 입력 조작을 접수하는 것이 가능해도 된다.

MFP(120)은, 콘트롤부(121), 스캐너부(122), 프린터부(123), UI부(124) 및 네트워크 인터페이스(125)를 구비한다. 콘트롤부(121)는, MFP(120)의 각 부를 총괄적으로 제어한다. UI부(102)는, 유저가 각종의 조작을 행하기 위한 버튼과 각종의 정보를 표시하도록 구성된 표시부(예를 들면, LCD)를 구비한다. 스캐너부(122)는, 미도시의 판독대에 세트된 문서(명함과 엽서를 포함한다)를 광학적으로 읽어내서 화상 데이터(스캔 화상 데이터)를 생성한다. 생성된 스캔 화상 데이터는 콘트롤부(121)에 의해 네트워크 인터페이스(125)를 거쳐 PC(110)에 보내진다. 프린터부(123)는, 콘트롤부(121)에서 처리된 다양한 종류의 화상 데이터를 인쇄해서 출력한다.

도 3은, PC(110)에 있어서, 문자열을 포함하는 화상에 대해 문자 인식 처리를 행하고, 얻어진 문자 인식 결과로부터 임의의 문자열을 선택해서 문자열을 전자 데이터로 변환할 때까지의 처리의 흐름을 나타낸 흐름도다. 본 실시예에서는, 횡서의 명함 화상으로부터 인명 부분을 추출해서 인명을 전자 데이터로 변환하는 경우를 예로 들어 설명한다. 명함 화상은 MFP(120)의 스캐너부(122)에 의해 인명 부분을 읽어내서 얻어진 스캔 화상 이외에, 명함을 카메라로 촬영해서 얻은 촬영 화상이어도 된다. 또한, 여기에서는, 횡서의 명함 화상을 예로 들어 설명을 행하지만, 처리 대상의 화상은 종서의 명함 화상이어도 되고, 문자 이외의 요소(예를 들면, 도형과 사진)를 포함하고 있어도 된다.

스텝 301에서는, 처리 대상의 명함 화상(도 1a를 참조)의 데이터가 취득되어, UI부 113의 터치패널 위에 표시된다. 그리고, 계속되는 스텝 302에서는 해당 명함 화상에 대해 영역 분할 처리가 실행된다. 영역 분할은, 화상에 포함되는 오브젝트를, 문자, 사진, 도형, 표 등의 속성에 따른 영역으로 분할하는 것을 의미한다. 처리 대상의 화상은 명함 화상에 한정되지 않고, 다양한 문서 화상이 존재해도 된다. 그 때문에, 후술하는 OCR 처리의 대상이 되는 문자를 포함하는 영역을 특정하기 위해서 영역 분할 처리가 필요하게 된다. 영역 분할 처리의 상세한 것은 본 발명의 본질은 아니기 때문에 설명을 생략한다. 영역 분할 처리에 의해 분할된 영역 중 문자 속성의 영역에 대하여는, 영역마다의 ID가 할당된다. 이것은, OCR 처리가 각각의 문자 속성 영역에 대해 실행되기 때문에, 나중에 설명하는 문자 인식 결과를 취득할 때에, 어떤 문자 속성 영역으로부터 문자 인식 결과를 취득하였는지를 판별 가능하게 하기 위해서이다. 문자열을 포함하는 화상은 컬러 화상, 그레이 화상 등의 다치 화상, 모노크롬 화상 등의 2치 화상이어도 되고, 이 경우에, 입력 화상에 대응하는 영역 분할 처리를 사용하는 것이 가능하다.

스텝 303에서는, 문자 속성 영역에 대해 OCR 처리가 실행되어, 문자 인식 결과 테이블이 생성된다. OCR 처리에서는, 우선, 문자 속성 영역에 대하여, 각각의 개별 문자를 식별하기 위한 각각의 문자에 대한 영역 인식을 행한다. 여기에서, 각각의 문자에 대한 영역은 대상의 문자에 외접하는 사각형이고, 해당 사각형의 좌측 상측 모서리의 좌표(좌측 상측 좌표)와 우측 하측 모서리의 좌표(우측 하측 좌표)로 표시되는 것으로 가정한다. 도 4a는, 도 1a의 명함 화상에 대한 영역 분할 처리에 의해 추출된 문자 속성 영역 101 내지 103 중 직함을 포함하는 인명 부분에 대응하는 영역(102)을 나타내고 있다. 도 4b는, 해당 문자 속성 영역 102에 대해 각각의 문자에 대한 영역 인식을 행한 결과를 나타내고 있다. 도 4b에 나타낸 것과 같이, 각각의 개별 문자에 대응하는 사각형이 독립된 영역(이하, "문자 단위 영역"으로 부른다)으로서 인식된다. 그리고, 각각의 문자 단위 영역에 대해서 우측 상측 모서리의 x 좌표의 값이 가장 작은 문자 단위 영역으로부터 순서대로 각 문자 단위 영역을 식별하기 위한 id를 할당하는 것으로 가정한다. 이와 같은 id의 할당 순서는 일례이며 순서가 이것에 한정되지 않는다. 그리고, id가 할당된 각 문자 단위 영역에 대하여, 각 문자가 어떤 종류의 문자인지를 판정하고, 해당 문자에 대응하는 문자 코드를 할당하는 문자 인식을 행한다. 문자 인식의 결과는, id와 관련되어 문자 단위 영역마다 문자 인식 결과 테이블에 격납된다. 도 5는, 도 4a의 문자 속성 영역 102에 대해서 작성된 문자 인식 결과 테이블이다. 각 문자 단위 영역에 대해 문자 인식을 행한 결과가, id와 그것의 위치 좌표(도 4a의 전체를 둘러싸는 미도시의 사각형 영역의 좌측 상측 모서리를 원점으로 가정한다)와 함께 격납되어 있다. 예를 들면, 그 위치가 좌측 상측 모서리의 좌표 (10,32)와 우측 하측 모서리의 좌표 (33,66)로 특정되는 id:1인 문자 영역의 문자 인식 결과는 영문 알파벳의 문자 "c"이며, "c"에 대응하는 문자 코드가 격납된다. 각 문자에 할당되는 문자 코드에는, 폰트의 종류, 폰트 사이즈, 스타일, 색의 정보(요소)가 포함된다. 이렇게 하여, 모든 문자 속성 영역에 대해서, 문자 인식 결과 테이블이 작성된다.

스텝 304에서는, 스텝 303에서 작성된 문자 인식 결과 테이블에 근거하여, 미리 정한 특정 문자에 관한 문자 단위 영역을 변경하는 처리가 행해진다. 이 변경 처리에 의해, 선택하고 싶은 문자열 부분의 경계와 접하는 스페이스 및 콤마 등의 의도하지 않는 기호가 후술하는 범위 선택의 조작시에 포함되기 어려워진다. 이하, 문자 단위 영역 변경 처리의 상세에 대해 상세히 설명한다.

도 6은, 본 실시예에 따른 문자 단위 영역 변경 처리의 상세를 나타낸 흐름도다. 스텝 601에서는, 문자 인식 결과 테이블에 격납된 문자 인식 결과로부터, 주목하는 문자가 결정된다. 계속되는 스텝 602에서는, 결정된 주목 문자가 특정 문자인지 아닌지가 판정된다. 여기에서, 특정 문자라는 개념은, 콤마, 피리어드(period), 스페이스(공백 문자) 등의, 범위 선택시에 있어서 구분 기호로서의 역할을 하는 기호를 포함하는 개념이며, 일반적인 의미에서의 "문자"보다도 넓은 개념이다. 도 5의 문자 인식 결과 테이블의 예에서는, id:4과 id:9의 "스페이스"와, id:15의 "콤마"가 특정 문자로서 설정되어 있는 것으로 가정한다. 이 특정 문자는, 처리 대상이 되는 문서의 종류(예를 들면, 명함, FAX 화상 등)에 따라 다른 내용을 갖는 특정 문자를 설정해도 된다. 더구나, 화상 내에서 추출하는 항목, 예를 들면, 이름 및 주소 등에 따라 다른 내용을 갖는 특정 문자를 설정해도 된다. 특정 문자는 전술한 것과 같은 점을 고려해서 유저가 미리 설정하고, 설정된 특정 문자를 규정하는 정보를 대용량 기억부(112)에 보존해 두면 된다. 판정의 결과가, 주목 문자가 특정 문자인 것으로 나타내는 경우, 스텝 603으로 처리를 진행한 후, 문자 단위 영역을 변경한다. 한편, 주목 문자가 특정 문자가 아닌 경우, 해당 주목 문자의 문자 단위 영역을 변경하지 않고, 스텝 604로 처리를 진행한다.

스텝 603에서는, 특정 문자인 것으로 판정된 주목 문자의 문자 단위 영역이, 후술하는 범위 선택시에 있어서 포함되기 어려워지도록 변경된다. 구체적으로는, 특정 문자의 문자 단위 영역을, 해당 특정 문자에 인접하는 문자의 문자 단위 영역과 겹치도록 확대한다. 문자가 횡서인 본 실시예에서는, 특정 문자의 폭을 규정하는 x 좌표를, 이 특정 문자에 인접하는 문자의 x 좌표의 중심까지 증가시킨다. 예를 들면, 특정 문자가 "스페이스"(id:4)인 경우, 그것의 문자 단위 영역의 x 좌표를, "O(id:3)"의 문자 단위 영역에 있어서의 x 좌표의 중심과, "J(id:5)"의 문자 단위 영역에 있어서의 x 좌표의 중심까지 증가시킨다. 지금, "O(id:3)"의 x 좌표의 중심은 "77"의 좌표를 갖고, "J(id:5)"의 x 좌표의 중심은 "122"의 좌표를 가지므로, "스페이스(id:4)"의 문자 단위 영역은, 좌측 상측 좌표가 (77,32), 우측 하측 좌표가 (122,66)로 변경되게 된다. 마찬가지로, id:9인 "스페이스"의 변경후의 문자 단위 영역의 좌측 상측 좌표가 (250,24)로 변경되고, 우측 하측 좌표가 (311,66)로 변경되고, id:15인 "콤마"의 변경후의 문자 단위 영역의 좌측 상측 좌표가 (468,56)로 변경되고, 우측 하측 좌표가 (541,73)으로 변경된다. 그리고, 변경후의 문자 단위 영역의 위치 좌표는 문자 인식 결과 테이블에 반영된다. 도 4c는, id:4, 9 및 15의 변경후의 문자 단위 영역을 굵은선의 사각형으로 나타낸 도면이다. 도 5의 문자 인식 결과 테이블에서는, 설명의 편의상, 변경후의 문자 단위 영역의 위치 좌표를 별개로 나타내고 있지만, 위치 좌표를 간단히 갱신(덮어쓰기)하는 것이어도 된다.

스텝 604에서는, 문자 인식 결과 테이블에 격납되어 있는 문자 인식 결과의 전체에 대해서 처리가 완료하였는지 아닌지가 판정된다. 미처리의 문자가 있으면, 스텝 601로 처리를 되돌려, 다음의 문자를 주목 문자로 결정해서 처리를 속행한다. 한편, 문자 인식 결과의 모두에 대해 처리가 완료한 경우에는, 본 처리를 마친다.

이상이, 문자 단위 영역 변경 처리의 내용이며, 이 처리는 문자 인식 결과 테이블의 수에 대응하는 횟수만큼 반복된다. 도 3의 흐름도의 설명으로 되돌아간다.

스텝 305에서는, 처리 대상인 문자 속성 영역에 관한 문자 인식 결과로부터 임의의 문자열을 추출하기 위한, 유저 자신의 손가락 등을 사용한 범위 선택을 접수한다. 본 실시예에서는, 원하는 문자열 부분을 둘러싸도록 그려진 사각형의 우측 상측 좌표와 좌측 하측 좌표에 의해 임의의 범위가 선택되는 것으로 가정한다. 구체적으로는, 터치패널 상에서 손가락을 사용해서 범위를 지정하는 경우에는, 터치를 개시(검지)한 위치부터 터치를 종료한 위치까지를 연결하는 선에 의해 사각형을 그리고, 그려진 사각형의 우측 상측 좌표와 좌측 하측 좌표에 의해 선택 범위가 특정된다. 또한, 마우스를 사용해서 범위를 지정하는 경우에는, 클릭을 개시한 위치부터 클릭을 종료한 위치까지를 연결하는 선에 의해 사각형을 그리고, 그려진 사각형의 우측 상측 좌표와 좌측 하측 좌표에 의해 선택 범위가 특정된다. 범위 선택의 방법은 전술한 것에 한정되지 않고 다른 방법을 사용해도 된다. 도 4d는, 전술한 것과 같은 방법에 의해 선택된 범위의 일례를 파선으로 나타낸 도면이며, 이 선택 범위의 좌측 상측의 위치 좌표는 (80,5)이고, 우측 하측의 위치 좌표는 (470,80)인 것으로 가정한다.

스텝 306에서는, 접수한 범위 선택을 기초로 문자열이 취득된다. 구체적으로는, 선택된 사각형의 범위 내에 문자 단위 영역이 완전하게 포함된 문자만을, 문자 인식 결과 테이블을 참조해서 id 순서로 추출한다. 도 4a 내지 도 4d에 나타낸 예에서는, id:5로부터 id:14까지의 문자 단위 영역이 선택된 사각형 영역에 포함되므로, 해당 10개의 문자 단위 영역의 문자 인식 결과를 id 순서로 배열하여 얻어진 "John Smith"의 문자열이 추출된다. OCR 처리 직후의 단계에서는, id:4의 "스페이스"와 id:15의 "콤마"의 문자 단위 영역도 도 4d에 파선으로 나타낸 선택 범위에 포함된다(도 5 참조). 그 때문에, 본래라면 이 문자열 전후에 놓인 스페이스와 콤마를 포함하는 상태의 문자열 "John Smith,"가 추출되었을 것이다. 이것으로부터, 문자 단위 영역의 변경 처리에 의해, 원하는 문자열의 전후에 존재하는 불필요한 스페이스 및 콤마가 선택 범위에 더 이상 포함되지 않게 된 것을 알 수 있다.

스텝 307에서는, 선택 범위에서 추출된 문자열이 전자 데이터로 변환된다. 그리고, 전자화된 문자열 데이터를 사용하여, 주소록에 문자열을 등록하는 처리와 해당 문자열을 인쇄하는 처리 등의 처리가 실현된다.

이상이, 문자를 포함하는 화상에 대해 문자 인식 처리를 행하고, 얻어진 문자 인식 결과로부터 임의의 문자열을 선택한 후, 문자열을 전자 데이터로 변환할 때까지의 처리의 내용이다. 영역 분할 처리(스텝 302)와 문자 단위 영역의 인식 처리 및 OCR 처리(스텝 303)에 공지의 수법을 적용하는 것이 가능하고, 그것의 상세한 것은 본 발명의 본질은 아니므로, 설명을 생략하고 있다.

본 실시예에서는, 특정 문자의 폭을 규정하는 x 좌표를, 이 특정 문자에 인접하는 문자의 x 좌표의 중심까지 증가시켜 문자 단위 영역의 변경하는 예에 관하여 설명했지만, 변경 방법은 이것에 한정되지 않는다. 예를 들면, 전술한 도 4a 내지 도 4e에 있어서, "스페이스(id:4)"의 문자 단위 영역을, 그것의 양쪽에 있는 문자 "O(id:3)"과 "J(id:5)"를 포함하는 최소 사각형의 영역으로 변경해도 된다. 이 경우, id:4의 좌측 상측 좌표는 (62,32)으로 변경되고, 우측 하측 좌표는 (132,66)으로 변경되고, id:3과 id:5의 양쪽의 문자를 동시에 선택한 경우만, id:4의 특정 문자가 선택된다.

또한, 도 4b에 도시된 각각의 개별 문자를 둘러싸는 사각형을, UI 화면 상에 실제로 표시해도 된다. 더구나, 위치 좌표를 변경한 후의 문자 단위 영역을, 도 4c에 나타낸 것과 같이, UI 화면 상에 실제로 굵은선의 사각형으로 표시해도 된다. 이때, 선의 종류는 임의인 것은 말할 필요도 없다.

이상에서 설명한 것과 같이, 본 실시예에 따르면, 화상 위에서 유저가 자신의 손가락 등을 사용해서 임의의 범위 선택을 행하는 경우에, 스페이스 및 콤마 등의 불필요한 문자가 선택되기 어려워지도록 제어가 행해진다. 이에 따라, 유저는, 원하는 문자열 만을 용이하게 선택할 수 있다.

[실시예 2]

실시예 1에서는, 원하는 문자열 부근에 놓이기 쉬운 스페이스 및 콤마 등의 불필요한 문자(특정 문자)가 범위 선택시에 포함되기 어려워지도록, 특정 문자의 문자 단위 영역의 크기를 변경하는 태양에 대해 설명하였다. 그렇지만, 특정 문자가 작은 경우나 문자들 사이의 간격이 좁은 경우에는, 특정 문자 자체의 문자 단위 영역을 확대해도, 특정 문자에 인접하는 다른 문자를 포함하는 범위가 의도하지 않게 선택되는 것이 여전히 생각된다. 예를 들면, 상기한 명함 화상의 예에 있어서, 문자열 "John Smith" 만을 선택하고 싶은 경우에, "J"의 앞에 스페이스를 사이에 끼워 위치하는 "O"를 포함하는 "O John Smith"가 선택되어 버릴 가능성이 존재한다. 따라서, 특정 문자에 인접하는 다른 문자도 선택 범위에 포함되기 어려워지도록 문자 단위 영역을 변경하는 태양을 실시예 2로서 설명한다. 실시예 1과 공통되는 부분의 설명은 생략 또는 간략화하고, 이하에서는 주로 차이점을 설명한다.

도 7은, 본 실시예에 따른 문자 단위 영역 변경 처리의 상세를 나타낸 흐름도다. 스텝 701 및 702는, 도 6의 플로우에 있어서의 스텝 601 및 602에 각각 대응한다. 즉, 문자 인식 결과 테이블에 격납된 문자 인식 결과로부터 주목 문자가 결정되고(스텝 701), 결정된 주목 문자가 특정 문자인지 아닌지가 판정된다(스텝 702).

스텝 703에서는, 특정 문자로 판정된 문자에 인접하는 문자(이하, 인접 문자)의 문자 단위 영역이 변경된다. 구체적으로는, 인접 문자의 문자 단위 영역의 크기를 특정 문자와는 반대 방향으로 일정 비율만큼 확대하는 처리가 행해진다. 횡서 문자인 본 실시예에서는, 인접 문자의 문자 단위 영역의 폭을 규정하는 x 좌표를, 특정 문자와는 반대의 방향으로 일정 비율(여기에서는, 20%)만큼 시프트한다. 예를 들면, 전술한 명함 화상의 예에 있어서, 특정 문자인 "스페이스(id:4)"의 좌측에 놓인 "O(id:3)"의 문자 단위 영역의 폭은 "30(=92-62)"이다. 따라서, 그 폭 30의 20%에 해당하는 폭인 "6"만큼, 특정 문자와는 반대의 방향인 좌측 방향으로 "O(id:3)"의 문자 단위 영역의 x 좌표를 시프트하여, 좌측 상측 좌표를 (56,32)로 변경한다. 더구나, "스페이스(id:4)"의 우측에 놓인 문자 "J(id:5)"의 폭은 "20(=132-112)"이다. 따라서, 이 폭 20의 20%에 해당하는 폭인 "4"만큼, 특정 문자와는 반대의 방향인 우측 방향으로 "J(id:5)"의 문자 단위 영역의 x 좌표를 시프트하여, 우측 하측 좌표를 (136,66)로 변경한다. 이러한 문자 단위 영역의 변경 처리를, 모든 특정 문자의 인접 문자에 대해 행한다. 그리고, 변경후의 문자 단위 영역의 위치 좌표가 문자 인식 결과 테이블에 반영된다. 도 4e에, 상기한 3개의 특정 문자(id:4, 9, 15)의 각 인접 문자의 변경후의 문자 단위 영역을 파선의 사각형으로 나타낸다. 이러한 처리에 의해, 특정 문자가 작거나, 문자들 사이의 거리가 가까운 경우에도, 특정 문자에 인접하는 문자가 의도하지 않게 선택되는 것이 일어나기 어려워진다.

이후의 스텝 704 및 705는, 도 6의 플로우에 있어서의 스텝 603 및 604에 각각 대응한다. 즉, 특정 문자로 판정된 주목 문자의 문자 단위 영역이, 영역 선택시에 있어서 선택 범위에 포함되기 어려워지도록 변경된다(스텝 704). 그리고, 문자 인식 결과 테이블에 격납된 문자 인식 결과의 전체에 대해서 처리가 완료했는지가 판정된다(스텝 705). 판정의 결과가, 미처리의 문자가 존재하는 것으로 표시하는 경우, 스텝 701로 처리를 되돌려, 다음의 문자를 주목 문자로 하여 처리가 속행되고, 문자 인식 결과의 전체에 대해 처리가 완료된 경우, 본 처리를 마친다. 이상이, 본 실시예에 있어서의 문자 단위 영역 변경 처리의 내용이다.

본 실시예에 따르면, 특정 문자 뿐만 아니라 그것에 인접하는 문자에 관해서도 문자 단위 영역이 변경된다. 이에 따라, 특정 문자가 작은 경우나 문자들 사이의 간격이 좁은 경우에, 특정 문자에 인접하는 다른 문자가 의도하지 않게 선택 범위에 포함되어 버리는 것을 방지할 수 있다.

[실시예 3]

처리 대상인 화상으로부터 이름 및 주소 등의 명사를 선택하는 경우, 같은 종류의 명사군이 같은 폰트 종류, 폰트 사이즈, 스타일 및 색으로 쓰여져 있는 경우가 많다. 즉, 인접하는 문자들 사이에서 폰트 종류, 폰트 사이즈, 스타일 및 색 등의 문자 특성이 다른 경우에는, 이들 문자가 다른 종류의 문자일 가능성이 높다. 따라서, 특정 문자를 사이에 끼워 인접하는 문자들의 특성이 다른 경우에는, 특정 문자를 사이에 끼워서 원하는 문자열의 반대측에 놓인 인접 문자가 선택 범위에 포함되기 어려워지도록, 인접 문자의 문자 단위 영역의 확대량을 증가시키는 태양을 실시예 3으로서 설명한다. 실시예 2와 공통되는 부분의 설명은 생략 또는 간략화하고, 이하에서는 차이점을 주로 설명한다.

도 8은, 본 실시예에 따른 문자 단위 영역 변경 처리의 상세를 나타낸 흐름도다. 스텝 801 및 802는, 도 7의 플로우에 있어서의 스텝 701 및 702에 각각 대응한다. 즉, 문자 인식 결과 테이블에 격납된 문자 인식의 결과로부터 주목 문자가 결정되고(스텝 801), 결정된 주목 문자가 특정 문자인지 아닌지가 판정된다(스텝 802).

스텝 803에서는, 특정 문자로 판정된 문자를 사이에 끼워 인접하는 문자의 특성이 서로 일치하는지 아닌지가 판정된다. 여기에서, 문자의 특성이란, 문자의 종류가 동일한 경우에 보통 공통될 것인, 폰트 종류, 폰트 사이즈, 스타일, 색 등을 가리킨다. 이 문자 특성의 판정을 위해, 기지의 방법을 사용하면 된다. 예를 들면, 폰트 종류와 스타일의 경우에는, 미리 준비한 폰트 종류와 스타일의 화상의 데이터베이스와 문자 단위 영역의 사각형 내의 화상을 대조해서 판정을 행하는 것이 가능하다. 폰트 사이즈의 경우에는, 문자 단위 영역의 사각형의 크기로부터 폰트 사이즈를 추정하여, 비교함으로써 판정을 행하는 것이 가능하다. 색의 경우에는, 문자 단위 영역의 사각형 내에서, 문자로 판단된 복수의 화소의 덩어리에 대응하는 입력 화상의 복수의 화소의 덩어리의 RGB 값의 평균을 구하고, 구한 평균값을 비교함으로써 판정을 행하는 것이 가능하다. 이렇게 하여, 예를 들면, 전술한 명함 화상의 경우, 특정 문자인 "스페이스(id:4)"를 사이에 끼워 인접하는 "O(id:3)"과 "J(id:5)"의 문자들 사이에서는, 서로 문자의 사이즈가 다르므로, 문자의 특성이 다르다고 판정된다. 판정의 결과가, 특정 문자를 사이에 끼워 인접하는 문자들이 같은 특성을 갖는(특성이 일치하는) 것으로 나타내는 경우에는, 스텝 804로 처리를 진행한다. 한편, 특정 문자를 사이에 끼워 인접하는 문자들이 같은 특성을 갖지 않는(특성이 일치하지 않는) 경우에는, 스텝 805로 처리를 진행한다.

스텝 804에서는, 인접 문자의 문자 단위 영역의 크기(여기에서는 폭)가, 특정 문자와는 반대의 방향으로 일정 비율만큼 확대된다. 인접 문자의 특성이 일치한 경우의 본 스텝에서는, 실시예 2의 도 7의 플로우의 스텝 704와 같은 비율(제1 비율: 예를 들면, 20%)만큼 문자 단위 영역의 폭을 확대하는 처리가 행해진다.

스텝 805에서는, 스텝 804보다도 큰 비율(제2 비율: 예를 들면, 50%)만큼, 인접 문자의 문자 단위 영역의 폭을 확대하는 처리가 행해진다. 예를 들면, 상기한 서로 문자의 사이즈가 다른 "O(id:3)"과 "J(id:5)"의 인접 문자에 대해서는, 문자 단위 영역의 폭을 특정 문자와는 반대의 방향으로 50%만큼 확대된다. 예를 들면, 특정 문자의 좌측에 놓인 "O(id:3)"의 폭은 "30"이므로, 이 폭 "30"의 50%에 해당하는 폭인 "15"만큼, 특정 문자와는 반대의 방향인 좌측 방향으로 x 좌표를 시프트하여, 좌측 상측 좌표가 (47,32)로 변경된다. 더구나, 특정 문자의 우측에 놓인 "J(id:5)"의 폭은 "20(=132-112)"이므로, 이 폭 "20"의 50%에 해당하는 폭인 "10" 만큼, 특정 문자와는 반대의 방향인 우측 방향으로 x 좌표를 시프트하여, 우측 하측 좌표가 (142,66)로 변경된다. 이러한 문자 단위 영역의 변경 처리를, 모든 특정 문자에 관한 인접 문자에 대해 행한다. 그리고, 변경후의 문자 단위 영역의 위치 좌표가 문자 인식 결과 테이블에 반영된다. 이후의 스텝 806 및 807의 각 처리는, 실시예 2와 같으므로, 설명을 생략한다.

본 실시예에서는, 특정 문자에 인접하는 문자들의 특성이 일치하는지 아닌지의 판정을 행하여, 문자 특성이 일치하지 않는 경우에는, 특정 문자에 인접하는 문자의 문자 단위 영역의 확대량을 증가시킨다. 이에 따라, 특정 문자를 사이에 끼운 반대측의 의도하지 않는 문자가 보다 선택되기 어려워진다.

(기타 실시형태)

본 발명의 실시형태는, 본 발명의 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체('비일시적인 컴퓨터 판독가능한 기억매체'로서 더 상세히 언급해도 된다)에 기록된 컴퓨터 실행가능한 명령(예를 들어, 1개 이상의 프로그램)을 판독하여 실행하거나 및/또는 전술한 실시예(들)의 1개 이상의 기능을 수행하는 1개 이상의 회로(예를 들어, 주문형 반도체 회로(ASIC)를 포함하는 시스템 또는 장치의 컴퓨터나, 예를 들면, 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체로부터 컴퓨터 실행가능한 명령을 판독하여 실행함으로써, 시스템 또는 장치의 컴퓨터에 의해 수행되는 방법에 의해 구현될 수도 있다. 컴퓨터는, 1개 이상의 중앙처리장치(CPU), 마이크로 처리장치(MPU) 또는 기타 회로를 구비하고, 별개의 컴퓨터들의 네트워크 또는 별개의 컴퓨터 프로세서들을 구비해도 된다. 컴퓨터 실행가능한 명령은, 예를 들어, 기억매체의 네트워크로부터 컴퓨터로 주어져도 된다. 기록매체는, 예를 들면, 1개 이상의 하드디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 분산 컴퓨팅 시스템의 스토리지, 광 디스크(콤팩트 디스크(CD), 디지털 다기능 디스크(DVD), 또는 블루레이 디스크(BD)^TM 등), 플래시 메모리소자, 메모리 카드 등을 구비해도 된다.

본 발명은, 상기한 실시형태의 1개 이상의 기능을 실현하는 프로그램을, 네트워크 또는 기억매체를 개입하여 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터에 있어서 1개 이상의 프로세서가 프로그램을 읽어 실행하는 처리에서도 실행가능하다. 또한, 1개 이상의 기능을 실현하는 회로(예를 들어, ASIC)에 의해서도 실행가능하다.

예시적인 실시형태들을 참조하여 본 발명을 설명하였지만, 본 발명이 이러한 실시형태에 한정되지 않는다는 것은 자명하다. 이하의 청구범위의 보호범위는 가장 넓게 해석되어 모든 변형, 동등물 구조 및 기능을 포괄하여야 한다.

Claims

메모리와,
상기 메모리와 통신하는 적어도 한 개의 프로세서를 구비한 장치로서,
상기 적어도 한 개의 프로세서는,
화상에 포함되는 각 문자에 대응하는 문자 영역을 식별하는 것과,
식별된 상기 문자 영역마다 문자 인식 처리를 행하는 것과,
상기 문자 인식 처리의 결과로부터 특정 문자를 판정하는 것과,
판정된 상기 특정 문자에 대응하는 상기 문자 영역을 확대하는 것과,
상기 화상을 디스플레이에 표시하는 것과,
상기 디스플레이에 표시된 상기 화상에 있어서 유저에 의해 선택된 범위를 취득하는 것과,
상기 선택된 범위 내에 포함되는 복수의 문자 영역에 대응하는 문자 인식 결과를 출력하는 것을 실행하는 장치.
제 1항에 있어서,
상기 특정 문자에 대응하는 문자 영역이, 상기 특정 문자에 인접하는 문자에 대응하는 문자 영역과 겹치도록 확대되는 장치.
제 2항에 있어서,
상기 특정 문자를 규정하는 정보를 기억하도록 구성된 기억부를 더 구비하고,
상기 특정 문자는, 상기 기억부에 기억된 정보를 사용하여, 상기 문자 인식 처리의 결과로부터 판정되는 장치.
제 3항에 있어서,
상기 확대는, 상기 특정 문자에 대응하는 문자 영역을, 상기 특정 문자에 인접하는 문자에 대응하는 인접 문자 영역의 중심까지 확대하는 것인 장치.
제 1항에 있어서,
상기 적어도 한 개의 프로세서는, 상기 특정 문자에 인접하는 문자에 대응하는 인접 문자 영역을, 상기 특정 문자와는 반대의 방향으로 일정 비율만큼 확대하는 것을 더 실행하는 장치.
제 5항에 있어서,
상기 적어도 한 개의 프로세서는, 상기 특정 문자에 인접하는 문자들의 특성이 일치하는지 아닌지를 판정하는 것을 더 실행하고, 특성이 일치하지 않는 경우에는, 상기 특정 문자에 인접하는 문자에 대응하는 인접 문자 영역의 확대량을, 특성이 일치하는 경우보다도 증가시키는 장치.
제 6항에 있어서,
상기 문자 인식 처리의 결과는 문자 코드로서 취득되고,
상기 특정 문자에 대응하는 문자 코드와, 상기 특정 문자에 인접하는 문자에 대응하는 문자 코드를 비교하여, 문자 코드에 포함되는 요소가 다른 경우에, 상기 특성이 일치하지 않는다고 판정하는 장치.
제 7항에 있어서,
상기 문자 인식 처리에 의해 취득되는 상기 문자 코드는, 상기 특성으로서, 상기 문자 인식 처리가 실행된 각 문자에 대한 폰트의 종류, 폰트 사이즈, 스타일 및 색의 요소를 포함하고,
적어도 1개의 요소가 다른 경우에 상기 특성이 일치하지 않는다고 판정하는 장치.
제 1항에 있어서,
상기 문자 영역은 각각의 개별 문자에 외접하는 사각형인 장치.
제 1항에 있어서,
상기 적어도 한 개의 프로세서는,
상기 화상을 속성에 따른 영역들로 분할하여, 문자 속성을 갖는 영역을 특정하는 것을 더 실행하고,
상기 문자 인식 처리는, 특정된 상기 문자 속성을 갖는 영역 내에 포함되는 각각의 문자 화상에 대해 행해지는 장치.
제 1항에 있어서,
상기 특정 문자는, 스페이스, 콤마 및 피리어드의 적어도 한 개를 포함하는 장치.
제 1항에 있어서,
상기 범위의 선택은, 유저가 마우스를 사용해서 상기 범위를 지정함으로써 행해지는 장치.
제 1항에 있어서,
상기 디스플레이는 터치패널 기능을 갖고,
상기 범위의 선택은, 유저가 터치패널 상에서 손가락을 사용해서 상기 범위를 지정함으로써 행해지는 장치.
제 1항에 있어서,
상기 디스플레이는 상기 화상을 투영하는 프로젝터이고,
투영된 상기 화상에 대한 유저의 손 끝의 위치를 촬영하고, 상기 손 끝의 움직임을 인식함으로써, 상기 유저에 의해 선택된 범위를 취득하는 장치.
문자 인식 결과의 출력 방법으로서,
화상에 포함되는 각 문자에 대응하는 문자 영역을 식별하는 단계와,
식별된 상기 문자 영역마다 문자 인식 처리를 행하는 단계와,
상기 문자 인식 처리의 결과로부터 특정 문자를 판정하는 단계와,
판정된 상기 특정 문자에 대응하는 상기 문자 영역을 확대하는 단계와,
상기 화상을 디스플레이에 표시하는 단계와,
표시된 상기 화상에 있어서 유저에 의해 선택된 범위를 취득하는 단계와,
상기 선택된 범위 내에 포함되는 복수의 문자 영역에 대응하는 문자 인식 결과를 출력하는 단계를 포함하는 출력 방법.
컴퓨터에,
화상에 포함되는 각 문자에 대응하는 문자 영역을 식별하는 단계와,
식별된 상기 문자 영역마다 문자 인식 처리를 행하는 단계와,
상기 문자 인식 처리의 결과로부터 특정 문자를 판정하는 단계와,
판정된 상기 특정 문자에 대응하는 상기 문자 영역을 확대하는 단계와,
상기 화상을 디스플레이에 표시하는 단계와,
표시된 상기 화상에 있어서 유저에 의해 선택된 범위를 취득하는 단계와,
상기 선택된 범위 내에 포함되는 복수의 문자 영역에 대응하는 문자 인식 결과를 출력하는 단계를 포함하는 문자 인식 결과의 출력 방법을 실행하게 하는 프로그램을 기억한 비일시적인 컴퓨터 판독가능한 기억매체.