KR102236616B1 - 정보 처리 장치, 그의 제어 방법, 및 기억 매체 - Google Patents

정보 처리 장치, 그의 제어 방법, 및 기억 매체 Download PDF

Info

Publication number
KR102236616B1
KR102236616B1 KR1020180036412A KR20180036412A KR102236616B1 KR 102236616 B1 KR102236616 B1 KR 102236616B1 KR 1020180036412 A KR1020180036412 A KR 1020180036412A KR 20180036412 A KR20180036412 A KR 20180036412A KR 102236616 B1 KR102236616 B1 KR 102236616B1
Authority
KR
South Korea
Prior art keywords
character
candidate
search area
frames
evaluation value
Prior art date
Application number
KR1020180036412A
Other languages
English (en)
Other versions
KR20180111639A (ko
Inventor
가츠히로 와다
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20180111639A publication Critical patent/KR20180111639A/ko
Application granted granted Critical
Publication of KR102236616B1 publication Critical patent/KR102236616B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06K9/00442
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06K9/00711
    • G06K9/344
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/133Evaluation of quality of the acquired characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

카메라 기능을 구비한 휴대형 단말기를 사용하여 피사체 상의 문자를 판독하는 경우, OCR에 적합한 화상이 단시간에 취득된다. 카메라를 포함하는 정보 처리 장치이며, 피사체 상의 문자열을 카메라로 촬영함으로써 동영상을 취득하고, 취득된 동영상을 구성하는 각 프레임마다, 문자열을 구성하는 문자 각각에 대해 문자 인식을 위한 탐색 영역을 설정하고, 탐색 영역으로부터 후보 문자를 검출하고, 검출된 후보 문자의 확실성을 나타내는 평가값이 안정되어 있는지를 판정하고, 평가값이 안정되어 있다고 판정된 것에 응답하여 취득된 동영상의 프레임을 출력한다.

Description

정보 처리 장치, 그의 제어 방법, 및 기억 매체{INFORMATION PROCESSING APPARATUS, CONTROL METHOD THEREOF, AND STORAGE MEDIUM}
본 발명은 정보 처리 장치의 문자 인식 기술에 관한 것이다.
최근, 스마트폰 및 태블릿과 같은 카메라를 탑재한 휴대형 디바이스(이하, "휴대형 단말기"라고 칭함)가 흔해졌다. 예를 들어, 종이 문서를 전자 데이터로 변환하는 경우, 종래에는 스캐너 등을 사용했지만, 휴대형 단말기의 카메라를 사용하게 됨으로써 종이 문서를 전자 데이터로 쉽게 변환하는 것이 가능하게 되었다. 예를 들어, 일본 특허 공개 제2011-008802호 공보는 저해상도의 카메라를 사용함으로써 취해진 정지 화상에 대하여 문자 인식 처리(OCR)를 실시하기 위한 기술을 개시하고 있다.
또한, 최근 휴대형 단말기의 카메라는 동영상 촬영 기능을 포함한다. 스캐너를 사용하여 화상을 취하는 경우에 비해, 핸드헬드(hand-held) 휴대형 단말기로 동영상을 촬영하여 화상을 취하는 경우가 촬영 환경의 변화에 영향을 받기 쉽다. 구체적으로, 카메라 떨림에 의해 화상의 세부 부분에서 초점이 맞지 않게 되고, 각 프레임마다 적용되는 조명의 진로가 미묘하게 변경되는 등으로 인해 얻어진 화상이 문자 인식에 적합하지 않은 경우가 있다. 이 점에서, 일본 특허 공개 제2013-161277호 공보는 동영상 촬영 중에 OCR을 반복적으로 실시하고 출현율이 미리정해진 기준값을 초과하는 인식 결과를 채용하여 문자를 확정함으로써 OCR의 정밀도를 개선하는 기술을 개시하고 있다.
그러나, 촬영 환경과 피사체에 따라, 얻어진 동영상을 구성하는 프레임(정지 화상)에서 OCR에 적합하지 않은 화상이 높은 빈도로 포함된다. 이러한 경우, 상기 일본 특허 공개 제 2013-161277호 공보의 출현율에 기초한 문자를 확정하는 기술에서, 출현율의 기준값에 도달하는데 시간이 걸린다. 예를 들어, 사전 데이터로부터 복수의 유사도가 높은 문자 후보가 구해지는 경우, 프레임들 간에 약간의 차이에 의해 문자 인식 결과가 변경되기 쉽다. 이 경우, 피사체 상의 모든 문자의 문자 인식 결과가 확정될 때까지 오랜 시간이 걸리고, 그 사이, 유저는 휴대형 단말기를 움직이지 않으면서 촬영을 계속해야 한다. 이 상황에서, 유저의 부담이 크고 높은 정밀도의 문자 인식 결과를 기대할 수 없다. 또한, 상기 일본 특허 공개 제2013-161277호 공보에서, 문자 인식 결과로서 얻어진 텍스트 데이터를 출력하고 문자 인식의 대상인 화상을 출력하거나 기억하는 것은 고려되지 않는다. 즉, 상기 일본 특허 공개 제2013-161277호 공보는 복수의 프레임을 포함하는 화상에 대한 문자 인식 처리를 실시한 결과를 출력하는 것만을 개시하고 있지만, 복수의 프레임을 포함하는 화상으로부터 최적의 화상을 선택하고 기억하는 것은 개시하지 않았다.
본 발명에 따른 정보 처리 장치는 카메라를 포함하는 정보 처리 장치이며, 상기 장치는 피사체 상의 문자열을 상기 카메라로 촬영함으로써 동영상을 취득하도록 구성된 취득 유닛; 상기 취득된 동영상을 구성하는 각 프레임마다, 상기 문자열을 구성하는 문자 각각에 대해 문자 인식을 위한 탐색 영역을 설정하도록 구성된 설정 유닛; 상기 탐색 영역으로부터 후보 문자를 검출하도록 구성된 검출 유닛; 검출된 후보 문자의 확실성을 나타내는 평가값이 안정되어 있는지를 판정하도록 구성된 제1 판정 유닛; 및 상기 평가값이 안정되어 있다고 판정된 경우에 응답하여, 상기 취득된 동영상의 프레임을 출력하도록 구성된 출력 유닛을 포함한다.
본 발명의 추가적인 특징은 첨부된 도면을 참조하여 예시적인 실시예의 하기 설명으로부터 명백해질 것이다.
도 1a 내지 도 1c는 휴대형 단말기의 외관의 일 예시를 도시하는 도면이다.
도 2는 휴대형 단말기의 하드웨어 구성의 일 예시를 도시하는 도면이다.
도 3은 휴대형 단말기의 소프트웨어 구성의 일 예시를 도시하는 도면이다.
도 4는 모바일 애플리케이션(mobile application)의 UI 화면의 일 예시를 도시하는 도면이다.
도 5는 문자 화상의 예시를 도시하는 도면이다.
도 6은 문자 화상 리스트의 데이터 구조의 일 예시를 도시하는 도면이다.
도 7a 내지 도 7d는 각 문자마다 문자 단위 영역을 결정하는 방법을 설명하는 도면이다.
도 8은 문자 판독 처리의 흐름을 나타내는 흐름도이다.
도 9는 후보 문자 검출 결과의 데이터 구조의 일 예시를 도시하는 도면이다.
도 10은 후보 문자 검출 처리의 상세를 나타내는 흐름도이다.
도 11은 매칭 판정 처리의 상세를 나타내는 흐름도이다.
도 12a 및 도 12b는 평가값의 예시를 도시하는 도면이다.
도 13a 및 도 13b는 문자 인식 범위의 구체적인 예시를 도시하는 도면이다.
도 14는 안정 상태 판정 처리의 상세를 나타내는 흐름도이다.
도 15는 후보 문자 표의 일 예시를 도시하는 도면이다.
이하, 첨부된 도면을 참조하여, 본 발명은 바람직한 실시예에 따라 상세히 설명된다. 하기 실시예에서 나타나는 구성은 단지 예시적이며 본 발명은 도시된 구성에 제한되지 않는다.
(제1 실시예)
본 실시예에 따른 카메라 기능을 갖는 정보 처리 장치로서, 소위 태블릿 PC 및 스마트폰으로 대표되는 카메라를 구비한 휴대형 단말기가 상정된다. 카메라를 구비한 휴대형 단말기는 무선 통신 기능을 포함하고 임의의 장소에서, 촬영, 데이터 통신 등을 할 수 있다.
도 1a 내지 도 1c는 휴대형 단말기의 외관의 일 예시를 도시하는 도면이다. 도 1a는 터치 패널(101)이 표시 유닛으로서 존재하는 휴대형 단말기(100)의 표면측(정면)을 나타내고 있다. 터치 패널(101)은 예를 들어, 정전 용량식의 LCD 등을 포함하고, 2개의 기능, 즉, 정보를 출력(표시)하는 기능 및 정보를 입력하는 기능을 포함한다. 도 1b는 휴대형 단말기(100)의 이면측(배면)을 나타내고 있다. 휴대형 단말기(100)의 배면에, 화상을 취하기 위한 화상 촬영용 렌즈(이하, "렌즈")(102)가 포함된다. 본 실시예에서, 휴대형 단말기(100)의 모바일 애플리케이션을 사용해서 촬영이 실시되고 피사체 상의 문자를 판독하는 경우를 일 예시로서 설명한다. 도 1c는 피사체의 일 예시로서 타이어를 나타내고 있다. 타이어(105) 상에, 타이어를 일의적으로 식별하기 위한 기호인 시리얼 ID(시리얼 넘버라고도 한다)가 각인되어 있다. 각인된 부분의 확대도(106)로부터, 시리얼 ID(107)로서 "S7Y004790"의 문자열이 각인되어 있는 것을 알 수 있다. 본 실시예에서, 시리얼 ID(107)의 부분을 휴대형 단말기(100)의 카메라 기능을 사용해서 촬영함으로써, 시리얼 ID(107)를 구성하는 각 문자의 정보를 전자 데이터로 변환한다. 후술되는 모바일 애플리케이션은 피사체를 동영상 모드로 촬영하면서 문자 판독에 적합한 프레임(정지 화상)을 취득할 수 있고 상기 취득한 정지 화상을 임의의 출력 목적지에 출력하는 것이 가능하다.
<하드웨어 구성>
계속해서, 휴대형 단말기(100)의 하드웨어 구성에 대해서 설명한다. 도 2는 휴대형 단말기(100)의 하드웨어 구성의 일 예시를 도시하는 도면이다. 휴대형 단말기(100)는 CPU(201), RAM(202), ROM(203), 입력/출력 I/F(204), NIC(205), 카메라 유닛(206), 및 가속도/자이로 센서(207)로 구성되고 이들 유닛의 각각은 버스(208)에 의해 서로 접속되어 있다.
CPU(201)는 각종 프로그램을 실행함으로써 여러가지 기능을 실현하는 중앙 처리 유닛이다. RAM(202)은 각종 정보를 기억하는 판독/기입가능한 메모리이다. RAM(202)은 CPU(201)의 작업 영역으로서도 사용된다. ROM(203)은 OS 및 상술한 촬영 애플리케이션과 같은 각종 프로그램을 기억하는 메모리이다. 예를 들어, CPU(201)는 ROM(203)에 기억되어 있는 프로그램을 RAM(202)에 로드하고 프로그램을 실행한다. 또한, CPU(201)는 플래시 메모리, HDD, SSD와 같은 외부 기억 디바이스(도시하지 않음)에 기억된 프로그램을 판독하고 상기 프로그램을 실행하는 것도 가능하다. 휴대형 단말기(100)의 기능 및 후술하는 시퀀스에 따른 처리의 전부 또는 일부는 전용의 하드웨어를 사용하여 실현하는 것 또한 가능할 수도 있다.
입력/출력 I/F(204)는 터치 패널(101)에 표시 데이터를 출력하고 터치 패널(101)로부터 입력 정보를 수신하는 인터페이스이다. NIC(Network Interface Card)(205)는 휴대형 단말기(100)를 네트워크(도시하지 않음)에 접속하기 위한 인터페이스이다. 카메라 유닛(206)은 휴대형 단말기(100)에 렌즈(102)를 통해 촬영된 피사체의 동영상을 취한다. 버스(208)는 상술한 각각의 유닛을 접속하는 데이터 통신로이다. 가속도/자이로 센서(207)는 휴대형 단말기(100)의 자세 정보를 검출하는 센서이다.
<소프트웨어 구성>
이어서, 휴대형 단말기(100)의 소프트웨어 구성에 대해서 설명한다. 도 3은 휴대형 단말기(100)의 소프트웨어 구성의 일 예시를 도시하는 도면이다. 휴대형 단말기(100)의 소프트웨어는 데이터 관리 모듈(300)과 모바일 애플리케이션(310)을 포함한다. 그리고, 모바일 애플리케이션(310)은 메인 제어, 표시 제어, 조작 정보 취득, 화상 처리, 및 문자 인식의 각 기능에 대응하는 복수의 모듈(311 내지 315) 및 문자 화상 DB(316)를 포함한다. 이들 모듈의 각각에 대응하는 프로그램 등은 ROM(203) 등에 기억되어 있다. 데이터 관리 모듈(300)은 화상 데이터, 모바일 애플리케이션(310)의 처리 데이터(애플리케이션 데이터) 등을 관리한다. 모바일 애플리케이션(310)은 도시되지 않은 OS가 제공하는 제어 API(Application Programming Interface)를 사용함으로써 데이터 관리 모듈(300)이 관리하는 화상 데이터와 애플리케이션 데이터를 취득하고 기억한다.
유저는 휴대형 단말기(100)의 OS의 설치 기능을 사용함으로써 모바일 애플리케이션(310)의 다운로드와 설치가 가능하다. 모바일 애플리케이션(310)은 카메라 유닛(206)을 통해 취해진 화상 데이터에 대해 각종 처리를 실시한다.
메인 제어 모듈(311)은 모바일 애플리케이션(310)을 통괄적으로 제어하는 모듈이며, 각 모듈(312 내지 315) 및 문자 화상 DB(316)에 대해 지시를 하고 그의 관리를 실시한다.
표시 제어 모듈(312)은 메인 제어 모듈(311)로부터의 지시에 따른 모바일 애플리케이션(310)의 유저 인터페이스용 화면(UI 화면)을 제공한다. 도 4는 모바일 애플리케이션(310)의 UI 화면의 일 예시를 도시하는 도면이다. UI 화면(400)은 휴대형 단말기(100)의 터치 패널(101)에 표시된다. UI 화면(400)의 표시/조작 영역(401)에서, 카메라 유닛(206)을 통해 취해진 화상이 표시되고 유저는 상기 화상에 대하여 각종 조작을 실시할 수 있다.
조작 정보 취득 모듈(313)은 상기 UI 화면(400)을 통해 유저 조작에 관한 입력 정보를 취득하고 취득한 입력 정보를 메인 제어 모듈(311)에 전달한다. 예를 들어, 표시/조작 영역(400)을 유저가 그/그녀의 손으로 터치하는 경우, 조작 정보 취득 모듈(313)은 접촉된 UI 화면(400) 상의 위치를 검출하고 상기 검출된 위치의 정보를 메인 제어 모듈(311)에 송신한다. 셔터 버튼(402)은 카메라 유닛(206)으로부터 입력이 되는 화상을 RAM(205)이나 데이터 관리 모듈(300)에 기억하기 위한 버튼이다. 줌 버튼(403)은 표시된 화상의 확대와 축소를 실시하기 위한 버튼이다. 시리얼 ID(107)를 둘러싸도록 표시된 4개의 키이 형상(key-shaped)의 기호(404 내지 407)는 문자 판독 처리의 대상 영역으로서 촬영될 위치의 척도가 되는 가이드이다. 상기 가이드의 위치는 변경될 수 있고 유저는 판독 대상 문자열에 따라 임의로 위치를 변경할 수 있다. 유저는 판독 대상의 시리얼 ID(107)가 4개의 가이드(404 내지 407)에 의해 형성되는 직사각형의 영역 내에 포함되도록 촬영 위치를 조정하고 피사체인 타이어(105)를 촬영한다. 도 4의 예시에서, 시리얼 ID(107)의 바로 아래 영역(408)에, 문자 판독 결과가 표시된다. 이때, 문자 판독 결과가 잘못된 경우, 유저는 상기 영역(408)에서 수정 대상의 문자 부분을 터치함으로써 문자 판독 결과를 수정할 수 있다. 모바일 애플리케이션(310)의 UI의 구성(위치, 크기, 범위, 배치, 표시 내용 등)이 도시된 바에 한정되지 않는 것은 말할 필요도 없다.
화상 처리 모듈(314)은 카메라 유닛(206)을 통해 취해진 촬영 화상에 대하여, 그레이스케일(grayscale) 변환, 에지 추출, 및 특징량 추출과 같은 문자 판독 처리를 실시하는데 필요한 화상 처리를 실시한다. 이 화상 처리에 의해, 피사체의 문자 판독 처리의 대상이 되는 부분의 화상(이하, "판독 대상 화상")이 생성된다.
문자 인식 모듈(315)은 화상 처리 모듈(314)에 의해 생성된 판독 대상 화상에 대하여 문자 판독 처리를 실시한다. 구체적으로, 판독 대상 화상 내에 문자가 존재한다고 추정되는 영역(탐색 영역)을 설정하고, 상기 문자의 외접 직사각형이 될 수 있는 영역을 크기와 위치를 변경하여 그로부터 잘라내고, 상기 잘라내기 영역(문자 단위 영역)에 대하여 문자 화상 리스트를 사용한 매칭 판정을 실시한다. 문자 화상 리스트는 매칭 판정에서 비교 대상으로서 사용되는 문자 화상의 집합이며, 소위 사전 데이터에 대응한다. 도 5는 숫자의 문자 화상을 일 예시로서 나타낸다. 문자 화상은 대상 피사체[여기서, 타이어에 각인된 시리얼 ID(107)]로 사용되는 모든 문자 종류 각각에 대해 준비된다. 즉, 본 실시예의 경우, 도 5에서 도시하는 "0 내지 9"의 10개의 문자 화상(501 내지 510)의 데이터에 더하여, 대문자의 알파벳 "A 내지 Z"의 26개의 문자 화상(도시하지 않음)의 데이터가 미리 준비된다. 도 6은 문자 화상 리스트의 데이터 구조의 일 예시를 도시하는 도면이다. 문자 화상 리스트에서, 복수의 문자 화상의 데이터는 트리 구조(tree structure)를 갖는다. 각 문자 화상의 데이터는 각 문자를 식별하는 문자 코드와 각 문자의 문자 화상으로부터 추출한 특징 정보로 구성된다. 특징 정보로서, 예를 들어, HOG 특징량을 언급할 수 있다. HOG(Histograms of Oriented Gradients)는 히스토그램으로 변환된 국소 영역에서의 휘도의 구배 배향이다. 각 문자 화상의 데이터는 상술한 예시에 한정되지 않고, 예를 들어, 특징 정보는 타이어에 각인된 문자의 폰트에 기초하여 생성된 각 문자의 특징을 나타내는 정보일 수도 있다. 나아가, 각 문자의 화상 그 자체를 사전 데이터로서 취할 수도 있다. 어떤 사전 데이터를 사용할지는 매칭 판정 대상의 문자 단위 영역의 화상과 사전 데이터를 대조할 때 사용되는 알고리즘에 따라 정해질 수도 있다. 매칭 판정에 의해, 문자 화상 리스트에서 가장 유사한 것으로 평가된 문자 화상에 관한 문자가 매칭 판정에 사용된 문자 단위 영역과 관련지어지고, 각 문자의 가장 유력한 후보 문자로 결정된다. 판독 대상 화상 내의 모든 문자에 대해 가장 유력한 후보 문자가 결정되고 복수의 프레임에서 꾸준히 동일한 결과가 얻어지는 것이 확인되는 경우, OCR에 적합한 정지 화상(프레임)이 취득되고 기억된다.
문자 화상 DB(316)는 문자 인식 모듈(315)이 매칭 판정시에 사용되는 상술한 문자 화상 리스트를 관리하는 데이터베이스이다.
<모바일 애플리케이션의 조작>
이어서, 본 실시예의 모바일 애플리케이션(310)에 의한 피사체 상의 문자열의 판독 조작에 대해서 상세하게 설명한다. 도 7a 내지 7d는 문자열의 판독 처리에서 각 문자마다 상술한 문자 단위 영역을 결정하는 방법을 설명하는 도면이다. 도 7a에서, 직사각형(701)은 카메라 유닛(206)을 통해 취해진 촬영 화상으로부터 뽑아낸 판독 대상 화상의 윤곽을 나타내고 있다. 전술한 바와 같이, 유저는 모바일 애플리케이션(310)의 UI 화면(400)에 제시된 가이드(404 내지 407) 내에 시리얼 ID(107)가 단순히 포함되도록 촬영 위치를 조정하고 나서 피사체인 타이어(105)를 촬영한다. 모바일 애플리케이션(310)은 촬영 화상으로부터 가이드(404 내지 407)에 의해 둘러싸인 부분을 뽑아냄으로써 판독 대상 화상을 생성한다. 일반적으로, 타이어의 시리얼 ID의 포맷은 각 메이커에 대해 결정되고 본 실시예에서, 시리얼 ID의 자릿수는 9이고 시리얼 ID는 2종류의 문자, 즉, 숫자와 대문자의 알파벳으로 구성된다는 가정에서 설명한다.
본 실시예와 같이 타이어에 각인된 시리얼 ID 등을 촬영하여 얻어진 화상의 경우, 문자와 배경의 대비가 적거나 그의 표면에 오염이 있기 때문에 문자의 아웃라인을 정확하게 검출하는 것이 어렵다. 따라서, 문자의 아웃라인에 기초하여 문자를 잘라내는 종래의 기술을 적용하는 경우, 잘못된 문자 잘라내기 위치가 선택될 가능성이 높고, 그 결과, 문자 인식 정밀도가 감소된다. 이로 인해, 본 실시예에서는, 먼저, 문자가 존재한다고 생각되는 영역을 각 문자마다 탐색 영역으로서 설정하고 상기 설정된 탐색 영역 내에서, 잘라내기 위치와 크기를 변경하면서 전술된 문자 단위 영역을 설정한다. 그리고, 탐색 영역 내로부터 잘라낸 각 문자 단위 영역의 화상에 대하여, 문자 화상 리스트 내의 각 문자 화상의 데이터를 사용한 매칭 판정을 실시하고, 그로써 각 문자 단위 영역의 화상과 각 문자 화상 사이의 유사도를 구한다. 모든 문자 단위 영역의 유사도를 얻은 후, 유사도가 모든 유사도 중 가장 높았던 문자 화상에 관한 문자와 그의 매칭 판정에 사용된 문자 단위 영역은 서로 관련지어지고 탐색 영역에서의 인식 결과로 취해진다. 그리고, 매칭 판정이 완료된 탐색 영역의 인식 결과에서의 문자 단위 영역의 위치에 기초하여, 다음 문자에 대한 탐색 영역을 설정하고 이후 동일한 처리를 반복한다. 본 실시예에서, 타이어의 촬영 화상으로부터 뽑아낸 판독 대상 화상(701)에 포함되는 9자리의 시리얼 ID(107)는 제1 자리(좌측 단부의 문자)부터 순서대로 처리된다. 이하, 시계열로 도 7a 내지 7d를 참조하여 설명한다.
먼저, 제1 자리 문자의 탐색 영역(702)이 가이드(404 내지 407)를 따르는 판독 대상 화상(701)의 좌측 단부로부터 미리정해진 거리로 이격된 위치에 설정된다. 상기 제1 탐색 영역(702)의 위치는 시리얼 ID(107)가 4개의 가이드로 형성된 직사각형 내에 포함되도록 촬영을 실시한 경우에서 좌측 단부에 문자가 존재할 가능성이 높은 영역으로서 상기 탐색 영역의 4개의 코너를 특정하는 위치 좌표를 사용해서 미리 설정된다고 가정한다. 그리고, 탐색 영역(702) 내의 미리정해진 잘라내기 위치에 문자 단위 영역(703)이 설정되고 그의 화상을 추출하며, 상기 화상을 제1 자리에 출현할 가능성이 있는 문자에 관한 각 문자 화상과 비교하고, 각 문자 화상에 관한 문자와의 유사도를 구한다. 이때, 문자 단위 영역(703)은 탐색 영역(702) 내에서 수평 방향(x축 방향)과 수직 방향(y축 방향)으로 서로로부터 약간 이동된 복수의 위치에 설정된다. 그리고, 각각의 잘라내기 위치에서의 문자 단위 영역의 화상에 대해서, 문자 화상 리스트를 사용한 매칭 판정이 실시되고 각 문자 화상과의 유사도가 도출된다. 즉, 전체 탐색 영역(702)을 커버하기 위해 미리정해진 크기의 복수의 문자 단위 영역을 상이한 위치에 설정하고, 각 위치마다 사전 데이터와의 비교를 한다. 그 후, 문자 단위 영역(703)의 폭과 높이를 추가로 변경하고, 전체 탐색 영역(702)을 커버하기 위해 상이한 잘라내기 위치에서 문자 단위 영역(703)을 다시 설정하여, 문자 화상과의 매칭 판정을 실시한다. 예를 들어, 문자 단위 영역(703)의 폭을 3패턴, 그의 높이를 2패턴으로 변경하는 경우, 문자 단위 영역(703)의 크기는 총 6패턴(3×2=6)이 된다. 또한, 문자 단위 영역(703)의 잘라내기 위치를 수평 방향에서 4회, 수직 방향에서 4회 슬라이드하여 설정하는 경우, 탐색 영역(702)에 대하여, 문자 단위 영역(703)은 (4+1)×(4+1)=25개의 위치에 설정된다. 문자 단위 영역의 크기가 6패턴을 갖고 잘라내기 위치가 25개의 위치에 설정된 경우, 문자 단위 영역의 화상은 탐색 영역(702)으로부터 총 150회 잘린다. 그리고, 문자 단위 영역의 화상을 잘라낼 때마다, 제1 자리에 출현할 가능성이 있는 문자에 대해서 문자 화상 리스트를 사용하여 매칭 판정을 실시하고 각 문자 화상과의 유사도를 구한다.
탐색 영역 내의 모든 문자 단위 영역에 대해서 매칭 판정을 실시한 후, 유사도가 가장 높았던 문자 화상에 관한 문자가 제1 자리의 인식 결과(가장 유력한 후보 문자)로서 확정된다. 그리고, 상기 유사도가 가장 높았던 문자 단위 영역의 잘라내기 위치를 제1 자리의 문자 위치로 취한다. 도 7c는 유사도가 가장 높았던 문자 화상의 문자로서 알파벳 "S"가 제1 자리의 인식 결과로서 확정되고 그때의 문자 단위 영역의 잘라내기 위치를 직사각형(704)으로 나타내고 있다.
제1 자리의 인식 결과가 확정된 경우, 그의 우측에 인접하는 문자(좌측으로부터 제2 문자)에 대해 탐색 영역(705)이 설정된다. 이 경우에서의 탐색 영역(705)은 일 문자 이전의 문자인, 제1 자리 문자의 위치(704)에 기초하여 미리정해진 상대 위치로 설정된다. 제2 자리 문자에 대해서도, 제1 자리 문자의 경우와 같이, 탐색 영역(705) 내에서 잘라내기 위치를 변경함으로써 문자 단위 영역(706)이 설정되고 각각의 문자 단위 영역(706)에 대해서 매칭 판정(유사도의 도출)을 실시하며, 그리고 유사도가 가장 높았던 문자 화상에 관한 문자가 제2 자리 문자의 인식 결과로서 확정된다. 제3 자리와 후속 자리에 대해서도, 탐색 영역의 설정, 문자 단위 영역의 설정, 및 문자 화상 리스트를 사용한 매칭 판정이 유사하게 연속적으로 실시되고 인식 결과가 각 문자에 대해 순서대로 정해진다.
촬영 시의 좌측 및 우측 방향으로의 이동을 고려하여 최초로 검출되는 문자에 대한 탐색 영역(702)은 약간 넓게 설정하는 것이 바람직하다. 한편, 문자들 간의 공간은 판독 대상 문자열에 따라 일반적으로 미리 정해진다. 따라서, 제2 및 후속하는 문자에 대한 탐색 영역(705)은 제1 문자에 대한 탐색 영역(702)보다 약간 좁게 설정될 수도 있다. 또한, 본 실시예에서 나타난 문자 단위 영역을 잘라내는 방법은 일 예시이며 복수의 상이한 잘라내기 위치로부터 문자 단위 영역을 잘라냄으로써 각 문자에 대한 인식 결과를 연속적으로 결정할 수 있는 임의의 방법이 사용될 수도 있다.
<문자 판독 처리>
계속해서, 핸드헬드 휴대형 단말기(100)로 촬영된 피사체 상의 문자를 판독하는 처리의 상세에 대해서 설명한다. 도 8은 본 실시예에 따른 문자 판독 처리의 흐름을 나타내는 흐름도이다. 본 흐름은 예를 들어, 트리거(trigger)로서 유저가 모바일 애플리케이션(310)을 활성화함으로써 시작된다.
단계 801에서, 하기 설명될 단계 807의 판정 처리에서 사용되는 판정 계수가 설정된다. 단계 807의 판정 처리는 문자 단위 영역이 판독 대상 화상 내에서 문자 인식에 적합한 미리정해진 범위(이하, 문자 인식 범위) 내측에 포함되어 있는지를 판정하기 위한 처리이다. 상기 판정 처리 및 판정 계수의 상세에 대해서는 후술한다.
단계 802에서, 전술된 가이드를 따르는 동영상 모드에서 촬영된 일 프레임에 대응하는 판독 대상 화상이 취득된다. 상기 동영상 모드 촬영시의 프레임률은 예를 들어, 약 30fps이다. 계속되는 단계 803에서, 후술하는 안정 상태 판정 처리(단계 S809)의 판정 결과에 따라 처리가 분기된다. 안정 상태 판정 처리의 상세에 대해서는 후술한다. 상태가 안정 상태이다라고 판정 결과가 나타나는 경우, 처리는 단계 810으로 진행한다. 한편, 상태가 안정 상태이다라는 판정 결과가 나타나지 않는 경우, 처리는 단계 804로 진행한다. 처리의 시작 직후의 상태에서, 안정 상태 판정 처리 그 자체가 아직 실시되지 않았으므로, 처리는 예외 없이 단계 804로 진행한다.
단계 804에서, 단계 802에서 취득된 판독 대상 화상에 포함된 문자열(판독 대상 문자열) 내의 주목 문자에 대해서, 상술된 탐색 영역이 설정된다. 여기서, 판독 대상 문자열의 제1 자리 문자는 최초의 대상 문자로 취해지므로, 처리의 시작 직후 단계에서, 제1 자리 문자에 대한 탐색 영역이 설정된다.
단계 805에서, 설정된 탐색 영역을 대상으로서, 문자 단위 영역의 설정과 사전 데이터를 사용한 매칭 판정을 연속적으로 실시함으로써 대상 문자에 대한 인식 결과의 후보가 되는 문자를 검출하는 처리(후보 문자 검출 처리)가 실시된다. 이 후보 문자 검출 처리에 의해, 도 9에서 도시한 바와 같은 데이터 구조의 후보 문자 검출 결과가 얻어진다. 본 실시예의 경우, 각 탐색 영역마다 150개의 문자 단위 영역에 대해서 매칭 판정이 실시되고 후보 문자로서 검출된 문자의 수에 따라 제N 후보(N>1)까지의 후보 문자 정보가 얻어진다. 9자리의 시리얼 ID를 판독 대상 문자열로 취하는 본 실시예의 경우, 각 자리에 대응하여 "탐색 영역_1" 내지 "탐색 영역_9"의 정보가 얻어진다. 각각의 후보 문자 정보는 직사각형 정보, 코드 정보, 및 평가값 정보를 포함한다. 직사각형 정보는 검출된 후보 문자에 대응하는 문자 단위 영역의 잘라내기 위치를 특정하는 좌표 정보 및 상기 문자 단위 영역의 크기 정보를 포함한다. 코드 정보는 검출된 후보 문자의 문자 코드에 대한 정보이다. 평가값 정보는 검출된 후보 문자의 확실성을 나타내는 정보이며, 본 실시예에서, 검출된 후보 문자가 사전 데이터 내의 문자 화상과 유사한 정도(유사도)가 평가값으로 취해진다.
<<후보 문자 검출 처리>>
도 10은 상술한 후보 문자 검출 처리의 상세를 나타내는 흐름도이다. 이하, 도 10의 흐름에 따라 설명한다.
단계 1001에서, 문자 단위 영역의 폭이 초기값(여기서, 최솟값)으로 설정된다. 계속되는 단계 1002에서, 문자 단위 영역의 폭이 한계값에 도달했는지(여기서, 상기 폭이 최댓값을 초과했는지)가 판정된다. 문자 단위 영역의 폭이 최댓값을 초과했다고 판정된 경우, 이 처리를 끝낸다. 한편, 문자 단위 영역의 폭이 최댓값을 초과하지 않았다고 판정된 경우, 처리는 단계 1003으로 진행한다.
단계 1003에서, 문자 단위 영역의 높이가 초기값(여기서, 최솟값)으로 설정된다. 계속되는 단계 1004에서, 문자 단위 영역의 높이가 한계값에 도달했는지(여기서, 높이가 최댓값을 초과했는지)가 판정된다. 문자 단위 영역의 높이가 최댓값을 초과했다고 판정된 경우, 단계 1013에서 문자 단위 영역의 폭이 갱신되고(여기서, 미리정해진 양 만큼 커지게 된다), 처리는 단계 1002로 복귀되어 계속된다. 한편, 문자 단위 영역의 높이가 최댓값을 초과하지 않았다고 판정된 경우, 처리는 단계 1005로 진행한다.
단계 1005에서, 문자 단위 영역의 기준이 되는 x 좌표(여기서, 좌측 단부의 x 좌표)가 초기값(여기서, 탐색 영역의 좌측 단부의 x 좌표)으로 설정된다. 계속되는 단계 1006에서, 문자 단위 영역의 폭이 탐색 영역의 폭을 초과했는지가 판정된다. 구체적으로, 문자 단위 영역의 우측 단부 x 좌표가 탐색 영역의 우측 단부 x 좌표를 초과했는지가 판정된다. 문자 단위 영역의 폭이 탐색 영역의 폭을 초과했다고 판정된 경우, 단계 1012에서 문자 단위 영역의 높이가 갱신되고(여기서, 높이는 미리정해진 양 만큼 커지게 된다), 처리는 단계 1004로 복귀되어 계속된다. 한편, 문자 단위 영역의 폭이 탐색 영역의 폭을 초과하지 않았다고 판정된 경우, 처리는 단계 1007로 진행한다.
단계 1007에서, 문자 단위 영역의 기준이 되는 y 좌표(여기서, 상단측의 y 좌표)가 초기값(여기서, 탐색 영역의 상단측의 y 좌표)으로 설정된다. 계속되는 단계 1008에서, 문자 단위 영역의 높이가 탐색 영역의 높이를 초과했는지가 판정된다. 구체적으로, 문자 단위 영역의 하단측의 y 좌표가 탐색 영역의 하단측의 y 좌표를 초과했는지가 판정된다. 문자 단위 영역의 높이가 탐색 영역의 높이를 초과했다고 판정된 경우, 단계 1011에서 문자 단위 영역의 기준이 되는 x 좌표가 갱신되고(여기서, x 좌표는 x 좌표를 증가시킴으로써 x축 방향으로 슬라이드된다) 처리는 단계 1006으로 복귀되어 계속된다. 한편, 문자 단위 영역의 높이가 탐색 영역의 높이를 초과하지 않았다고 판정된 경우, 처리는 단계 1009로 진행한다.
단계 1009에서, 현재 설정된 문자 단위 영역의 화상에 대하여, 각각의 문자 화상과 매칭 판정이 실시된다. 이 매칭 판정의 상세에 대해서는 별도로 흐름을 참조하여 설명한다. 매칭 판정이 완료된 경우, 단계 1010에서 문자 단위 영역의 기준이 되는 y 좌표가 갱신되고(여기서, y 좌표는 y 좌표를 증가시킴으로써 y축 방향으로 슬라이드된다) 처리는 단계 1008로 복귀되어 계속된다.
상기와 같이, 문자 단위 영역의 크기를 변경하면서 탐색 영역 내에서 복수의 잘라내기 위치에 문자 단위 영역을 설정하여 매칭 판정을 수행함으로써, 대상 문자의 후보 문자가 특정되게 된다. 상술한 설명에서, 최솟값과 최댓값, 좌측 단부와 우측 단부, 상단측과 하단측과 같은 한 쌍을 이루는 것들에 대해서, 상기 쌍의 순서를 역순으로 하는 것이 가능할 수도 있다. 예를 들어, 단계 1001에서 초기값으로서 최댓값을 설정할 수도 있고, 이 경우, 단계 1002에서 한계값은 최솟값으로 설정된다. 이에 의해서도, 동일한 결과를 얻는 것이 가능하다.
<<매칭 판정>>
계속해서, 상술한 단계 1009에서의 매칭 판정에 대해서 설명한다. 도 11은 매칭 판정 처리의 상세를 나타내는 흐름도이다.
단계 1101에서, 미리정해진 문자 단위 영역의 화상이 탐색 영역으로부터 잘린다. 계속되는 단계 1102에서, 상기 문자 단위 영역의 잘라내기 화상으로부터, 특징 정보(여기서, HOG 특징량)가 추출된다. 그리고, 단계 1103에서, 전술한 문자 화상 리스트로부터 제1 문자 화상(도 7a 내지 도 7d의 예시에서, "문자 화상_1")의 데이터가 취득된다.
단계 1104에서, 단계 1103에서 취득된 문자 화상의 데이터에 포함되는 특징 정보와 단계 1102에서의 문자 단위 영역의 화상으로부터 추출된 특징 정보가 비교되고 양자가 유사한 정도를 나타내는 상관 계수가 평가값으로서 구해진다. 도 12a 및 도 12b는 도 1a 내지 도 1c에서 도시한 타이어(105) 상의 문자열(107)에 대해 얻어진 상이한 프레임에서의 평가값의 일 예시를 도시하는 도면이다. 조명과 같은 촬영 조건에서의 약간의 변화 및 문자 단위 영역의 잘라내기 위치나 크기의 차이 때문에, 얻어지는 평가값은 프레임들 간에 상이하다.
그리고, 비교가 이루어진 문자 화상의 문자 코드와 단계 1104에서 구한 평가값(유사도)의 정보를 포함하는 후보 문자 정보가 단계 1101에서 잘려진 문자 단위 영역에 대해 생성된다.
단계 1106에서, 처리된 대상 문자에 대해서, 생성된 후보 문자 정보에 관한 문자 코드와 동일한 문자 코드를 갖는 후보 문자 정보가 이미 존재하는지가 판정된다. 즉, 문자 코드가 일치하는 후보 문자 정보가 전술한 도 9에서의 제1 후보 문자 정보나 제2 후보 문자 정보로서 이미 검출되었는지를 확인한다. 문자 코드가 일치하는 후보 문자 정보가 이미 존재하고 있는 경우, 처리는 단계 1107로 진행한다. 한편, 문자 코드가 일치하는 후보 문자 정보가 존재하지 않는 경우, 처리는 단계 1109로 진행한다.
단계 1107에서, 단계 1105에서 생성된 후보 문자 정보의 평가값과 이미 존재하는 후보 문자 정보의 평가값을 비교하여 어느 것이 더 높은지를 판정한다. 판정의 결과가 이미 존재하는 후보 문자 정보의 평가값이 더 낮다(단계 1105에서 생성된 후보 문자 정보의 평가값이 더 높다)고 나타나는 경우, 처리는 단계 1108로 진행한다. 한편, 이미 존재하는 후보 문자 정보의 평가값이 더 높은 경우, 처리는 단계 1110으로 진행한다.
단계 1008에서, 이미 존재하는 후보 문자 정보의 내용이 갱신된다. 구체적으로, 이미 존재하는 제N 후보 문자 정보의 직사각형 정보와 평가값 정보의 내용이 단계 1105에서 생성된 후보 문자 정보의 내용으로 덮어 쓰여진다. 또한, 단계 1109에서, 단계 1105에서 생성된 후보 문자 정보가 새로운 제N 후보 문자 정보로서 보유[RAM(202)에 기억]된다.
그리고, 단계 1110에서, 문자 화상 리스트에 있는 모든 문자 화상과의 비교가 완료되었는지(문자 화상 리스트의 마지막에 도달했는지)가 판정된다. 미처리된 문자 화상이 있는 경우, 처리는 단계 1111로 진행한다. 그리고, 문자 화상 리스트 내의 다음 문자 화상 데이터가 취득되고 처리는 단계 1104에 복귀되어 계속된다. 한편, 문자 화상 리스트의 모든 문자 화상과의 비교가 완료되는 경우, 이 처리를 끝낸다. 이상은 매칭 판정 처리의 내용이다.
문자 판독 처리(도 8의 흐름)의 설명으로 되돌아간다.
단계 806에서, 후보 문자 검출 처리의 결과에 기초하여, 단계 804에서 설정된 탐색 영역에 대한 가장 유력한 후보 문자가 결정된다. 구체적으로, 제1 후보 문자 내지 제N 후보 문자로부터, 평가값(유사도)이 가장 높은 후보 문자가 가장 유력한 후보 문자로 결정된다. 그리고, 단계 807에서, 단계 806에서 결정된 가장 유력한 후보 문자의 후보 문자 정보에 포함되는 직사각형 정보에 기초하여, 상기 가장 유력한 후보 문자의 문자 단위 영역이 문자 인식 범위 내측에 포함되어 있는지가 판정된다. 이러한 판정을 실시하는 이유는 이하와 같다. 핸드헬드 휴대형 단말기에 의해 동영상 모드로 촬영되어 얻어지는 각 프레임의 화상 중에, 카메라 떨림으로 인한 흐려짐, 조명의 변화 등의 영향 때문에 문자 인식에 적합하지 않은 많은 화상이 포함될 수도 있다. 그러한 화상을 그대로 사용해서 매칭 판정을 실시하는 경우, 잘못된 인식이 발생할 가능성이 높다. 그래서, 문자 인식에 가능한 한 적합한 화상을 취득하기 위해, 매칭 판정 대상 문자열이 판독 대상 화상 내에서 바람직한 위치에 위치되는 것을 보장하는 범위(= 문자 인식 범위)가 설정된다. 도 13a 및 도 13b는 문자 인식 범위의 특정된 예시를 나타낸다. 도 13a 및 13b에서, 기호 1301은 도 1b에서 나타내는 타이어(105)의 촬영 화상으로부터 뽑아낸 판독 대상 화상을 나타내고 있다. 그리고, 기호 1302는 문자 인식 범위의 상단측의 상한 라인을 나타내고, 기호 1303은 문자 인식 범위의 상단측의 하한 라인을 나타내고 있다. 또한, 기호 1304는 문자 인식 범위의 하단측의 상한 라인을 나타내고, 기호 1305는 문자 인식 범위의 하단측의 하한 라인을 나타내고 있다. 그리고, 제1 자리 내지 제9 자리 문자 각각을 둘러싸는 직사각형(1306)은 전술한 도 12a의 평가값에 대응하는 문자 단위 영역을 나타내고 직사각형(1306')은 전술한 도 12b의 평가값에 대응하는 문자 단위 영역을 나타내고 있다. 여기서, 판독 대상 화상의 상단(1301)이 y 좌표의 원점으로 취해지는 경우, 문자 인식 범위의 상단측의 상한 라인(1302)의 y 좌표로서, 제1 자리 내지 제9 자리 문자 단위 영역(1306)의 y 좌표의 최솟값이 설정된다. 유사하게, 문자 인식 범위의 하단측의 하한 라인(1305)의 y 좌표로서, 제1 자리 내지 제9 자리 문자 단위 영역(1306)의 y 좌표의 최댓값이 설정된다. 또한, 상단측의 상한 라인(1302), 및 하단측의 하한 라인(1305), 및 내측/외측 판정 계수에 기초하여, 문자 인식 범위의 상단측의 하한 라인(1303)과 하단측의 상한 라인(1304)이 결정된다.
내측/외측 판정 계수는 상단측의 상한 라인(1302)의 y 좌표와 하단측의 하한 라인(1305)의 y 좌표의 차이가 1로 취해진 경우에서 문자 인식이 실시되지 않은 영역의 비율을 나타내는 계수이다. 구체적으로, 먼저, 상단측의 상한 라인(1302)의 y 좌표와 하단측의 하한 라인(1305)의 y 좌표로부터, 상단측의 상한 라인(1302)과 하단측의 하한 라인(1305)의 y 좌표간의 거리를 결정한다. 또한, 그의 중심 y 좌표, 즉, {[상단측의 하한 라인(1303)의 y 좌표+하단측의 상한 라인(1304)의 y 좌표]÷2}가 결정된다. 이때, 상단측의 하한 라인(1303)의 y 좌표 및 하단측의 상한 라인(1304)의 y 좌표는 각각 이하의 식으로 구해진다.
상단측의 하한 라인의 y 좌표=중심 y 좌표-[y 좌표간의 거리×내측/외측 판정 계수÷2]
하단측의 상한 라인의 y 좌표=중심 y 좌표+[y 좌표간의 거리×내측/외측 판정 계수÷2]
또한, 유저가 터치 패널(101)을 통해 내측/외측 판정 계수를 수동으로 설정하는 것도 가능하고 각 프레임에서의 직사각형 정보의 평균값을 사용한 사칙 연산 등에 의해 자동적으로 설정되는 것도 가능하다. 그리고, 이하의 조건 1 및 조건 2를 만족하는 경우, 문자 단위 영역이 문자 인식 범위의 내측에 포함되어 있다고 판정된다.
조건 1: 직사각형 정보로 특정되는 각 문자 단위 영역의 상단(y 좌표의 최솟값)이 문자 인식 범위의 상단측의 상한 라인(1302)과 상단측의 하한 라인(1303)의 사이에 포함된다.
조건 2: 직사각형 정보로 특정되는 각 문자 단위 영역의 하단(y 좌표의 최댓값)이 문자 인식 범위의 하단측 하한 라인(1305)과 하단측 상한 라인(1304)의 사이에 포함된다.
도 13a의 경우, 제1 자리 내지 제9 자리 문자 단위 영역의 각 상단(1306)은 상단측의 상한 라인(1302)과 상단측의 하한 라인(1303) 사이의 범위 내에 포함되고, 그의 하단은 하단측의 하한 라인(1305)과 하단측의 상한 라인(1304) 사이의 범위 내에 포함된다. 이 경우, 문자 단위 영역이 문자 인식 범위의 내측에 포함되어 있다고 판정된다. 한편, 도 13b의 경우, 제1 자리 내지 제9 자리 문자 단위 영역(1306') 중 제8 자리 "9"의 문자 단위 영역에서, 그의 하단이 하단측의 하한 라인(1305)과 하단측의 상한 라인(1304) 사이의 범위 내측에 포함되지 않고 범위 외측에 있다. 이 경우, 문자 단위 영역이 문자 인식 범위의 내측에 포함되어 있지 있다고 판정된다. 상기와 같이 본 단계에서 가장 유력한 후보 문자의 문자 단위 영역이 문자 인식 범위의 내측에 포함되어 있다고 판정된 경우, 처리는 단계 808로 진행한다. 한편, 문자 단위 영역이 문자 인식 범위 내측에 포함되어 있지 않다고 판정된 경우, 처리는 단계 802에 복귀되고 가이드를 따르는 일 프레임에 대응하는 촬영 화상(판독 대상 화상)이 다시 취득된다.
단계 808에서, 가이드를 따르는 일 프레임에 대응하는 촬영 화상(판독 대상 화상) 내의 문자열의 모든 문자에 대해 처리가 완료되었는지가 판정된다. 모든 문자의 처리가 완료된 경우, 처리는 단계 809로 진행한다. 한편, 미처리된 문자가 있는 경우, 처리는 단계 804로 복귀되고 다음 문자가 대상 문자로 결정되며, 처리는 계속된다.
단계 809에서, 미리정해진 연속 프레임수에서 판독 대상 문자열을 구성하는 각 문자에 관한 가장 유력한 후보 문자의 평가값이 안정되어 있는지를 판정하는 상술한 안정 상태 판정 처리가 실시된다.
<<안정 상태 판정 처리>>
도 14는 안정 상태 판정 처리의 상세를 나타내는 흐름도이다. 이하, 도 14의 흐름에 따라 설명한다.
단계 1401에서, 가장 유력한 후보 문자의 평가값이 안정 상태에 있는지를 판정하는 기준으로서, 기준 프레임수와 기준 변화도에 대응하는 임계값이 각각 설정된다. 기준 프레임수는 얼마나 많은 연속적인 프레임에서 판독 대상 문자열의 각 문자의 가장 유력한 후보 문자를 대표하는 문자 코드가 일치하는지를 판정하는 기준이며, 예를 들어, 5개의 프레임과 같은 임계값이 설정된다. 기준 변화도는 연속 일치 프레임수에 도달된 시점에서의 각 프레임에서 가장 유력한 후보 문자의 평가값의 합계(평가값의 합계값)의 변화도가 미리정해진 범위에 포함되는지를 판정하는 기준이며, 예를 들어, 10%와 같은 임계값이 설정된다. 또한, 유저가 터치 패널(101)을 통해 이러한 임계값을 수동적으로 설정하거나 문자 판독 처리의 실행 히스토리로부터 평균값을 구함으로써 자동적으로 설정되는 등이 가능할 수도 있다.
단계 1402에서, 현재의 프레임과 직전(현재 프레임의 일 프레임 전)의 프레임에서 전술한 후보 문자 검출 결과가 취득된다. 그리고, 단계 1403에서, 현재의 프레임과 직전의 프레임에서 취득된 후보 문자 검출 결과에 포함되는 문자 코드의 정보에 기초하여, 양쪽 프레임에서 가장 유력한 후보 문자가 서로 일치하는지가 판정된다. 현재의 프레임과 직전의 프레임에서 가장 유력한 후보 문자가 서로 일치하는 경우, 처리는 단계(1404)로 진행한다. 한편, 가장 유력한 후보 문자들이 서로 일치하지 않는 경우, 이 처리는 종료된다.
단계 1404에서, 가장 유력한 후보 문자들이 일치하는 연속 프레임수가 단계 1401에서 설정된 기준 프레임수에 도달했는지(미리정해진 임계값 이상인지)가 판정된다. 판정의 결과가 연속 일치 프레임수가 기준 프레임수에 도달되지 않았다고 나타내는 경우, 처리는 단계 1405로 진행하고 현재 시점에서의 연속 일치 프레임수가 RAM(202)에 기억된다. 한편, 기준 프레임수에 도달된 경우, 처리는 단계 1406으로 진행한다.
단계 1406에서, 기준 프레임수에 대응하는 연속 일치 프레임의 각각에서, 가장 유력한 후보 문자의 평가값의 합계(평가값의 합계값)가 연산된다. 본 실시예의 경우, 미리정해진 연속 일치 프레임수의 각각에서, 제1 자리 문자 내지 제9 자리 문자의 전체 문자의 평가값의 합계가 평가값의 합계값으로서 구해진다. 예를 들어, 전술한 도 12a의 경우, 평가값의 합계값은 0.23+0.25+0.28+0.25+0.19+0.26+0.29+0.25+0.12=2.12 이다. 도 12b의 경우, 평가값의 합계값은, 0.65+0.54+0.68+0.64+0.39+0.73+0.55+0.87+0.60=5.65 이다.
단계 1407에서, 단계 1406에서 연산된 평가값의 합계값으로부터, 변동폭과 상기 변동폭에 기초한 변화도가 구해지고 구해진 변화도가 단계 1401에서 설정된 기준 변화도 내에 포함되는지가 판정된다. 구체적으로, 연속 일치 프레임 전체에 대해서 구해진 평가값의 합계값의 최댓값과 최솟값 사이의 차이(변동폭)를 구하고, 상기 변화도를 나타내는 비율이 단계 1401에서 설정된 미리정해진 임계값 내에 있는지가 판정된다. 예를 들어, 5개의 연속 일치 프레임에서의 평가값의 합계값이 4.8, 4.9, 5.0, 5.1, 5.2라고 가정한다. 이 경우, 변동폭은 0.4이다. 그리고, 이 경우에서 변화도는 0.4÷5.0=0.08(8%)이 되므로, 기준 변화도로서 임계값이 10%인 경우, 상기 변화도는 기준 변화도 내에 포함되어 있다고 판정된다. 평가값의 합계값의 변화도가 상기와 같은 기준 변화도 내에 포함되어 있을 경우, 처리는 단계 1408로 진행한다. 한편, 변화도가 기준 변화도 내에 포함되지 않는 경우, 이 처리는 종료된다.
단계 1408에서, 기준 프레임수에 대응하는 연속 일치 프레임의 각각에서 평가값이 안정 상태에 있다고 판정되고, 이를 나타내는 정보(예를 들어, 플래그)가 RAM(202)에 기억된다.
이상, 단계 809에서의 안정 상태 판정 처리의 내용이다. 안정 상태 판정 처리가 완료되는 경우, 처리는 단계 802로 복귀되고 가이드를 따르는 다음 프레임의 판독 대상 화상이 취득된다. 설명은 도 8의 흐름으로 되돌아간다.
판정 결과에 따라 처리가 분기된 전술한 단계 803에서의 처리에서 판정의 결과가 가장 유력한 후보 문자의 평가값이 안정 상태에 있다고 나타내는 경우의 단계 810에서, 직전의 단계 802에서 취득된 일 프레임에 대응하는 촬영 화상(판독 대상 화상)이 문자 판독 처리의 결과로서 출력되며, 예를 들어, RAM(202)이나 외부 기억 장치(도시하지 않음)에 기억된다. 또한, 취득된 촬영 화상에 대하여 다시 후보 문자 검출 처리(단계 805)를 실시하고 상기 결과를 단순한 OCR 결과로서 터치 패널(101)에 표시하는 것이 가능할 수도 있다. 대안적으로, 취득된 촬영 화상의 데이터를 NIC(205)를 통해 외부 PC 등에 전송하고 상이한 방법 또는 정밀도의 OCR을 별도로 실시하는 것이 가능할 수도 있다.
이상은 본 실시예에 따른 문자 판독 처리의 내용이다. 이에 의해, 예를 들어 동영상 모드에서 촬영을 실시하여 문자 인식에 최적인 정지 화상을 특정하는 자동 촬영 기능을 휴대형 단말기에 제공하는 것이 가능하게 된다.
(변형예)
예를 들어, 숫자 "0"과 "9" 및 숫자 "0"과 알파벳 "O"와 같이, 형상이 유사한 문자가 판독 대상 문자열에 포함되는 경우도 적지 않다. 이와 같은 경우, 조명이 적용되는 방법 등의 미묘한 변화에 의해 가장 유력한 후보 문자가 프레임들 간에 빈번하게 변경되고 평가값이 장시간 동안 안정되지 않을 것이므로, 문자 판독 처리에 대해 예상치 못한 시간이 걸리는 경우가 고려된다.
그래서, 서로 근접한 평가값의 복수의 후보 문자가 후보 문자 검출 처리에서의 매칭 판정 결과로서 구해지는 경우, 상기 탐색 영역의 문자가 안정 상태 판정 처리의 대상으로부터 제외되는 구성을 설계하는 것이 가능할 수도 있다. 상술된 바와 같이 평가값이 서로 근접한 복수의 후보 문자가 구해진 탐색 영역의 문자를 제외하여 평가값이 안정 상태에 있는지를 판정함으로써, 인식 정밀도를 유지하면서 문자 판독 처리에 걸리는 시간이 필요 이상으로 길어지는 것을 방지(또는 문자 판독 처리가 종료될 수 없는 것을 방지)하는 것이 가능하다.
도 15는 본 변형예에서 사용되는 후보 문자 표의 일 예시이다. 이 후보 문자 표는 도 1c에 나타난 타이어(105)의 판독 대상 문자열에 대응하고 9자리에 대응하는 후보 문자 정보가 포함된 표이다. 도시된 바와 같이, 후보 문자 표에서, 문자 코드와 그 평가값에 대한 정보는 가장 높은 평가값(유사도)부터 순서대로 제1 후보 문자, 제2 후보 문자 등과 같이, 서로 관련지어져 기억된다. 그리고, 이 후보 문자 표를 참조하여 예를 들어, 평가값이 가장 높은 제1 후보 문자의 평가값과 평가값이 두번째로 높은 제2 후보 문자의 평가값 사이의 차이가 미리정해진 값 이내인 경우, 상기 탐색 영역의 문자는 안정 상태 판정 처리의 대상으로부터 제외된다. 이 경우 미리정해진 값은 피사체, 대상 문자열의 구성, 화상 촬영 환경 등을 고려하여 설정될 수도 있고, 예를 들어, 약 0.01 내지 0.1의 값이 설정된다. 도 15에서 도시하는 예시에서, 제8 자리의 제1 후보 문자인, 문자 정보 "0"(영)의 평가값 0.87과 제2 후보 문자 "O"(알파벳)의 평가값 0.86 사이의 차이는 0.01만큼 작다. 이 경우에서, 임계값이 0.05로 설정되는 조건에서, 제8 자리는 제외된다.
촬영 환경이 프레임들 간에 변경되기 쉬운 경우, 특히 제1 후보 문자와 제2 후보 문자 사이의 평가값 차이가 작은 조건에서, 프레임들 간에 제1 후보 문자와 제2 후보 문자가 서로 교체되기 쉽다. 이 경우, 잘못된 인식이 발생할 가능성이 높으므로, 제1 후보 문자와 제2 후보 문자 사이의 평가값 차이에 착안하여 상기 차이가 작은 탐색 영역의 문자는 안정 상태 판정 처리에 이용하지 않는다. 구체적으로, 도 15의 예시의 경우, 제8 자리를 제외한 제1 자리 내지 제7 자리 및 제9 자리의 8개의 문자만을 사용함으로써, 현재의 프레임과 직전의 프레임에서 가장 유력한 후보 문자가 서로 일치하는지를 판정하는 판정 처리(단계 1403)가 실시된다. 하지만, 본 변형예는 이것에 한정되는 것이 아니라, 예를 들어, 제1 및 제2 후보 문자에 더하여, 제3 후보 문자를 고려하는 것도 가능할 수 있다.
나아가, 제외되는 문자수의 상한(제외 문자율)을 설정하는 것이 가능할 수도 있다. 예를 들어, 제외 문자율은 대상 문자열을 구성하는 총 문자수로 제외되는 문자수를 나눈 것으로 정의되고, 제외되는 문자수가 상한을 초과한 경우, 그 프레임에 관한 촬영 화상을 판독 대상 화상으로 취하지 않는다. 예를 들어, 대상 문자열의 문자수가 10개이고 제외되는 문자수의 상한이 2개(제외 문자율=0.2)로 설정된 경우, 제외되는 문자수가 2개 이상인 조건에서, 그 프레임의 촬영 화상을 폐기하고 다음 프레임의 촬영 화상을 취득함으로써 처리가 계속된다. 그리고, 제외되는 문자수의 상한을 초과하는 촬영 화상이 연속적으로 출현하는 경우, 촬영 환경의 변경을 권장하는 메시지를 터치 패널(101)에 표시하는 것이 가능할 수도 있다.
이상과 같은 변형에 의해, 평가값이 서로 근접한 문자가 판독 대상 문자열 내에 포함되어서 평가값이 연속하는 복수의 프레임에서 안정되기 어려운 상황에서도 본 발명을 적합하게 적용할 수 있다.
본 실시예에 따라, 카메라 기능을 갖는 휴대형 단말기를 사용하여 문자를 포함하는 판독 대상을 촬영해서 문자 인식 결과를 얻는 경우, OCR에 적합한 화상을 단시간의 촬영에서 얻을 수 있다.
(다른 실시예)
또한 본 발명의 실시예(들)는 하나 이상의 상술된 실시예의 기능을 실시하기 위해 기억 매체('비일시적 컴퓨터 판독 기억 매체'라고 더 완전하게 칭하기도 함)에 기억된 컴퓨터 실행가능 지시들(예를 들어, 하나 이상의 프로그램)을 판독하고 실행하며 그리고/또는 하나 이상의 상술된 실시예(들)의 기능을 수행하기 위한 하나 이상의 회로[예를 들어, 주문형 집적 회로(ASIC)]를 포함하는 시스템이나 장치의 컴퓨터에 의해, 그리고 예를 들어, 하나 이상의 상술된 실시예(들)의 기능을 실시하기 위해 기억 장치로부터 컴퓨터 실행가능 지시들을 판독하고 실행하는 것 그리고/또는 하나 이상의 상술된 실시예(들)의 기능을 실시하기 위해 하나 이상의 회로를 제어하는 것에 의해 시스템이나 장치의 컴퓨터에 의해 실시되는 방법에 의해 실현될 수 있다. 상기 컴퓨터는 하나 이상의 프로세서[예를 들어, 중앙 처리 유닛(CPU), 마이크로 처리 유닛(MPU)]를 포함할 수도 있고 컴퓨터 실행가능 지시들을 판독하고 실행하기 위한 별도의 컴퓨터나 별도의 프로세스의 네트워크를 포함할 수도 있다. 컴퓨터 실행가능 지시들은 예를 들어, 네트워크나 기억 매체로부터 컴퓨터에 제공될 수도 있다. 기억 매체는 예를 들어, 하나 이상의 하드 디스크, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 분산된 컴퓨팅 시스템의 저장소, 광학 디스크[콤팩트 디스크(CD)와 같은], 디지털 다목적 디스크(DVD), 또는 블루레이 디스크(BD™), 플래시 메모리 디바이스, 메모리 카드 등을 포함할 수도 있다.
(기타의 실시예)
본 발명은, 상기의 실시형태의 1개 이상의 기능을 실현하는 프로그램을, 네트워크 또는 기억 매체를 개입하여 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터에 있어서 1개 이상의 프로세서가 프로그램을 읽어 실행하는 처리에서도 실현가능하다.
또한, 1개 이상의 기능을 실현하는 회로(예를 들어,ASIC)에 의해서도 실행가능하다.
본 발명에 따르면, 카메라 기능을 갖는 휴대형 단말기를 사용해서 피사체 상의 문자를 판독할 경우, OCR에 적합한 화상을 단시간에 얻을 수 있다.
본 발명은 예시적인 실시예를 참조하여 기술된 반면, 본 발명이 개시된 예시적인 실시예들에 한정되지 않는다는 것이 이해될 것이다. 하기 청구항의 범위는 이러한 변형 및 등가의 구조와 기능 등을 모두 포함하기 위해 최대한 넓은 해석을 부여받는다.

Claims (14)

  1. 카메라 및 프로세서를 포함하는 정보 처리 장치이며,
    상기 프로세서는,
    상기 카메라로 동영상을 취득하도록 구성된 취득 유닛;
    취득된 상기 동영상을 구성하는 복수의 프레임에 대해 문자 인식 처리를 실행하도록 구성된 문자 인식 유닛;
    상기 복수의 프레임에 대해 상기 문자 인식 처리를 실행함으로써 얻어진 평가값들이 상기 복수의 프레임 사이에서 안정되어 있는지를 판정하도록 구성된 제1 판정 유닛; 및
    상기 평가값들이 안정되어 있다고 판정된 것에 응답하여, 취득된 상기 동영상의 프레임을 출력하도록 구성된 출력 유닛
    으로서 기능하도록 프로그램을 실행하고,
    상기 문자 인식 처리는,
    취득된 상기 동영상을 구성하는 상기 복수의 프레임 각각에 대해 탐색 영역을 설정하는 단계; 및
    상기 복수의 프레임 각각에 대하여, 설정된 상기 탐색 영역으로부터 추출된 제1 특징 정보를 사전 데이터에 포함된 문자들의 제2 특징 정보와 비교함으로써 설정된 상기 탐색 영역에 대응하는 후보 문자 및 상기 후보 문자의 확실성을 나타내는 평가값을 얻는 단계
    를 포함하는, 정보 처리 장치.
  2. 제1항에 있어서,
    상기 문자 인식 유닛은, 설정된 상기 탐색 영역에서, 단위 영역의 위치를 변경하여 보다 작은 단위 영역을 설정하고, 각 단위 영역에 대응하는 화상을 추출하며, 추출된 상기 화상 각각으로부터 추출된 상기 제1 특징 정보와 상기 사전 데이터에 포함된 상기 제2 특징 정보를 비교하여 상기 후보 문자를 검출하는, 정보 처리 장치.
  3. 제2항에 있어서,
    상기 단위 영역은 문자열을 구성하는 문자의 외접 직사각형인 영역인, 정보 처리 장치.
  4. 제2항에 있어서,
    상기 문자 인식 유닛은, 설정된 상기 탐색 영역에서, 크기를 변경함으로써 상기 단위 영역을 추가로 설정하여 상기 각 단위 영역에 대응하는 화상을 추출하고, 추출된 상기 화상 각각으로부터 추출된 상기 제1 특징 정보와 상기 사전 데이터에 포함된 상기 제2 특징 정보를 비교하여 상기 후보 문자 및 상기 평가값을 얻는, 정보 처리 장치.
  5. 제1항에 있어서,
    상기 문자 인식 유닛은, 상기 후보 문자가 최초로 검출되는 문자열을 구성하는 문자에 대한 상기 탐색 영역을, 제2 및 후속하는 문자에 대한 상기 탐색 영역보다 더 넓게 설정하는, 정보 처리 장치.
  6. 제5항에 있어서,
    상기 문자 인식 유닛은, 상기 제2 및 후속하는 문자에 대한 상기 탐색 영역을, 한 문자 이전의 문자에 대해 설정된 상기 탐색 영역의 위치의 미리정해진 상대 위치에 설정하는, 정보 처리 장치.
  7. 제2항에 있어서,
    상기 프로세서는,
    문자열을 구성하는 각 문자에 대해 상기 문자 인식 유닛에 의해 얻어진 상기 후보 문자로부터 평가값이 가장 높은 가장 유력한 후보 문자를 결정하고, 상기 가장 유력한 후보 문자에 대응하는 상기 단위 영역이 미리정해진 문자 인식 범위 내측에 포함되어 있는지를 판정하도록 구성된 제2 판정 유닛으로서 기능하도록 상기 프로그램을 추가로 실행하고,
    상기 가장 유력한 후보 문자에 대응하는 상기 단위 영역이 미리정해진 문자 인식 범위 내측에 포함되어 있다고 상기 제2 판정 유닛이 판정한 경우, 상기 제1 판정 유닛은 상기 가장 유력한 후보 문자의 상기 평가값이 상기 문자열을 구성하는 각 문자에 대해 안정되어 있는지를 판정하는, 정보 처리 장치.
  8. 제7항에 있어서,
    상기 제1 판정 유닛은 상기 문자열을 구성하는 각 문자에 대한 상기 가장 유력한 후보 문자가 연속하는 복수의 프레임에서 일치하는 경우에 상기 판정을 행하는, 정보 처리 장치.
  9. 제8항에 있어서,
    상기 제1 판정 유닛은,
    연속하는 상기 복수의 프레임의 각각에서, 일치하는 상기 가장 유력한 후보 문자의 평가값의 합계값을 도출하고,
    상기 일치하는 가장 유력한 후보 문자의 상기 평가값이, 도출된 상기 합계값의 변화도에 기초하여 안정되어 있는지를 판정하는, 정보 처리 장치.
  10. 제2항에 있어서,
    상기 평가값은 상기 제1 특징 정보가 상기 사전 데이터 내의 상기 제2 특징 정보와 얼마나 비슷한지를 나타내는 정도인, 정보 처리 장치.
  11. 제7항에 있어서,
    상기 문자열을 구성하는 문자 중 특정의 문자에 대해서 검출된 상기 후보 문자에 대해, 평가값이 가장 높은 후보 문자의 상기 평가값과 평가값이 두번째로 높은 후보 문자의 상기 평가값의 차이가 미리정해진 임계값 이내인 경우, 상기 제1 판정 유닛은 상기 판정시 상기 가장 유력한 후보 문자로부터 상기 특정의 문자에 대해 상기 평가값이 가장 높은 후보 문자를 제외하는, 정보 처리 장치.
  12. 제11항에 있어서,
    상기 제1 판정 유닛은, 상기 취득 유닛에 의해 취득된 동영상을 구성하는 프레임들 중 문자열을 구성하는 문자의 총 개수에 대한, 제외되는 특정의 문자수의 비율이 상한을 초과하는 프레임에 대해 상기 판정을 행하지 않는, 정보 처리 장치.
  13. 카메라를 포함하는 정보 처리 장치의 제어 방법이며,
    상기 카메라로 동영상을 취득하는 단계;
    취득된 상기 동영상을 구성하는 복수의 프레임 각각에 대해 탐색 영역을 설정하는 단계;
    상기 복수의 프레임 각각에 대하여, 설정된 상기 탐색 영역으로부터 추출된 제1 특징 정보를 사전 데이터에 포함된 문자들의 제2 특징 정보와 비교함으로써 설정된 상기 탐색 영역에 대응하는 후보 문자 및 상기 후보 문자의 확실성을 나타내는 평가값을 얻는 단계;
    상기 복수의 프레임에 대해 얻어진 평가값들이 상기 복수의 프레임 사이에서 안정되어 있는지를 판정하는 단계; 및
    상기 판정하는 단계에서 상기 평가값들이 안정되어 있다고 판정되는 것에 응답하여, 취득된 상기 동영상의 프레임을 출력하는 단계를 포함하는, 정보 처리 장치의 제어 방법.
  14. 컴퓨터가 카메라를 포함하는 정보 처리 장치의 제어 방법을 행하도록 하기 위한 프로그램을 기억하는 비일시적인 컴퓨터 판독가능한 기억 매체이며,
    상기 정보 처리 장치의 제어 방법은,
    상기 카메라로 동영상을 취득하는 단계;
    취득된 상기 동영상을 구성하는 복수의 프레임 각각에 대해 탐색 영역을 설정하는 단계;
    상기 복수의 프레임 각각에 대하여, 설정된 상기 탐색 영역으로부터 추출된 제1 특징 정보를 사전 데이터에 포함된 문자들의 제2 특징 정보와 비교함으로써 설정된 상기 탐색 영역에 대응하는 후보 문자 및 상기 후보 문자의 확실성을 나타내는 평가값을 얻는 단계;
    상기 복수의 프레임에 대해 얻어진 평가값들이 상기 복수의 프레임 사이에서 안정되어 있는지를 판정하는 단계; 및
    상기 판정하는 단계에서 상기 평가값들이 안정되어 있다고 판정되는 것에 응답하여, 취득된 상기 동영상의 프레임을 출력하는 단계를 포함하는, 비일시적인 컴퓨터 판독가능한 기억 매체.
KR1020180036412A 2017-03-31 2018-03-29 정보 처리 장치, 그의 제어 방법, 및 기억 매체 KR102236616B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017071529A JP7102103B2 (ja) 2017-03-31 2017-03-31 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
JPJP-P-2017-071529 2017-03-31

Publications (2)

Publication Number Publication Date
KR20180111639A KR20180111639A (ko) 2018-10-11
KR102236616B1 true KR102236616B1 (ko) 2021-04-06

Family

ID=63670948

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180036412A KR102236616B1 (ko) 2017-03-31 2018-03-29 정보 처리 장치, 그의 제어 방법, 및 기억 매체

Country Status (4)

Country Link
US (1) US10878268B2 (ko)
JP (1) JP7102103B2 (ko)
KR (1) KR102236616B1 (ko)
CN (1) CN108694400B (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020021273A (ja) * 2018-07-31 2020-02-06 京セラドキュメントソリューションズ株式会社 画像読取装置
GB2580675A (en) * 2019-01-23 2020-07-29 Wheelright Ltd Tyre sidewall imaging method
CN110059686B (zh) * 2019-04-26 2023-08-22 腾讯科技(深圳)有限公司 字符识别方法、装置、设备及可读存储介质
CN111325213B (zh) * 2020-02-20 2022-03-15 电子科技大学 一种移动靶标的数字字符检测方法
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN113642580B (zh) * 2021-07-22 2024-02-02 武汉理工大学 一种轮胎压印字符的定位与识别方法
CN114359887A (zh) * 2021-12-30 2022-04-15 北京有竹居网络技术有限公司 图像处理方法、装置和电子设备
JP7568945B2 (ja) 2022-09-05 2024-10-17 ダイキン工業株式会社 情報端末、文字認識方法及び文字認識プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250818A (ja) * 2007-03-30 2008-10-16 Omron Corp 携帯端末装置用のプログラムおよび携帯端末装置
KR101633570B1 (ko) * 2012-02-06 2016-06-24 오므론 가부시키가이샤 문자 판독용의 프로그램 및 문자 판독 장치 및 문자 판독 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830731A (ja) * 1994-07-15 1996-02-02 Daikin Ind Ltd 文字列確認方法およびその装置
JP3842992B2 (ja) 2001-09-20 2006-11-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列読み取り装置及び文字列読み取り方法
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
JP2009088944A (ja) 2007-09-28 2009-04-23 Canon Inc 文字認識装置、撮像装置及び映像再生装置
KR101002899B1 (ko) * 2008-06-19 2010-12-21 삼성전자주식회사 문자 인식 방법 및 장치
JP5845764B2 (ja) * 2011-09-21 2016-01-20 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5906843B2 (ja) * 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9036083B1 (en) * 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
JP6342739B2 (ja) 2014-07-28 2018-06-13 日立オムロンターミナルソリューションズ株式会社 紙葉類識別装置、紙葉類処理装置、および紙葉類識別方法
RU2595559C2 (ru) * 2014-12-16 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250818A (ja) * 2007-03-30 2008-10-16 Omron Corp 携帯端末装置用のプログラムおよび携帯端末装置
KR101633570B1 (ko) * 2012-02-06 2016-06-24 오므론 가부시키가이샤 문자 판독용의 프로그램 및 문자 판독 장치 및 문자 판독 방법

Also Published As

Publication number Publication date
US20180285677A1 (en) 2018-10-04
KR20180111639A (ko) 2018-10-11
JP7102103B2 (ja) 2022-07-19
CN108694400A (zh) 2018-10-23
CN108694400B (zh) 2023-04-18
JP2018173818A (ja) 2018-11-08
US10878268B2 (en) 2020-12-29

Similar Documents

Publication Publication Date Title
KR102236616B1 (ko) 정보 처리 장치, 그의 제어 방법, 및 기억 매체
EP3125135B1 (en) Picture processing method and device
US10438086B2 (en) Image information recognition processing method and device, and computer storage medium
JP5831420B2 (ja) 画像処理装置および画像処理方法
EP3163509A1 (en) Method for region extraction, method for model training, and devices thereof
US20170124412A1 (en) Method, apparatus, and computer-readable medium for area recognition
EP2136317B1 (en) Method and apparatus for recognizing characters
US10291843B2 (en) Information processing apparatus having camera function and producing guide display to capture character recognizable image, control method thereof, and storage medium
JP5662670B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2017071061A1 (zh) 区域识别方法及装置
US10621427B2 (en) Information processing apparatus, storage medium, and information processing method for character recognition by setting a search area on a target image
CN108781252B (zh) 一种图像拍摄方法及装置
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US20210406532A1 (en) Method and apparatus for detecting finger occlusion image, and storage medium
WO2016006090A1 (ja) 電子機器、方法及びプログラム
US10134138B2 (en) Information processing apparatus, computer-readable storage medium, information processing method
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
JP6581288B2 (ja) モバイル端末、画像処理方法、および、プログラム
CN112232282A (zh) 一种手势识别方法、装置、存储介质和电子设备
JP5561331B2 (ja) 携帯端末装置用のプログラムおよび携帯端末装置
KR20140134844A (ko) 객체 기반 사진 촬영 방법 및 장치
EP2336975A1 (en) Apparatus and method for image registration in portable terminal
CN111476063B (zh) 目标跟踪方法、装置、存储介质和电子设备
CN106227505A (zh) 图像检测方法、装置和用于图像检测的装置
JP2018117191A (ja) 携帯端末、プログラム、および携帯端末の制御方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant