KR101836071B1

KR101836071B1 - 정보를 인식하기 위한 방법 및 시스템

Info

Publication number: KR101836071B1
Application number: KR1020157037281A
Authority: KR
Inventors: 양 리; 궈 첸
Original assignee: 알리페이닷컴 컴퍼니 리미티드
Priority date: 2013-06-03
Filing date: 2014-06-03
Publication date: 2018-03-08
Also published as: SG10201606988WA; CN109766890B; JP2016523397A; CN104217202A; WO2014195802A2; US9367753B2; EP3005234A4; TW201447775A; US20160247037A1; KR20160014728A; EP3005234A2; US20140355883A1; SG11201509903TA; US10210415B2; JP6255486B2; CN104217202B; WO2014195802A3; CN109766890A

Abstract

본 출원의 실시예들은 정보를 인식하기 위한 방법, 정보를 인식하기 위한 시스템, 및 정보를 인식하기 위한 컴퓨터 프로그램 제품에 관한 것이다. 정보를 인식하기 위한 방법이 제공된다. 방법은 복수의 프레임들을 포함하는 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대한 카드 구역의 위치를 지정하는 단계, 각각의 카드 구역 내 정보 구역의 위치를 지정하는 단계, 각각의 정보 구역을 적어도 하나의 문자 구역으로 분할하는 단계, 카드 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일한 영역에 대응하는 문자 구역을 디블러링하는 단계, 및 디블러링된 문자 구역에 기초하여 문자열 정보를 인식하는 단계를 포함한다.

Description

정보를 인식하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR RECOGNIZING INFORMATION}

다른 출원들에 대한 교차 참조

본 출원은 2013년 6월 3일에 출원된 발명의 명칭이 "INFORMATION RECOGNITION METHOD, EQUIPMENT AND SYSTEM"인 중화 인민 공화국 제 201310216611.5호에 대한 우선권을 주장하고, 이는 모든 목적들을 위해 참조로서 여기에 통합된다.

발명의 분야

본 출원은 정보를 인식하기 위한 방법 및 시스템에 관한 것이다.

인터넷이 발전됨에 따라, 온라인 납부, 휴대폰 납부, 및 다른 익스프레스 납부들이 점점 널리 확산되고 있다. 보통, 뱅크 카드 사용자들은 그들의 카드 정보를 직접 입력한다. 입력의 속도를 증가시키기 위해, 사용자들은 뱅크 카드 정보 및 보조 정보를 획득하기 위해 이미지-캡처링 장비를 때때로 사용하고 있다.

오늘날 시장의 많은 애플리케이션들은 단일 프레임 이미지들을 수집하고, 관심 영역들을 획득하기 위해 단일 프레임 이미지들을 처리하고, 이후 획득된 관심 영역들에 대한 이미지 처리 및 광학 문자 인식을 수행할 수 있다. 수집된 뱅크 카드 이미지들은, 예를 들면, 이미지-캡처링 장비의 감광성 소자들의 제한들 및 환경으로부터의 영향들에 의하여 모션 블러링 및 잡음을 포함하는 문제들을 갖는다. 캡처된 이미지들의 나쁜 품질을 피하는 것은 시스템에 대해 어렵고, 따라서, 이미지 내에서 카드 구역을 배치하는 것 또한 시스템에 대해 어렵다. 몇몇 예들에서, 카드상의 몇몇 문자 구역들은 명확하고, 반면에 카드상의 다른 문자 구역들은 불명확하다. 상태들 사이를 구별하지 않고 균등하게 처리하는 현재의 단일-프레임 처리 방법이 채용되는 경우, 몇몇 문자들은 올바르게 인식될 수 있지만, 몇몇 문자들은 쉽게 인식될 수 없고 심지어 인식되지 못할 수 있다.

본 발명의 목적은 정보를 인식하기 위한 방법 및 시스템을 제공하는 것이다.

본 발명은, 장치; 시스템; 물질의 조성; 컴퓨터 판독가능 저장 매체상에 구현된 컴퓨터 프로그램 제품; 및/또는 프로세서, 예컨대 프로세서에 결합된 메모리상에 저장되고 및/또는 그에 의해 제공된 명령들을 실행하도록 구성된 프로세서를 하나의 프로세스로서 포함하여, 여러 방식들로 구현될 수 있다. 본 명세서에서, 이들 구현들, 또는 본 발명이 취할 수 있는 임의의 다른 형태는 기술들이라고 불릴 수 있다. 일반적으로, 개시된 프로세스들의 단계들의 순서는 본 발명의 범위 내에서 변경될 수 있다. 달리 언급되지 않으면, 태스크를 수행하도록 구성된 것으로 기술된 프로세서 또는 메모리와 같은 구성 요소는 주어진 시간에 태스크를 수행하도록 일시적으로 구성되는 범용 구성 요소 또는 태스크를 수행하도록 제작된 특수 구성 요소로서 구현될 수 있다. 여기에 사용된 용어 '프로세서'는 컴퓨터 프로그램 명령들과 같은 데이터를 처리하도록 구성된 하나 이상의 디바이스들, 회로들, 및/또는 처리 코어들을 말한다.

본 발명의 하나 이상의 실시예들의 상세한 설명은 본 발명의 원리들을 예시하는 첨부하는 도면들과 함께 이하에 제공된다. 본 발명은 이러한 실시예들과 관련하여 기술되지만, 본 발명은 임의의 실시예로 제한되지 않는다. 본 발명의 범위는 청구항들에 의해서만 제한되고 본 발명은 다수의 대안들, 변경들, 및 동등물들을 포함한다. 다수의 특정 상세들은 본 발명의 철저한 이해를 제공하기 위해 다음의 설명에서 진술된다. 이들 상세들은 예를 위해 제공되고 이들 특정 상세들의 일부 또는 모두 없이 청구항들에 따라 실시될 수 있다. 명확성을 위해서, 본 발명에 관련된 기술 분야들에서 알려진 기술적 사실은 본 발명이 불필요하게 불명료하지 않도록 상세하게 기술되지 않았다.

원래의 단일-프레임 이미지 처리 프로세스를 다수의 프레임 이미지 시퀀스들로 도입하기 위한 방법이 제공된다. 휴대용 단말상의 카메라와 같은 이미지-캡처링 디바이스에 의해, 이미지-캡처링 디바이스는 그의 정보가 수집되는 뱅크 카드 또는 신분증과 같은 표준 카드상에 비디오 스트림 샘플링 또는 다수의 이미지 샘플링을 수행한다. 이후, 이미지-캡처링 디바이스는 샘플링된 비디오 스트림의 복수의 프레임들 또는 복수의 이미지들에서 문자 구역들상에 디블러링을 개별적으로 수행하고, 복수의 프레임들로부터 인식에 적합하지 않은 문자 구역들을 필터링하고, 동일한 카드에 대해 문자열 정보 인식 결과들을 획득하기 위해 인식에 적합한 문자 구역들을 저장 및 조합한다. 몇몇 실시예들에서, 카드 정보는 휴대용 단말의 애플리케이션 인터페이스로 빠르게, 편리하게, 및 정확하게 입력된다.

본 발명은 정보를 인식하기 위한 방법 및 시스템을 제공한다.

도 1a는 카드 구역의 일 실시예의 도면.
도 1b는 정보를 인식하기 위한 프로세스의 일예의 플로차트
도 2는 문자 구역을 디블러링하기 위한 프로세스의 일 실시예의 플로차트.
도 3은 문자 구역의 명확성을 계산하기 위한 프로세스의 일 실시예의 플로차트.
도 4는 정보를 인식하기 위한 디바이스의 일 실시예의 구조적인 블록도.
도 5는 디블러링 모듈의 일 실시예의 구조적인 블록도.
도 6은 명확성 계산 모듈의 일 실시예의 구조적인 블록도.
도 7은 정보를 인식하기 위한 시스템의 일 실시예의 구조적인 블록도.
도 8은 정보를 인식하기 위한 프로그래밍된 컴퓨터 시스템의 일 실시예의 기능도.

본 발명의 다수의 실시예들은 다음의 상세한 설명 및 첨부하는 도면들에서 개시된다.

여기에 기술된 도면들은 본 출원의 이해를 증진시키고 본 출원의 부분을 형성하도록 의도된다. 본 출원의 예시적인 실시예들 및 그의 설명들은 본 출원을 설명하도록 의도되고 본 출원의 부적절한 제한을 구성하지 않는다.

도 1a는 카드 구역의 일 예의 도면이다. 카드 구역은 이미지의 직사각형 영역을 말한다. 이미지는 앱 윈도우 내에 위치될 수 있다. 직사각형 영역의 네 개의 변들은 카드의 네 개의 변들에 대응한다. 몇몇 실시예들에서, 상기 기술은 명확한 문자들을 필터링 및 획득하기 위해 복수의 프레임들을 사용하고 이후 문자열 정보를 획득하기 위해 인식을 수행한다. 예를 들면, 문자 구역에서 문자가 명확하지 않거나 제 1 프레임, 예를 들면, 프레임 i에서 모호한 경우, 프레임 i내 문자는 스킵될 수 있고, 문자가 명확한 경우, 다음의 프레임, 예를 들면, 프레임 i+1 내 동일한 문자 구역에서 문자가 사용될 수 있다.

도 1b는 정보를 인식하기 위한 프로세스의 일 실시예의 플로차트이다. 몇몇 실시예들에서, 프로세스(100)는 도 7의 서버 또는 정보 인식 장비(720)에 의해 구현되고 다음을 포함한다:

몇몇 실시예들에서, 사용자가 휴대용 컴퓨터, 팜탑 컴퓨터, 또는 휴대 전화와 같은 휴대용 단말을 통해 온라인 결제를 행하고, 카드 번호 또는 만료 일자와 같은 뱅크 카드 정보를 입력할 때, 사용자는 휴대용 단말상의 카메라와 같은 이미지-캡처링 디바이스를 통해 뱅크 카드 정보를 인식 및 입력한다.

일 예에서, 사용자는 (비디오 캡처링 애플리케이션을 사용함으로써) 이미지-캡처링 디바이스를 통해 뱅크 카드의 비디오 스트림을 캡처하거나, 또는 사용자는 (다수의 사진들을 찍음으로써) 이미지-캡처링 디바이스에 의해 뱅크 카드의 복수의 단일-프레임 이미지들을 캡처한다. 다른 예에서, 사용자는 이미지-캡처링 디바이스에 의해 뱅크 카드의 복수의 단일-프레임 이미지들 및 비디오 스트림 둘 모두를 캡처한다.

몇몇 실시예들에서, 사용자는 이미지-캡처링 디바이스 또는 휴대용 단말의 캐시에 캡처링된 복수의 단일-프레임 이미지들 및/또는 비디오 스트림을 저장하고 서버는 이미지 분석을 나중에 수행하기 위해 캐시로부터 이미지 프레임 시퀀스를 획득한다.

110에서, 서버는 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대하여 카드 구역의 위치를 지정한다.

몇몇 실시예들에서, 이미지 프레임 시퀀스는 복수의 이미지 캡처들(예를 들면, 복수의 사진들)로부터 단일-프레임 이미지들의 세트에 대응하거나, 또는 이미지 프레임 시퀀스는 캐시 내로부터 연속하는 비디오 스트림으로부터 선택된다(예를 들면, 비디오 스트림의 일 부분). 몇몇 실시예들에서, 이미지 프레임 시퀀스는 미리 설정된 수의 연속적인 프레임들을 포함하거나, 또는 이미지 프레임 시퀀스는 미리 결정된 수의 프레임들의 간격들로 선택된 미리 설정된 수의 비연속적인 프레임들에 대응한다. 일 예로서, 비연속적인 프레임들은 세 개의 프레임들마다 하나의 프레임에 대응한다. 몇몇 실시예들에서, 이미지 프레임 시퀀스에서 프레임들의 수는 특정한 구현들에 따라 변한다. 예를 들면, 이미지 프레임 시퀀스에서 프레임들의 수는 10을 초과하지 않는다. 다른 예에서, 이미지 프레임 시퀀스에서 프레임들의 수는 셋 또는 다섯이다.

몇몇 실시예들에서, 카드 구역은 임의의 알려진 위치 지정 기술에 기초하여 각각의 프레임 내에 위치 지정된다. 알려진 위치 지정 기술들의 예들은 통계적 연구들에 기초한 객체 검출, 템플릿 매칭에 기초한 객체 검출, 등을 포함한다. 몇몇 실시예들에서, 카드 구역은 미리 결정된 형상, 미리 결정된 크기, 카드면에 고유한 특징, 또는 그의 임의의 조합에 기초하여 이미지 프레임 시퀀스에서 각각의 프레임 내에 위치 지정된다.

예를 들면, 뱅크 카드들은 국제 표준들에 기초하여 생성된다. 뱅크 카드들은 표준 크기 및 형상을 갖고, 카드 번호 및 만료 일자와 같은 문자 정보는 카드상의 각각의 고정 위치들을 갖는다. 또한, 문자 정보는 특정 포맷을 갖는다. 따라서, 카드 구역은 이들 문자들의 위치들에 기초하여 이미지 프레임들에 위치될 수 있다. 몇몇 실시예들에서, 서버는 먼저 카드 구역의 위치를 지정하고 이후 숫자 구역들의 위치를 지정한다.

몇몇 실시예들에서, 카드 구역 위치 분석을 수행하는 동안, 현재의 프레임이 시각적 측정들을 통해 불충분한 형상인 것으로 평가되거나 카드 구역이 위치 지정될 수 없는 경우, 서버는 현재 프레임을 폐기하고 캐시로부터 다음 프레임을 획득하고, 획득된 다음의 프레임에 대한 분석을 수행한다. 예를 들면, 프레임의 선명함은 브레너 변화도를 사용하여 계산되고, 계산된 프레임 선명도는 임계치에 비교될 수 있고, 계산된 프레임 선명도가 임계치를 초과하는 경우, 프레임은 충분히 선명한 것으로 결정된다.

서버는 상술된 실시예에 기술된 방식에 더하여 본 기술에서 알려지거나 또는 장래에 개발될 방식들을 포함하는, 임의의 적절한 방식을 사용하여 이미지 프레임들에서 카드 구역들의 위치를 지정할 수 있다.

120에서, 서버는 각각의 카드 구역 내에 위치 지정된 적어도 하나의 정보 구역의 위치를 지정한다.

몇몇 실시예들에서, 서버는 다음의 특징들에 기초하여 위치 지정된 카드 구역 내에 정보 구역의 위치를 지정한다: 카드에서 정보 구역의 미리 설정된 위치, 정보 구역의 미리 설정된 크기, 정보 구역의 미리 설정된 형상, 또는 그의 임의의 조합. 정보 구역은, 예를 들면, 카드 번호 구역, 만료 일자 구역, 카드 소유자 이름 구역, 보안 코드 구역, 카드상에 나타낸 임의의 다른 형태의 정보, 또는 그의 임의의 조합을 포함한다.

예로서, 뱅크 카드들은 상기에 언급된 국제 표준들에 따라서 생성된다. 예를 들면, 카드 번호 및 만료 일자와 같은 정보 구역들의 관련 위치들은 카드면상에 고정되고, 이들 정보 구역들은 특정 형상을 갖는다. 예로서 87㎜ x 55㎜인 카드를 사용하면, 카드의 상부 왼쪽 모서리는 원점이 되도록 배치되고, 카드의 길이는 X 축이고, 카드의 높이는 Y 축이다. 일반적으로, 숫자들은 길이 68㎜이고 높이 5㎜ 영역의 약 10*30㎜로 나타낸다. 따라서, 서버는 이들 상기 특징들에 기초하여 카드 구역 이미지들에서 정보 구역들의 위치를 지정한다.

서버는 상술된 실시예에서 기술된 방식에 더하여 본 기술에 알려지거나 장래에 개발될 임의의 적절한 방식에 기초하여 카드 구역들에서 정보 구역들의 위치를 지정할 수 있다.

130에서, 서버는 각각의 정보 구역을 다수의 문자 구역들로 분할한다.

몇몇 실시예들에서, 서버는 다음의 특징들에 기초하여 위치 정보 구역을 적어도 하나의 문자 구역으로 분할한다: 정보 구역에서, 문자 공간, 문자들의 수, 문자 크기, 또는 그의 임의의 조합. 예를 들면, 문자 구역은 하나의 숫자 문자 또는 글자 문자를 포함한다.

몇몇 실시예들에서, 서버는, 상술된 실시예에 기술된 방식에 더하여, 본 기술에서 알려지거나 또는 장래에 개발될 임의의 적절한 방식을 사용하여 정보 구역을 적어도 하나의 문자 구역으로 분할한다. 예를 들면, 서버는 본 기술에서 잘 알려진 임계값 분할 방법을 채용하고, 정보 구역을 전경 및 배경 분할, 경계화, 및 정보 구역을 적어도 하나의 문자 구역으로 분할하기 위한 분류기 패턴 분류를 겪게 한다.

일 예로서, 정보 구역을 분할하기 위해, 서버는 먼저 정보 구역의 변화도 이미지를 획득하고 미리 분할된 변화도 이미지를 그레이스케일 값들이 축적되는 수평선에 투영하고, 수평선상에 영역들 또는 문자 구역들의 명확한 분할들을 식별한다.

140에서, 서버는 카드 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일한 영역에 대응하는 문자 구역들을 디블러링한다.

몇몇 실시예들에서, 분할 동작에서, 이미지 프레임에서 각각의 프레임의 정보 구역은 적어도 하나의 문자 구역으로 분할된다. 동일한 수의 문자 구역들이 각각의 프레임에 포함되기 때문에, 각각의 프레임에서 동일한 위치 또는 시퀀스 번호를 갖는 문자 구역들은 대응하는 문자 구역들로서 규정된다. 시퀀스 번호는 문자 구역의 특정 위치에 고정된 일련 번호를 제공하고, 일련 번호는 프레임들의 시퀀스에서 변하지 않는다. 예를 들면, 각각의 프레임에서 제 1 문자 구역은 대응하는 문자 구역이고, 각각의 프레임에서 제 2 문자 구역은 대응하는 문자 구역이고, 각각의 프레임에서 제 3 문자 구역은 대응하는 문자 구역인, 등등이다.

몇몇 실시예들에서, 서버는 동일한-벡터 데이터 구조에 모든 프레임들의 대응하는 문자 구역들의 이미지들을 저장한다. 카드면상의 정보 구역이 N 개의 문자들을 갖고 프레임 시퀀스에서 프레임들의 수가 M이라고 가정하자. 이러한 예에서, 데이터 구조에서 벡터들의 수는 N에 대응하고 벡터 차원들의 수는 M에 대응한다.

몇몇 실시예들에서, 인식 정확성을 증가시키기 위해, 서버는 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 대응하는 적어도 하나의 문자 구역을 디블러링한다.

예를 들면, 서버는, 다수의 대응하는 문자 구역들을 디블러링하기 위해, 이미 알려지거나 또는 장래에 개발되는 임의의 디블러링 방법을 사용할 수 있다. 디블러링 방법들의 예들은 위너 필터, 리차드슨-루시 알고리즘, 등을 사용하는 단계를 포함한다.

도 2는 문자 구역을 디블러링하기 위한 프로세스의 일 실시예의 플로차트이다. 몇몇 실시예들에서, 프로세스(200)는 도 1b의 140의 구현이고, 다음을 포함한다:

210에서, 이미지 프레임 시퀀스에서 모든 프레임들에 대응하는 문자 구역들에 대하여, 서버는 문자 구역이 얼마나 명확한지, 선명한지 및/또는 판독하기 쉬운지가 판단되는지를 나타내는 각각의 문자 구역의 명확성을 계산한다.

몇몇 실시예들에서, 서버는 모든 프레임들에 걸쳐 대응하는 문자 구역들 중에서 각각의 문자 구역의 명확성을 계산한다. 실제로, 몇몇 실시예들에서, 서버는 문자 구역들의 명확성을 계산하기 위해 이미지 선명도를 계산하기 위한 임의의 적절한 방법을 사용할 수 있다. 예를 들면, 이미지 선명도는 브레너 변화도를 사용하여 계산될 수 있다.

몇몇 실시예들에서, 서버는 문자 구역들에서 화소들의 그레이스케일 값들에 기초하여 문자 구역들의 명확성들을 계산한다. 도 3은 문자 구역의 명확성을 계산하기 위한 프로세스의 일 실시예의 플로차트이다. 몇몇 실시예들에서, 프로세스(300)는 도 2의 210의 구현이고 다음을 포함한다:

일반적으로, 뱅크 카드들상의 문자들은 요철이고, 각인되고, 양각된 특징들을 갖는다. 문자들의 스트로크들은 일반적으로 두 개의 방향들, 수평 및 수직이다. 문자들의 대각선 스트로크들은 비교적 드물고, 수평 및 수직 스트로크들 사이의 모서리 각들을 연결하는 반경들은 비교적 작다. 이들 특징들은 뱅크 카드 문자들의 투영된 이미지들이 수평 및 수직 방향들에서 특별히 표시된 변호도 특징들을 갖는다는 것을 나타낸다. 변화도 특징들은 수평 또는 수직 방향으로 이미지들의 변화율을 나타낸다. 일 예로서, (0.3, 0.3, 0.3)의 그레이스케일 값들을 갖는 세 개의 이웃하는 화소들의 제 2 세트와 비교하여 (0.1, 0.5, 0.9)의 그레이 스케일 값들을 갖는 세 개의 이웃하는 화소들의 제 1 세트를 사용하여, 화소들의 제 1 세트가 화소들의 제 2 세트보다 큰 변화도 특징들을 갖는다. 따라서, 문자 구역 명확성들은 문자 구역들에서 화소들의 그레이스케일 값들의 수평 및 수직 변화도 특징들을 사용하여 기술된다.

310에서, 서버는 문자 구역 내 각각의 화소의 수평 및 수직 변화도 특징들에 기초하여 문자 구역에서 각각의 화소의 강도 값을 획득한다.

일 예로서, 서버는 미리 결정된 문자 강도 테스트 연산자 세트에 기초하여 문자 구역에서 각각의 화소를 스캔하고, 스캐닝의 결과들에 기초하여 각각의 화소의 그레이스케일 값의 수평 및 수직 변화도 특징들을 획득하고, 이후 문자 구역에서 모든 화소들의 강도 값들을 획득한다.

몇몇 실시예들에서, 문자 강도 테스트 연산자 세트는 다음과 같이 규정된다: T = {a, b}. 몇몇 실시예들에서, 파라미터 a는 문자 구역에서 수평 변화도 특징들을 추출 및 스캔하기 위해 사용된 파라미터이고, 파라미터 b는 문자 구역에서 수직 변화도 특징들을 추출 및 스캔하기 위해 사용된 파라미터이고, a 및 b는 둘 모두 3 x 3 행렬들이다. 행렬들에서 각각의 요소는 이미지에서 화소에 대응한다. 행렬 요소들의 정렬의 일 예는 이하에 보여지는 이미지에서 화소들의 정렬에 대응한다.

몇몇 실시예들에서, 스캐닝 프로세스에서, 파라미터 a는 수평 스캔들을 행할 때 사용되고, 파라미터 b는 수직 스캔들에서 사용되고, 수평 스캔된 값들 및 수직 스캔된 값들은 모든 화소들에 대한 강도 값들을 얻기 위해 합산된다. 예를 들면, 수평 스캔이 행해지는 동안, 행렬 a에서 각각의 요소는 대응파는 화소의 그레이스케일 값이 곱해지고, 대응하는 화소의 그레이스케일 값 및 각각의 요소의 곱들은 합산된다. 결과의 합은 행렬 중앙 위치의 요소에 대응하는 화소의 강도 값에 관한 것이다. 또한, 계산들 동안, 서버가 이미지의 에지상에 위치된 화소들과 접하는 경우, 서버는 계산들을 완료하기 위해 화소들을 보충하고, 보충된 화소들의 그레이스케일 값들은 0으로 설정된다. 수직 스캔 처리는 수평 스캔 처리와 유사하고 간결함을 위해 더 논의되지 않을 것이다.

테스트 연산자 세트(T)는 일 예이고 본 발명을 제한하지 않는다. 연산자 세트(T)에서 파라미터들(a, b)은 또한 임의의 다른 적절한 값들일 수 있다.

몇몇 실시예들에서, 문자 구역들에서 화소들의 강도 값들은 상기에 기술된 처리에서 효율적으로 기술된다. 강도 값들은 명확성을 결정하기 위해 사용된다. 또한, 서버는 문자 구역들의 명확성들을 반영하기 위해 화소들의 그레이스케일 값들의 수평 및 수직 변화도 특징들을 효율적으로 사용할 수 있다. 또한, 비교적 적은 연산자들이 상기에 기술된 처리에 포함되고, 계산 효율성은 결과로서 증가된다.

320에서, 서버는 강도 값들에 기초하여 각각의 문자 구역의 명확성을 결정한다.

몇몇 실시예들에서, 각각의 문자 구역에 대하여, 서버는 문자 구역에서 모든 화소들의 강도 값들의 의미를 문자 구역에 대한 명확성으로서 계산한다.

따라서, 연산들(310, 320)에서, 서버는 각각의 문자 구역의 명확성을 결정한다. 명확성 표준이 들쑥날쑥한 및/또는 돌출된 문자들에 대해 결정되는 뱅크 카드의 일 예가 여기에 사용되지만, 명확성 표준 및 방식들은 들쑥날쑥한 및/또는 돌출된 문자들로 제한되지 않고 평탄한 문자들이 존재하는 상황들에 적용한다.

다시 도 2를 참조하면, 220에서, 서버는 대응하는 문자 구역들 중에서 가장 큰 명확성을 갖는 문자 구역을 선택하고 후보 문자 구역의 역할을 할 가장 큰 명확성을 갖는 문자 구역을 결정한다.

일 예에서, 서버는 프레임 시퀀스 내 각각의 프레임의 문자 구역에 대한 명확성을 개별적으로 계산하고 따라서 프레임 시퀀스에서 대응하는 문자 구역들의 명확성들의 세트를 획득한다. 명확성들의 세트로부터, 서버는 후보 문자 구역으로서 가장 큰 명확성을 갖는 문자 구역을 선택한다.

230에서, 서버는 후보 문자 구역의 명확성이 미리 설정된 임계값보다 큰지의 여부를 결정한다. 몇몇 실시예들에서, 미리 설정된 임계값은 경험적으로 결정된다.

240에서, 후보 문자 구역의 명확성이 미리 설정된 임계값보다 큰 경우, 서버는 후보 문자 구역을 후속하는 인식 처리를 위한 대응하는 문자 구역의 선택된 이미지로서 간주한다.

250에서, 후보 문자 구역의 명확성이 미리 설정된 임계값보다 크지 않은 경우, 서버는 다음의 이미지 프레임 시퀀스를 획득하고 다음의 이미지 프레임 시퀀스를 계속 처리한다.

일 예로서, 다른 프레임 시퀀스는 캐시로부터 획득될 수 있고 정보 인식은 도 1b의 정보 인식 프로세스(100)를 실행함으로써 다시 수행된다. 몇몇 실시예들에서, 다른 프레임 시퀀스는 이미 처리된 프레임 시퀀스와 동일한 수의 프레임들을 갖는다.

이러한 점에서, 모든 문자 구역들은 연산들(210 내지 250)을 통해 디블러링되었다. 몇몇 실시예들에서, 다수의 프레임들이 비디오 스트림으로부터 순차적으로 선택되거나, 또는 수 개의 프레임들이 간격들을 두고 선택된다. 일 양태로서, 몇몇 실시예들에서, 인접한 프레임들 사이에 시간 데이터 유사성의 관점을 고려하면, 복수의 단일 프레임들이 수 개의 프레임들의 간격들로 선택되고 중요한 프레임들이라고 불린다. 이러한 방식은 연속적인 선택을 위한 것보다 낮은 데이터 계산량을 초래할 수 있고, 방식은 계산 효율을 효과적으로 증가시킬 수 있고 전체 시스템 성능을 증가시킬 수 있다.

또한, 프레임들의 수의 선택 및 문자 명확성 임계값의 선택에 관하여 말하면, 서버는, 그의 문자 명확성들이 임계값 요건을 표준으로서 만족시키는 모든 N 개의 문자 구역들에 대해 선택된 이미지들을 취함으로써, 정보 인식 시스템의 동작 조건들에 기초하여 2를 가중함으로써 프레임들의 수 및 문자 명확성 임계값을 결정할 수 있다. 다시 말해서, 하나의 카드 정보 인식 프로세스에서, 서버가 M 개의 프레임들을 획득했고 명확성 임계값보다 큰 명확성을 갖는 모든 N 개의 문자 구역들의 선택된 이미지들을 획득했을 때, 서버는 임의의 더 많은 프레임들을 획득할 필요가 없다. 또한, 몇몇 실시예들에서, 서버는 또한 다음의 카드 정보 인식 동안 M 개의 프레임들을 선택한다. 몇몇 실시예들에서, 숫자 M은 너무 클 수 없다. 숫자 M이 너무 큰 경우, 시스템의 전체 성능은 악화되고 사용자들은 오래 기다릴 것이다. 예를 들면, 인식 프로세스 동안, 서버가 요건들을 만족하는 N 개의 문자 구역들에 대해 선택된 이미지들을 획득하기 위해 10 개의 프레임들을 갖는 것이 가능하지 않은 경우, 서버는 다음의 인식 프로세스에서 10 개의 프레임들 내에서 N 개의 선명한 문자 구역들을 획득하기 위해 문자 명확성 임계값을 적절하게 낮춘다. 프로세스는 M 내지 10 또는 특정 수로 제한하도록 의도되지 않는다. 대신, M은 이러한 수보다 크거나 또는 10보다 작을 수 있다.

다시 도 1b를 참조하면, 150에서, 서버는 디블러링된 문자 구역들에 기초하여 문자열 정보를 인식한다.

몇몇 실시예들에서, 서버는 임의의 알려진 인식 기술에 기초하여 모든 문자 구역들의 선택된 이미지들에서 대응하는 문자들을 순차적으로 인식하고 그에 의해 문자열 정보를 획득한다. 예를 들면, 서버는 본 기술 분야에서 일반적으로 채용되는 임계값 분할 방법을 채용하고, 전경 및 배경 분할, 경계화, 및 분류자 패턴 분류를 통해 대응하는 문자들을 인식한다. 문자열 정보를 인식하는 것의 일 예는 숫자들(0 내지 9)을 인식하기 위해 식별 엔진을 트레이닝하기 위해 머신 학습 기술들을 사용하는 단계, 및 이후 각각의 문자를 인식하기 위해 인식 엔진을 사용하는 단계를 포함한다.

다수 프레임 이미지 처리 결과들을 융합 처리를 겪게 하고 따라서 후속하는 인식 처리에 적합한 선명한 문자 구역 이미지들을 획득함으로써, 카드 정보 인식 정확성 비율들은 증가되고 뿐만 아니라 전체 카드 정보 인식 시스템들의 성능이 증가된 사용자 편의를 초래한다. 일 예시적인 융합 처리는 도 3의 프로세스(300)에서 발견될 수 있다.

상기 실시예들의 모두가 뱅크 카드들을 일 예로서 사용한다는 것을 주의하자. 그러나, 방식들은 뱅크 카드들로 제한되지 않고, 표준들을 준수하는 다수의 표준 카드들, 예컨대 신분증들, 멤버십 카드들, 등에 적용될 수 있다.

몇몇 실시예들에서, 160에서, 문자열 정보가 인식된 후, 서버는 문자열 정보의 정확성을 검증한다.

몇몇 실시예들에서, 인식된 문자열 정보는 카드에 대한 미리 결정된 규칙에 따라 검증된다. 몇몇 실시예들에서, 인식된 문자열 정보가 검증되는 경우, 서버는, 예를 들면, 문자열 정보가 확정될 사용자들에 대한 카드 정보로서 디스플레이되는, 후속하는 처리를 수행한다. 몇몇 실시예들에서, 인식된 문자열 정보가 검증되지 않은 경우, 서버는 다음의 이미지 프레임 시퀀스를 획득하고 정보 인식은 도 1b의 프로세스(100)를 사용하여 다시 수행된다.

뱅크 카드를 일 예로서 사용하면, 인식된 문자 구역이 카드 번호 정보 구역인 경우, 서버는 미리 결정된 규칙을 준수하는 것으로 인식되는 문자열 정보, 예를 들면, 국제 표준들에서 뱅크 카드 번호들에 대하여, 미리 결정된 수의 숫자들 또는 미리 결정된 배열의 숫자 연쇄들을 검증한다.

검증 동작에 걸쳐서, 프로세스는 카드 정보 인식의 정확성 비율들, 전체 카드 정보 인식 시스템 성능, 및 사용자 편의성을 증가시킨다.

도 4는 정보를 인식하기 위한 디바이스의 일 실시예의 구조적인 블록도이다. 몇몇 실시예들에서, 디바이스(400)는 도 1b의 프로세스(100)를 구현하고, 카드 위치 지정 모듈(410), 정보 위치 지정 모듈(420), 문자 구역 분할 모듈(430), 디블러링 모듈(440), 및 인식 모듈(450)을 포함한다.

몇몇 실시예들에서, 카드 위치 지정 모듈(410)은 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대한 카드 구역의 위치를 지정한다. 일 예로서, 카드 위치 지정 모듈(410)은 임의의 알려진 위치 지정 기술을 사용하여 각각의 프레임 내 카드 구역의 위치를 지정한다. 몇몇 실시예들에서, 카드 위치 지정 모듈(410)은 다음의 특징들에 기초하여 이미지 프레임들 내 카드 구역의 위치를 지정한다: 미리 결정된 형상, 미리 결정된 크기, 문자 정보에 고유한 특징, 또는 그의 임의의 조합.

몇몇 실시예들에서, 정보 위치 지정 모듈(420)은 각각의 카드 구역 내 정보 구역을 개별적으로 위치 지정한다. 몇몇 실시예들에서, 정보 위치 지정 모듈(420)은 또한 다음의 특징들에 기초하여 각각의 카드 구역 내 정보 구역의 위치를 지정한다: 카드에서 정보 구역의 미리 설정된 위치, 정보 구역의 미리 설정된 크기, 정보 구역의 미리 설정된 형상, 또는 그의 임의의 조합. 예를 들면, 정보 구역들은 카드 번호 구역, 만료 일자 구역, 카드 소유자 이름 구역, 등을 포함한다.

몇몇 실시예들에서, 문자 구역 분할 모듈(430)은 각각의 정보 구역을 다수의 문자 구역들로 분할한다. 몇몇 실시예들에서, 문자 분할 모듈(430)은 다음의 특징들에 기초하여 정보 구역을 적어도 하나의 문자 구역으로 분할한다: 정보 구역에서 문자 간격, 문자들의 수, 문자 크기, 또는 그의 임의의 조합. 예를 들면, 문자 구역은 숫자 또는 글자를 포함한다.

몇몇 실시예들에서, 디블러링 모듈(440)은 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 대응하는 문자 구역들을 디블러링한다. 몇몇 실시예들에서, 이미 알려지거나 장래에 개발되는, 디블러링 모듈(440)은 모든 대응하는 문자 구역들을 디블러링한다.

도 5는 디블러링 모듈의 일 실시예의 구조적인 블록도이다. 몇몇 실시예들에서, 디블러링 모듈(500)은 도 4의 디블러링 모듈(440)의 구현이고, 명확성 계산 모듈(510), 후보 문자 구역 선택 모듈(520), 및 임계값 결정 모듈(530)을 포함한다.

몇몇 실시예들에서, 명확성 계산 모듈(510)은 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 대응하는 문자 구역들에 대하여 각각의 문자 구역의 명확성을 계산한다.

도 6은 명확성 계산 모듈의 일 실시예의 구조적인 블록도이다. 몇몇 실시예들에서, 명확성 계산 모듈(600)은 도 5의 명확성 계산 모듈(510)의 구현이고 강도 값 계산 모듈(610) 및 명확성 결정 모듈(620)을 포함한다.

몇몇 실시예들에서, 강도 값 계산 모듈(610)은 문자 구역 내 각각의 화소의 수평 및 수직 변화도 특징들에 기초하여 문자 구역에서 각각의 화소의 강도 값을 계산한다.

몇몇 실시예들에서, 명확성 결정 모듈(620)은 문자 구역에서 각각의 화소의 강도 값에 따라 각각의 문자 구역의 명확성을 결정한다.

도 5를 다시 참조하면, 몇몇 실시예들에서, 후보 문자 구역 선택 모듈(520)은 대응하는 문자 구역들 중에서 가장 큰 명확성을 갖는 문자 구역을 선택하고 선택된 문자 구역을 후보 문자 구역의 역할을 하게 한다.

몇몇 실시예들에서, 후보 문자 구역의 명확성이 미리 설정된 임계값보다 큰 경우, 임계값 결정 모듈(530)은 후보 문자 구역을 후속하는 인식 처리를 위해 대응하는 문자 구역의 선택된 이미지로서 간주한다. 후보 문자 구역의 명확성이 미리 설정된 임계값보다 낮은 경우, 임계값 결정 모듈(530)은 다음의 이미지 프레임 시퀀스를 획득하고 다음의 이미지 프레임 시퀀스의 처리를 계속한다.

도 4를 다시 참조하면, 몇몇 실시예들에서, 인식 모듈(450)은 디블러링된 문자 구역들에 기초하여 문자열 정보를 인식한다.

지금까지, 정보 인식 장치의 개략적인 구조가 기술되었다. 다수 프레임 이미지 처리 결과들을 융합 처리로 제시하고 따라서 후속하는 인식 처리에 적절한 선명한 문자 구역 이미지들을 획득함으로써, 카드 정보 인식 정확성 비율들 및 전체 카드 정보 인식 시스템들의 성능이 증가된 사용자 편의성을 갖고 증가될 수 있다.

몇몇 실시예들에서, 디바이스(400)는 저장 모듈(460) 및 이미지 프레임 시퀀스 획득 모듈(470)을 포함한다.

몇몇 실시예들에서, 저장 모듈(460)은 카드를 촬영한 비디오 스트림 또는 복수의 단일-프레임 이미지들을 캐시에 저장한다.

몇몇 실시예들에서, 이미지 프레임 시퀀스 획득 모듈(470)은 캐시로부터 이미지 프레임 시퀀스를 획득한다.

몇몇 실시예들에서, 이미지 프레임 시퀀스 획득 모듈(470)은 캐시에서 연속적인 비디오 스트림으로부터 특정 수의 프레임들의 간격들로 이미지 프레임 시퀀스에서 다수의 프레임들을 선택한다.

몇몇 실시예들에서, 디바이스(400)는 검증 모듈(480)을 포함한다.

몇몇 실시예들에서, 검증 모듈(480)은 카드면상의 문자열 정보의 정확성을 검증한다. 몇몇 실시예들에서, 검증 모듈(480)은 문자 스트링 정보가 카드에 대해 미리 결정된 규칙을 준수하는지의 여부를 검증한다. 문자열 정보가 카드에 대한 미리 결정된 규칙을 준수하는 경우, 검증 모듈(480)은 문자열 정보를 사용자에 의해 확정될 카드 정보로서 디스플레이한다. 문자열 정보가 카드에 대한 미리 결정된 규칙을 준수하지 않는 경우, 검증 모듈(480)은 다음의 이미지 프레임 시퀀스를 획득하고 다음의 이미지 프레임 시퀀스의 처리를 계속한다. 검증을 통해, 카드 정보 인식의 정확성 비율들, 전체 카드 정보 인식 시스템 성능, 및 사용자 편의성이 증가된다.

도 7은 정보를 인식하기 위한 시스템의 일 실시예의 구조적인 블록도이다. 몇몇 실시예들에서, 시스템(700)은 이미징 캡처링 장비(710), 정보 인식 장비(720), 및 디스플레이 장비(730)를 포함한다.

몇몇 실시예들에서, 이미지 캡처링 장비(710)는 카드 이미지 프레임 시퀀스를 획득한다. 예를 들면, 이미지 캡처링 장비(710)는 휴대용 단말에 부착된 내부 또는 외부 카메라 또는 스캐너와 같은 이미지 획득 디바이스이다. 이러한 이미지 캡처링 장비(710)는 카드의 비디오 스트림을 촬영하거나 또는 카드의 복수의 이미지 샘플들을 취할 수 있어서, 복수의 단일-프레임 이미지들을 획득한다. 이러한 방식으로, 이미지 캡처링 장비(710)는 카드 이미지 프레임 시퀀스를 획득한다.

몇몇 실시예들에서, 정보 인식 장비 또는 서버(720)는 카드 이미지 프레임 시퀀스에서 카드면 문자열 정보를 인식한다. 몇몇 실시예들에서, 정보 인식 장비(720)는 카드 구역에서 카드면 문자열 정보를 인식하고 이미징 캡처링 장비(710)에 의해 캡처된 카드 이미지 프레임 시퀀스에서 카드 구역들을 인식한다. 몇몇 실시예들에서, 정보 인식 장비(720)는 도 4의 디바이스(400)에 대응한다.

몇몇 실시예들에서, 디스플레이 장비(730)는 정보 인식 장비(720)에 의해 인식된 문자열 정보를 디스플레이한다. 몇몇 실시예들에서, 디스플레이 장비(730)는 정보 인식 장비(720)에 의해 출력된 문자열 정보를 수신하고 확정될 문자열 정보를 사용자에게 디스플레이한다.

몇몇 실시예들에서, 정보 인식 시스템(700)은 카드 이미지 프레임 시퀀스를 캡처하기 위해 이미지 캡처링 장비(710)를 사용하고, 복수의 프레임들의 문자 구역 이미지 처리 결과들을 융합 처리에 제시하고, 조합된 문자 구역 이미지들을 인식한다. 이러한 방식으로, 정보 인식 시스템(700)은 카드면 문자열 정보를 추출한다. 정보 인식 시스템(700)이 다수 프레임 융합 처리를 수행하기 때문에, 정보 인식 시스템(700)은 카드 정보 인식 정확성 비율들을 증가시키고, 전체 카드 정보 인식 시스템의 성능을 증가시키고, 사용자 편의성을 증가시킬 수 있다.

도 8은 정보를 인식하기 위한 프로그래밍된 컴퓨터 시스템의 일 실시예의 기능도이다. 명백한 바와 같이, 다른 컴퓨터 시스템 아키텍처들 및 구성들은 정보를 인식하기 위해 사용될 수 있다. 이하에 기술된 다수의 서브시스템들을 포함하는 컴퓨터 시스템(800)은 적어도 하나의 마이크로프로세서 서브시스템(프로세서 또는 중앙 처리 장치(CPU)라고도 불림)(802)을 포함한다. 예를 들면, 프로세서(802)는 단일 칩 프로세서에 의해 또는 다수의 프로세서들에 의해 구현될 수 있다. 몇몇 실시예들에서, 프로세서(802)는 컴퓨터 시스템(800)의 동작을 제어하는 범용 디지털 프로세서이다. 메모리(810)로부터 검색된 명령들을 사용하면, 프로세서(802)는 입력 데이터의 수신 및 조작, 및 출력 디바이스들(예를 들면, 디스플레이(818))상에 데이터의 출력 및 디스플레이를 제어한다.

프로세서(802)는 제 1 주기억 장치, 일반적으로 랜덤 액세스 메모리(RAM), 및 제 2 주기억 장치 영역, 일반적으로 판독 전용 메모리(ROM)를 포함할 수 있는, 메모리(810)와 양방향으로 결합된다. 본 기술 분야에서 잘 알려진 바와 같이, 주기억 장치는 범용 저장 장치 영역 및 스크래치-패드 메모리로서 사용될 수 있고, 입력 데이터 및 처리된 데이터를 저장하기 위해 또한 사용될 수 있다. 주기억 장치는 또한, 프로세서(802)상에 동작하는 프로세스들에 대한 다른 데이터 및 명령들에 더하여, 데이터 객체들 및 텍스트 객체들의 형태로 프로그래밍 명령들 및 데이터를 저장할 수 있다. 또한 본 기술 분야에서 잘 알려진 바와 같이, 주기억 장치는 일반적으로 그의 기능들(예를 들면, 프로그래밍된 명령들)을 수행하기 위해 프로세서(802)에 의해 사용된 기본 동작 명령들, 프로그램 코드, 데이터, 및 객체들을 포함한다. 예를 들면, 메모리(810)는, 예를 들면, 데이터 액세스가 양방향이거나 단일 방향일 필요가 있는지의 여부에 의존하여 이하에 기술된 임의의 적절한 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 예를 들면, 프로세서(802)는 또한 직접 또는 매우 신속하게 검색할 수 있고 자주 요구된 데이터를 캐시 메모리(도시되지 않음)에 저장할 수 있다.

탈착 가능한 대량 저장 디바이스(812)는 컴퓨터 시스템(800)에 추가의 데이터 저장 용량을 제공하고, 프로세서(802)에 양방향으로(판독/기록) 또는 단일 방향으로(판독 전용) 결합된다. 예를 들면, 저장 장치(812)는 또한 자기 테이프, 플래시 메모리, PC-카드들, 휴대용 대량 저장 디바이스들, 홀로그래픽 저장 디바이스들, 및 다른 저장 디바이스들과 같은 컴퓨터 판독가능 매체를 포함할 수 있다. 고정된 대량 저장 장치(820)는 또한, 예를 들면, 추가의 데이터 저장 용량을 제공할 수 있다. 대량 저장 장치(820)의 가장 일반적인 예는 하드 디스크 드라이브이다. 대량 저장 장치(812, 820)는 일반적으로, 통상 프로세서(802)에 의해 활성 사용중이 아닌 추가의 프로그래밍 명령들, 데이터, 등을 저장한다. 대량 저장 장치(812, 820) 내 보유된 정보가, 필요한 경우, 메모리(810)(예를 들면, RAM)의 일부로서 표준 방식으로 가상 메모리로서 통합될 수 있다는 것이 이해될 것이다.

프로세서(802)에 저장 서브시스템들에 대한 액세스를 제공하는 것에 더하여, 버스(814)는 다른 서브시스템들 및 디바이스들에 대한 액세스를 제공하기 위해 또한 사용될 수 있다. 도시된 바와 같이, 이들은 디스플레이 모니터(818), 네트워크 인터페이스(816), 키보드(804), 및 포인팅 디바이스(806), 뿐만 아니라 보조 입력/출력 디바이스 인터페이스, 사운드 카드, 스피커들, 및 필요한 다른 서브시스템들을 포함할 수 있다. 예를 들면, 포인팅 디바이스(806)는 마우스, 스타일러스, 트랙 볼, 또는 태블릿일 수 있고 그래픽 사용자 인터페이스와 상호 작용하기에 유용하다.

네트워크 인터페이스(816)는 프로세서(802)가 다른 컴퓨터, 컴퓨터 네트워크, 또는 도시된 네트워크 접속을 사용하는 원격 통신 네트워크에 결합되게 한다. 예를 들면, 네트워크 인터페이스(816)를 통해, 프로세서(802)는 방법/프로세스 단계들을 수행하는 과정에서 다른 네트워크로부터 정보(예를 들면, 데이터 객체들 또는 프로그램 명령들)를 수신하거나 정보를 다른 네트워크로 출력할 수 있다. 프로세서상에 실행될 일련의 명령들로서 종종 나타낸 정보는 다른 네트워크로부터 수신되고 그로 출력될 수 있다. 인터페이스 카드 또는 유사한 디바이스 및 프로세서(802)(예를 들면, 그 위에 실행/수행된)에 의해 구현된 적절한 소프트웨어는 컴퓨터 시스템(800)을 외부 네트워크로 접속하고 표준 프로토콜들에 따라 데이터를 전송하기 위해 사용될 수 있다. 예를 들면, 여기에 개시된 다수의 프로세스 실시예들은 프로세서(802)상에 실행될 수 있거나, 또는 처리의 일 부분을 공유하는 원격 프로세서와 함께, 인터넷, 인트라넷 네트워크들, 또는 근거리 통신망들과 같은 네트워크를 거쳐 수행될 수 있다. 추가의 대량 저장 디바이스들(도시되지 않음)은 또한 네트워크 인터페이스(816)를 통해 프로세서(802)에 접속될 수 있다.

보조 I/O 디바이스 인터페이스(도시되지 않음)는 컴퓨터 시스템(800)과 함께 사용될 수 있다. 보조 I/O 디바이스 인터페이스는 프로세서(802)가 마이크로폰들, 터치 감응식 디스플레이들, 트랜듀서 카드 판독기들, 테이프 판독기들, 음성 또는 필기 인식기들, 생체 인식 판독기들, 카메라들, 휴대용 대량 저장 디바이스들, 및 다른 컴퓨터들과 같은 다른 디바이스들로부터 데이터를 전송 및 더 일반적으로 수신하게 하는 범용 및 맞춤형 인터페이스들을 포함할 수 있다.

도 8에 도시된 컴퓨터 시스템은 여기에 개시된 다수의 실시예들과 함께 사용하기에 적합한 컴퓨터 시스템의 일 예이다. 이러한 용도에 적합한 다른 컴퓨터 시스템들은 추가의 또는 더 적은 서브시스템들을 포함할 수 있다. 또한, 버스(814)는 서브시스템들에 링크하기 위한 역할을 하는 임의의 상호 접속 방식의 예이다. 서브시스템들의 상이한 구성들을 갖는 다른 컴퓨터 아키텍처들이 또한 이용될 수 있다.

상기에 기술된 모듈들은 하나 이상의 범용 프로세서들상에 실행하는 소프트웨어 구성 요소들로서, 프로그램 가능한 로직 디바이스들 및/또는 특정 기능들을 수행하도록 설계된 주문형 집적 회로들 또는 그의 조합으로서 구현될 수 있다. 몇몇 실시예들에서, 모듈들이 본 발명의 실시예들에 기술된 방법들을 구현하는 컴퓨터 디바이스(예컨대 개인용 컴퓨터들, 서버들, 네트워크 장비, 등)를 제작하기 위한 다수의 명령들을 포함하는 비휘발성 저장 매체(예컨대 광 디스크, 플래시 저장 디바이스, 이동식 하드 디스크 등)에 저장될 수 있는 일 형태의 소프트웨어 제품들에 의해 구현될 수 있다. 모듈들은 단일 디바이스상에 구현될 수 있거나 또는 다수의 디바이스들에 걸쳐 분산될 수 있다. 모듈들의 기능들은 서로 병합되거나 또한 다수의 서브-모듈들로 분할될 수 있다.

여기에 개시된 실시예들을 고려하여 기술된 방법들 또는 알고리즘적 단계들은 하드웨어, 프로세서-실행 소프트웨어 모듈들, 또는 둘의 조합들을 사용하여 구현될 수 있다. 소프트웨어 모듈들은, 랜덤-액세스 메모리(RAM), 메모리, 판독 전용 메모리(ROM), 전기적으로 프로그램 가능한 ROM, 전기적으로 소거가능한 프로그램 가능한 ROM, 레지스터들, 하드 드라이브들, 탈착 가능한 디스크들, CD-ROM, 또는 본 기술 분야에서 알려진 임의의 다른 형태들의 저장 매체에 설치될 수 있다.

전술한 실시예들이 이해의 명확성을 위해 몇몇 상세에서 기술되었지만, 본 발명은 제공된 상세들로 제한되지 않는다. 본 발명을 구현하는 많은 대안적인 방식들이 존재한다. 개시된 실시예들은 예시적이고 제한적이 아니다.

410 : 카드 위치 지정 모듈 420 : 정보 위치 지정 모듈
430 : 문자 구역 분할 모듈 440 : 디블러링 모듈
450 : 인식 모듈 460 : 저장 모듈
470 : 이미지 프레임 시퀀스 획득 모듈
480 : 검증 모듈 510 : 명확성 계산 모듈
520 : 후보 문자 구역 선택 모듈
530 : 임계값 결정 모듈 610 : 강도 값 계산 모듈
620 : 명확성 결정 모듈 710 : 이미징 캡처링 장비
720 : 정보 인식 장비 730 : 디스플레이 장비
802 : 프로세서 804 : 키보드
806 : 포인팅 디바이스 810 : 메모리
812 : 탈착 가능한 대량 저장 디바이스
816 : 네트워크 인터페이스
820 : 고정식 대량 저장 디바이스

Claims

정보를 인식하기 위한 방법에 있어서,
하나 이상의 프로세서들을 사용하여, 복수의 프레임들을 포함하는 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 카드 구역의 위치를 지정하는 단계;
상기 하나 이상의 프로세서들을 사용하여, 각각의 카드 구역 내 정보 구역의 위치를 지정하는 단계;
상기 하나 이상의 프로세서들을 사용하여, 각각의 정보 구역을 적어도 하나의 문자 구역으로 분할하는 단계;
상기 하나 이상의 프로세서들을 사용하여, 상기 카드 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일한 영역에 대응하는 문자 구역을 디블러링하는 단계; 및
상기 하나 이상의 프로세서들을 사용하여, 상기 디블러링된 문자 구역에 기초하여 문자열 정보를 인식하는 단계를 포함하고,
상기 문자 구역을 디블러링하는 단계는:
제 1 화소의 제 1 강도 값을 얻기 위해 제 1 문자 구역에서의 상기 제 1 화소의 제 1 그레이스케일 값과 행렬의 대응하는 제 1 요소를 곱하는 단계; 및
제 2 화소의 제 2 강도 값을 얻기 위해 상기 제 1 문자 구역에서의 상기 제 2 화소의 제 2 그레이스케일 값과 행렬의 대응하는 제 2 요소를 곱하는 단계로서, 상기 제 1 요소는 상기 제 2 요소와 다른, 상기 제 2 요소를 곱하는 단계를 포함하는,
상기 제 1 문자 구역 내 각각의 화소의 수평 및 수직 변화도 특징들에 기초하여 상기 제 1 문자 구역에서 각각의 화소의 강도 값을 얻는 단계; 및
상기 제 1 문자 구역에서의 상기 제 1 및 제 2 강도 값들에 기초하여 상기 제 1 문자 구역의 명확성을 결정하는 단계를 포함하는,
상기 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일 영역에 대응하는 문자 구역들에 대하여, 상기 제 1 문자 구역의 상기 명확성을 계산하는 단계; 및
상기 대응하는 문자 구역들 중에서 가장 높은 명확성을 갖는 문자 구역을, 후보 문자 구역으로서 선택하는 단계를 포함하는, 정보를 인식하기 위한 방법.
제 1 항에 있어서,
상기 후보 문자 구역의 상기 명확성이 미리 설정된 임계값 이상인 경우, 상기 후보 문자 구역을 후속 인식 처리를 위해 상기 대응하는 문자 구역의 선택된 이미지로서 간주하고,
상기 후보 문자 구역의 상기 명확성이 미리 설정된 임계값 미만인 경우, 인식될 다음의 이미지 프레임 시퀀스를 획득하는, 정보를 인식하기 위한 방법.
삭제
제 1 항에 있어서,
상기 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 상기 카드 구역의 위치를 지정하는 단계 전에:
캐시에, 카드면을 찍은 비디오 스트림 또는 복수의 단일 프레임 이미지들을 저장하는 단계; 및
상기 캐시로부터 상기 이미지 프레임 시퀀스를 획득하는 단계를 추가로 포함하는, 정보를 인식하기 위한 방법.
제 4 항에 있어서,
상기 캐시로부터 상기 이미지 프레임 시퀀스를 획득하는 단계는:
미리 결정된 수의 프레임들의 간격들로 상기 이미지 프레임 시퀀스에서 다수의 프레임들을 상기 캐시에서의 상기 비디오 스트림으로부터 선택하는 단계를 포함하는, 정보를 인식하기 위한 방법.
제 1 항에 있어서,
문자열 정보가 카드에 대한 미리 결정된 규칙을 준수하는지의 여부를 검증하는 단계;
상기 문자열 정보가 상기 미리 결정된 규칙을 준수하는 경우, 상기 문자열 정보를 확정시 사용될 카드 정보로서 사용자에 디스플레이하는 단계; 및
상기 문자열 정보가 상기 미리 결정된 규칙을 준수하지 않는 경우, 인식될 다음의 이미지 프레임 시퀀스를 획득하는 단계를 추가로 포함하는, 정보를 인식하기 위한 방법.
제 1 항에 있어서,
상기 각각의 화소의 상기 강도 값은 상기 행렬의 각각의 요소 및 상기 각각의 화소의 그레이스케일 값에 관련되는, 정보를 인식하기 위한 방법.
정보를 인식하기 위한 시스템에 있어서,
적어도 하나의 프로세서로서:
복수의 프레임들을 포함하는 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 카드 구역의 위치를 지정하고,
각각의 카드 구역 내 정보 구역의 위치를 지정하고,
각각의 정보 구역을 적어도 하나의 문자 구역으로 분할하고,
상기 카드 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일한 영역에 대응하는 문자 구역을 디블러링하고,
상기 디블러링된 문자 구역에 기초하여 문자열 정보를 인식하도록 구성된, 상기 적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 결합되고 상기 적어도 하나의 프로세서에 명령들을 제공하도록 구성된 메모리를 포함하고,
상기 문자 구역을 디블러링하는 것은:
제 1 화소의 제 1 강도 값을 얻기 위해 제 1 문자 구역에서의 상기 제 1 화소의 제 1 그레이스케일 값과 행렬의 대응하는 제 1 요소를 곱하는 것; 및
제 2 화소의 제 2 강도 값을 얻기 위해 상기 제 1 문자 구역에서의 상기 제 2 화소의 제 2 그레이스케일 값과 행렬의 대응하는 제 2 요소를 곱하는 것으로, 상기 제 1 요소는 상기 제 2 요소와 다른, 상기 제 2 요소를 곱하는 것을 포함하는,
상기 제 1 문자 구역 내 각각의 화소의 수평 및 수직 변화도 특징들에 기초하여 상기 제 1 문자 구역에서 각각의 화소의 강도 값을 얻는 것; 및
상기 제 1 문자 구역에서의 상기 제 1 및 제 2 강도 값들에 기초하여 상기 제 1 문자 구역의 명확성을 결정하는 것을 포함하는,
상기 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일 영역에 대응하는 문자 구역들에 대하여, 상기 제 1 문자 구역의 상기 명확성을 계산하는 것; 및
상기 대응하는 문자 구역들 중에서 가장 높은 명확성을 갖는 문자 구역을, 후보 문자 구역으로서 선택하는 것을 포함하는, 정보를 인식하기 위한 시스템.
제 8 항에 있어서,
상기 후보 문자 구역의 상기 명확성이 미리 설정된 임계값 이상인 경우, 상기 후보 문자 구역을 후속 인식 처리를 위해 상기 대응하는 문자 구역의 선택된 이미지로서 간주하고,
상기 후보 문자 구역의 상기 명확성이 상기 미리 설정된 임계값 미만인 경우, 인식될 다음의 이미지 프레임 시퀀스를 획득하는, 정보를 인식하기 위한 시스템.
삭제
제 8 항에 있어서,
상기 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 상기 카드 구역의 위치를 지정하는 것은:
상기 카드 이미지 프레임 시퀀스 내에서 각각의 프레임에 대해 상기 카드 구역의 위치를 지정하기 전에:
캐시에, 카드면을 찍은 비디오 스트림 또는 복수의 단일 프레임 이미지들을 저장하는 것; 및
상기 캐시로부터 상기 이미지 프레임 시퀀스를 획득하는 것을 추가로 포함하는, 정보를 인식하기 위한 시스템.
제 11 항에 있어서,
상기 캐시로부터 상기 이미지 프레임 시퀀스를 획득하는 것은:
미리 결정된 수의 프레임들의 간격들로 상기 이미지 프레임 시퀀스에서 다수의 프레임들을 상기 캐시 내 비디오 스트림으로부터 선택하는 것을 포함하는, 정보를 인식하기 위한 시스템.
제 8 항에 있어서,
상기 적어도 하나의 프로세서는 또한:
문자열 정보가 카드에 대해 미리 결정된 규칙을 준수하는지의 여부를 검증하고;
상기 문자열 정보가 상기 미리 결정된 규칙을 준수하는 경우, 상기 문자열 정보를 확정시 사용될 카드 정보로서 사용자에 디스플레이하고;
상기 문자열 정보가 상기 미리 결정된 규칙을 준수하지 않는 경우, 인식될 다음의 이미지 프레임 시퀀스를 획득하도록 구성되는, 정보를 인식하기 위한 시스템.
제 8 항에 있어서,
상기 각각의 화소의 상기 강도 값은 상기 행렬의 각각의 요소 및 상기 각각의 화소의 그레이스케일 값에 관련되는, 정보를 인식하기 위한 시스템.
정보를 인식하기 위한 시스템에 있어서,
복수의 프레임들을 포함하는 카드 이미지 프레임 시퀀스를 획득하도록 구성된 카메라;
적어도 하나의 프로세서로서,
카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 카드 구역의 위치를 지정하고;
각각의 카드 구역 내 정보 구역의 위치를 지정하고;
정보 구역을 적어도 하나의 문자 구역으로 분할하고;
상기 카드 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일한 영역에 대응하는 문자 구역을 디블러링하고;
상기 디블러링된 문자 구역에 기초하여 문자열 정보를 인식하기 위해 사용된, 상기 적어도 하나의 프로세서;
상기 적어도 하나의 프로세서에 결합되고 상기 적어도 하나의 프로세서에 명령들을 제공하도록 구성된 메모리; 및
상기 인식된 문자열 정보를 디스플레이하도록 구성된 디스플레이를 포함하고,
상기 문자 구역을 디블러링하는 것은:
제 1 화소의 제 1 강도 값을 얻기 위해 제 1 문자 구역에서의 상기 제 1 화소의 제 1 그레이스케일 값과 행렬의 대응하는 제 1 요소를 곱하는 것; 및
제 2 화소의 제 2 강도 값을 얻기 위해 상기 제 1 문자 구역에서의 상기 제 2 화소의 제 2 그레이스케일 값과 행렬의 대응하는 제 2 요소를 곱하는 것으로, 상기 제 1 요소는 상기 제 2 요소와 다른, 상기 제 2 요소를 곱하는 것을 포함하는,
상기 제 1 문자 구역 내 각각의 화소의 수평 및 수직 변화도 특징들에 기초하여 상기 제 1 문자 구역에서 각각의 화소의 강도 값을 얻는 것; 및
상기 제 1 문자 구역에서의 상기 제 1 및 제 2 강도 값들에 기초하여 상기 제 1 문자 구역의 명확성을 결정하는 것을 포함하는,
상기 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일 영역에 대응하는 문자 구역들에 대하여, 상기 제 1 문자 구역의 상기 명확성을 계산하는 것; 및
상기 대응하는 문자 구역들 중에서 가장 높은 명확성을 갖는 문자 구역을, 후보 문자 구역으로서 선택하는 것을 포함하는, 정보를 인식하기 위한 시스템.
제 15 항에 있어서,
상기 후보 문자 구역의 상기 명확성이 미리 설정된 임계값 이상인 경우, 상기 후보 문자 구역을 후속 인식 처리를 위해 상기 대응하는 문자 구역의 선택된 이미지로서 간주하고,
상기 후보 문자 구역의 상기 명확성이 상기 미리 설정된 임계값 미만인 경우, 인식될 다음의 이미지 프레임 시퀀스를 획득하는, 정보를 인식하기 위한 시스템.
삭제
제 15 항에 있어서,
상기 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 상기 카드 구역의 위치를 지정하는 것은:
상기 카드 이미지 프레임 시퀀스 내에서 각각의 프레임에 대해 상기 카드 구역의 위치를 지정하기 전에:
캐시에, 카드면을 찍은 비디오 스트림 또는 복수의 단일 프레임 이미지들을 저장하는 것; 및
상기 캐시로부터 상기 이미지 프레임 시퀀스를 획득하는 것을 추가로 포함하는, 정보를 인식하기 위한 시스템.
제 18 항에 있어서,
상기 캐시로부터 상기 이미지 프레임 시퀀스를 획득하는 것은:
미리 결정된 수의 프레임들의 간격들로 상기 이미지 프레임 시퀀스에서 다수의 프레임들을 상기 캐시 내 비디오 스트림으로부터 선택하는 것을 포함하는, 정보를 인식하기 위한 시스템.
제 15 항에 있어서,
상기 적어도 하나의 프로세서는 또한:
문자열 정보가 카드에 대해 미리 결정된 규칙을 준수하는지의 여부를 검증하고;
상기 문자열 정보가 상기 미리 결정된 규칙을 준수하는 경우, 상기 문자열 정보를 확정시 사용될 카드 정보로서 사용자에 디스플레이하고;
상기 문자열 정보가 상기 미리 결정된 규칙을 준수하지 않는 경우, 인식될 다음의 이미지 프레임 시퀀스를 획득하기 위해 사용되는, 정보를 인식하기 위한 시스템.
제 15 항에 있어서,
상기 각각의 화소의 상기 강도 값은 상기 행렬의 각각의 요소 및 상기 각각의 화소의 그레이스케일 값에 관련되는, 정보를 인식하기 위한 시스템.
컴퓨터 명령들을 포함하는 정보를 인식하기 위한 컴퓨터 프로그램을 저장한 유형의 비일시적 컴퓨터 판독 가능한 저장 매체에 있어서,
상기 컴퓨터 명령들은:
복수의 프레임들을 포함하는 카드 이미지 프레임 시퀀스 내 각각의 프레임에 대해 카드 구역의 위치를 지정하고;
각각의 카드 구역 내에서 정보 구역의 위치를 지정하고;
각각의 정보 구역을 적어도 하나의 문자 구역으로 분할하고;
상기 카드 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일한 영역에 대응하는 문자 구역을 디블러링하고;
상기 디블러링된 문자 구역에 기초하여 문자열 정보를 인식하기 위한 것이고,
상기 문자 구역을 디블러링하는 것은:
제 1 화소의 제 1 강도 값을 얻기 위해 제 1 문자 구역에서의 상기 제 1 화소의 제 1 그레이스케일 값과 행렬의 대응하는 제 1 요소를 곱하는 것; 및
제 2 화소의 제 2 강도 값을 얻기 위해 상기 제 1 문자 구역에서의 상기 제 2 화소의 제 2 그레이스케일 값과 행렬의 대응하는 제 2 요소를 곱하는 것으로, 상기 제 1 요소는 상기 제 2 요소와 다른, 상기 제 2 요소를 곱하는 것을 포함하는,
상기 제 1 문자 구역 내 각각의 화소의 수평 및 수직 변화도 특징들에 기초하여 상기 제 1 문자 구역에서 각각의 화소의 강도 값을 얻는 것; 및
상기 제 1 문자 구역에서의 상기 제 1 및 제 2 강도 값들에 기초하여 상기 제 1 문자 구역의 명확성을 결정하는 것을 포함하는,
상기 이미지 프레임 시퀀스에서 모든 프레임들에 걸쳐 동일 영역에 대응하는 문자 구역들에 대하여, 상기 제 1 문자 구역의 상기 명확성을 계산하는 것; 및
상기 대응하는 문자 구역들 중에서 가장 높은 명확성을 갖는 문자 구역을, 후보 문자 구역으로서 선택하는 것을 포함하는, 유형의 비일시적 컴퓨터 판독 가능한 저장 매체.