KR20100099154A

KR20100099154A - 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법

Info

Publication number: KR20100099154A
Application number: KR1020107012446A
Authority: KR
Inventors: 게르트 모사코브스키
Original assignee: 티-모바일 인터내셔널 아게
Priority date: 2007-11-05
Filing date: 2008-10-28
Publication date: 2010-09-10
Also published as: CN101855640A; US8532389B2; CN101855640B; MX2010004732A; WO2009059715A1; DE102007052622A1; RU2010122947A; BRPI0820570A2; EP2208170A1; CA2704830C; RU2454718C2; US20100296729A1; KR101606469B1; CA2704830A1

Abstract

우수한 연산능력을 그다지 요구하지 않는 강건 OCR 시스템을, 라인 세그먼트 내의 이미지를 분석하는 픽셀그룹과 관련하여 최적화된 적응형 전처리를 우선 수행함으로써 얻을 수 있다. 종래의 알려진 방법과 비교할 때 가장 큰 차이점은, 더 이상 직접 패턴 비교를 하지 않고, 대신 가능한 한 최대로 최적화하여 라인 세그먼트를 검사하는 것이다. 대응하는 문자는 이동 시퀀스를 통해 얻을 수 있다. 이 이동 시퀀스는 잘 기준화되어 있고 또한 간단하게 기술되기 때문에, 이 기술은 특히 휴대폰에 적합하다. 알고 있는 문자의 이동 시퀀스는 검색단어에 저장되고, 따라서 이동으로부터 문자를 직접 얻을 수 있다. 또한, 사전/어휘목록를 사용할 수도 있다. 사전/어휘목록을 통해 단어를 인식하면, 인식된 문자는 훨씬 더 최적화된 문자 폰트 인식을 위해 사용될 수 있다. 본 발명의 이점은 비교적 작은 연산능력을 가지고도 강건한 OCR 시스템을 제공할 수 있다는 것이다. 본 발명에 의한 시스템이 갖는 강건성은, 특히 광도비와 간섭과 같이 나쁜 상황에서도, 종래의 시스템 보다 더 잘 인식할 수 있다는 점에 있다.

Description

이미지 분석방법, 특히 이동 단말기용 이미지 분석방법{METHOD FOR IMAGE ANALYSIS, ESPECIALLY FOR MOBILE STATIONS}

본 발명은 청구항 1 또는 청구항 2의 특징에 따른, 이미지 분석방법에 관한 것으로서, 특히 자동 광학 문자 인식용 디지털 카메라를 갖는 이동 단말기용 이미지 분석방법에 관한 것이다.

PC용 OCR 시스템은 많이 존재하고 있다. 보통 평판 스캐너를 사용하여 텍스트를 스캔하고 있다. 휴대용으로 핸드 스캐너가 있는데, 이 핸드 스캐너는 디스플레이 화면에 텍스트로 스캔된 내용을 표시하며, 이 텍스트를 저장하고 컴퓨터로 전송한다. 원본형태가 휘어진 상태로 스캔되는 경우나 단편 내의 문자만 인식되는 경우(예를 들어 바람불 때의 깃발에 써있는 문자)에는 항상 문제가 발생한다. 또한, 이러한 기술은 직접적인 스캔이 불가능할때(예를 들어, 도로표지판에 있는 표식) 이용할 수 없다. 현재 나온 최신기술에 의하면, 이러한 이미지는 매우 높은 해상도로 기록될 수 있고, 이러한 아미지는 나중에 스캔될 수 있다. 그러나, 카메라 자체에서 직접적인 OCR이 이루어질 수 없는데, 그 이유는 종래의 방법으로는 그 연산을 감당할 수 없기 때문이다.

긴 텍스트를 인식하는 경우, 종종 다수의 이미지를 기록한 후 이들을 합칠(360°로 사진을 결합) 필요가 있다. 충분한 품질을 얻기 위해서는, 일반적으로 직접 작업을 다시 해야한다.

본질적으로 OCR을 위한 방법은, 순수한 비트 패턴의 비교, 즉 "패턴 매칭"에 의해 이루어지거나, 아니면 흔히 알려진 것처럼 라인과 교차지점에 의해 문자의 기술내용을 가지고 필기인식을 함으로써 이루어진다. 패턴 매칭은 표준 문자(예를 들어 자동차번호판)인 경우 특히 잘 사용될 수 있다. 번호판을 인식하는 경우, 인식되는 문자는 작은 번호로 제한되며, 이 번호도 또한 표준화되어 있다.

또한, 증강현실(augment reality) 분야의 다른 애플리케이션들도 알려져 있다. 이 예로서, 각각의 거리의 명칭을 보여주는 스트리트 맵(www.clicketl.de)을 갖는 사진(위성 사진)의 중첩이 있다.

최신기술로서, 독일특허공보 DE 10113880 B4 내지 그 대응공보인 EP 1371229 B1에 따르는 우선순위선정 픽셀 그룹의 방법이 있고, 이는 본 발명의 청구항 2의 특징에 기초한 내용을 개시하고 있다.

독일특허공보 DE 10025017 A1는 휴대폰을 개시하고 있는데, 이 휴대폰은 특히 보다 간단한 애플리케이션에 적합하며, 또한 SMS, 지불거래, 신원 또는 보안 체크 등등과 같은 특별 서비스 및 기능을 사용함에 있어서 적합하다. 휴대폰은 문자, 기호코드 및/또는 스캐너, 바코드 리더기 또는 CCD 센서 형태의 지문 리더기와 같은 식별특성들을 읽는 통합장치를 갖고 있다. 이를 통해, 텍스트와 기호 또는 보안관련 특징들을 편리하고 신속하게 입력하고 기록할 수 있다.

독일특허공보 DE 202005018376 U1은, 하우징의 개구 또는 윈도우 뒤에 배열된 광학스캔 시스템, 특히 핸드스캐너와 키보드와 모니터와 데이터처리 시스템 및 통합 번역 프로그램을 구비한 휴대폰을 개시하고 있다. 광학 스캔 시스템을 통해, 다른 언어로 존재하는 문자 및/또는 단어를 스캔할 수 있다. 언어를 선택함으로써, 단어를 번역할 수 있다. 바람직하게, 이는 메뉴, 경고문구, 작동지시사항, 맵 그리고 부호가 될 것이다. 또한, 사용자는 휴대폰의 키보드를 통해 직접 단어를 입력할 수도 있고, 데이터 처리 시스템의 메모리에 있는 사전을 선택할 수 있다. 데이터 처리 시스템을 모니터와 키보드에 연결시킴으로써, 선택한 언어로 단어가 번역되어 모니터에 표시된다.

독일특허공보 DE 10163688 A1은 광학적으로 읽을 수 있는 알파벳과 숫자를 혼압한 코딩이 제공되는 제품을 추적하는 방법 및 시스템과, 및 이를 위한 데이터 획득장치를 개시하고 있다. 이 코딩은 데이터 획득장치에 의해 이미지로서 획득되어, 이미지 데이터로 변환된다. 이 이미지 데이터는 데이터 획득장치로부터 이미지 데이터를 추가적으로 평가하는 컴퓨터 시스템에 연결된 수신기로 무선으로 전송된다. 또는, 이미지 데이터는 수신기로 전송되기 전에 데이터 획득장치에서 평가된다. 이미지 데이터의 평가가 얼마나 정확하게 이루어지는지는 더 구체적으로 기재되어 있지 않다.

독일특허공보 10 2005 033 001 A1은 특히 예를 들어 텍스트 인식 방법(OCR)과 같은 패턴인식방법을 통해, 디지털 이미지 정보를 촬영하고 이미지 정보를 분석하는 카메라를 갖는 이동단말기, 예를 들어 휴대폰에서 이미지를 처리하는 방법을 개시하고 있다. 그러나, 이 텍스트 인식 방법(OCR)이 얼마나 정확하게 작동하는지는 기술되어 있지 않다.

본 발명의 목적은 훨씬 더 정확하고 빠르게 작동하는 디지털 카메라를 갖는 휴대용 단말기에서 이미지를 처리할 수 있는 총체적인 방법을 제공하는 것이다.

본 발명은 독립항인 청구항 1 또는 청구항 2의 구성에 의해 그 특징을 알 수 있다.

바람직하게 개선된 사항은 종속항의 내용으로 기재되어 있다.

본 발명의 이점은 비교적 작은 연산능력을 가지고도 실시간으로 선택적인 번역을 할 수 있는, 보다 강건한 OCR 획득을 이룰 수 있다는 것이다. 강건성이라 함은 특히 그다지 좋지 않은 조건(특히, 빛의 상태라든가 간섭)에서 종래의 시스템 보다 우수하게 인식할 수 있다는 사실과 관련되어 있다.

이는 우선 픽셀 그룹와 관련하여 최적화된 적응형 전처리를 수행하여 라인 세그먼트 내의 이미지를 분석한 결과에 의해 달성되는 것이다. 종래의 알려진 방법과 비교할 때 가장 큰 차이점은, 추가로 직접 패턴 비교를 하는 것은 일어나지 않고, 그보다는 가능한 한 최대로 최적화하여 라인 세그먼트를 검사하는 것이다. 대응하는 문자는 이동 시퀀스를 통해 얻을 수 있다. 이 이동 시퀀스는 비교적 적은 비용으로 기준화되어 기재되기 때문에, 이 기술은 특히 휴대폰에 적합하다. 알고 있는 문자의 이동 시퀀스는 검색단어에 저장되고, 따라서 이동으로부터 문자를 직접 얻을 수 있다. 또한, 사전/어휘목록를 사용할 수 있다. 사전/어휘목록의 도움을 받아 단어를 인식하면, 인식된 문자는 훨씬 더 최적화된 문자 폰트 인식을 위해 사용될 수 있다.

애플리케이션 시나리오는 해외 여행자가 특히 교통표지판, 메뉴, 일반표지를 읽을 수 있도록 하는 카메라 휴대폰이다. 처리중에, 컨텐츠는 제2의 언어로 즉시 번역될 수 있다. 번역은 사용자에게 화면상에 표시되고, "텍스트-음성 애플리케이션(text to speech application)"을 통해 읽을 수 있다.

인식의 강건성은 우선 라인 세그먼트 폭 또는 문자 크기를 표준화하는 것에 기초한다. 그 다음 문자를 검사하게 되며, 트레이싱(tracing) 범위 내에서 실제 문자를 인식할 수 있다. 인식 방법의 강건성은 상이한 해결방안 단계들을 조합함으로써 이루어진다. 라인 세그먼트 폭을 표준화함으로써, 새도우 효과와 좋지 않은 조명 상태는 거의 인식률에 영향을 미치지 않는다. 크기 표준화를 통해, 예를 들어 멀리 있는 표지에 대한 효과는 보상될 수 있다. 트레이싱을 통해, 간단하면서도 비용도 저렴하지만 확장할 수 있는 솔루션 트리를 통해, 정확한 문자 내지 숫자를 얻을 수 있다. 결과를 훨씬 더 강건하게 하기 위해, 또한 사전도 사용할 수 있다. 인식된 단어를 승인함으로써, 이에 따라 원형의 솔루션 트리와 라인 세그먼트 폭을 최적화할 수 있다.

문제를 해결하기 위해 아래의 단계들을 실행한다.

우선, 이미지 기록 소자(예를 들어 CCD 카메라)에 의해 이미지가 전기 신호로 변환된다. 이러한 신호는 독일특허 DE 101 13 880 B4의 방법에 따라 우선순위에 따른 배열(어레이)로 저장된다. 선택적으로, 또한 위치 인자가 우선순위화 과정에 유입될 수 있다. 위치 인자가 커지면 커질 수록, 픽셀 그룹은 시작 픽셀에 더 가까워진다. 시작 픽셀은 대부분의 서양언어(영어, 독어, 프랑스어)의 경우 우선 배열의 상부좌측 코너에 위치된다.

미리 정의된 인식 작업에 의해 작업을 수행하는 독일특허 DE 101 13 880 B4와 다르게, 인식작업이 이루어지는 동안 픽셀 그룹도 달라진다. 픽셀 그룹의 한 예는, 한 라인의 수평으로 된 픽셀의 배열구조로서, 그 길이는 밝기의 이중교체(double alternation)에 따라 결정된다. 조명이 있는 배경에서 인식되는 어두운 문자의 경우, 첫 번째 명-암 전이(light-dark transition)와 그 다음의 암-명 전이(dark-light transition) 사이의 거리가, 상정된 라인 세그먼트 폭에 대한 하나의 변수가 될 것이다. 동일한 상정된 라인 세그먼트 폭의 픽셀 그룹은 각각 별개의 리스트로 컴파일된다. 픽셀 에러와 관련하여 이러한 방법의 강건성을 향상시키기 위해, 또한 저역필터를 가지고 작업할 수 있다. 이 저역필터의 경우, 대응하는 명-암 전이 또는 암-명 전이를 찾기 위해, n개의 인접한 픽셀의 합을 취할 수 있다. 이를 취합하면, 심한 노이즈에 의한 픽셀 에러는 크게 줄어든다.

문자를 인식하기 위해 비슷한 픽셀 그룹은 각각 별도의 리스트로 컴파일 된다. 이렇게 얻은 각각의 리스트는, 낮은 Y 위치를 나타내는 픽셀 그룹이 내림차순으로 분류되도록 분류된 프로세스 내에 있다. 여러개의 비슷한 픽셀 그룹이 동일한 Y 위치에 놓이면, 상기 픽셀 그룹에 대하여 새로운 리스트가 생성된다. 이러한 리스트로부터, 대응하는 벡터를 구하려는 시도가 이루어진다. 프로세스 중에, 각각의 리스트로부터 최저 및 최고 Y 값을 갖는 픽셀 그룹이 선택된다. 이러한 픽셀 그룹의 위치들 사이에, 라인이 연산된다. 이 라인에 대한 다른 픽셀 그룹의 편차가 결정된다. 모든 편차가 특정 임계값 아래에 있는 경우, 이 리스트에 대하여 기술 벡터(descrption vector)를 찾게된다. 만일 편차가 임계값 위에 있는 경우에는, 리스트는 분할되어, 각각의 하위 리스트에 대하여 대응하는 벡터를 생성하도록 시도하게 된다. 프로세스에서, 연산된 라인에 대한 가장 큰 편차가 존재하는 리스트를 분할하는 것이 타당하다. 이런식으로, 다수의 벡터를 얻을 수 있다. 서로 접하는 벡터는 추가 벡터 리스트에서 혼합되고, 이에 대응하여 Y 값이 분류된다.

이 벡터 리스트는 대응하는 문자를 기술한다. 이어서 벡터 리스트는 표준화된다(예를 들어 최대 Y 차이). 그 후 이러한 표준화된 벡터 리스트는 상이한 문자가 저장되어 있는 솔루션 트리를 통과하게 된다. 이러한 접근법에 의해, 우선 문자 중 일부 문자만 인식할 수 있을 것이다. 그러나, 이런식으로, 인식대상의 글자에 대한 제1 정보를 얻게 된다. 큰 문자의 경우, 이중 문자를 얻을 것이다. 이것은, 문자의 라인 폭에 상응하여, 명-암 전이로 한번 그리고 암-명 전이로 또 한번 각각의 문자로 해석되기 때문이다. 프로세스에서, 이러한 이중 문자의 거리는 비교적 일정한 것으로 가정한다. 그러나, 이러한 환경은 라인 폭에 상응하여 사용된 픽셀 그룹의 형태를 최적화하기 위해 사용될 수 있다. 따라서, 사용된 픽셀 그룹의 폭은, 라인 폭의 세 배가 되도록 선택된다. 픽셀 그룹에 대한 최적의 높이는 폰트의 높이에 의해 결정된다. 최적화된 픽셀 그룹에 의해, 이미지를 추가로 스캔한다. 더 적게 필요한 내부 리스트에 기초하여 픽셀 그룹을 확대함으로써, 보다 빠른 처리가 이루어지며, 이는 또한 보다 정확한 결과를 제공하게 된다. 텍스트 내의 폰트유형은 보통 변하지 않기 때문에, 이 폰트를 갖는 각각의 텍스트에 대하여 최적화된 결과의 트리가 존재한다. 26개의 문자로 진행하는 경우, 대문자 및 소문자로부터 52개의 상이한 문자가 나온다. 128 문자의 이진수 트리로 진행하는 경우, 문자를 정의/결정하기 위해서는 7개의 브랜치(2의 7제곱)면 충분하다.

타자로 친 텍스트에 대하여, 픽셀 그룹 마스터로 이미 인식된 문자 또는 음절을 저장함으로써, 텍스트 인식의 전제 작업을 더 최적화할 수 있다. 상술한 방법과 병행하여, 매우 높은 픽셀 그룹의 값을 달성할 수 있기 때문에 픽셀 그룹 마스터를 가지고 예를 들어 모음을 쉽게 인식할 수 있다.

부가적인 선택사항으로서, 인식 에러가 부분적으로 인식되고 사전에 의해 교정될 수 있다. 디스플레이를 통해서 그리고 "음성-텍스트 프로그램"을 통해서, 인식된 문자를 출력할 수 있다.

상술한 방법은 픽셀에 기초한 이미지로부터 벡터를 형성하는 최적화된 방법을 설명하고 있으며, 각각의 개별 픽셀(한 라인의 픽셀 그룹의 경우)은 한 번만 통과되면 된다. 이미 알고 있는 OCR 방법의 경우, 보통 그 전에 인식률을 높이기 위해 에지 향상기술을 실행하고, 그 다음에 인식방법이 시작된다. 이는 상술한 방법에서는, 단지 하나의 단계에서만 일어나기 때문에 프로세서의 성능을 낮추면서도 훨씬 더 강건하게 된다.

Claims

OCR 획득 방법으로서,
a) 픽셀 그룹 지향 리스트의 대형에 의해 라인 세그먼트를 인식하는 단계로서, 상기 리스트는 각각 개별 라인 세그먼트를 나타내는, 단계와;
b) 생성된 리스트에 의해 문자를 트레이싱하는 단계와;
c) 솔루션 트리에 저장된 표준화된 기준 문자를 가지고 문자를 다시 트레이싱하는 경우에 이동 시퀀스를 비교하는 단계를 실행하는 것을 특징으로 하는 방법.
개별 픽셀의 어레이로 구성된 이미지 데이터의 분석방법으로서, 각각의 픽셀은 픽셀의 색 또는 밝기 정보를 기술하는 연대에 따라 변하는 픽셀값을 나타내고,
a) 사용된 픽셀을 기준 픽셀로 고정하여 어레이의 각 픽셀에 대한 우선값을 결정하고, 미리 정해진 그룹의 인접하는 픽셀의 현재 픽셀값과 관련된 기준 픽셀의 현재 픽셀값을 이용하여 픽셀 차이값을 연산하는 단계와;
b) 우선값을 연산하기 위해 사용되는 픽셀을 하나의 픽셀 그룹으로 조합하는 단계와;
c) 할당된 기준 픽셀의 우선값을 통해 픽셀 그룹을 분류하고, 우선 어레이 내에 저장하는 단계와;
d) 연산능력을 최적화하기 위해 픽셀 그룹의 일부분만 리스트를 형성하는데 사용되는, 우선 어레이의 우선순위에 따라 픽셀 그룹을 저장 및/또는 이전하는 단계를 실행하고, 크면 클 수록 픽셀 그룹이 언어에 따라 정해지는 미리 정해진 시작 픽셀에 더 가까워지는 우선값에 위치 인자가 유입되는 것을 특징으로 하는 방법.
제2항에 있어서,
픽셀의 차이값은, 픽셀 그룹의 이웃하는 고려대상의 픽셀 중 일부 픽셀의 픽셀 값에 대한 고려대상의 픽셀의 픽셀 값의 차이로부터 나오는 것을 특징으로 하는 방법.
제2항 또는 제3항에 있어서,
상기 픽셀의 차이값에 의해 라인 세그먼트의 폭을 추정하는 것을 특징으로 하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
유사한 픽셀 그룹의 리스트가 형성되는 것을 특징으로 하는 방법.
제2항 내지 제5항 중 어느 한 항에 있어서,
상기 단계 1a) 내지 단계 1d) 이후에,
라인 세그먼트 내의 이미지를 분석하는 픽셀 그룹과 관련하여 최적화된 적응형 전처리를 수행하고, 이어서 가능하면 최적화된 방법으로 라인 세그먼트를 검사하고, 저장된 검색 단어/솔루션 트리에 의해 이동 시퀀스로부터 대응하는 문자를 찾아내는 단계를 실행하는 것을 특징으로 하는 방법.
제2항 내지 제5항 중 어느 한 항에 있어서,
상기 단계 1a) 내지 단계 1d) 이후에,
유사한 픽셀 그룹은 각각 별개의 리스트 내에서 컴파일되고, 이렇게 얻은 각각의 리스트는 더 낮은 Y 위치를 나타내는 픽셀 그룹이 내림차순으로 분류되도록 프로세스 내에서 분류되고, 다수의 유사한 픽셀 그룹이 동일한 Y 위치에 있는 경우, 각각의 픽셀 그룹에 대하여 새로운 리스트가 생성되고, 이 리스트에서 벡터를 추출하고 가장 낮은 값과 가장 높은 Y 값을 갖는 픽셀 그룹이 선택되고, 이 픽셀 그룹의 위치 사이에서 라인이 연산되고, 이 라인에 대한 다른 픽셀 그룹의 편차가 결정되는, 단계를 실행하는 것을 특징으로 하는 방법.
제7항에 있어서,
모든 편차값이 특정 임계값보다 작은 경우에는 그 리스트에 대하여 기술 벡터를 찾아내지만, 편차가 임계값 보다 큰 경우에는 리스트를 분할하여 각각의 하위 리스트를 위한 대응하는 벡터를 생성하게 되는 것을 특징으로 하는 방법.
제7항 또는 제8항에 있어서,
상기 리스트는 연산된 라인에 대한 최대편차가 존재하는 경우에 분할되는 것을 특징으로 하는 방법.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 벡터 리스트는 이후에 예를 들어 최대 Y 차이로 표준화되는 것을 특징으로 하는 방법.
제10항에 있어서,
상기 표준화된 벡터 리스트는 상이한 문자가 저장되어 있는 솔루션 트리를 통과하는 것을 특징으로 하는 방법.
제7항 내지 제11항 중 어느 한 항에 있어서,
서로 접하는 상기 벡터는 추가 벡터 리스트에 혼합되고, 이에 대응하여 Y 값이 분류되는 것을 특징으로 하는 방법.
제7항 내지 제12항 중 어느 한 항에 있어서,
사용된 픽셀 그룹의 폭은, 라인 폭의 세배가 되고 픽셀 그룹의 최적 높이가 폰트의 높이에 따라 달라지도록 선택되는 것을 특징으로 하는 방법.
제7항 내지 제13항 중 어느 한 항에 있어서,
상기 이미지는 최적화된 픽셀 그룹에 의해 다시 스캔되는 것을 특징으로 하는 방법.
제7항 내지 제14항 중 어느 한 항에 있어서,
최적화된 결과 트리는 이 폰트를 갖는 각각의 텍스트에 대하여 생성되는 것을 특징으로 하는 방법.
제7항 내지 제15항 중 어느 한 항에 있어서,
타이핑된 텍스트에 대하여, 이미 인식된 문자 또는 심지어 음절은 픽셀 그룹 마스터로서 저장되는 것을 특징으로 하는 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
사전/어휘집을 사용하고, 그 도움으로 상기 인식된 문자는 보다 최적화된 문자 폰트의 인식을 위해 사용되는 것을 특징으로 하는 방법.
제1항 내지 제17항 중 어느 한 항에 있어서,
인식된 단어는 선택할 수 있는 언어로 변환되고, 시각 및/또는 청각적으로 출력되는 것을 특징으로 하는 방법.
제1항 내지 제18항 중 어느 한 항에 있어서,
인석된 단어를 승인함으로써, 이에 대응하여 원본형태의 라인 세그먼트 폭 및 솔루션 트리가 최적화되는 것을 특징으로 하는 방법.
제1항 내지 제19항 중 어느 한 항에 있어서,
우선순위에 따라 분류된 픽셀 그룹을 연속적으로 결정 및 출력하는 것은, 사용된 이미지 기록 시스템, 특히 휴대폰에 장착된 CCD 카메라 또는 스캐너에 의해 이루어지는 것을 특징으로 하는 방법.