KR20130011915A

KR20130011915A - 이미지 블록 내 문자들의 방향을 식별하는 방법 및 장치

Info

Publication number: KR20130011915A
Application number: KR1020120067462A
Authority: KR
Inventors: 준 선; 사또시 나오이
Original assignee: 후지쯔 가부시끼가이샤
Priority date: 2011-07-20
Filing date: 2012-06-22
Publication date: 2013-01-30
Also published as: EP2549406A2; US20130022272A1; EP2549406A3; JP6028422B2; US8737743B2; EP2549406B1; KR101272445B1; CN102890783A; CN102890783B; JP2013025801A

Abstract

본 발명은 이미지 블록 내 문자들의 방향을 식별하는 방법 및 장치를 개시한다. 이 방법은 여러 방향을 가정된 문자 방향으로 각각 가정함으로써 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 각각의 상기 가정된 문자 방향에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치를 획득하는 단계; 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계; 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계; 상기 조절된 정확도 측정치에 근거하여 각각의 상기 가정된 문자 방향에서 누적 정확도 측정치를 계산하는 단계; 및 상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하는 단계를 포함한다.

Description

이미지 블록 내 문자들의 방향을 식별하는 방법 및 장치{METHOD OF AND DEVICE FOR IDENTIFYING DIRECTION OF CHARACTERS IN IMAGE BLOCK}

본 발명은 일반적으로 문서 이미지의 처리에 관한 것으로, 특히 이미지 블록 내 문자들(characters)의 방향을 식별하는 방법 및 장치에 관한 것이다.

사용자가 스캐너 등을 사용하여 다량의 문서를 스캔할 때, 이상적인 입력을 위해 각 문서의 모든 페이지는 위쪽이 위로 향하게(upside up) 놓인다. 문서들이 위쪽이 위로 향하게 놓임에 따라, 사용자는 문서들을 쉽게 읽을 수 있고, 스캔된 문서 이미지는 이들의 방향을 조절하지 않고서도 사용자가 읽을 수 있다. 그러나, 실제 응용에서, 사용자가 스캔할 문서들은 그와 달리 0°(upside up, 위쪽이 위로) 및 180°(upside down, 거꾸로)뿐 아니라 90°및 270°(transversely, 횡방향) 각도로 놓이는 경향이 있다. 사용자가 문서들을 스캐닝하기 전에 이들 문서의 배치 방향을 페이지마다 확인하고 조절하는 것은 번거롭고 시간이 많이 소모될 것이다. 따라서, 스캐너는 문서 이미지의 방향을 자동으로 판단하는 기능을 갖도록 설계된다. 문서 이미지의 방향을 자동으로 판단하는 기능에 따라, 스캔된 문서 이미지는 위쪽이 위로 향하게 놓이도록 조절됨으로써 사용자의 부담을 덜어주고 사용자의 사용 효율을 향상시켜 줄 수 있다.

문서 이미지의 방향을 자동으로 판단하는 전통적인 방법에 있어서, 문서 이미지에는 텍스트 라인(text line)이 배치되며; 네가지 가능한 방향에서 각각 광학 문자 인식 처리가 수행되어 네가지 가능한 방향에서 인식된 문자 및 그에 대응하는 신뢰도(confidences) 또는 인식 거리(recognition distances)를 얻고; 그리고 텍스트 라인의 평균 신뢰도 또는 평균 인식 거리가 계산된다. 평균 신뢰도가 가장 크거나 평균 인식 거리가 가장 짧은 방향이 텍스트 라인의 방향으로 판단되고, 또한 텍스트 라인의 방향에 의거하여 문서 이미지의 방향이 추가로 판단된다. 텍스트 라인의 방향은 텍스트 라인의 업사이드-업 방향을 지칭하고, 그리고 문서 이미지의 방향은 문서 이미지의 업사이드-업 방향을 지칭한다. 이하, 문자 방향(또는 문자들의 방향)은 (그) 문자들의 업사이드-업 방향을 지칭한다.

다음의 설명은 본 발명의 몇몇 양태의 기본적인 이해를 용이하게 해주는 본 발명의 요약에 해당한다. 그러나, 본 요약은 본 발명의 광범위한 개요는 아니며, 본 발명의 중대하거나 중요한 특정 구성요소들을 나타내고자 하는 것도 아니고, 본 발명의 범주를 기술하고자 하는 것도 아님을 인식할 것이다. 그보다는, 본 요약의 주요 목적은 이하에서 더욱 상세한 설명을 제시하기 전에 본 발명의 일부 개념을 간략한 형태로 제시하기 위함이다.

도 1에 예시된 바와 같이, "TIP AMOUNT" 라는 텍스트 라인의 이미지 블록이 가정된 0°방향으로 입력되고 180°만큼 회전되어 180°방향의 텍스트 라인의 이미지 블록을 얻는다. 90°및 270°방향의 처리가 0°및 180°방향의 처리와 유사하기 때문에, 본 명세서에서는 0°및 180°방향의 처리만 일예로 설명될 것이다. 0°및 180°방향에서 텍스트 라인의 이미지 블록들에 대해 광학 문자 인식 처리가 각기 수행되어 도 1에 예시된 바와 같이 두 방향에서 서브 이미지 블록, 그 서브 이미지 블록에 대응하는 인식된 문자 및 그 신뢰도를 얻는다.

전통적인 방법에 있어서, 0°방향에서 인식된 문자들의 평균 신뢰도는 (0.54+0.36+0.48+0.61+0.62+0.61+0.58+0.65)/8=0.55625 이고 180°방향에서 인식된 문자들의 평균 신뢰도는 (0.62+0.58+0.65+0.62+0.46+0.50+0.61)/7=0.5771 이다. 0.55625가 0.5771보다 작으므로, 전통적인 방법에서 180°방향(즉, 평균 신뢰도가 더 높은 방향)은 텍스트 라인의 이미지 블록 내 문자들의 방향으로 잘못 판단될 수 있다.

전술한 오류 발생 이유 중 하나는 다수의 언어를 지원하는 광학 문자 인식 엔진에서 발생된 인식된 문자들이 때때로 서로 다른 언어에 속할 수 있기 때문이다. 이것은 이해하기 쉬운데 그 이유는 특정 언어에 속하는 문자가 위쪽이 위로 향하게 놓일 때 그 문자가 정확한 언어의 문자로 쉽게 인식되지만 그 문자가 90°, 180°및 270°회전한 이후에는 언제나 동일 언어의 문자로 인식될 수 없고 그 대신 다른 언어의 문자와 유사하게 보일 수 있기 때문이다.

종래 기술에서는 언어의 일관성이 무시되었다. 본 발명의 발명자들은 여러 각도로 회전한 문자를 인식하여 각 방향에서 광학 문자 인식의 인식 결과를 생성하고, 이들 방향에서 위쪽이 위로 향하게 놓인 문자가 광학 문자 인식 엔진에 의해 다른 언어의 문자로 잘못 판단될 가능성이 가장 낮고 그래서 그 방향에서 각각의 인식된 문자들이 더 높은 언어 일관성을 갖는다는 것을 알았다. 따라서, 여러 방향을 각각 가정된 문자 방향으로 가정하여 문자를 포함하는 이미지 블록에 대해 광학 문자 인식 처리를 수행하여 각각의 가정된 문자 방향에서 서브 이미지 블록, 그 서브 이미지 블록에 대응하는 인식된 문자 및 그 정확도 측정치(correctness measures)를 획득하면, 이미지 블록 내 문자들이 속하는 언어는 그 방향들 중 적어도 하나에서 결정될 수 있으며, 결정된 문자와 다른 언어의 인식 결과에서 인식된 문자는 위쪽이 위로 향하게 놓이지 않은 문자에 해당할 가능성이 더 높다.

평균 인식 신뢰도에 의거하여 텍스트 라인의 방향을 판단하는 전통적인 방법에서는 언어의 일관성이 무시되어, 그 성능이 다소 저하되었다.

본 발명의 목적은 이미지 블록 내 문자들의 방향을 정확하게 식별하는 방법 및 장치를 제안하여 전술한 문제를 해결하는 것이다. 이러한 해결책은 언어의 일관성을 고려하고 이에 의해 서브 이미지 블록에 대응하는 정확도 측정치(신뢰도 또는 인식 거리)를 조절하여 문서 이미지의 방향을 자동으로 판단하는 정확도를 향상시킬 수 있다.

전술한 목적을 달성하기 위하여, 본 발명의 양태에 따르면, 이미지 블록 내 문자들의 방향을 식별하는 방법이 제공되며, 상기 방법은 여러 방향을 각각 가정된 문자 방향으로 가정하여 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 각각의 상기 가정된 문자 방향에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치(correctness measures)를 획득하는 단계; 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계; 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계; 상기 조절된 정확도 측정치에 근거하여 각각의 상기 가정된 문자 방향에서 누적 정확도 측정치를 계산하는 단계; 및 상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하는 단계를 포함한다.

본 발명의 실시예에 따르면, 상기 정확도 측정치는 신뢰도 및 인식 거리를 포함한다.

본 발명의 실시예에 따르면, 상기 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계는 상기 서브 이미지 블록에 대응하는 상기 신뢰도를 감소시키거나 상기 서브 이미지 블록에 대응하는 상기 인식 거리를 증가시키는 단계를 포함한다.

본 발명의 실시예에 따르면, 상기 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계는 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리를 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최대 신뢰도, 또는 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 인식 거리들 중 최소 인식 거리로 조절하며, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 후보 문자들 중 어느 것도 상기 결정된 언어 그룹에 속하지 않는 경우, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 신뢰도들 중 최소 신뢰도, 또는 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 인식 거리들 중 최대 인식 거리를 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리로 취하는 단계를 포함한다.

본 발명의 실시예에 따르면, 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계는 각각의 상기 가정된 문자 방향에서, 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 각각의 상기 언어 그룹들에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하는 단계; 및 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 상기 언어 그룹으로 결정하는 단계를 포함한다.

본 발명의 실시예에 따르면, 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계는 각각의 상기 가정된 문자 방향에서, 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 각각의 상기 언어 그룹들에 속하는 인식된 문자들에 대응하는 상기 서브 이미지 블록들의 비율을 각각 계산하는 단계; 및 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크고 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 상기 언어 그룹의 코어 문자 세트에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제2 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 상기 언어 그룹으로 결정하는 단계를 포함한다.

본 발명의 실시예에 따르면, 상기 언어 그룹은 라틴어 그룹을 포함하고; 상기 라틴어 그룹은 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고; 및 상기 제1 임계치 값의 범위는 (0.65, 0.85) 이다.

본 발명의 실시예에 따르면, 상기 언어 그룹은 한국어 그룹 및 중국어/일본어 그룹을 포함하고; 상기 한국어 그룹은 한글(Korean letters), 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고, 상기 한국어 그룹의 코어 문자 세트는 한글을 포함하고; 상기 중국어/일본어 그룹은 간체자(simplified Chinese characters), 번체자(traditional Chinese characters), 일본 한자(Chinese characters in Japanese), 일본 히라가나, 일본 가타카나, 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고, 중국어/일본어 그룹의 코어 문자 세트는 간체자, 번체자, 일본 한자, 일본 히라가나 및 일본 가타카나를 포함하고; 및 상기 제1 임계치 값의 범위는 (0.65, 0.85)이고, 상기 제2 임계치 값의 범위는 (0.45, 0.65) 이다.

본 발명의 다른 양태에 따르면, 이미지 블록 내 문자들의 방향을 식별하는 장치가 제공되며, 상기 장치는 여러 방향을 각각 가정된 문자 방향으로 가정함으로써 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 각각의 상기 가정된 문자 방향에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치를 획득하도록 구성된 광학 문자 인식 처리 유닛; 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하도록 구성된 언어 그룹 결정 유닛; 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하도록 구성된 서브 이미지 블록 조절 유닛; 상기 조절된 정확도 측정치에 근거하여 각각의 상기 가정된 문자 방향에서 누적 정확도 측정치를 계산하도록 구성된 누적 정확도 측정치 계산 유닛; 및 상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하도록 구성된 문자 방향 식별 유닛을 포함한다.

본 발명의 실시예에 따르면, 상기 서브 이미지 블록 조절 유닛은 상기 각각의 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 신뢰도를 감소시키거나 상기 서브 이미지 블록에 대응하는 인식 거리를 증가시키도록 구성된다.

본 발명의 또 다른 양태에 따르면, 이미지 블록 내 문자들의 방향을 식별하는 전술한 장치를 포함하는 스캐너가 제공된다.

또한, 본 발명의 또 다른 양태에 따르면, 정보 처리 장치에서 실행될 때 상기 정보 처리 장치가 본 발명에 따른 전술한 방법을 수행하도록 하는 기계 판독가능 프로그램 코드를 포함하는 저장 매체가 제공된다.

또한, 본 발명의 또 다른 양태에 따르면, 정보 처리 장치에서 실행될 때 상기 정보 처리 장치가 본 발명에 따른 전술한 방법을 수행하도록 하는 기계 실행가능 명령어를 포함하는 프로그램 제품이 제공된다.

본 발명의 전술한 목적, 특징 및 이점과 다른 목적, 특징 및 이점은 이하에서 첨부의 도면과 함께 주어진 본 발명의 실시예의 상세한 설명으로부터 더욱 명백해질 것이며, 도면에서 그들 구성요소들은 단지 본 발명의 원리를 예시하고자 할 뿐이며, 도면 전체에서 동일하거나 유사한 기술적 기능 또는 구성요소는 동일 또는 유사한 참조 부호로 나타낸다.
도 1은 0°및 180°방향에서 텍스트 라인의 이미지 블록에 대한 광학 문자 인식 처리로부터 얻은 서브 이미지 블록, 인식된 문자 및 그 신뢰도뿐 아니라 후보 문자 및 그 신뢰도를 예시한다.
도 2는 0°및 180°방향에서 텍스트 라인의 이미지 블록에 대한 광학 문자 인식 처리로부터 얻은 서브 이미지 블록, 인식된 문자 및 그 인식 거리뿐 아니라 후보 문자 및 그 인식 거리를 예시한다.
도 3은 본 발명의 실시예에 따른 이미지 블록 내 문자들의 방향을 식별하는 방법의 흐름도를 예시한다.
도 4는 본 발명의 실시예에 따른 이미지 블록 내 문자들의 방향을 식별하는 식별 장치의 구조 블록도를 예시한다.
도 5는 본 발명의 실시예에 따른 방법 및 장치를 구현하는데 사용될 수 있는 컴퓨터의 개략적인 블록도를 예시한다.

이하에서는 본 발명의 예시적인 실시예가 첨부의 도면과 함께 상세히 설명될 것이다. 명료성과 간결성을 위해, 본 명세서에는 실제적인 구현예의 특징들이 모두 기술되지 않을 것이다. 그러나, 이러한 실제 구현예들 중 어떤 것을 개발하는 중에, 개발자의 특정 목적을 성취하기 위하여, 예를 들어, 구현예에 따라 다를 수 있는 이들 시스템 및 비지니스 관련 제한 조건에 부합하도록 구현예에 특정한 많은 결정이 내려질 수 있음을 인식할 것이다. 더욱이, 이러한 개발 업무는 매우 복잡하고 시간 소모적일 수 있지만 본 명세서에서 도움을 받는 당업자들에게 단순히 일상적인 일일 수 있음을 또한 인식할 것이다.

또한, 도면에는 본 발명의 해결책과 밀접하게 관련된 그들 장치 구조 및/또는 프로세스 단계들만 예시되어 있으며 반면에 본 발명에 적게 관련된 다른 상세내용은 그와 같은 불필요한 상세내용으로 인해 본 발명을 불명확하게 하지 않도록 하기 위해 생략됨을 주목하여야 할 것이다. 더욱이, 본 발명의 도면들 또는 구현예들 중 하나에 기술된 구성요소 및 기능은 하나 이상의 다른 도면들 및 구현예들에 예시된 구성요소 및 기능과 결합될 수 있음을 또한 주목하여야 할 것이다.

이 문맥에서 가정한 바와 같이, 텍스트 라인이 문서 이미지 내에 배치되어 있으며, 텍스트 라인을 포함하는 이미지 블록이 문서 이미지에서 크롭된다(cropped). 본 발명은 텍스트 라인을 문서 이미지 내에 배치하는 방법에 초점을 두지 않고 텍스트 라인을 포함하는 이미지 블록 내 문자들의 방향을 정확하게 식별하는 방법에 초점을 둔다.

일반적으로 네가지 주요 방향, 즉, 이미지 블록 자체의 방향(0°방향), 이미지 블록을 180°회전시킨 방향, 이미지 블록을 90°회전시킨 방향 및 이미지 블록은 270°회전시킨 방향을 가정된 문자 방향으로 고려하는 것이 전형적이며, 이들 방향은 이미지 블록의 두 횡방향 및 두 종방향으로도 지칭된다. 90°및 270°방향은 일반적으로 아마도 수직으로 쓰여진, 예를 들어, 중국어 문자, 일본어 문자 등에 적용된다. 방향이 0°및 180°인 시나리오는 방향이 90°및 270°인 시나리오와 유사하므로, 이하에서는 방향이 0°및 180°인 시나리오만 예를 들어 설명될 것이다.

이하, 본 발명의 실시예에 따른 이미지 블록 내 문자들의 방향을 식별하는 방법의 흐름에 대해 도 3을 참조하여 설명될 것이다.

먼저, (S301에서) 0°및 180°를 가정된 문자 방향으로 가정함으로써 이미지 블록에 대해 광학 문자 인식 처리가 수행되어 0°및 180°방향에서 서브 이미지 블록, 그 서브 이미지 블록에 대응하는 인식된 문자 및 그 정확도 측정치(correctness measures)를 획득한다. 도 1은 0°및 180°방향에서 번호가 부여된 서브 이미지 블록, 인식된 문자 및 신뢰도의 일예를 예시한다. 도 2는 0°및 180°방향에서 번호가 부여된 서브 이미지 블록, 인식된 문자 및 인식 거리의 일예를 예시한다. 광학 문자 인식의 인식 결과는 일반적으로 분할된 서브 이미지 블록, 그 서브 이미지 블록에 대응하는 인식된 문자 및 인식된 문자의 정확도 측정치를 포함한다. 정확도 측정치는 인식된 문자의 신뢰성을 반영하고 전형적으로는 신뢰도(confidence) 또는 인식 거리(recognition distance)이다. 신뢰도가 높을수록, 인식된 문자가 정확할 가능성이 높을 것이며; 그리고 인식 거리가 짧을수록, 인식된 문자가 정확할 가능성이 높을 것이다.

다음으로, (S302에서) 이미지 블록 내 문자들이 속하는 언어 그룹이 결정된다. 전술한 바와 같이, 오류 발생 이유 중 하나는 언어의 일관성이 무시되었기 때문이다. 실생활에서, 쓰여진 문자는 전형적으로 주요 언어의 다수의 문자와 또한 다른 언어의 소수의 피진(pidgin) 문자, 아라비아 숫자, 비문자 기호(non-character symbols) 등을 포함한다. 예를 들면, 중국어로 쓰여진 문자는 한자(Chinese characters)와 다른 "행운(good luck)", "5782", "￥", "%" 등의 기호와 결합하여 사용될 수 있다. 따라서, 본 발명은 특정 언어로 제한되지 않고 언어 그룹의 개념과 함께 사용될 수 있다.

언어 그룹은 라틴어 그룹, 한국어 그룹 및 중국어/일본어 그룹을 포함한다.

라틴어 그룹은 라틴 문자, 아라비아 숫자, 비문자 기호 등을 포함한다. 비문자 기호는, 예를 들어, ￥, "%", "(", ")", "&" 등을 포함한다.

한국어 그룹은 한글(Korean letters), 라틴 문자, 아라비아 숫자, 비문자 기호 등을 포함한다. 라틴 문자가 의학 명사, 변종 식물 등에서 빈번히 나오고, 또한 다른 언어와 함께 빈번히 사용되기 때문에, 비라틴어 그룹은 라틴 문자, 아라비아 숫자, 비문자 기호 등을 포함한다.

그러나, 한국어 그룹과 같은 다른 언어 그룹은 라틴어 그룹의 모든 내용을 포함하므로, 다른 언어 그룹은 라틴어 그룹을 다른 언어 그룹으로 잘못 판단하지 않도록 하기 위해 라틴어 그룹과 구별되도록 더 특징지어질 수 있다. 따라서, 다른 언어 그룹에는 코어 문자 세트가 추가로 설정된다. 언어 그룹의 코어 문자 세트는 언어 그룹을 라틴어 그룹과 구별하는 문자들의 세트를 포함한다. 예를 들어, 한국어 그룹의 코어 문자 세트는 한글을 포함한다.

마찬가지로, 중국어/일본어 그룹도 간체자(simplified Chinese characters), 번체자(traditional Chinese characters), 일본 한자(Chinese characters in Japanese), 일본 히라가나, 일본 가타카나, 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함한다. 중국어/일본어 그룹의 코어 문자 세트는 간체자, 번체자, 일본 한자, 일본 히라가나 및 일본 가타카나를 포함한다. 이러한 배열의 이유는 일본어로 쓰여진 문자는 역사상 문화 전파의 결과로 한자를 빈번히 포함하기 때문이다.

앞에서 열거한 라틴어 그룹, 한국어 그룹 및 중국어/일본어 그룹은 단지 언어 그룹의 몇가지 예에 불과하다. 열거한 예들에 비추어 당업자는 언어 그룹에 대한 다른 디자인도 만들 수 있다. 예를 들어, 러시아어 그룹은 러시아 문자, 라틴 문자, 아라비아 숫자, 비문자 기호 등을 포함할 수 있다.

이미지 블록 내 문자들이 속하는 언어 그룹은 여러 방식으로 결정될 수 있다. 광학 문자 인식 처리의 결과에 기반한 예시적인 방법이 본 명세서에서 제시되지만, 본 발명은 이러한 방법으로 제한되지 않는다.

각각의 가정된 문자 방향에서, 가정된 문자 방향의 모든 서브 이미지 블록 내에서 각각의 언어 그룹에 속하는 인식된 문자에 대응하는 서브 이미지 블록들의 비율이 각각 계산된다. 라틴어 그룹의 결정 조건 하에서, 가정된 문자 방향들 중 하나의 가정된 문자 방향의 모든 서브 이미지 블록 내에서 그 가정된 문자 방향들의 라틴어 그룹에 속하는 인식된 문자에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크면, 라틴어 그룹은 이미지 블록 내 문자들이 속하는 언어 그룹으로 결정된다. 언어 그룹의 제1 임계치는 언어 그룹에 속하는 언어학적 자료로 구성된 코퍼스(corpus)의 통계 분석에 의거하여 결정될 수 있다. 제1 임계치는 비교적 큰데 그 이유는 어떤 언어에 속하는 문자들은 그 언어로 쓰여진 문자들 중에서 지배적일 것이기 때문이다. 통계 분석에 의하면, 라틴어 그룹의 제1 임계치 값의 범위는 바람직하게 (0.65, 0.85)이고 더욱 바람직한 값은 0.7임을 보여준다. 한국어 그룹의 결정 조건 하에서, 가정된 문자 방향들 중 하나의 가정된 문자 방향의 모든 서브 이미지 블록 내에서 그 가정된 문자 방향의 한국어 그룹에 속하는 인식된 문자에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크고 가정된 문자 방향의 모든 서브 이미지 블록 내에서 한국어 그룹의 코어 문자 세트에 속하는 인식된 문자에 대응하는 서브 이미지 블록들의 비율이 제2 임계치보다 크면, 한국어 그룹은 이미지 블록 내 문자들이 속하는 언어 그룹으로 결정된다. 또한, 언어 그룹의 제2 임계치는 그 언어 그룹에 속하는 언어학적 자료로 구성된 코퍼스의 통계 분석에 의거하여 결정될 수 있다. 명백히, 제1 임계치는 제2 임계치보다 크다. 통계 분석에 의하면, 한국어 그룹의 제1 임계치 값의 범위는 바람직하게 (0.65, 0.85)이고 더욱 바람직한 값은 0.7이며, 그리고 제2 임계치 값의 범위는 바람직하게 (0.45, 0.65)이고 더욱 바람직한 값은 0.5임을 보여준다. 중국어/일본어 그룹에 대한 결정 방법은 한국어 그룹에 대한 결정 방법과 유사하다. 상이한 언어 그룹에 대해서는 통계 분석 결과에 따라 그리고 실험적 및 언어학적 지식에 근거하여 상이한 제1 및 제2 임계치가 설정될 수 있다.

설명된 바와 같이, 각각의 가정된 문자 방향에서 이미지 블록 내 문자들이 속하는 언어 그룹이 라틴어 그룹, 한국어 그룹 또는 중국어/일본어 그룹 등인지 결정된다. 전술한 조건들 중 하나가 가정된 문자 방향들 중 하나에서 만족하기만 하면 이미지 블록 내 문자들이 속하는 언어 그룹이 결정될 수 있다. 실제의 문자 구조에 따르도록 하기 위해 라틴어 그룹의 요소들이 모두 비라틴어 그룹에 도입된다. 또한, 비라틴어 그룹은 도입된 코어 문자 세트의 개념으로 인해 라틴어 그룹과 효과적으로 구별되어 이미지 블록 내 문자들이 속하는 결정된 언어 그룹이 하나의 가정된 문자 방향에서 다른 방향으로 변할 수 있는 그러한 상황을 피할 수 있다.

예를 들어, 도 1에 예시된 예에서 0°방향에서 인식된 문자는 U, P, A, H, O, V, N 및 「 이다. 제1 임계치는 0.7로 설정되고 제2 임계치는 0.5로 설정된다. 특히, 라틴어 그룹에 속하는 인식된 문자들의 개수는 8이고, 각각의 인식된 문자들은 하나의 서브 이미지 블록에 대응하며; 그리고 그 방향에서 서브 이미지 블록들의 개수는 8이고, 100%가 제1 임계치 0.7 이상이므로, 이미지 블록 내 문자들이 속하는 언어 그룹은 라틴어 그룹으로 결정된다. 유사하게, 이미지 블록 내 문자들이 속하는 언어 그룹은 또한 180°방향에서 라틴어 그룹으로 결정될 수 있다. 한국어 그룹 및 중국어/일본어 그룹은 제1 임계치 조건을 만족하지만 제2 임계치 조건을 만족하지 못하므로 이들 그룹은 배제된다.

다음에, 단계(S303)에서 각각의 가정된 문자 방향에서 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치가 조절된다.

특히, 서브 이미지 블록에 대응하는 신뢰도가 감소되거나 서브 이미지 블록에 대응하는 인식 거리가 증가된다. 이것은 정확하게 결정된 언어 그룹과 다른 언어 그룹에서 인식된 문자가 위쪽이 위로 놓인 문자의 회전으로 인해 인식 결과가 부정확할 가능성이 더 높기 때문이다. 따라서, 신뢰도가 감소되거나 인식 거리가 증가되어 정확도 측정치에 근거하여 이미지 블록 내 문자들의 방향을 더 정확하게 결정할 수 있다. 그러므로, 이러한 처리가 적당히 수행되는 한 신뢰도가 감소될 수 있거나 인식 거리가 증가될 수 있음을 인식할 수 있다.

본 명세서에서 특정한 구현예가 제시될 것이다. 이미지 블록이 분할되어 광학 문자 인식 엔진으로 인식되면, 일반적으로 다수의 서브 이미지 블록들이 얻어지며, 도 1 및 도 2의 하부에 예시된 바와 같이 각각의 서브 이미지 블록마다 정확도 측정치가 다른 다수의 후보 문자들이 주어지고 신뢰도가 감소하는 순서로 또는 인식 거리가 증가하는 순서로 배열될 수 있다. 전형적으로, 신뢰도가 가장 높거나 인식 거리가 가장 짧은 후보 문자가 인식된 문자로 제시된다.

그러나, 전술한 바와 같이, 가정된 특정 문자 방향에서 인식된 문자, 예컨대, 도 1 및 도 2에서 서브 이미지 블록(N3 및 N5) 등에 대응하는 인식된 문자들은 이미지 블록 내 문자들이 속하는 언어 그룹에 속하지 않을 수 있지만, N3 및 N5의 가정된 문자 방향에서 후보 문자들의 일부가 이미지 블록 내 문자들이 속하는 언어 그룹에 속할 수 있다. 따라서, 서브 이미지 블록에 대응하는 조절된 신뢰도 또는 인식 거리는 가정된 문자 방향에서 이미지 블록 내 문자들이 속하는 언어 그룹에 속하고 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최대 신뢰도 또는 가정된 문자 방향에서 이미지 블록 내 문자들이 속하는 언어 그룹에 속하고 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 인식 거리들 중 최소 인식 거리로 설정될 수 있다. 명백히, 조절된 신뢰도는 감소되었거나 조절된 인식 거리는 증가되었다. 가정된 문자 방향에서 서브 이미지 블록에 대응하는 후보 문자들 중 어느 것도 이미지 블록 내 문자들이 속하는 언어 그룹에 속하지 않는 경우, 서브 이미지 블록에 대응하는 조절된 신뢰도 또는 인식 거리는 가정된 문자 방향에서 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최소 신뢰도 또는 가정된 문자 방향에서 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 인식 거리들 중 최대 인식 거리로 설정될 수 있다.

예를 들어, 도 1 및 도 2에 예시된 예에서 N3 및 N5의 인식된 문자들은 (S302)에서 결정된 라틴어 그룹에 속하지 않는다. 따라서, N3에 대응하는 후보 문자들을 검색하여 라틴어 그룹에 속하고 신뢰도가 가장 높거나 인식 거리가 가장 짧은 후보 문자를 찾는다. 도 1은 라틴어 그룹에 속하고 그 방향에서 N3에 대응하는 후보 문자들 중 가장 높은 신뢰도 0.49를 갖는 후보 문자 "n"을 예시한다. 그러므로, 0.65는 N3에 대응하는 신뢰도인 0.49로 대체된다. 마찬가지로, N5에 대응하는 신뢰도는 0.39로 조절된다. 유사하게, 도 2에서 N3 및 N5에 대응하는 인식 거리는 각기 920 및 1230으로 조절된다.

다음에, (S304)에서 조절된 정확도 측정치에 근거하여 각각의 가정된 문자 방향에서 누적 정확도 측정치가 계산되고, (S305)에서 누적 정확도 측정치에 따라이미지 블록 내 문자들의 방향이 식별된다.

누적 정확도 측정치는 누적 신뢰도 및 누적 인식 거리를 포함한다. 누적 신뢰도는 전체로서 한 방향의 텍스트 라인의 이미지 블록의 식별 결과를 특징짓는 정확도 측정치이다. 전형적으로, 가정된 문자 방향에서의 모든 서브 이미지 블록들에 대응하는 신뢰도의 합을 그 방향에서의 누적 신뢰도로 취할 수 있다. 대안으로, 가정된 문자 방향에서의 모든 서브 이미지 블록들에 대응하는 신뢰도의 산술 평균을 그 방향에서의 누적 신뢰도로 취할 수 있다. 누적 신뢰도가 더 높은 방향은 식별 결과가 정확할 가능성이 더 높다. 평균 신뢰도는 서브 이미지 블록들의 개수가 방향에 따라 다를 수 있기 때문에 더 신뢰성 있다.

또한, 누적 인식 거리는 전체로서 한 방향의 텍스트 라인의 이미지 블록의 식별 결과를 특징짓는 정확도 측정치이다. 유사하게, 가정된 문자 방향에서의 모든 서브 이미지 블록들에 대응하는 인식 거리의 합을 그 방향에서의 누적 인식 거리로 취할 수 있다. 대안으로, 가정된 문자 방향에서의 모든 서브 이미지 블록들에 대응하는 인식 거리의 산술 평균을 그 방향에서의 누적 인식 거리로 취할 수 있다. 누적 인식 거리가 더 짧은 방향은 식별 결과가 정확할 가능성이 더 높다. 평균 인식 거리는 서브 이미지 블록들의 개수가 방향에 따라 다를 수 있기 때문에 더 신뢰성 있다.

도 1의 예에서, (S301) 내지 (S303)을 수행한 후,

0°방향에서의 누적 신뢰도는 (0.54+0.36+0.48+0.61+0.62+0.61+0.58+0.65)/8=0.55625 이다.

180°방향에서의 누적 신뢰도는 (0.62+0.58+0.49+0.62+0.39+0.50+0.61)/7=0.5442 이다.

도 2의 예에서, (S301) 내지 (S303)을 수행한 후,

0°방향에서의 누적 인식 거리는 (928+1279+1034+774+578+779+840+695)/8=863.375 이다.

180°방향에서의 누적 인식 거리는 (759+840+920+769+1230+1005+790)/7=901.857 이다.

명백히, 전술한 바와 같이 신뢰도 또는 인식 거리를 조절한 후 0°방향에서의 누적 신뢰도는 180°방향에서 누적 신뢰도보다 크거나 0°방향에서의 누적 인식 거리는 180°방향에서의 누적 인식 거리보다 짧아서, 더 정확한 결정 결과가 제공될 수 있다.

이하, 본 발명의 실시예에 따른 이미지 블록 내 문자들의 방향을 식별하는 식별 장치의 구조에 대해 도 4를 참조하여 설명될 것이다. 도 4에 예시된 바와 같이, 본 실시예에 따른 이미지 블록 내 문자들의 방향을 식별하는 식별 장치(400)는 여러 방향을 각각 가정된 문자 방향으로 가정함으로써 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 각각의 가정된 문자 방향에서 서브 이미지 블록, 그 서브 이미지 블록에 대응하는 인식된 문자 및 그 정확도 측정치를 획득하도록 구성된 광학 문자 인식 처리 유닛(401); 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하도록 구성된 언어 그룹 결정 유닛(402); 각각의 가정된 문자 방향에서 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하도록 구성된 서브 이미지 블록 조절 유닛(403); 조절된 정확도 측정치에 근거하여 각각의 가정된 문자 방향에서 누적 정확도 측정치를 계산하도록 구성된 누적 정확도 측정치 계산 유닛(404); 및 누적 정확도 측정치에 따라 이미지 블록 내 문자들의 방향을 식별하도록 구성된 문자 방향 식별 유닛(405)을 포함한다.

본 발명에 따른 식별 장치(400)에 포함된 광학 문자 인식 처리 유닛(401), 언어 그룹 결정 유닛(402), 서브 이미지 블록 조절 유닛(403), 누적 정확도 측정치 계산 유닛(404) 및 문자 방향 식별 유닛(405)에서의 처리는 전술한 이미지 블록 내 문자들의 방향을 식별하는 방법의 (S301)-(S305)에서의 처리와 각각 유사하므로, 간결함을 위해 이들 유닛에 대한 상세한 설명은 본 명세서에서 생략될 것이다.

또한, 본 명세서에서 전술한 장치 내 각각의 구성 모듈 및 유닛들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구성될 수 있음을 알아야 할 것이다. 이용가능한 특정 구성 수단 또는 접근법은 당업자에게 잘 알려져 있으므로, 그에 대한 중복 설명은 본 명세서에서 생략될 것이다. 소프트웨어 또는 펌웨어로 구현되는 경우, 그 소프트웨어를 구성하는 프로그램은 저장 매체 또는 네트워크로부터 전용 하드웨어 구조를 갖는 컴퓨터(예컨대, 도 5에 예시된 범용 컴퓨터(500) 등)로 설치되며, 이 컴퓨터는 각종 프로그램이 설치될 때 다양한 기능을 수행할 수 있다.

도 5에서, 중앙 처리 유닛(CPU)(501)은 판독 전용 메모리(ROM)(502)에 저장되거나 저장부(508)로부터 랜덤 액세스 메모리(RAM)(503)로 로드된 프로그램에 따라 다양한 처리를 수행하며, RAM(503)에는 필요에 따라 CPU(501)가 다양한 처리를 수행할 때 필요한 데이터가 또한 저장된다. CPU(501), ROM(502) 및 RAM(503)은 입/출력 인터페이스(505)가 또한 연결된 버스(504)를 통해 서로 연결된다.

입/출력 인터페이스(505)에는 다음과 같은 컴포넌트들, 즉, (키패드, 마우스 등을 포함하는) 입력부(506); (디스플레이, 예컨대, 음극 선관(CRT), 액정 디스플레이(LCD) 등, 스피커 등을 포함하는) 출력부(507); (하드 디스크 등을 포함하는) 저장부(508); 및 (네트워크 인터페이스 카드, 예컨대, LAN 카드, 모뎀 등을 포함하는) 통신부(509)가 연결된다. 통신부(509)는 네트워크, 예컨대, 인터넷을 통해 통신 처리를 수행한다. 또한, 입/출력 인터페이스(505)에는 필요에 따라 드라이브(510)가 연결된다. 드라이브(510)에는 필요에 따라 이동식 매체(511), 예를 들어, 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 등이 설치될 수 있어서, 필요에 따라 그로부터 패치된 컴퓨터 프로그램이 저장부(508)에 설치될 수 있도록 한다.

전술한 일련의 처리들이 소프트웨어로 수행되는 경우, 그 소프트웨어를 구성하는 프로그램은 네트워크, 예컨대, 인터넷 등, 또는 저장 매체, 예컨대, 이동식 매체(511) 등으로부터 설치된다.

당업자라면 이러한 저장 매체가 프로그램을 저장하고 장치와 별도로 분산되어 사용자에게 그 프로그램을 제공하는 도 5에 예시된 이동식 매체(511)로 제한되지 않음을 인식할 것이다. 이동식 매체(511)의 예로는 (플로피 디스크(Floppy Disk)(등록 상표)를 포함하는) 자기 디스크, (콤팩트 디스크 판독 전용 메모리(CD-ROM) 및 디지털 다기능 디스크(DVD)를 포함하는) 광 디스크, (미니 디스크(MD)(등록 상표)를 포함하는) 광자기 디스크 및 반도체 메모리가 있다. 대안으로, 저장 매체는 ROM(502), 저장부(508)에 포함되어 프로그램을 저장하고 이를 포함하는 장치와 함께 사용자에게 분산된 하드 디스크 등일 수 있다.

본 발명은 기계 판독가능 명령어 코드를 저장하여 기계에 의해 판독되어 실행될 때 본 발명의 실시예에 따라서 전술한 방법을 실행할 수 있는 프로그램 제품을 추가로 제안한다.

이와 대응하여, 저장된 기계 판독가능 명령어 코드를 포함하는 프로그램 제품이 구체화된 저장 매체 또한 본 발명의 명세서 내에 포함될 것이다. 이러한 저장 매체는 플로피 디스크, 광 디스크, 광자기 디스크, 메모리 카드, 메모리 스틱 등을 포함하지만 이로 제한되지 않는다.

본 발명의 실시예에서 개시된 이미지 블록 내 문자들의 방향을 식별하는 식별 장치, 이미지 블록 내 문자들의 방향을 식별하는 식별 방법 및 이에 대응하는 프로그램 제품은 스캔된 문서 내 문자들의 방향을 식별하는 스캐너 또는 다른 이미지 스캐닝 장치에 적용할 수 있다.

전술한 본 발명의 실시예의 상세한 설명에서, 실시예와 관련하여 기술된 및/또는 예시된 특징은 하나 이상의 다른 실시예에서 다른 실시예(들)의 특징과 결합하거나 그 특징을 대신하여 동일하거나 유사하게 사용될 수 있다.

이 문맥에서 사용된 바와 같은 "구비하다/포함하다" 라는 용어 및 이들의 변형어는 하나의 특징, 구성요소, 단계 또는 컴포넌트가 존재한다는 것을 말하지만, 하나 이상의 다른 특징, 구성요소, 단계 또는 컴포넌트가 존재하거나 추가한다는 것을 배제하지 않는다는 점이 강조될 것이다.

또한, 본 발명에 따른 방법은 본 명세서에서 기술된 시간적 순서로 수행되는 것으로 제한되지 않고 대안으로 다른 시간적 순서로 수행되거나, 동시에 또는 독립적으로 수행될 수 있다. 그러므로, 본 명세서에서 기술된 바와 같은 본 방법이 수행되는 순서는 본 발명의 기술적 범주를 제한하지 않을 것이다.

앞에서 본 발명이 본 발명의 실시예의 상세한 설명에서 개시되었지만, 전술한 실시예 및 예들은 모두 예시적이지 제한하는 것이 아님을 인식할 것이다. 당업자라면 첨부의 특허청구범위의 정신 및 범주를 일탈함이 없이 본 발명의 여러 변형, 개조 또는 등가물을 만들 수 있다. 또한 이러한 변형, 개조 또는 등가물은 본 발명의 범주 내에 속하는 것으로 해석되어야 할 것이다.

부기

부기 1. 이미지 블록 내 문자들의 방향을 식별하는 방법으로서,

여러 방향을 각각 가정된 문자 방향으로 가정하여 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 각각의 상기 가정된 문자 방향에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치를 획득하는 단계;

상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계;

각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계;

상기 조절된 정확도 측정치에 근거하여 각각의 상기 가정된 문자 방향에서 누적 정확도 측정치를 계산하는 단계; 및

상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하는 단계를 포함하는 방법.

부기 2. 제1부기에 있어서,

상기 정확도 측정치는 신뢰도 및 인식 거리를 포함하며,

상기 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계는 상기 서브 이미지 블록에 대응하는 상기 신뢰도를 감소시키거나 상기 서브 이미지 블록에 대응하는 상기 인식 거리를 증가시키는 단계를 포함하는 방법.

부기 3. 제1부기에 있어서,

상기 정확도 측정치는 신뢰도 및 인식 거리를 포함하며,

상기 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계는 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리를 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최대 신뢰도, 또는 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 인식 거리들 중 최소 인식 거리로 조절하며, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 후보 문자들 중 어느 것도 상기 결정된 언어 그룹에 속하지 않는 경우, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 신뢰도들 중 최소 신뢰도, 또는 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 인식 거리들 중 최대 인식 거리를 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리로 취하는 단계를 포함하는 방법.

부기 4. 제1부기에 있어서, 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계는,

각각의 상기 가정된 문자 방향에서, 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 각각의 상기 언어 그룹들에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하는 단계; 및

상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 상기 언어 그룹으로 결정하는 단계를 포함하는 방법.

부기 5. 제1부기에 있어서, 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계는,

각각의 상기 가정된 문자 방향에서, 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 각각의 상기 언어 그룹들에 속하는 인식된 문자들에 대응하는 상기 서브 이미지 블록들의 비율을 각각 계산하는 단계; 및

상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크고 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 상기 언어 그룹의 코어 문자 세트에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제2 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 상기 언어 그룹으로 결정하는 단계를 포함하는 방법.

부기 6. 제4부기에 있어서, 상기 언어 그룹은 라틴어 그룹을 포함하고;

상기 라틴어 그룹은 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고; 및

상기 제1 임계치 값의 범위는 (0.65, 0.85)인 방법.

부기 7. 제5부기에 있어서, 상기 언어 그룹은 한국어 그룹 및 중국어/일본어 그룹을 포함하고;

상기 한국어 그룹은 한글, 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고, 상기 한국어 그룹의 코어 문자 세트는 한글을 포함하고;

상기 중국어/일본어 그룹은 간체자, 번체자, 일본 한자, 일본 히라가나, 일본 가타카나, 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고, 중국어/일본어 그룹의 코어 문자 세트는 간체자, 번체자, 일본 한자, 일본 히라가나 및 일본 가타카나를 포함하고; 및

상기 제1 임계치 값의 범위는 (0.65, 0.85)이고, 상기 제2 임계치 값의 범위는 (0.45, 0.65)인 방법.

부기 8. 제1부기 내지 제7부기 중 어느 한 부기에 있어서, 상기 여러 방향은 상기 이미지 블록의 두 횡방향과 두 종방향을 포함하는 방법.

부기 9. 이미지 블록 내 문자들의 방향을 식별하는 장치로서,

여러 방향을 각각 가정된 문자 방향으로 가정하여 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 각각의 상기 가정된 문자 방향에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치를 획득하도록 구성된 광학 문자 인식 처리 유닛;

상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하도록 구성된 언어 그룹 결정 유닛;

각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하도록 구성된 서브 이미지 블록 조절 유닛;

상기 조절된 정확도 측정치에 근거하여 각각의 상기 가정된 문자 방향에서 누적 정확도 측정치를 계산하도록 구성된 누적 정확도 측정치 계산 유닛; 및

상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하도록 구성된 문자 방향 식별 유닛을 포함하는 장치.

부기 10. 제9부기에 있어서, 상기 서브 이미지 블록 조절 유닛은 상기 각각의 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 신뢰도를 감소시키거나 상기 서브 이미지 블록에 대응하는 인식 거리를 증가시키도록 구성된 장치.

부기 11. 제9부기에 있어서, 상기 서브 이미지 블록 조절 유닛은 각각의 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 신뢰도 또는 인식 거리를 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최대 신뢰도, 또는 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 인식 거리들 중 최소 인식 거리로 조절하며, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 후보 문자들 중 어느 것도 상기 결정된 언어 그룹에 속하지 않는 경우, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 신뢰도들 중 최소 신뢰도, 또는 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 상기 모든 후보 문자들에 대응하는 인식 거리들 중 최대 인식 거리를 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리로 취하도록 구성된 장치.

부기 12. 제9부기에 있어서, 상기 언어 그룹 결정 유닛은 각각의 상기 가정된 문자 방향에서, 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 각각의 언어 그룹들에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하고; 및 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 상기 언어 그룹으로 결정하도록 구성된 장치.

부기 13. 제9부기에 있어서, 상기 언어 그룹 결정 유닛은 각각의 상기 가정된 문자 방향에서, 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 각각의 언어 그룹들에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하고; 및 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크고 상기 가정된 문자 방향의 상기 모든 서브 이미지 블록들 내에서 상기 언어 그룹의 코어 문자 세트에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제2 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 상기 언어 그룹으로 결정하도록 구성된 장치.

부기 14. 제9부기 내지 제13부기 중 어느 한 부기에 따른 이미지 블록 내 문자들의 방향을 식별하는 상기 장치를 포함하는 스캐너.

400: 식별 장치
401: 광학 문자 인식 처리 유닛
402: 언어 그룹 결정 유닛
403: 서브 이미지 블록 조절 유닛
404: 누적 정확도 측정치 계산 유닛
405: 문자 방향 식별 유닛

Claims

이미지 블록 내 문자들의 방향을 식별하는 방법으로서,
여러 방향들을 가정된 문자 방향들로 각각 가정하여 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 상기 가정된 문자 방향들 각각에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치들(correctness measures)을 획득하는 단계;
상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계;
상기 가정된 문자 방향들 각각에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계;
상기 조절된 정확도 측정치에 근거하여 상기 가정된 문자 방향들 각각에서 누적 정확도 측정치를 계산하는 단계; 및
상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 정확도 측정치는 신뢰도(confidence) 및 인식 거리(recognition distance)를 포함하며,
상기 가정된 문자 방향들 각각에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계는, 상기 서브 이미지 블록에 대응하는 상기 신뢰도를 감소시키거나 상기 서브 이미지 블록에 대응하는 상기 인식 거리를 증가시키는 단계를 포함하는 방법.
제1항에 있어서,
상기 정확도 측정치는 신뢰도 및 인식 거리를 포함하며,
상기 가정된 문자 방향들 각각에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하는 단계는, 상기 서브 이미지 블록에 대응하는 신뢰도 또는 인식 거리를 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최대 신뢰도, 또는 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 인식 거리들 중 최소 인식 거리로 조절하며, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 후보 문자들 중 어느 것도 상기 결정된 언어 그룹에 속하지 않는 경우, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최소 신뢰도, 또는 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 인식 거리들 중 최대 인식 거리를 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리로 취하는 단계를 포함하는 방법.
제1항에 있어서, 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계는,
상기 가정된 문자 방향들 각각에서, 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 언어 그룹들 각각에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하는 단계; 및
상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 언어 그룹으로 결정하는 단계를 포함하는 방법.
제1항에 있어서, 상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하는 단계는,
상기 가정된 문자 방향들 각각에서, 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 언어 그룹들 각각에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하는 단계; 및
상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크고 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 상기 언어 그룹의 코어 문자 세트에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제2 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 언어 그룹으로 결정하는 단계를 포함하는 방법.
제4항에 있어서, 상기 언어 그룹은 라틴어 그룹을 포함하고;
상기 라틴어 그룹은 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고; 및
상기 제1 임계치 값의 범위는 (0.65, 0.85)인 방법.
제5항에 있어서, 상기 언어 그룹은 한국어 그룹 및 중국어/일본어 그룹을 포함하고;
상기 한국어 그룹은 한글(Korean letters), 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고, 상기 한국어 그룹의 코어 문자 세트는 한글을 포함하고;
상기 중국어/일본어 그룹은 간체자(simplified Chinese characters), 번체자(traditional Chinese characters), 일본 한자(Chinese characters in Japanese), 일본 히라가나, 일본 가타카나, 라틴 문자, 아라비아 숫자 및 비문자 기호를 포함하고, 상기 중국어/일본어 그룹의 코어 문자 세트는 간체자, 번체자, 일본 한자, 일본 히라가나 및 일본 가타카나를 포함하고; 및
상기 제1 임계치 값의 범위는 (0.65, 0.85)이고, 상기 제2 임계치 값의 범위는 (0.45, 0.65)인 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 여러 방향들은 상기 이미지 블록의 두 횡방향과 두 종방향을 포함하는 방법.
이미지 블록 내 문자들의 방향을 식별하는 장치로서,
여러 방향들을 가정된 문자 방향들로 각각 가정함으로써 상기 이미지 블록에 대해 광학 문자 인식 처리를 수행하여, 상기 가정된 문자 방향들 각각에서 서브 이미지 블록들, 상기 서브 이미지 블록들에 대응하는 인식된 문자들 및 그 정확도 측정치들을 획득하도록 구성된 광학 문자 인식 처리 유닛;
상기 이미지 블록 내 문자들이 속하는 언어 그룹을 결정하도록 구성된 언어 그룹 결정 유닛;
상기 가정된 문자 방향들 각각에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 정확도 측정치를 조절하도록 구성된 서브 이미지 블록 조절 유닛;
상기 조절된 정확도 측정치에 근거하여 상기 가정된 문자 방향들 각각에서 누적 정확도 측정치를 계산하도록 구성된 누적 정확도 측정치 계산 유닛; 및
상기 누적 정확도 측정치에 따라 상기 이미지 블록 내 문자들의 방향을 식별하도록 구성된 문자 방향 식별 유닛
을 포함하는 장치.
제9항에 있어서, 상기 서브 이미지 블록 조절 유닛은 상기 가정된 문자 방향들 각각에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 신뢰도를 감소시키거나 상기 서브 이미지 블록에 대응하는 인식 거리를 증가시키도록 구성된 장치.
제9항에 있어서, 상기 서브 이미지 블록 조절 유닛은 상기 가정된 문자 방향들 각각에서 상기 결정된 언어 그룹에 속하지 않는 인식된 문자에 대응하는 서브 이미지 블록에 대응하는 신뢰도 또는 인식 거리를 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최대 신뢰도, 또는 상기 가정된 문자 방향에서 상기 결정된 언어 그룹에 속하고 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 인식 거리들 중 최소 인식 거리로 조절하며, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 후보 문자들 중 어느 것도 상기 결정된 언어 그룹에 속하지 않는 경우, 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 신뢰도들 중 최소 신뢰도, 또는 상기 가정된 문자 방향에서 상기 서브 이미지 블록에 대응하는 모든 후보 문자들에 대응하는 인식 거리들 중 최대 인식 거리를 상기 서브 이미지 블록에 대응하는 상기 신뢰도 또는 상기 인식 거리로 취하도록 구성된 장치.
제9항에 있어서, 상기 언어 그룹 결정 유닛은 상기 가정된 문자 방향들 각각에서, 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 언어 그룹들 각각에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하고; 및 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 언어 그룹으로 결정하도록 구성된 장치.
제9항에 있어서, 상기 언어 그룹 결정 유닛은 상기 가정된 문자 방향들 각각에서, 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 언어 그룹들 각각에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율을 각각 계산하고; 및 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 소정의 언어 그룹에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제1 임계치보다 크고 상기 가정된 문자 방향의 모든 서브 이미지 블록들 내에서 상기 언어 그룹의 코어 문자 세트에 속하는 인식된 문자들에 대응하는 서브 이미지 블록들의 비율이 제2 임계치보다 크면, 상기 언어 그룹을 상기 이미지 블록 내 문자들이 속하는 언어 그룹으로 결정하도록 구성된 장치.
제9항 내지 제13항 중 어느 한 항에 따른 이미지 블록 내 문자들의 방향을 식별하는 장치를 포함하는 스캐너.