KR20230086368A

KR20230086368A - 객체 인식 기반의 문자 탐지 방법 및 그 시스템

Info

Publication number: KR20230086368A
Application number: KR1020210174927A
Authority: KR
Inventors: 강민석; 이록규; 김연규; 김현수
Original assignee: 엔에이치엔클라우드 주식회사
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-06-15

Abstract

본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법은, 단말의 적어도 하나의 프로세서에 의하여 실행되는 문자 애플리케이션이 객체 인식 기반의 문자 탐지를 수행하는 방법으로서, 인스턴스 세그멘테이션(Instance Segmentation)에 기초하여 이미지 내 개별 객체영역을 탐지하는 단계; 상기 탐지된 개별 객체영역 중 소정의 텍스트를 포함하는 텍스트 객체영역을 추출하는 단계; 상기 추출된 텍스트 객체영역 내 객체 텍스트를 포함하는 최소한의 영역을 나타내는 메인 바운딩 박스 이미지를 생성하는 단계; 상기 생성된 메인 바운딩 박스 이미지를 정의된 정규 형태(Normalized shape)에 정합하도록 변형한 워핑 바운딩 박스 이미지를 생성하는 단계; 상기 생성된 워핑 바운딩 박스 이미지 및 상기 메인 바운딩 박스 이미지 중 적어도 하나의 이미지 내 상기 객체 텍스트를 구성하는 적어도 하나의 문자를 포함하는 서브 바운딩 박스 이미지를 생성하는 단계: 상기 생성된 서브 바운딩 박스 이미지에 기초한 텍스트 인식(Text Recognize)을 수행하는 단계; 상기 인식된 텍스트에 대한 유효성을 판단하는 단계; 및 상기 판단된 유효성에 따라서 상기 이미지에 대한 감지 텍스트를 제공하는 단계를 포함한다.

Description

객체 인식 기반의 문자 탐지 방법 및 그 시스템{METHOD AND SYSTEM FOR CHARACTER DETECTION BASED ON OBJECT RECOGNITION}

본 발명은 객체 인식 기반의 문자 탐지 방법 및 그 시스템에 관한 것이다. 보다 상세하게는, 텍스트 인식(Text Recognize)에 최적화된 방식으로 이미지 내 객체영역을 추출하여 광학 문자 인식(Optical Character Recognition)을 수행하는 객체 인식 기반의 문자 탐지 방법 및 그 시스템에 관한 것이다.

인스턴스 세그멘테이션(Instance Segmentation)이란, 이미지에 대한 오브젝트 세그멘테이션(Object Segmentation)을 수행한 결과 동일한 클래스(class)로 분류되는 객체이더라도 개별 객체별로 구분하여 서로 다른 영역 또는 색상 등으로 감지하는 이미지 세그멘테이션 알고리즘을 말한다.

이러한 인스턴스 세그멘테이션은, 오브젝트 세그멘테이션의 결과 동일한 클래스로 분류되는 객체들은 동일한 영역 또는 색상 등으로 분할하는 시멘틱 세그멘테이션(Semantic segmentation)과는 달리, 이미지로부터 검출되는 복수의 객체가 서로 중첩(overlap)될 시 해당 객체들이 동일한 클래스인 경우에도 각각의 개별 객체별로 구별하여 인식할 수 있다.

즉, 인스턴스 세그멘테이션은, 해당 이미지로부터 검출되는 적어도 하나의 개별 객체 각각을 서로 다른 영역으로 구분하여 탐지할 수 있다.

이러한 인스턴스 세그멘테이션에 기반한 개별 객체영역 탐지기(Instance Segmentator)의 경우 그 활용 가능성이 높아 상당한 연구가 이루어지고 있는 분야이며 관련 모델들의 성능 또한 매우 향상된 상태이다.

그러나 종래에는, 이러한 개별 객체영역 탐지기를 광학 문자 인식(Optical Character Recognition)을 위한 텍스트 탐지기(Text Detector)에 적용하는데 어려움을 겪고 있다.

자세히, 광학 문자 인식에 사용되는 수많은 텍스트 탐지기의 경우 정해진 형식으로 정규화된 형태의 이미지를 입력 데이터로 수용한다는 특성을 가진다.

그러나 상술된 바와 같은 개별 객체영역 탐지기를 통해 감지된 각 영역은, 위와 같이 텍스트 탐지기에서 허용되는 정규화된 형태에 항상 부합할 수는 없다는 한계점을 가지고 있다.

그러므로 상술된 개별 객체영역 탐지기의 이점을 상기 텍스트 탐지기에 효과적으로 적용함과 동시에 그 활용성을 확장하고 새로운 기대 효과를 창출할 수 있는 새로운 기술 개발 및 도입이 필요하다.

KR

10-1731804

B1

본 발명은, 텍스트 인식(Text Recognize)에 최적화된 방식으로 이미지 내 객체영역을 추출하여 광학 문자 인식(Optical Character Recognition)을 수행하는 객체 인식 기반의 문자 탐지 방법 및 그 시스템을 제공하는데 그 목적이 있다.

자세히, 본 발명은, 인스턴스 세그멘테이션(Instance Segmentation)을 이용하여 검출된 이미지 내 개별 객체영역에 기초하여 광학 문자 인식(Optical Character Recognition)을 수행하는 객체 인식 기반의 문자 탐지 방법 및 그 시스템을 제공하고자 한다.

또한, 본 발명은, 이미지 내 적어도 일부 객체가 상호 중첩(overlap)되어 해당 객체 내 적어도 일부 텍스트가 손실된 경우에도, 상기 손실된 텍스트에 대한 높은 정확도의 예측 및 광학 문자 인식을 지원하는 객체 인식 기반의 문자 탐지 방법 및 그 시스템을 제공하고자 한다.

다만, 본 발명 및 본 발명의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

이때, 상기 서브 바운딩 박스 이미지를 생성하는 단계는, 상기 객체 텍스트 내 온전한 형태의 문자 형상을 가지는 적어도 하나의 완전한 문자를 포함하는 서브 바운딩 박스에 기초한 완성형 문자 이미지와, 상기 객체 텍스트 내 불온전한 형태의 문자 형상을 가지는 적어도 하나의 불완전한 문자를 포함하는 서브 바운딩 박스에 기초한 미완성형 문자 이미지 중 적어도 하나의 이미지를 생성하는 단계를 포함한다.

또한, 상기 서브 바운딩 박스 이미지에 기초한 텍스트 인식을 수행하는 단계는, 상기 완전한 문자에 기반한 텍스트 인식을 수행하는 기본형 문자 인식 및 상기 불완전한 문자로부터 예측한 문자에 기반한 텍스트 인식을 수행하는 예측형 문자 인식 중 적어도 하나의 텍스트 인식을 수행하는 단계를 포함한다.

또한, 상기 서브 바운딩 박스 이미지에 기초한 텍스트 인식을 수행하는 단계는, 상기 완전한 문자에 기반한 제1 추출 텍스트를 획득하는 단계와, 상기 예측한 문자에 기반한 적어도 하나의 후보 추출 텍스트를 획득하는 단계를 더 포함한다.

또한, 상기 인식된 텍스트에 대한 유효성을 판단하는 단계는, 상기 제1 추출 텍스트와 기 구축된 사전 데이터베이스 내 복수의 사전 텍스트를 비교하는 단계와, 상기 제1 추출 텍스트에 대응되는 사전 텍스트가 검출되면 상기 제1 추출 텍스트를 유효 텍스트로 결정하는 단계와, 상기 제1 추출 텍스트에 대응되는 사전 텍스트가 미검출되면 상기 제1 추출 텍스트를 무효 텍스트로 결정하는 단계를 포함한다.

또한, 상기 인식된 텍스트에 대한 유효성을 판단하는 단계는, 상기 적어도 하나의 후보 추출 텍스트 각각에 대하여 정답 문자일 확률을 나타내는 예측 확률값을 획득하는 단계와, 상기 획득된 예측 확률값이 가장 높은 후보 추출 텍스트를 제2 추출 텍스트로 결정하는 단계와, 상기 결정된 제2 추출 텍스트를 기 구축된 사전 데이터베이스 내 복수의 사전 텍스트와 비교하는 단계와, 상기 제2 추출 텍스트에 대응되는 사전 텍스트의 검출 유무에 따라서 상기 제2 추출 텍스트를 유효 텍스트 또는 무효 텍스트로 결정하는 단계를 포함한다.

또한, 상기 인식된 텍스트에 대한 유효성을 판단하는 단계는, 상기 적어도 하나의 후보 추출 텍스트와 동일한 텍스트 객체영역으로부터 획득된 상기 제1 추출 텍스트를 검출하는 단계와, 상기 검출된 제1 추출 텍스트와 상기 적어도 하나의 후보 추출 텍스트 중 어느 하나의 텍스트를 결합한 결합 텍스트를 생성하는 단계와, 상기 생성된 결합 텍스트를 기 구축된 사전 데이터베이스 내 복수의 사전 텍스트와 비교하는 단계와, 상기 결합 텍스트에 대응되는 사전 텍스트의 검출 유무에 따라서 상기 결합 텍스트를 유효 텍스트 또는 무효 텍스트로 결정하는 단계를 포함한다.

또한, 상기 결합 텍스트를 생성하는 단계는, 상기 후보 추출 텍스트 각각에 대한 예측 확률값을 획득하는 단계와, 상기 획득된 예측 확률값이 높은 순으로 상기 결합 텍스트를 생성하는 단계를 포함한다.

또한, 상기 감지 텍스트를 제공하는 단계는, 상기 유효 텍스트를 상기 감지 텍스트로 제공하는 단계를 포함한다.

또한, 상기 감지 텍스트를 제공하는 단계는, 상기 무효 텍스트와 가장 높은 유사도를 가지는 사전 텍스트를 유효 추측 텍스트로 결정하는 단계와, 상기 결정된 유효 추측 텍스트를 상기 감지 텍스트로 제공하는 단계를 포함한다.

또한, 상기 감지 텍스트를 제공하는 단계는, 상기 무효 텍스트의 적어도 일부를 자신의 적어도 일부로 포함하는 자동완성 텍스트를 획득하는 단계와, 상기 획득된 자동완성 텍스트를 상기 감지 텍스트로 제공하는 단계를 포함한다.

한편, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 시스템은, 이미지의 감지 텍스트를 출력하는 적어도 하나 이상의 디스플레이; 적어도 하나 이상의 메모리; 및 적어도 하나 이상의 프로세서; 를 포함하고, 상기 메모리에 저장되고 상기 프로세서에 의해 실행되어 객체 인식 기반의 문자 탐지를 수행하는 적어도 하나의 애플리케이션으로서 상기 적어도 하나의 애플리케이션은, 인스턴스 세그멘테이션(Instance Segmentation)에 기초하여 상기 이미지 내 개별 객체영역을 탐지하고, 상기 탐지된 개별 객체영역 중 소정의 텍스트를 포함하는 텍스트 객체영역을 추출하고, 상기 추출된 텍스트 객체영역 내 객체 텍스트를 포함하는 최소한의 영역을 나타내는 메인 바운딩 박스 이미지를 생성하고, 상기 생성된 메인 바운딩 박스 이미지를 정의된 정규 형태(Normalized shape)에 정합하도록 변형한 워핑 바운딩 박스 이미지를 생성하고, 상기 생성된 워핑 바운딩 박스 이미지 및 상기 메인 바운딩 박스 이미지 중 적어도 하나의 이미지 내 상기 객체 텍스트를 구성하는 적어도 하나의 문자를 포함하는 서브 바운딩 박스 이미지를 생성하고, 상기 생성된 서브 바운딩 박스 이미지에 기초한 텍스트 인식(Text Recognize)을 수행하고, 상기 인식된 텍스트에 대한 유효성을 판단하고, 상기 판단된 유효성에 따라서 상기 이미지의 감지 텍스트를 제공한다.

본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법 및 그 시스템은, 텍스트 인식(Text Recognize)에 최적화된 방식으로 이미지 내 객체영역을 추출하여 광학 문자 인식(Optical Character Recognition)을 수행함으로써, 상기 광학 문자 인식의 성능을 향상시켜 이에 기초한 다양한 서비스의 품질을 제고할 수 있는 효과가 있다.

또한, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법 및 그 시스템은, 인스턴스 세그멘테이션(Instance Segmentation)을 이용하여 검출된 이미지 내 개별 객체영역에 기초하여 광학 문자 인식(Optical Character Recognition)을 수행함으로써, 동일한 클래스(class)로 분류되는 객체이더라도 개별 객체별로 구분하여 감지하는 이미지 세그멘테이션의 이점을 효과적으로 적용한 광학 문자 인식기(Text Detector)를 구현할 수 있는 효과가 있다.

또한, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법 및 그 시스템은, 이미지 내 적어도 일부 객체가 상호 중첩(overlap)되어 해당 객체 내 적어도 일부 텍스트가 손실된 경우에도 상기 손실된 텍스트에 대한 높은 정확도의 예측 및 광학 문자 인식을 지원함으로써, 불온전한 형태로 인식된 텍스트에 대한 광학 문자 인식의 결과를 높은 신뢰성을 보장하는 합리적인 데이터에 근거하여 획득해 제공할 수 있는 효과가 있다.

다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 명확하게 이해될 수 있다.

도 1은 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 시스템에 대한 개념도이다.
도 2는 본 발명의 실시예에 따른 단말의 내부 블록도이다.
도 3은 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법을 설명하기 위한 블록도이다.
도 5는 본 발명의 실시예에 따른 인스턴스 세그멘테이션(Instance Segmentation)을 설명하기 위한 도면의 일례이다.
도 6은 본 발명의 실시예에 따른 이미지 내 텍스트 객체영역을 설명하기 위한 도면의 일례이다.
도 7 및 도 8은 본 발명의 실시예에 따른 메인 바운딩 박스 이미지를 설명하기 위한 도면의 일례이다.
도 9는 본 발명의 실시예에 따른 워핑 바운딩 박스 이미지를 설명하기 위한 도면의 일례이다.
도 10은 본 발명의 실시예에 따른 서브 바운딩 박스 이미지를 설명하기 위한 도면의 일례이다.
도 11은 본 발명의 실시예에 따른 광학 문자 인식(Optical Character Recognition)을 설명하기 위한 도면의 일례이다.
도 12는 본 발명의 실시예에 따른 결합 텍스트를 설명하기 위한 도면의 일례이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 시스템에 대한 개념도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 시스템(1000)은, 텍스트 인식(Text Recognize)에 최적화된 방식으로 이미지 내 객체영역을 추출하여 광학 문자 인식(Optical Character Recognition)을 수행하는 객체 인식 기반의 문자 탐지 서비스를 제공할 수 있다.

실시예에서, 위와 같은 객체 인식 기반의 문자 탐지 서비스를 제공하는 객체 인식 기반의 문자 탐지 시스템(1000)은, 단말(100), 문자 탐지서버(200) 및 네트워크(300: Network)를 포함할 수 있다.

이때, 상기 단말(100) 및 문자 탐지서버(200)는, 상기 네트워크(300)를 통하여 연결될 수 있다.

여기서, 실시예에 따른 상기 네트워크(300)는, 단말(100) 및/또는 문자 탐지서버(200) 등과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(300)의 일례에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

이하, 첨부된 도면을 참조하여 객체 인식 기반의 문자 탐지 시스템(1000)을 구현하는 단말(100) 및 문자 탐지서버(200)에 대해 상세히 설명한다.

- 단말(100: Terminal)

본 발명의 실시예에 따른 단말(100)은, 객체 인식 기반의 문자 탐지 서비스를 제공하는 문자 탐지 애플리케이션(이하, 애플리케이션)이 설치된 소정의 컴퓨팅 디바이스일 수 있다.

자세히, 하드웨어적 관점에서 단말(100)은, 애플리케이션이 설치된 모바일 타입 컴퓨팅 장치(100-1) 및/또는 데스크탑 타입 컴퓨팅 장치(100-2) 등을 포함할 수 있다.

여기서, 모바일 타입 컴퓨팅 장치(100-1)는, 애플리케이션이 설치된 스마트 폰이나 테블릿 PC와 같은 모바일 장치일 수 있다.

예를 들어, 모바일 타입 컴퓨팅 장치(100-1)는, 스마트 폰(smart phone), 휴대폰, 디지털방송용 디바이스, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC(tablet PC) 등이 포함될 수 있다.

또한, 데스크탑 타입 컴퓨팅 장치(100-2)는, 애플리케이션이 설치된 고정형 데스크탑 PC, 노트북 컴퓨터(laptop computer), 울트라북(ultrabook)과 같은 퍼스널 컴퓨터 등과 같이 유/무선 통신을 기반으로 객체 인식 기반의 문자 탐지 서비스를 실행하기 위한 프로그램이 설치된 장치 등을 포함할 수 있다.

또한, 실시예에 따라서 단말(100)은, 객체 인식 기반의 문자 탐지 서비스 환경을 제공하는 소정의 서버(Server) 컴퓨팅 디바이스를 더 포함할 수도 있다.

도 2는 본 발명의 실시예에 따른 단말(100)의 내부 블록도이다.

한편, 도 2를 참조하면, 기능적 관점에서 단말(100)은, 메모리(110), 프로세서 어셈블리(120), 통신 모듈(130), 인터페이스 모듈(140), 입력 시스템(150), 센서 시스템(160) 및 디스플레이 시스템(170)을 포함할 수 있다. 이러한 구성요소들은 단말(100)의 하우징 내에 포함되도록 구성될 수 있다.

자세히, 메모리(110)에는, 애플리케이션(111)이 저장되며, 애플리케이션(111)은 객체 인식 기반의 문자 탐지 서비스 환경을 제공하기 위한 각종 응용 프로그램, 데이터 및 명령어 중 어느 하나 이상을 저장할 수 있다.

즉, 메모리(110)는, 객체 인식 기반의 문자 탐지 서비스 환경을 생성하기 위하여 사용될 수 있는 명령 및 데이터 등을 저장할 수 있다.

또한, 상기 메모리(110)는, 프로그램 영역과 데이터 영역을 포함할 수 있다.

여기서, 실시예에 따른 프로그램 영역은, 단말(100)을 부팅하는 운영체제(OS: Operating System) 및 기능요소들 사이에 연계될 수 있으며, 데이터 영역은, 단말(100)의 사용에 따라 발생하는 데이터가 저장될 수 있다.

또한, 메모리(110)는, 적어도 하나 이상의 비일시적 컴퓨터 판독 가능 저장매체와, 일시적 컴퓨터 판독 가능 저장매체를 포함할 수 있다.

예를 들어, 메모리(110)는, ROM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기일 수 있고, 인터넷(internet) 상에서 상기 메모리(110)의 저장 기능을 수행하는 웹 스토리지(web storage)를 포함할 수 있다.

프로세서 어셈블리(120)는, 객체 인식 기반의 문자 탐지 서비스 환경을 생성하기 위한 다양한 작업을 수행하기 위해, 메모리(110)에 저장된 애플리케이션(111)의 명령들을 실행할 수 있는 적어도 하나 이상의 프로세서를 포함할 수 있다.

실시예에서 프로세서 어셈블리(120)는, 객체 인식 기반의 문자 탐지 서비스를 제공하기 위하여 메모리(110)의 애플리케이션(111)을 통해 구성요소의 전반적인 동작을 컨트롤할 수 있다.

이러한 프로세서 어셈블리(120)는, 중앙처리장치(CPU) 및/또는 그래픽처리장치(GPU) 등이 포함된 단말(100)에 적합한 시스템 온 칩(SOC)일 수 있으며, 메모리(110)에 저장된 운영체제(OS) 및/또는 애플리케이션(111) 프로그램 등을 실행할 수 있고, 단말(100)에 탑재된 각 구성요소들을 제어할 수 있다.

또한, 프로세서 어셈블리(120)는, 각 구성요소와 내부적으로 시스템 버스(System Bus)에 의해 통신을 수행할 수 있고, 로컬 버스(Local Bus)를 비롯한 소정의 버스 구조들을 하나 이상 포함할 수 있다.

또한, 프로세서 어셈블리(120)는, ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세스(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 포함하여 구현될 수 있다.

통신 모듈(130)은, 외부의 장치와 통신하기 위한 하나 이상의 장치를 포함할 수 있다. 이러한 통신 모듈(130)은, 무선 네트워크를 통해 통신할 수 있다.

자세히, 통신 모듈(130)은, 객체 인식 기반의 문자 탐지 서비스 환경을 구현하기 위한 콘텐츠 소스를 저장한 단말(100)과 통신할 수 있으며, 사용자 입력을 받은 컨트롤러와 같은 다양한 사용자 입력 컴포넌트와 통신할 수 있다.

실시예에서, 통신 모듈(130)은, 객체 인식 기반의 문자 탐지 서비스와 관련된 각종 데이터를 타 단말(100) 및/또는 외부의 서버 등과 송수신할 수 있다.

이러한 통신 모듈(130)은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced),5G NR(New Radio), WIFI) 또는 근거리 통신방식 등을 수행할 수 있는 통신장치를 통해 구축된 이동 통신망 상에서 기지국, 외부의 단말(100), 임의의 서버 중 적어도 하나와 무선으로 데이터를 송수신할 수 있다.

센서 시스템(160)은, 이미지 센서(161), 위치 센서(IMU, 163), 오디오 센서(165), 거리 센서, 근접 센서, 접촉 센서 등 다양한 센서를 포함할 수 있다.

여기서, 이미지 센서(161)는, 단말(100) 주위의 물리적 공간에 대한 이미지 및/또는 영상을 캡처할 수 있다.

실시예에서, 이미지 센서(161)는, 객체 인식 기반의 문자 탐지 서비스와 관련된 영상(예컨대, 소정의 이미지 등)을 촬영하여 획득할 수 있다.

또한, 이미지 센서(161)는, 단말(100)의 전면 또는/및 후면에 배치되어 배치된 방향측을 촬영하여 영상을 획득할 수 있으며, 단말(100)의 외부를 향해 배치된 카메라를 통해 물리적 공간을 촬영할 수 있다.

이러한 이미지 센서(161)는, 이미지 센서장치와 영상 처리 모듈을 포함할 수 있다. 자세히, 이미지 센서(161)는, 이미지 센서장치(예를 들면, CMOS 또는 CCD)에 의해 얻어지는 정지영상 또는 동영상을 처리할 수 있다.

또한, 이미지 센서(161)는, 영상 처리 모듈을 이용하여 이미지 센서장치를 통해 획득된 정지영상 또는 동영상을 가공해 필요한 정보를 추출하고, 추출된 정보를 프로세서에 전달할 수 있다.

이러한 이미지 센서(161)는, 적어도 하나 이상의 카메라를 포함하는 카메라 어셈블리일 수 있다. 카메라 어셈블리는, 가시광선 대역을 촬영하는 일반 카메라를 포함할 수 있으며, 적외선 카메라, 스테레오 카메라 등의 특수 카메라를 더 포함할 수 있다.

또한, 위와 같은 이미지 센서(161)는, 실시예에 따라서 단말(100)에 포함되어 동작할 수도 있고, 외부의 장치(예컨대, 외부의 서버 등)에 포함되어 상술된 통신 모듈(130) 및/또는 인터페이스 모듈(140)에 기초한 연동을 통하여 동작할 수도 있다.

위치 센서(IMU, 163)는, 단말(100)의 움직임 및 가속도 중 적어도 하나 이상을 감지할 수 있다. 예를 들어, 가속도계, 자이로스코프, 자력계와 같은 다양한 위치 센서의 조합으로 이루어질 수 있다.

또한, 위치 센서(IMU, 163)는, 통신 모듈(130)의 GPS와 같은 위치 통신 모듈(130)과 연동하여, 단말(100) 주변의 물리적 공간에 대한 공간 정보를 인식할 수 있다.

오디오 센서(165)는, 단말(100) 주변의 소리를 인식할 수 있다.

자세히, 오디오 센서(165)는, 단말(100)을 사용하는 사용자의 음성 입력을 감지할 수 있는 마이크로폰을 포함할 수 있다.

실시예에서 오디오 센서(165)는 객체 인식 기반의 문자 탐지 서비스를 위해 필요한 음성 데이터를 사용자로부터 입력 받을 수 있다.

인터페이스 모듈(140)은, 단말(100)을 하나 이상의 다른 장치와 통신 가능하게 연결할 수 있다. 자세히, 인터페이스 모듈(140)은, 하나 이상의 상이한 통신 프로토콜과 호환되는 유선 및/또는 무선 통신 장치를 포함할 수 있다.

이러한 인터페이스 모듈(140)을 통해 단말(100)은, 여러 입출력 장치들과 연결될 수 있다.

예를 들어, 인터페이스 모듈(140)은, 헤드셋 포트나 스피커와 같은 오디오 출력장치와 연결되어, 오디오를 출력할 수 있다.

예시적으로 오디오 출력장치가 인터페이스 모듈(140)을 통해 연결되는 것으로 설명하였으나, 단말(100) 내부에 설치되는 실시예도 포함될 수 있다.

또한, 예를 들면 인터페이스 모듈(140)은, 키보드 및/또는 마우스와 같은 입력장치와 연결되어, 사용자 입력을 획득할 수 있다.

예시적으로 키보드 및/또는 마우스가 인터페이스 모듈(140)을 통해 연결되는 것으로 설명하였으나, 단말(100) 내부에 설치되는 실시예도 포함될 수 있다.

이러한 인터페이스 모듈(140)은, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port), 전력 증폭기, RF 회로, 송수신기 및 기타 통신 회로 중 적어도 하나를 포함하여 구성될 수 있다.

입력 시스템(150)은 객체 인식 기반의 문자 탐지 서비스와 관련된 사용자의 입력(예를 들어, 제스처, 음성 명령, 버튼의 작동 또는 다른 유형의 입력)을 감지할 수 있다.

자세히, 입력 시스템(150)은 소정의 버튼, 터치 센서 및/또는 사용자 모션 입력을 수신하는 이미지 센서(161) 등을 포함할 수 있다.

또한, 입력 시스템(150)은, 인터페이스 모듈(140)을 통해 외부 컨트롤러와 연결되어, 사용자의 입력을 수신할 수 있다.

디스플레이 시스템(170)은, 객체 인식 기반의 문자 탐지 서비스와 관련된 다양한 정보를 그래픽 이미지로 출력할 수 있다.

실시예로, 디스플레이 시스템(170)은, 소정의 이미지 및/또는 감지 텍스트 등을 표시할 수 있다.

이러한 디스플레이는, 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다.

이러한 단말(100)의 하우징 내에는 상기 구성요소들이 배치될 수 있으며, 사용자 인터페이스는 사용자 터치 입력을 수신하도록 구성된 디스플레이(171) 상에 터치 센서(173)를 포함할 수 있다.

자세히, 디스플레이 시스템(170)은, 이미지를 출력하는 디스플레이(171)와, 사용자의 터치 입력을 감지하는 터치 센서(173)를 포함할 수 있다.

예시적으로 디스플레이(171)는 터치 센서(173)와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린으로 구현될 수 있다. 이러한 터치 스크린은, 단말(100)과 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 단말(100)과 사용자 사이의 출력 인터페이스를 제공할 수 있다.

한편, 본 발명의 실시예에 따른 단말(100)은, 소정의 딥러닝 뉴럴 네트워크(Deep-learning Neural Network)와 연동하여 객체 인식 기반의 문자 탐지 서비스에 필요한 딥러닝을 수행할 수 있다.

실시예로, 단말(100)은, 상기 딥러닝 뉴럴 네트워크를 이용하여 소정의 이미지에 기초한 인스턴스 세그멘테이션(Instance Segmentation) 및/또는 광학 문자 인식(Optical Character Recognition) 등을 수행할 수 있다.

여기서, 실시예에 따른 상기 딥러닝 뉴럴 네트워크는, R-CNN(Regions with CNN features), Fast R-CNN, Faster R-CNN, Mask R-CNN 및/또는 컨볼루션 뉴럴 네트워크(CNN, Convolution Neural Network) 등을 포함할 수 있으며, 이에 한정되지 않는다.

또한, 실시예에 따라서 단말(100)은, 후술되는 문자 탐지서버(200)에서 수행하는 기능 동작의 적어도 일부를 더 수행할 수도 있다.

- 문자 탐지서버(200: Text detection server)

한편, 본 발명의 실시예에 따른 문자 탐지서버(200)는, 객체 인식 기반의 문자 탐지 서비스를 제공하기 위한 일련의 프로세스를 수행할 수 있다.

자세히, 실시예에서 문자 탐지서버(200)는, 단말(100)과 같은 외부의 장치에서 객체 인식 기반의 문자 탐지 프로세스가 구동되게 하기 위해 필요한 데이터를, 상기 외부의 장치와 교환함으로써 상기 객체 인식 기반의 문자 탐지 서비스를 제공할 수 있다.

보다 상세히, 실시예에서 문자 탐지서버(200)는, 외부의 장치(실시예에서, 모바일 타입 컴퓨팅 장치(100-1) 및/또는 데스크탑 타입 컴퓨팅 장치(100-2) 등)에서 애플리케이션(111)이 동작할 수 있는 환경을 제공할 수 있다.

이를 위해, 문자 탐지서버(200)는, 애플리케이션(111)이 동작하기 위한 응용 프로그램, 데이터 및/또는 명령어 등을 포함할 수 있고, 이에 기초한 데이터를 상기 외부의 장치와 송수신할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 소정의 이미지 내 개별 객체영역을 탐지할 수 있다.

자세히, 문자 탐지서버(200)는, 소정의 딥러닝 뉴럴 네트워크를 기반으로 상기 이미지에 대한 인스턴스 세그멘테이션(Instance Segmentation)을 수행하여 적어도 하나의 개별 객체영역을 탐지할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 상기 탐지된 개별 객체영역에 기초한 텍스트 객체영역을 추출할 수 있다.

여기서, 실시예에 따른 상기 텍스트 객체영역은, 소정의 텍스트(text)를 포함하는 개별 객체영역을 의미할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 상기 검출된 텍스트 객체영역을 기초로 타겟 문자 이미지(Target text Image)를 생성할 수 있다.

여기서, 실시예에 따른 상기 타겟 문자 이미지는, 광학 문자 인식(Optical Character Recognition)의 대상이 되는 이미지를 의미할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 상기 생성된 타겟 문자 이미지를 기초로 서브 바운딩 박스 이미지(Sub Bounding box Image)를 생성할 수 있다.

여기서, 실시예에 따른 상기 서브 바운딩 박스 이미지는, 상기 타겟 문자 이미지 내 소정의 텍스트를 구성하는 문자별 완전성에 따라서 구분되어 생성되는 서브 바운딩 박스에 기초한 적어도 하나 이상의 이미지를 의미할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 상기 생성된 서브 바운딩 박스 이미지에 기초한 텍스트 인식(Text Recognize)을 수행할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 상기 인식된 텍스트에 대한 유효성 판단을 수행할 수 있다.

여기서, 실시예에 따른 상기 유효성 판단이란, 소정의 텍스트에 기초한 잠재 의미 분석(Latent Semantic Analysis, LSA) 및/또는 명시 의미 분석　(Explicit Semantic Analysis, ESA) 등을 수행하여 해당 텍스트가 소정의 대응되는 의미가 존재하는 유효 텍스트인지 또는 해당 텍스트가 소정의 대응되는 의미가 미존재하는 무효 텍스트인지 결정하는 것을 의미할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 상기 유효성 판단에 따른 감지 텍스트를 제공할 수 있다.

여기서, 실시예에 따른 상기 감지 텍스트는, 소정의 이미지 내 텍스트에 대한 광학 문자 인식의 결과 데이터를 의미할 수 있다.

또한, 실시예에서 문자 탐지서버(200)는, 소정의 딥러닝 뉴럴 네트워크(Deep-learning Neural Network)와 연동하여 객체 인식 기반의 문자 탐지 서비스에 필요한 딥러닝을 수행할 수 있다.

실시예로, 문자 탐지서버(200)는, 상기 딥러닝 뉴럴 네트워크를 이용하여 소정의 이미지에 기초한 인스턴스 세그멘테이션(Instance Segmentation) 및/또는 광학 문자 인식(Optical Character Recognition) 등을 수행할 수 있다.

보다 상세히, 실시예에서 문자 탐지서버(200)는, 상기 딥러닝을 수행하기 위해 구축되어 있는 소정의 딥 뉴럴 네트워크 구동 프로그램을 메모리 모듈(230)로부터 독출하여, 상기 독출된 소정의 딥 뉴럴 네트워크 시스템에 따라 하기 기술하는 딥러닝을 수행할 수 있다.

이때, 실시예에 따라서 위와 같은 딥러닝 뉴럴 네트워크는, 문자 탐지서버(200)에 직접 포함되거나, 또는 문자 탐지서버(200)와는 별도의 장치 및/또는 서버로서 구현되어 상기 객체 인식 기반의 문자 탐지 서비스를 위한 딥러닝을 수행할 수 있다.

이하의 설명에서는, 상기 딥러닝 뉴럴 네트워크가 문자 탐지서버(200)에 포함되어 구현되는 것으로 설명하나 이에 한정되는 것은 아니다.

또한, 실시예에서 문자 탐지서버(200)는, 객체 인식 기반의 문자 탐지 서비스를 구현하기 위한 각종 응용 프로그램, 명령어 및/또는 데이터 등을 저장하고 관리할 수 있다.

실시예로, 문자 탐지서버(200)는, 적어도 하나 이상의 이미지, 개별 객체영역, 텍스트 객체영역, 타겟 문자 이미지, 서브 바운딩 박스 이미지, 사전 텍스트, 제1 추출 텍스트, 후보 추출 텍스트, 제2 추출 텍스트, 결합 텍스트, 유효 텍스트, 무효 텍스트, 감지 텍스트 및/또는 소정의 딥러닝 모델 등을 저장 및 관리할 수 있다.

한편, 도 1을 더 참조하면, 실시예에서 위와 같은 문자 탐지서버(200)는, 데이터 처리를 위한 적어도 하나 이상의 프로세서 모듈(210: Processor Module)과, 외부의 장치와의 데이터 교환을 위한 적어도 하나 이상의 커뮤니케이션 모듈(220: Communication Module)과, 객체 인식 기반의 문자 탐지 서비스의 제공을 위한 각종 응용 프로그램, 데이터 및/또는 명령어들을 저장하는 적어도 하나 이상의 메모리 모듈(230: Memory Module)을 포함하는 소정의 컴퓨팅 장치로 구현될 수 있다.

여기서, 상기 메모리 모듈(230)은, 객체 인식 기반의 문자 탐지 서비스를 제공하기 위한 운영체제(OS), 각종 응용 프로그램, 데이터 및 명령어 중 어느 하나 이상을 저장할 수 있다.

또한, 상기 메모리 모듈(230)은, 프로그램 영역과 데이터 영역을 포함할 수 있다.

여기서, 실시예에 따른 프로그램 영역은, 서버를 부팅하는 운영체제(OS: Operating System) 및 기능요소들 사이에 연계될 수 있으며, 데이터 영역은, 서버의 사용에 따라 발생하는 데이터가 저장될 수 있다.

실시예에서, 이러한 메모리 모듈(230)은, ROM, RAM, EPROM, 플래시 드라이브, 하드 드라이브 등과 같은 다양한 저장기기일 수 있고, 인터넷(internet)상에서 상기 메모리 모듈(230)의 저장 기능을 수행하는 웹 스토리지(web storage)일 수도 있다.

또한, 메모리 모듈(230)은, 서버 상에 탈착 가능한 형태의 기록매체일 수 있다.

한편, 상기 프로세서 모듈(210)은, 객체 인식 기반의 문자 탐지 서비스를 구현하기 위하여 전술한 각 유닛(unit)의 전반적인 동작을 컨트롤할 수 있다.

이러한 프로세서 모듈(210)은, 중앙처리장치(CPU) 및/또는 그래픽처리장치(GPU) 등이 포함된 서버에 적합한 시스템 온 칩(SOC)일 수 있으며, 메모리 모듈(230)에 저장된 운영체제(OS) 및/또는 애플리케이션(111) 프로그램 등을 실행할 수 있고, 서버에 탑재된 각 구성요소들을 제어할 수 있다.

또한, 프로세서 모듈(210)은, 각 구성요소와 내부적으로 시스템 버스(System Bus)에 의해 통신을 수행할 수 있고, 로컬 버스(Local Bus)를 비롯한 소정의 버스 구조들을 하나 이상 포함할 수 있다.

또한, 프로세서 모듈(210)은, ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세스(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 이용하여 구현될 수 있다.

이상의 설명에서는, 본 발명의 실시예에 따른 문자 탐지서버(200)가 상술된 바와 같은 기능 동작을 수행한다고 설명하였으나, 실시예에 따라서 문자 탐지서버(200)에서 수행하는 기능 동작의 적어도 일부를 외부의 장치(예컨대, 단말(100) 등)에서 수행할 수도 있고, 상기 외부의 장치에서 수행하는 기능 동작의 적어도 일부를 상기 문자 탐지서버(200)에서 더 수행할 수도 있는 등 다양한 실시예가 가능할 수 있다.

- 객체 인식 기반의 문자 탐지 방법

이하, 본 발명의 실시예에 따른 단말(100)의 적어도 하나 이상의 프로세서에 의하여 실행되는 애플리케이션(111)이 텍스트 인식(Text Recognize)에 최적화된 방식으로 이미지 내 객체영역을 추출하여 광학 문자 인식(Optical Character Recognition)을 수행하는 방법을 첨부된 도 3 내지 도 12를 참조하여 상세히 설명한다.

본 발명의 실시예에서 상기 단말(100)의 적어도 하나 이상의 프로세서는, 적어도 하나 이상의 메모리(110)에 저장된 적어도 하나 이상의 애플리케이션(111)을 실행하거나 백그라운드 상태로 동작하게 할 수 있다.

이하, 상기 적어도 하나 이상의 프로세서가 상기 애플리케이션(111)의 명령어를 실행하기 위해 동작하여 상술된 객체 인식 기반의 문자 탐지 서비스를 제공하는 방법을 수행하는 것을 상기 애플리케이션(111)이 수행하는 것으로 단축하여 설명한다.

도 3은 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법을 설명하기 위한 흐름도이고, 도 4는 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법을 설명하기 위한 블록도이다.

도 3 및 도 4를 참조하면, 실시예에서 상기 단말(100)의 적어도 하나 이상의 프로세서에 의하여 실행되거나 백그라운드 상태로 동작하는 애플리케이션(111)은, 이미지 내 개별 객체영역을 탐지할 수 있다. (S101)

자세히, 실시예에서 애플리케이션(111)은, 소정의 딥러닝 뉴럴 네트워크와 연동하여 상기 이미지 내 적어도 하나의 개별 객체영역을 탐지할 수 있다.

이때, 실시예에서 애플리케이션(111)은, 상기 딥러닝 뉴럴 네트워크를 기반으로 상기 이미지에 대한 인스턴스 세그멘테이션(Instance Segmentation)을 수행하여 상기 적어도 하나의 개별 객체영역을 탐지할 수 있다.

도 5는 본 발명의 실시예에 따른 인스턴스 세그멘테이션(Instance Segmentation)을 설명하기 위한 도면의 일례이다.

참고적으로, 도 5를 참조하면, 상기 인스턴스 세그멘테이션이란, 이미지에 대한 오브젝트 세그멘테이션(Object Segmentation)을 수행한 결과 동일한 클래스(class)로 분류되는 객체이더라도 개별 객체별로 구분하여 서로 다른 영역 또는 색상 등으로 감지하는 이미지 세그멘테이션 알고리즘일 수 있다.

즉, 애플리케이션(111)은, 상기 이미지로부터 검출되는 적어도 하나의 개별 객체 각각을 서로 다른 영역으로 구분하여 탐지할 수 있다.

따라서, 애플리케이션(111)은, 해당 이미지 내 일부 객체가 타 객체 상에 오버랩된 상태를 효과적으로 감지할 수 있고, 이를 통해 추후 상기 이미지 내 일부 객체들이 상호 중첩(overlap)되어 해당 객체들 내 적어도 일부 텍스트가 손실된 상태임을 명확하게 판단할 수 있다.

또한, 실시예에서 애플리케이션(111)은, 상기 탐지된 개별 객체영역에 기초한 텍스트 객체영역을 추출할 수 있다. (S103)

도 6은 본 발명의 실시예에 따른 이미지 내 텍스트 객체영역을 설명하기 위한 도면의 일례이다.

여기서, 도 6을 참조하면, 실시예에 따른 상기 텍스트 객체영역(10)이란, 소정의 텍스트(text)를 포함하는 개별 객체영역을 의미할 수 있다.

자세히, 실시예에서 애플리케이션(111)은, 상기 탐지된 적어도 하나의 개별 객체영역 각각에 대한 텍스트 디텍션(Text Detection)을 수행할 수 있다.

또한, 애플리케이션(111)은, 상기 수행된 텍스트 디텍션을 기초로 상기 적어도 하나의 개별 객체영역 중에서 소정의 텍스트를 포함하는 적어도 하나 이상의 상기 텍스트 객체영역(10)을 검출할 수 있다.

이때, 실시예에 따른 상기 텍스트 객체영역(10)은, 해당 영역의 경계선(edge)을 따라서 형성되는 소정의 곡선형 다각형 형태일 수 있다. 다만, 이에 한정되는 것은 아니다.

또한, 실시예에서 애플리케이션(111)은, 상기 추출된 텍스트 객체영역(10)을 기초로 타겟 문자 이미지(Target text Image, TI)를 생성할 수 있다. (S105)

여기서, 실시예에 따른 상기 타겟 문자 이미지(TI)란, 광학 문자 인식(Optical Character Recognition, OCR)의 대상이 되는 이미지를 의미할 수 있다.

참고적으로, 상기 광학 문자 인식(OCR)이란, 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것을 의미할 수 있다.

실시예에서, 이러한 타겟 문자 이미지(TI)는, 메인 바운딩 박스 이미지 및/또는 워핑 바운딩 박스 이미지 중 적어도 하나 이상을 포함할 수 있다.

자세히, 실시예에서 애플리케이션(111)은, 1) 메인 바운딩 박스 이미지(Main Bounding box Image, MBI)를 생성할 수 있다.

도 7 및 도 8은 본 발명의 실시예에 따른 메인 바운딩 박스 이미지를 설명하기 위한 도면의 일례이다.

여기서, 도 7을 참조하면, 실시예에 따른 상기 메인 바운딩 박스란, 상기 텍스트 객체영역(10) 내 소정의 텍스트(이하, 객체 텍스트)를 모두 포함하면서 동시에 최소영역을 가지는 다각형(polygon for the smallest-area of enclosing a text)의 경계선(edge)을 의미할 수 있다.

즉, 실시예에 따른 상기 메인 바운딩 박스 이미지(MBI)란, 상기 메인 바운딩 박스가 포함하는 영역을 나타내는 이미지일 수 있다.

자세히, 도 8을 참조하면, 종래에 일반적인 방식으로 형성되는 바운딩 박스는, 해당하는 텍스트 객체영역(10) 내 객체 텍스트가 배열된 기울기나 방향과는 무관하게 상기 객체 텍스트를 에워싸는 직사각형 형태로 구현되고 있다.

이러한 바운딩 박스의 경우, 해당 바운딩 박스 내에 객체 텍스트 이외의 배경 영역을 상당 부분 더 포함한다.

이로 인하여, 상기 일반적인 바운딩 박스의 경계선 내 이미지(즉, 일반 바운딩 박스 이미지(5))를 기초로 광학 문자 인식(OCR)을 수행하면, 해당 이미지 내 잡음(예컨대, 배경 영역 등)의 간섭으로 인하여 그 정확도나 신뢰도가 저하될 수 있다.

그리하여 본 발명의 실시예에서 애플리케이션(111)은, 상기 텍스트 객체영역(10) 내 객체 텍스트가 소정의 기울기(회전각)나 방향을 가지고 배열되는 경우에도 상기 기울기나 방향에 대응되는 형상으로 바운딩 박스를 생성하여, 상기 객체 텍스트를 모두 포함하면서도 최소한의 영역을 가지는 다각형(예컨대, 직사각형, 마름모형 또는 사다리꼴형 등) 형태의 상기 메인 바운딩 박스를 제공하고자 한다.

보다 상세히, 실시예로 애플리케이션(111)은, 개시된 Rotating Calipers 알고리즘 등에 기초하여 상기 검출된 각 텍스트 객체영역(10)에 대해 위와 같은 메인 바운딩 박스를 각기 생성할 수 있다. 다만, 이에 한정되는 것은 아니고 소정의 텍스트 객체영역(10)에 기반하여 상술된 바와 같은 메인 바운딩 박스를 생성할 수 있는 알고리즘이라면 어떠한 것이든 본 발명의 실시예에 적용될 수 있다.

또한, 실시예에서 애플리케이션(111)은, 위와 같이 생성된 메인 바운딩 박스 내 영역을 기초로 상기 메인 바운딩 박스 내 영역을 이미지로 나타내는 메인 바운딩 박스 이미지(MBI)를 생성할 수 있다.

이와 같이, 애플리케이션(111)은, 일반 바운딩 박스 이미지(5)와는 달리 객체 텍스트 이외의 영역(예컨대, 배경 영역 등)을 최소화한 상태의 메인 바운딩 박스 이미지(MBI)를 생성함으로써, 추후 해당하는 메인 바운딩 박스 이미지(MBI)를 기초로 수행되는 각종 이미지 처리 프로세스(실시예에서, 원근 변환 및/또는 광학 문자 인식(OCR) 등)의 정확도와 품질을 현저히 향상시킬 수 있다.

한편, 실시예에서 애플리케이션(111)은, 상기 생성된 메인 바운딩 박스 이미지(MBI)에 기초하여 2) 워핑 바운딩 박스 이미지(Warping Bounding box Image, WBI)를 생성할 수 있다.

도 9는 본 발명의 실시예에 따른 워핑 바운딩 박스 이미지를 설명하기 위한 도면의 일례이다.

여기서, 도 9를 참조하면, 실시예에 따른 상기 워핑 바운딩 박스 이미지(WBI)란, 소정의 이미지를 정의된 형태(Normalized shape)에 매칭되도록 변형한 이미지를 의미할 수 있다.

실시예에서 이러한 워핑 바운딩 박스 이미지(WBI)는, 소정의 이미지 내 픽셀의 위치 이동 등에 기초한 기하학적 이미지 처리(warping)를 수행하여 해당하는 이미지에 대한 원근 변환(Perspective Transformation) 등을 수행해 생성되는 이미지를 의미할 수 있다.

자세히, 실시예에서 애플리케이션(111)은, 상기 생성된 메인 바운딩 박스 이미지(MBI)를 기 정의된 정규 형태로 변형하여 상기 워핑 바운딩 박스 이미지(WBI)를 생성할 수 있다.

여기서, 실시예에 따른 상기 정규 형태란, 광학 문자 인식(OCR)을 수행하는 문자 인식기(Text Recognizer)의 입력 가능한 이미지의 형태일 수 있다.

실시예에서, 이러한 정규 형태는, 상기 메인 바운딩 박스 이미지(MBI) 내 객체 텍스트를 수평으로 배열시키는 사각형 형태를 포함할 수 있다.

이때, 실시예에서 애플리케이션(111)은, 상기 기 정의된 정규 형태로 변형된 메인 바운딩 박스 이미지(MBI)에 상기 변형으로 인한 소정의 원근 왜곡이 발생하면, 상기 원근 왜곡이 발생한 메인 바운딩 박스 이미지(MBI)를 정규화함으로써 이를 방지할 수 있다.

즉, 애플리케이션(111)은, 상기 메인 바운딩 박스 이미지(MBI)를 상기 정규 형태에 따라서 변형하고 상기 변형된 이미지를 정규화함으로써, 기 정의된 형태로 변환됨과 동시에 해당 형태 변환에 의한 왜곡은 최소화된 워핑 바운딩 박스 이미지(WBI)를 생성할 수 있다.

보다 상세히, 실시예로 애플리케이션(111)은, 상술된 객체 텍스트가 소정의 기울기(회전각)나 방향을 가짐으로 인하여 상기 객체 텍스트에 대해 생성된 메인 바운딩 박스 이미지(MBI)가 상기 객체 텍스트를 수평으로 배열시키는 사각형 형태 이외의 형태(예컨대, 마름모형 또는 사다리꼴형 등)인 경우, 해당 메인 바운딩 박스 이미지(MBI)를 상기 정규 형태에 대응되도록 역회전시키는 워핑 처리를 수행할 수 있다.

자세히, 애플리케이션(111)은, 상기 메인 바운딩 박스 이미지(MBI) 양단의 좌표값에 기초하여 상기 정규 형태에 대비하여 형성되어 있는 기울기를 연산할 수 있고, 연산된 기울기만큼 해당 메인 바운딩 박스 이미지(MBI)를 역회전시킬 수 있다.

그리하여 애플리케이션(111)은, 상기 메인 바운딩 박스 이미지(MBI)를 상기 정규 형태에 매칭되게 변형한 워핑 바운딩 박스 이미지(WBI)를 생성할 수 있다.

도 9를 더 참조하면, 다른 실시예로 애플리케이션(111)은, 상기 메인 바운딩 박스 이미지(MBI)와 상기 정규 형태에 따른 이미지(이하, 정규 이미지)의 각 꼭지점에 기초한 워핑 처리를 수행할 수도 있다.

자세히, 애플리케이션(111)은, 상기 메인 바운딩 박스 이미지(MBI)의 제1 내지 제4 꼭지점이, 상기 정규 이미지의 제1 내지 제4 꼭지점에 각각 대응되어 매칭되도록 형태를 변환함으로써, 소정의 기울기(회전각)를 가지는 메인 바운딩 박스 이미지(MBI)를 상기 정규 형태로 변형한 워핑 바운딩 박스 이미지(WBI)를 생성할 수 있다.

이상에서는, 애플리케이션(111)이 상술된 바와 같은 방식으로 워핑 바운딩 박스 이미지(WBI)를 생성한다고 설명하였으나 이는 일례일 뿐 이에 제한되는 것은 아니며, 소정의 이미지를 정의된 형태로 변형할 수 있는 알고리즘이라면 어떠한 방식으로도 상기 메인 바운딩 박스 이미지(MBI)에 기초한 상기 워핑 바운딩 박스 이미지(WBI)를 생성할 수 있다.

이와 같이, 애플리케이션(111)은, 상술된 메인 바운딩 박스 이미지(MBI)를 문자 인식기(Text Recognizer)에서 수용 가능한 형태의 이미지(실시예에서, 워핑 바운딩 박스 이미지(WBI))로 변형하여 줌으로써, 인스턴스 세그멘테이션을 통해 이미지로부터 추출된 텍스트 영역이더라도 상기 문자 인식기에 입력 가능한 형태로 변환하여 이에 기초한 광학 문자 인식(OCR)을 가능하게 할 수 있다.

또한, 실시예에서 애플리케이션(111)은, 위와 같이 생성된 메인 바운딩 박스 이미지(MBI) 및/또는 워핑 바운딩 박스 이미지(WBI) 중 적어도 하나 이상을 포함하여 상기 타겟 문자 이미지(TI)를 생성할 수 있다.

또한, 실시예에서 애플리케이션(111)은, 상기 생성된 타겟 문자 이미지(TI)를 기초로 서브 바운딩 박스 이미지(Sub Bounding box Image, SBI)를 생성할 수 있다. (S107)

도 10은 본 발명의 실시예에 따른 서브 바운딩 박스 이미지를 설명하기 위한 도면의 일례이다.

여기서, 도 10을 참조하면, 실시예에 따른 상기 서브 바운딩 박스 이미지(SBI)란, 상기 타겟 문자 이미지(TI) 내 객체 텍스트를 구성하는 문자별 완전성에 따라서 구분되어 생성되는 서브 바운딩 박스에 기초한 적어도 하나 이상의 이미지를 의미할 수 있다.

실시예에서, 이러한 서브 바운딩 박스 이미지(SBI)는, 상기 객체 텍스트를 구성하는 적어도 하나 이상의 문자 중에서, 온전한 형태의 문자 형상을 가지는 적어도 하나의 완전한 문자를 포함하는 서브 바운딩 박스에 기초한 완성형 문자 이미지(21) 및 불온전한 형태의 문자 형상을 가지는 적어도 하나의 불완전한 문자를 포함하는 서브 바운딩 박스에 기초한 미완성형 문자 이미지(22) 중 적어도 하나의 이미지를 포함할 수 있다.

예를 들어서, 소정의 제1 텍스트 객체영역(10)이 소정의 타 텍스트 객체영역(10)에 의해 중첩(overlap)된 경우, 상기 제1 텍스트 객체영역(10) 내 객체 텍스트의 적어도 일부는 완전한 문자이고 나머지 일부는 불완전한 문자일 수 있다.

이때, 본 발명의 실시예에 따른 애플리케이션(111)은, 상기 적어도 일부의 완전한 문자만을 포함하는 제1 서브 바운딩 박스를 생성할 수 있고, 상기 생성된 제1 서브 바운딩 박스 내 영역에 기초하여 상기 완성형 문자 이미지(21)를 획득할 수 있다.

계속해서 본 발명의 실시예에 따른 애플리케이션(111)은, 상기 적어도 일부의 불완전한 문자만을 포함하는 제2 서브 바운딩 박스를 생성할 수 있고, 상기 생성된 제2 서브 바운딩 박스 내 영역에 기초하여 상기 미완성형 문자 이미지(22)를 획득할 수 있다.

즉, 실시예에서 애플리케이션(111)은, 상기 타겟 문자 이미지(TI) 내 객체 텍스트를 구성하는 적어도 하나의 각 문자에 대한 완전성을 분석하여, 완전한 문자로 분류된 적어도 하나의 문자를 포함하는 제1 서브 바운딩 박스를 생성할 수 있고, 상기 생성된 제1 서브 바운딩 박스 내 영역을 포함하는 상기 완성형 문자 이미지(21)를 생성할 수 있다.

또한, 애플리케이션(111)은, 상기 각 문자에 대한 완전성 분석의 결과 불완전한 문자로 분류된 적어도 하나의 문자를 포함하는 제2 서브 바운딩 박스를 생성할 수 있고, 상기 생성된 제2 서브 바운딩 박스 내 영역을 포함하는 상기 미완성형 문자 이미지(22)를 생성할 수 있다.

이때, 애플리케이션(111)은, 상기 제1 텍스트 객체영역(10)에 대하여 생성된 완성형 문자 이미지(21)와 미완성형 문자 이미지(22)를 상호 매칭하여 저장 및 관리할 수 있다.

그리하여 실시예에서 애플리케이션(111)은, 위와 같이 생성된 완성형 문자 이미지(21) 및/또는 미완성형 문자 이미지(22)를 포함하는 상기 서브 바운딩 박스 이미지(SBI)를 생성할 수 있다.

따라서, 애플리케이션(111)은, 추후 상기 객체 텍스트 내 각 문자의 완전성에 따라서 특화된 방식으로 해당하는 각 문자별 텍스트 인식을 수행할 수 있고, 이를 통해 상기 객체 텍스트에 대한 텍스트 인식 결과의 품질을 향상시킬 수 있다.

또한, 실시예에서 애플리케이션(111)은, 상기 생성된 서브 바운딩 박스 이미지(SBI)에 기초한 텍스트 인식(Text Recognize)을 수행할 수 있다. (S109)

자세히, 실시예에서 애플리케이션(111)은, 상기 서브 바운딩 박스 이미지(SBI) 내 객체 텍스트를 인식하기 위한 광학 문자 인식(OCR) 프로세스를 수행할 수 있다.

도 11은 본 발명의 실시예에 따른 광학 문자 인식(Optical Character Recognition)을 설명하기 위한 도면의 일례이다.

이때, 도 11을 참조하면, 실시예에 따른 상기 광학 문자 인식(OCR)은, 완전한 문자에 기반한 텍스트 인식을 수행하는 기본형 문자 인식과, 불완전한 문자를 분석하여 해당 문자로부터 가능하다고 판단되는 온전한 형태의 문자(이하, 예측한 문자)를 적어도 하나 예측하여 텍스트 인식을 수행하는 예측형 문자 인식을 포함할 수 있다.

보다 상세히, 실시예에서 애플리케이션(111)은, 1) 완성형 문자 이미지(21)에 기초한 광학 문자 인식(OCR)을 수행할 수 있다.

즉, 실시예에서 애플리케이션(111)은, 상기 서브 바운딩 박스 이미지(SBI)가 상기 완성형 문자 이미지(21)를 포함하는 경우, 상기 완성형 문자 이미지(21) 내 적어도 하나의 완전한 문자에 기초하여 상술된 바와 같은 기본형 문자 인식을 수행할 수 있다.

자세히, 실시예에서 애플리케이션(111)은, 상기 완성형 문자 이미지(21) 내 적어도 하나의 완전한 문자를 해당 완성형 문자 이미지(21)로부터 분리하여 추출할 수 있다.

또한, 애플리케이션(111)은, 상기 추출된 적어도 하나의 완전한 문자를 광학 인식하는 기본형 텍스트 인식을 수행할 수 있다.

그리하여 애플리케이션(111)은, 상기 완전한 문자를 나타내는 제1 추출 텍스트(31)를 획득할 수 있다.

한편, 실시예에서 애플리케이션(111)은, 2) 미완성형 문자 이미지(22)에 기초한 광학 문자 인식(OCR)을 수행할 수 있다.

즉, 실시예에서 애플리케이션(111)은, 상기 서브 바운딩 박스 이미지(SBI)가 상기 미완성형 문자 이미지(22)를 포함하는 경우, 상기 미완성형 문자 이미지(22) 내 적어도 하나의 불완전한 문자에 기초하여 상술된 바와 같은 예측형 문자 인식을 수행할 수 있다.

자세히, 실시예에서 애플리케이션(111)은, 상기 미완성형 문자 이미지(22) 내 적어도 하나의 불완전한 문자를 해당 미완성형 문자 이미지(22)로부터 분리하여 추출할 수 있다.

또한, 애플리케이션(111)은, 상기 추출된 적어도 하나의 불완전한 문자를 분석하여 해당 문자로부터 가능하다고 판단되는 온전한 형태의 문자인 예측한 문자를 적어도 하나 이상 획득하는 예측형 문자 인식을 수행할 수 있다.

예를 들면, 애플리케이션(111)은, 상기 불완전한 문자가 'ㅂ' 자음과 'ㅏ' 모음의 적어도 일부를 포함하는 경우, '바, 박, 반, 받, 발, 밤, 밥, 밧, 방, …, "W' 과 같은 적어도 하나 이상의 예측한 문자를 획득할 수 있다.

또한, 애플리케이션(111)은, 위와 같이 획득된 적어도 하나의 예측한 문자를 나타내는 적어도 하나의 후보 추출 텍스트(32)를 획득할 수 있다.

이와 같이, 애플리케이션(111)은, 불완전한 문자가 존재하는 경우 해당 문자를 따로 분리하여 인식 후 해당 문자에 대해 가능한 적어도 하나의 텍스트를 예측하여 제공하는 예측형 문자 인식을 수행함으로써, 이미지 내 일부 객체들이 상호 중첩(overlap)되어 해당 객체들 내 적어도 일부 텍스트가 손실된 상황에서도 합리적인 데이터에 근거하여 해당 텍스트를 보다 높은 정확도로 인식할 수 있는 광학 문자 인식(OCR)을 구현할 수 있다.

또한, 실시예에서 애플리케이션(111)은, 상기 인식된 텍스트에 대한 유효성 판단을 수행할 수 있다. (S111)

자세히, 실시예에서 애플리케이션(111)은, 위와 같이 텍스트 인식을 수행하여 획득된 제1 추출 텍스트(31) 및/또는 적어도 하나의 후보 추출 텍스트(32)에 대한 유효성 판단 프로세스를 수행할 수 있다.

여기서, 실시예에 따른 상기 유효성 판단 프로세스란, 소정의 텍스트에 기초한 잠재 의미 분석(Latent Semantic Analysis, LSA) 및/또는 명시 의미 분석　(Explicit Semantic Analysis, ESA) 등을 수행하여 해당 텍스트가 소정의 대응되는 의미가 존재하는 유효 텍스트인지 또는 해당 텍스트가 소정의 대응되는 의미가 미존재하는 무효 텍스트인지 결정하는 프로세스일 수 있다.

보다 상세히, 실시예에서 애플리케이션(111)은, 1) 제1 추출 텍스트(31)에 기초한 유효성 판단을 수행할 수 있다.

구체적으로, 애플리케이션(111)은, 메모리(110) 및/또는 외부의 데이터베이스와 연동하여, 상기 제1 추출 텍스트(31)를 기 구축되어 있는 사전 데이터베이스(예컨대, 상호명(商號名) 데이터베이스, 다국어고유명사 데이터베이스 및/또는 한국고유명사 다국어 데이터베이스 등) 내 텍스트(이하, 사전 텍스트)들과 비교할 수 있다.

또한, 애플리케이션(111)은, 상기 비교를 통하여 상기 제1 추출 텍스트(31)에 대응되는 사전 텍스트가 검출되면, 상기 제1 추출 텍스트(31)를 유효 텍스트로 결정할 수 있다.

반면, 애플리케이션(111)은, 상기 비교의 결과 상기 제1 추출 텍스트(31)에 대응되는 사전 텍스트가 미검출되면, 상기 제1 추출 텍스트(31)를 무효 텍스트로 결정할 수 있다.

한편, 실시예에서 애플리케이션(111)은, 2) 적어도 하나의 후보 추출 텍스트(32)에 기초한 유효성 판단을 수행할 수 있다.

자세히, 애플리케이션(111)은, 상기 적어도 하나의 후보 추출 텍스트(32) 각각에 대한 예측 확률값을 산출할 수 있다.

여기서, 실시예에 따른 상기 예측 확률값이란, 상기 후보 추출 텍스트(32)가 정답 문자(즉, 해당하는 불완전한 문자가 실제로 의미하는 온전한 문자)일 확률값을 의미할 수 있다.

실시예로, 애플리케이션(111)은, 상술된 예측형 문자 인식 프로세스 및/또는 소정의 딥러닝 뉴럴 네트워크와 연동하여, 상기 적어도 하나의 후보 추출 텍스트(32) 각각에 대한 예측 확률값을 획득할 수 있다.

또한, 애플리케이션(111)은, 상기 획득된 적어도 하나의 예측 확률값 중에서 가장 높은 예측 확률값을 가지는 후보 추출 텍스트(32)를 제2 추출 텍스트로 결정할 수 있다.

또한, 애플리케이션(111)은, 상기 결정된 제2 추출 텍스트에 기반하여 상기 유효성 판단을 수행할 수 있다.

자세히, 애플리케이션(111)은, 메모리(110) 및/또는 외부의 데이터베이스와 연동하여, 상기 제2 추출 텍스트를 기 구축되어 있는 사전 데이터베이스(예컨대, 다국어고유명사 데이터베이스 및/또는 한국고유명사 다국어 데이터베이스 등) 내 사전 텍스트들과 비교할 수 있다.

또한, 애플리케이션(111)은, 상기 비교를 통하여 상기 제2 추출 텍스트에 대응되는 사전 텍스트가 검출되면, 상기 제2 추출 텍스트를 유효 텍스트로 결정할 수 있다.

반면, 애플리케이션(111)은, 상기 비교의 결과 상기 제2 추출 텍스트에 대응되는 사전 텍스트가 미검출되면, 상기 제1 추출 텍스트(31)를 무효 텍스트로 결정할 수 있다.

이와 같이, 애플리케이션(111)은, 해당하는 불완전한 문자에 대하여 가장 높은 가능성으로 예측되는 완전한 문자를 선별해 그 의미를 분석하고 유효성 여부를 판단함으로써, 온전한 형태로 인식되지 않은 텍스트에 대해서도 높은 정확도로 광학 문자 인식(OCR)의 결과를 도출해낼 수 있다.

도 12는 본 발명의 실시예에 따른 결합 텍스트를 설명하기 위한 도면의 일례이다.

다른 한편, 도 12를 참조하면, 실시예에서 애플리케이션(111)은, 3) 제1 추출 텍스트(31) 및 적어도 하나의 후보 추출 텍스트(32)에 기초한 유효성 판단을 수행할 수 있다.

자세히, 애플리케이션(111)은, 상기 적어도 하나의 후보 추출 텍스트(32) 각각에 대한 상기 예측 확률값을 산출할 수 있다.

또한, 애플리케이션(111)은, 상기 획득된 예측 확률값이 높은 순으로, 상기 적어도 하나의 후보 추출 텍스트(32) 중 하나의 텍스트(이하, 조합 텍스트)를 상기 제1 추출 텍스트(31)와 결합한 결합 텍스트(40)를 생성할 수 있다.

이때, 실시예에서 상기 결합되는 제1 추출 텍스트(31)는, 상기 적어도 하나의 후보 추출 텍스트(32)를 획득한 미완성형 문자 이미지(22)에 매칭되어 있는 완성형 문자 이미지(21)로부터 획득된 제1 추출 텍스트(31)일 수 있다.

즉, 실시예에서 애플리케이션(111)은, 동일한 텍스트 객체영역(10) 내 완성형 문자 이미지(21)로부터 획득된 제1 추출 텍스트(31)와 미완성형 문자 이미지(22)로부터 획득된 적어도 하나의 후보 추출 텍스트(32) 중 어느 하나인 조합 텍스트를 상호 결합하여 상기 결합 텍스트(40)를 생성할 수 있다.

예를 들면, 애플리케이션(111)은, 상기 제1 추출 텍스트(31)가 '코인노래'를 포함하고 복수의 상기 후보 추출 텍스트(32)가 상기 예측 확률값이 높은 순으로 '방, 박, 반, 받, 발, 밤, 밥, 밧, …, "W'을 포함하는 경우, 상기 제1 추출 텍스트(31)인 '코인노래'와 상기 예측 확률값이 가장 높은 조합 텍스트인 '방'을 상호 결합하여 제1 결합 텍스트(40)를 생성할 수 있다.

또한, 애플리케이션(111)은, 상기 생성된 결합 텍스트(40)에 기반하여 상기 유효성 판단을 수행할 수 있다.

자세히, 애플리케이션(111)은, 메모리(110) 및/또는 외부의 데이터베이스와 연동하여, 상기 결합 텍스트(40)를 기 구축되어 있는 사전 데이터베이스(예컨대, 다국어고유명사 데이터베이스 및/또는 한국고유명사 다국어 데이터베이스 등) 내 사전 텍스트들과 비교할 수 있다.

또한, 애플리케이션(111)은, 상기 비교를 통하여 상기 결합 텍스트(40)에 대응되는 사전 텍스트가 검출되면, 상기 결합 텍스트(40)를 유효 텍스트로 결정할 수 있다.

반면, 애플리케이션(111)은, 상기 비교의 결과 상기 결합 텍스트(40)에 대응되는 사전 텍스트가 미검출되면, 해당 결합 텍스트(40)를 무효 텍스트로 결정할 수 있다.

또한, 애플리케이션(111)은, 상기 무효 텍스트에 포함된 조합 텍스트(즉, 가장 높은 예측 확률값을 가진 조합 텍스트)의 다음으로 높은 예측 확률값을 가지는 조합 텍스트와 상기 제1 추출 텍스트(31)에 기초하여 상술된 결합 텍스트(40) 기반 유효성 판단 프로세스를 반복 수행할 수 있다.

예를 들어, 애플리케이션(111)은, 애플리케이션(111)은, 상기 제1 추출 텍스트(31)가 '코인노래'를 포함하고 복수의 상기 후보 추출 텍스트(32)가 상기 예측 확률값이 높은 순으로 '밤, 방, 박, 반, 받, 발, 밥, 밧, …, "W'을 포함하는 경우, 상기 제1 추출 텍스트(31)인 '코인노래'와 상기 예측 확률값이 가장 높은 조합 텍스트인 '밤'을 상호 결합하여 제1 결합 텍스트(40)를 생성할 수 있다.

이때, 본 예시에서 애플리케이션(111)은, 상기 생성된 제1 결합 텍스트(40)에 대한 유효성 판단의 결과 상기 제1 결합 텍스트(40)가 무효 텍스트로 판단된 경우, 상기 제1 추출 텍스트(31)인 '코인노래'와 상기 예측 확률값이 다음으로 높은 조합 텍스트인 '방'을 상호 결합한 제2 결합 텍스트(40)를 생성할 수 있다.

또한, 본 예시에서 애플리케이션(111)은, 상기 생성된 제2 결합 텍스트(40)를 기초로 유효성 판단 프로세스를 반복 수행할 수 있다.

이와 같이, 애플리케이션(111)은, 동일한 텍스트 객체영역(10) 내에 완전한 문자와 불완전한 문자가 혼합된 형태의 객체 텍스트가 존재하는 경우, 상기 불완전한 문자로부터 예측한 문자의 예측 확률값이 높은 순으로 상기 완전한 문자와 상호 조합해보고 그 의미를 분석하여 유효성 여부를 판단함으로써, 해당 객체 텍스트에 대한 인식 정확도를 향상시킴과 동시에 문자 인식을 위한 데이터 처리의 효율성 및 속도를 증진시킬 수 있다.

또한, 실시예에서 애플리케이션(111)은, 상기 유효성 판단에 따른 감지 텍스트를 제공할 수 있다. (S113)

여기서, 실시예에 따른 상기 감지 텍스트란, 소정의 이미지 내 텍스트에 대한 광학 문자 인식(OCR)의 결과 데이터를 의미할 수 있다.

자세히, 실시예에서 애플리케이션(111)은, 상기 인식된 텍스트가 유효 텍스트로 결정되면, 해당 유효 텍스트를 상기 감지 텍스트로서 제공할 수 있다.

반면, 실시예에서 애플리케이션(111)은, 상기 인식된 텍스트가 무효 텍스트로 결정되면, 해당 무효 텍스트에 기초한 유효 추측 텍스트를 획득하는 프로세스를 수행할 수 있다.

여기서, 실시예에 따른 상기 유효 추측 텍스트란, 상술된 사전 데이터베이스 내 복수의 사전 텍스트 중에서 상기 무효 텍스트와 소정의 유사도 이상을 가지는 텍스트를 의미할 수 있다.

보다 상세히, 애플리케이션(111)은, 소정의 딥러닝 뉴럴 네트워크와 연동하여, 상기 무효 텍스트와 상기 복수의 사전 텍스트 각각 간의 유사도를 산출할 수 있다.

또한, 애플리케이션(111)은, 상기 무효 텍스트와의 유사도가 가장 높은 값을 가지는 사전 텍스트를 상기 유효 추측 텍스트로 결정할 수 있다.

또한, 애플리케이션(111)은, 상기 결정된 유효 추측 텍스트를 상기 감지 텍스트로서 제공할 수 있다.

이와 같이, 애플리케이션(111)은, 해당하는 무효 텍스트와 높은 유사도를 가지는 사전 텍스트를 검출하여 제공함으로써, 기 존재하는 사전 텍스트와 정확하게 일치하진 않더라도 소정의 유사도를 가지는 텍스트 데이터까지를 포함하는 더욱 확장된 범위 상에서 의미있는 결과 데이터를 생성해 제공할 수 있다.

다른 실시예로, 애플리케이션(111)은, 상기 인식된 텍스트가 무효 텍스트로 결정되면, 해당 무효 텍스트에 기초한 자동완성 텍스트를 획득하는 프로세스를 수행할 수 있다.

여기서, 실시예에 따른 상기 자동완성 텍스트란, 상기 무효 텍스트의 적어도 일부(실시예에서, 해당 무효 텍스트가 포함하는 제1 추출 텍스트(31), 제2 추출 텍스트 및/또는 결합 텍스트(40) 중 적어도 하나의 텍스트 등)를 자신의 적어도 일부로 포함하는 텍스트를 의미할 수 있다.

자세히, 애플리케이션(111)은, 공지된 텍스트 자동완성 알고리즘(예컨대, 인터넷 검색어 자동완성 알고리즘 등)을 이용하여 상술된 바와 같은 자동완성 텍스트를 획득할 수 있다.

또한, 애플리케이션(111)은, 위와 같이 검출된 자동완성 텍스트를 상기 감지 텍스트로서 제공할 수 있다.

따라서, 애플리케이션(111)은, 기 구축된 사전 데이터베이스 이외의 영역까지 텍스트 인식의 범위를 확장시켜 광학 문자 인식(OCR)의 결과 데이터에 대한 신뢰성 및 정확도를 더욱 향상시킬 수 있다.

이때, 실시예에서 애플리케이션(111)은, 상기 무효 텍스트가 결합 텍스트(40)(즉, 실시예에서 제1 추출 텍스트(31) 및 조합 텍스트를 포함하는 텍스트)에 기반한 무효 텍스트인 경우, 해당 조합 텍스트 그룹(즉, 해당하는 후보 추출 텍스트(32) 그룹) 내에서 상기 조합 텍스트의 예측 확률값이 높은 순으로 상기 결합 텍스트(40)에 기초한 상기 유효 추측 텍스트 획득 프로세스 및/또는 텍스트 자동완성 프로세스를 수행할 수 있다.

즉, 애플리케이션(111)은, 상기 조합 텍스트의 예측 확률값이 높은 순으로 해당하는 조합 텍스트를 포함하는 결합 텍스트(40)에 기반한 유효 추측 텍스트 획득 프로세스 및/또는 텍스트 자동완성 프로세스를 수행할 수 있다.

또한, 애플리케이션(111)은, 위와 같은 순으로 상기 결합 텍스트(40)에 기반한 유효 추측 텍스트 획득 프로세스 및/또는 텍스트 자동완성 프로세스를 수행하는 도중에 상기 유효 추측 텍스트 및/또는 상기 자동완성 텍스트가 검출되면, 검출된 텍스트를 상기 감지 텍스트로서 제공할 수 있다.

따라서, 애플리케이션(111)은, 해당하는 무효 텍스트에 대한 정답 텍스트(즉, 실제로 해당하는 텍스트 객체영역(10)이 포함하는 텍스트)에 더 높은 확률로 정합된다고 판단되는 유사 추측 텍스트 및/또는 자동완성 텍스트를 검출하여 제공할 수 있다.

또한, 이때 실시예에 따라서 애플리케이션(111)은, 상술된 바와 같은 감지 텍스트를 상기 감지 텍스트에 대응되는 이미지(즉, 실시예에서 상기 감지 텍스트를 추출한 이미지)와 매칭하여 제공할 수도 있다.

그리하여 애플리케이션(111)은, 상기 감지 텍스트를 다방면으로 활용하는 다양한 서비스(예컨대, 간판 인식, 번호판 인식 및/또는 신용카드 인식 등)가 더욱 원활하게 구현되도록 지원할 수 있다.

이상, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법 및 그 시스템은, 텍스트 인식(Text Recognize)에 최적화된 방식으로 이미지 내 객체영역을 추출하여 광학 문자 인식(OCR)을 수행함으로써, 상기 광학 문자 인식(OCR)의 성능을 향상시켜 이에 기초한 다양한 서비스의 품질을 제고할 수 있는 효과가 있다.

또한, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법 및 그 시스템은, 인스턴스 세그멘테이션(Instance Segmentation)을 이용하여 검출된 이미지 내 개별 객체영역에 기초하여 광학 문자 인식(OCR)을 수행함으로써, 동일한 클래스(class)로 분류되는 객체이더라도 개별 객체별로 구분하여 감지하는 이미지 세그멘테이션의 이점을 효과적으로 적용한 광학 문자 인식(OCR)기(Text Detector)를 구현할 수 있는 효과가 있다.

또한, 본 발명의 실시예에 따른 객체 인식 기반의 문자 탐지 방법 및 그 시스템은, 이미지 내 적어도 일부 객체가 상호 중첩(overlap)되어 해당 객체 내 적어도 일부 텍스트가 손실된 경우에도 상기 손실된 텍스트에 대한 높은 정확도의 예측 및 광학 문자 인식(OCR)을 지원함으로써, 불온전한 형태로 인식된 텍스트에 대한 광학 문자 인식(OCR)의 결과를 높은 신뢰성을 보장하는 합리적인 데이터에 근거하여 획득해 제공할 수 있는 효과가 있다.

한편, 이상에서 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

또한 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술할 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정하여져야만 할 것이다.

Claims

단말의 적어도 하나의 프로세서에 의하여 실행되는 문자 애플리케이션이 객체 인식 기반의 문자 탐지를 수행하는 방법으로서,
인스턴스 세그멘테이션(Instance Segmentation)에 기초하여 이미지 내 개별 객체영역을 탐지하는 단계;
상기 탐지된 개별 객체영역 중 소정의 텍스트를 포함하는 텍스트 객체영역을 추출하는 단계;
상기 추출된 텍스트 객체영역 내 객체 텍스트를 포함하는 최소한의 영역을 나타내는 메인 바운딩 박스 이미지를 생성하는 단계;
상기 생성된 메인 바운딩 박스 이미지를 정의된 정규 형태(Normalized shape)에 정합하도록 변형한 워핑 바운딩 박스 이미지를 생성하는 단계;
상기 생성된 워핑 바운딩 박스 이미지 및 상기 메인 바운딩 박스 이미지 중 적어도 하나의 이미지 내 상기 객체 텍스트를 구성하는 적어도 하나의 문자를 포함하는 서브 바운딩 박스 이미지를 생성하는 단계:
상기 생성된 서브 바운딩 박스 이미지에 기초한 텍스트 인식(Text Recognize)을 수행하는 단계;
상기 인식된 텍스트에 대한 유효성을 판단하는 단계; 및
상기 판단된 유효성에 따라서 상기 이미지에 대한 감지 텍스트를 제공하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제1 항에 있어서,
상기 서브 바운딩 박스 이미지를 생성하는 단계는,
상기 객체 텍스트 내 온전한 형태의 문자 형상을 가지는 적어도 하나의 완전한 문자를 포함하는 서브 바운딩 박스에 기초한 완성형 문자 이미지와,
상기 객체 텍스트 내 불온전한 형태의 문자 형상을 가지는 적어도 하나의 불완전한 문자를 포함하는 서브 바운딩 박스에 기초한 미완성형 문자 이미지 중 적어도 하나의 이미지를 생성하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제2 항에 있어서,
상기 서브 바운딩 박스 이미지에 기초한 텍스트 인식을 수행하는 단계는,
상기 완전한 문자에 기반한 텍스트 인식을 수행하는 기본형 문자 인식 및 상기 불완전한 문자로부터 예측한 문자에 기반한 텍스트 인식을 수행하는 예측형 문자 인식 중 적어도 하나의 텍스트 인식을 수행하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제3 항에 있어서,
상기 서브 바운딩 박스 이미지에 기초한 텍스트 인식을 수행하는 단계는,
상기 완전한 문자에 기반한 제1 추출 텍스트를 획득하는 단계와,
상기 예측한 문자에 기반한 적어도 하나의 후보 추출 텍스트를 획득하는 단계를 더 포함하는
객체 인식 기반의 문자 탐지 방법.
제4 항에 있어서,
상기 인식된 텍스트에 대한 유효성을 판단하는 단계는,
상기 제1 추출 텍스트와 기 구축된 사전 데이터베이스 내 복수의 사전 텍스트를 비교하는 단계와,
상기 제1 추출 텍스트에 대응되는 사전 텍스트가 검출되면 상기 제1 추출 텍스트를 유효 텍스트로 결정하는 단계와,
상기 제1 추출 텍스트에 대응되는 사전 텍스트가 미검출되면 상기 제1 추출 텍스트를 무효 텍스트로 결정하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제4 항에 있어서,
상기 인식된 텍스트에 대한 유효성을 판단하는 단계는,
상기 적어도 하나의 후보 추출 텍스트 각각에 대하여 정답 문자일 확률을 나타내는 예측 확률값을 획득하는 단계와,
상기 획득된 예측 확률값이 가장 높은 후보 추출 텍스트를 제2 추출 텍스트로 결정하는 단계와,
상기 결정된 제2 추출 텍스트를 기 구축된 사전 데이터베이스 내 복수의 사전 텍스트와 비교하는 단계와,
상기 제2 추출 텍스트에 대응되는 사전 텍스트의 검출 유무에 따라서 상기 제2 추출 텍스트를 유효 텍스트 또는 무효 텍스트로 결정하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제4 항에 있어서,
상기 인식된 텍스트에 대한 유효성을 판단하는 단계는,
상기 적어도 하나의 후보 추출 텍스트와 동일한 텍스트 객체영역으로부터 획득된 상기 제1 추출 텍스트를 검출하는 단계와,
상기 검출된 제1 추출 텍스트와 상기 적어도 하나의 후보 추출 텍스트 중 어느 하나의 텍스트를 결합한 결합 텍스트를 생성하는 단계와,
상기 생성된 결합 텍스트를 기 구축된 사전 데이터베이스 내 복수의 사전 텍스트와 비교하는 단계와,
상기 결합 텍스트에 대응되는 사전 텍스트의 검출 유무에 따라서 상기 결합 텍스트를 유효 텍스트 또는 무효 텍스트로 결정하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제7 항에 있어서,
상기 결합 텍스트를 생성하는 단계는,
상기 후보 추출 텍스트 각각에 대한 예측 확률값을 획득하는 단계와,
상기 획득된 예측 확률값이 높은 순으로 상기 결합 텍스트를 생성하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제5 내지 제7 항에 있어서,
상기 감지 텍스트를 제공하는 단계는,
상기 유효 텍스트를 상기 감지 텍스트로 제공하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제5 내지 제7 항에 있어서,
상기 감지 텍스트를 제공하는 단계는,
상기 무효 텍스트와 가장 높은 유사도를 가지는 사전 텍스트를 유효 추측 텍스트로 결정하는 단계와,
상기 결정된 유효 추측 텍스트를 상기 감지 텍스트로 제공하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
제5 내지 제7 항에 있어서,
상기 감지 텍스트를 제공하는 단계는,
상기 무효 텍스트의 적어도 일부를 자신의 적어도 일부로 포함하는 자동완성 텍스트를 획득하는 단계와,
상기 획득된 자동완성 텍스트를 상기 감지 텍스트로 제공하는 단계를 포함하는
객체 인식 기반의 문자 탐지 방법.
이미지의 감지 텍스트를 출력하는 적어도 하나 이상의 디스플레이;
적어도 하나 이상의 메모리; 및
적어도 하나 이상의 프로세서; 를 포함하고,
상기 메모리에 저장되고 상기 프로세서에 의해 실행되어 객체 인식 기반의 문자 탐지를 수행하는 적어도 하나의 애플리케이션으로서 상기 적어도 하나의 애플리케이션은,
인스턴스 세그멘테이션(Instance Segmentation)에 기초하여 상기 이미지 내 개별 객체영역을 탐지하고,
상기 탐지된 개별 객체영역 중 소정의 텍스트를 포함하는 텍스트 객체영역을 추출하고,
상기 추출된 텍스트 객체영역 내 객체 텍스트를 포함하는 최소한의 영역을 나타내는 메인 바운딩 박스 이미지를 생성하고,
상기 생성된 메인 바운딩 박스 이미지를 정의된 정규 형태(Normalized shape)에 정합하도록 변형한 워핑 바운딩 박스 이미지를 생성하고,
상기 생성된 워핑 바운딩 박스 이미지 및 상기 메인 바운딩 박스 이미지 중 적어도 하나의 이미지 내 상기 객체 텍스트를 구성하는 적어도 하나의 문자를 포함하는 서브 바운딩 박스 이미지를 생성하고,
상기 생성된 서브 바운딩 박스 이미지에 기초한 텍스트 인식(Text Recognize)을 수행하고,
상기 인식된 텍스트에 대한 유효성을 판단하고,
상기 판단된 유효성에 따라서 상기 이미지의 감지 텍스트를 제공하는
객체 인식 기반의 문자 탐지 시스템.