KR20210085742A

KR20210085742A - 카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치 및 그 제어방법

Info

Publication number: KR20210085742A
Application number: KR1020190179138A
Authority: KR
Inventors: 고하나; 최규상
Original assignee: 주식회사 서밋코퍼레이션
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: KR102316969B1

Abstract

본 발명의 일 실시예에 따라 카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치에 있어서, 인터페이스부; 카메라를 이용하여 촬상한 제1이미지를 수신하고, 상기 제1이미지에 포함된 텍스트에 대응하는 텍스트 후보 색상을 포함하는 복수의 색상에 기초하여 상기 제1이미지의 색상 변환을 수행하여 제2이미지를 획득하고, 상기 획득된 제2이미지에 기초하여 상기 제1이미지에 포함된 텍스트의 인식 결과를 획득하고, 상기 획득한 인식 결과를 디스플레이에 표시하는, 프로세서를 포함할 수 있다.

Description

카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치 및 그 제어방법{ELECTRONIC APPARATUS CAPABLE OF RECOGNIZING TEXT INCLUDED IN AN IMAGE CAPTURED BY A CAMERA AND THE METHOD THEREOF}

본 발명은 이미지에 포함된 텍스트의 인식을 수행하는 전자장치 및 그 제어방법에 관한 것이다.

최근 문자(텍스트) 인식 기술에 대한 니즈(needs)가 계속해서 증가됨에 따라 다양한 기술이 등장해왔다. 문자 인식 기술의 대표적 기술 중 하나인 OCR(Optical Character Recognition)은 광학 문자 인식 기술로써, 문자를 광으로 읽어서 전기 신호로 변환 및 인식하는 기술이다. 문자 인식 기술이 점점 더 정교해지고 있으나, 여전히 문자 인식에 대한 오류가 발생하고 있으므로, 문자 인식의 신속하면서도 신뢰성을 높이는 방안이 요구되고 있다.

본 발명은 보다 신뢰성 높은 텍스트 인식을 수행하는 전자장치 및 그 제어방법에 관한 것이다.

상기 복수의 색상은 상기 텍스트 후보 색상과 다른 색상값을 가지는 배경 후보 색상을 포함할 수 있다.

상기 프로세서는, 상기 제1이미지의 각 픽셀의 제1색상값을 식별하고, 상기 식별된 제1색상값을 상기 텍스트 후보 색상 또는 상기 배경 후보 색상의 제2색상값 중에서 상기 제1색상값과 유사한 값으로 치환하여 상기 제1이미지의 색상 변환을 수행할 수 있다.

상기 복수의 색상은, 상기 텍스트 후보 색상 또는 상기 배경 후보 색상의 색상값이 서로 다른 복수의 색상 그룹 중 어느 한 그룹의 색상일 수 있다.

상기 프로세서는, 상기 복수의 색상 그룹 중에서 상기 제1이미지에 포함된 텍스트에 대응하는 색상값을 가지는 상기 텍스트 후보 색상을 포함하는 색상 그룹을 선택할 수 있다.

상기 프로세서는, 상기 복수의 색상 그룹 중에서 상기 제1이미지에 포함된 배경에 대응하는 색상값을 가지는 상기 배경 후보 색상을 포함하는 색상 그룹을 선택할 수 있다.

상기 프로세서는, 상기 제1이미지를 표시하는 타겟의 디스플레이 특성 또는 상기 타겟의 주변 환경 중 적어도 하나에 기초하여 상기 색상 그룹을 선택할 수 있다.

본 발명의 일 실시예에 따른 전자장치에 있어서, 사용자입력부를 더 포함하고, 상기 프로세서는, 상기 사용자입력부를 통해 상기 제1이미지에 대응하는 상기 텍스트에 대응되는 일 영역을 선택하는 사용자입력을 수신할 수 있다.

상기 프로세서는, 상기 선택된 일 영역에 포함된 텍스트의 크기에 기초하여 상기 일 영역의 크기를 설정할 수 있다.

상기 프로세서는, 상기 획득된 제2이미지에 필터링을 수행하여 제3이미지를 획득하고, 상기 제3이미지 내의 픽셀을 확대하는 제1동작 또는 인접한 2이상의 픽셀을 서로 연결하는 제2동작 중 적어도 하나를 수행하여, 상기 제1이미지에 포함된 텍스트의 인식 결과를 획득할 수 있다.

본 발명의 일 실시예에 따라 카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치의 제어방법에 있어서, 카메라를 이용하여 촬상한 제1이미지를 수신하는 단계; 상기 제1이미지에 포함된 텍스트에 대응하는 텍스트 후보 색상을 포함하는 복수의 색상에 기초하여 상기 제1이미지의 색상 변환을 수행하여 제2이미지를 획득하는 단계; 상기 획득된 제2이미지에 기초하여 상기 제1이미지에 포함된 텍스트의 인식 결과를 획득하는 단계; 및 상기 획득한 인식 결과를 디스플레이에 표시하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 이미지에 포함된 텍스트를 인식할 때, 색상 변환을 이용함으로써 보다 쉽게 문자 인식을 할 수 있는 상태로 이미지를 변환하여 텍스트 인식의 신뢰성을 높일 수 있다.

본 발명의 일 실시예에 따르면, 색상 변환을 통해 이미지에 포함된 색상을 단순화 시키고, 텍스트와 배경의 구별을 선명하게 할 수 있으므로 텍스트 인식이 용이하게 이루어질 수 있다.

본 발명의 일 실시예에 따르면, 텍스트의 노이즈 보정을 통해 텍스트가 선명해짐에 따라 텍스트를 인식하는 시간이 단축될 수 있고, 인식이 불가능한 부분이 가능해지고 정확도 또한 증가할 수 있다.

도 1은 본 발명의 일 실시예에 의한 전체 시스템 및 전자장치의 구성을 표시한 블럭도를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 이미지에 따른 색상 그룹을 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 전자장치의 이미지 색상 변환의 원리 및 그 예를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 이미지 색상 변환 및 필터링 모습을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 일 영역을 지정하는 사용자입력을 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 노이즈 보정을 수행하는 모습을 도시한 도면이다.

이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.

도 1은 본 발명의 일 실시예에 의한 전체 시스템 및 전자장치의 구성을 표시한 블럭도를 도시한 도면이다.

도 1은 본 발명의 일 실시예에 따른 전자장치(100), 타겟(200), 서버(300)로 이루어지는 전체 시스템을 도시한다. 전자장치(100)는 타겟(200)으로부터 이미지를 촬상하거나, 촬상된 이미지를 획득하여 서버(300)와의 통신을 이용하여 이미지에 포함된 텍스트를 인식할 수 있다.

전자장치(100)는 영상을 표시할 수 있는 디스플레이장치로 구현될 수 있다. 일 예로, 전자장치(100)는 스마트 폰, 컴퓨터, 태블릿, 휴대용 미디어 플레이어, TV, 웨어러블 디바이스 등을 포함할 수 있다. 타겟(200)은 전자장치로서 외부장치에 해당할 수 있으나, 문자 인식을 위한 텍스트를 포함하는 이미지를 제공할 수 있는 어떤 것이든 가능할 수 있다. 예컨대, 컴퓨터, 스마트 폰 등 전자장치 이외에도 인식하고자 하는 텍스트를 포함하는 문서, 사진 등이 가능할 수 있다.

본 발명의 일 실시예에 따른 전자장치(100)는, 도 1에 도시된 바와 같이, 인터페이스부(110), 디스플레이부(120), 사용자입력부(130), 저장부(140), 카메라(150), 마이크로폰(160), 스피커(170), 프로세서(180)를 포함한다. 전자장치(100)에 포함되는 구성은 일부 구성을 제외 또는 변경하여 구성되거나, 추가적으로 다른 구성들을 포함하여 구현될 수 있다.

인터페이스부(110)는 유선 인터페이스부(111)와 무선 인터페이스부(112)를 포함한다. 인터페이스부(110)는 서버(300)와의 통신을 통해 전자장치(100)가 획득한 이미지에 포함된 텍스트의 인식을 위한 데이터 송/수신을 수행할 수 있다.

유선 인터페이스부(111)는 USB 포트 등과 같은 범용 데이터 전송규격에 따른 커넥터 또는 포트, HDMI 포트 등과 같은 비디오 및/또는 오디오 전송규격에 따른 커넥터 또는 포트 등을 포함할 수 있다.

무선 인터페이스부(112)는 전자장치(100)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 예를 들면, 무선 인터페이스부(112)는 통신방식으로 RF(radio frequency), 블루투스(bluetooth), 와이파이(Wi-Fi), 등 무선통신을 사용할 수 있다. 무선 인터페이스부(112)는 네트워크 상의 서버(300)와 무선 통신함으로써, 서버(300)와의 사이에 데이터 패킷을 송수신할 수 있다.

디스플레이부(120)는 화면 상에 영상을 표시할 수 있는 LCD 등으로 구현될 수 있으며, 타겟(200)을 촬상한 이미지 등을 디스플레이 할 수 있다.

사용자입력부(130)는 전자장치(100)의 종류에 따라서 여러 가지 형태의 구성이 가능하며, 예컨대, 전자장치(100)의 기계적 또는 전자적 버튼부, 전자장치(100)의 디스플레이부(120)에 설치된 터치스크린 등이 있다.

저장부(140)는 디지털화된 데이터를 저장한다. 저장부(140)는 전원의 제공 유무와 무관하게 데이터를 보존할 수 있는 플래시메모리(flash-memory)와 같은 비휘발성 속성의 스토리지(storage)와, 프로세서(180)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 버퍼(buffer)등의 휘발성 속성의 메모리(memory)를 포함한다.

카메라(150)는 인식하고자 하는 텍스트를 포함하는 이미지를 촬상한다. 카메라(150)는 촬상된 이미지를 프로세서(180)에 전달한다.

마이크로폰(160)은 사용자 음성을 비롯한 외부 환경의 소리를 수집한다. 마이크로폰(160)은 수집된 소리의 신호를 프로세서(180)에 전달한다.

스피커(170)는 프로세서(180)에 의해 처리되는 오디오 데이터를 소리로 출력할 수 있다.

전자장치(100)는 프로세서(180)를 포함할 수 있다. 프로세서(180)는 인쇄회로기판 상에 장착되는 CPU, 칩셋, 버퍼, 회로 등으로 구현되는 하나 이상의 하드웨어 프로세서를 포함할 수 있다.

프로세서(180)는 이미지에 포함된 텍스트에 대응하는 텍스트 후보 색상을 포함하는 복수의 색상을 식별하고, 이에 기초하여 이미지의 색상 변환을 수행하고, 색상 변환된 이미지에 포함된 텍스트를 인식하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다.

일 예로, 본 발명에 따른 전자장치(100)의 제어방법은 컴퓨터 프로그램 제품 (Computer Program Product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은, 앞서 설명한, 프로세서(180)에 의해 실행되는 소프트웨어의 명령어들을 포함할 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예컨대, CD-ROM)의 형태로 배포되거나, 또는 어플리케이션 스토어(예컨대, 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예컨대, 스마트폰들) 간에 직접, 온라인으로 배포(예컨대, 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

도 2는 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.

프로세서(180)는 카메라를 이용하여 촬상한 제1이미지를 수신할 수 있다(S210). 이 때, 전자장치(100)는 전자장치(100)에 내장된 카메라(150)를 이용하여 촬상한 제1이미지를 수신(획득)하거나, 외장형 혹은 외부장치 장착형 카메라를 이용하여 촬상한 제1이미지를 인터페이스부(110)를 통해 수신할 수 있으며, 어느 하나에 한정된 것은 아니다. 또한, 본 발명의 일 실시예에 따른 제1이미지는 타겟(200)에 표시된 화면을 촬상하거나, 타겟(200)이 전자장치가 아닌 경우, 타겟(200) 자체를 촬상하여 획득된 이미지일 수 있으며, 어느 하나에 한정된 것은 아니다.

프로세서(180)는 제1이미지에 포함된 텍스트에 대응하는 텍스트 후보 색상을 포함하는 복수의 색상에 기초하여 제1이미지의 색상 변환을 수행하여 제2이미지를 획득할 수 있다(S220). 본 발명의 일 실시예에 따르면, 제1이미지는 텍스트와 배경으로 이루어질 수 있다. 이 때, 타겟(200)의 화면에 표시된 이미지의 색상과 촬상된 제1이미지의 색상은 디스플레이 특성이나 전자장치(100) 혹은 타겟(200)의 주변 환경 특성상 항상 동일하다고 보기 어렵다. 이를 고려하여, 촬상된 제1이미지에서 텍스트를 보다 신뢰성 있게 인식하기 위하여, 제1이미지에 포함된 복수의 색상으로 이루어진 색상 그룹을 정할 수 있다. 따라서, 색상 그룹의 복수의 색상은 텍스트 후보 색상과 배경 후보 색상을 포함할 수 있다. 이 때, 색상을 표현하는 방법으로는 헥스 코드, RGB 표현법, HSV 표현법 등이 있는데, 헥스 코드는 색상을 #과 뒤에 붙는 여섯 자리의 16진수로 나타낸 것이다. 따라서 헥스 코드로 나타낼 수 있는 색상의 수는 총 16,777,216가지이다. 숫자는 두 자리씩 끊어서 각각 R(Red), G(Green), B(Blue)를 나타내며, 16진수로 표현되어 각 색상별로 고유한 색상값을 가질 수 있다. 예컨대, 가장 어두운 색인 검정색은 색상값 #000000을 가지고, 가장 밝은 색인 흰색은 색상값 #FFFFFF을 가진다.

색상 변환은 이미지 열화(degradation)를 위한 작업의 일환으로써, 프로세서(180)는 제1이미지에 포함된 색상 중 우선순위가 높은 순으로 색상을 추려낼 수 있다. 예컨대, 프로세서(180)는 제1이미지에 포함된 색상 중 검정색, 흰색, 텍스트 후보 색상, 배경 후보 색상을 포함하여 우선순위가 높은 10개의 색상으로 색상 그룹을 구성할 수 있다. 이 때, 우선순위는 제1이미지에 포함된 색상 중 많은 비율을 차지하는 기준일 수 있으나, 사용자가 직접 색상을 선택할 수도 있으며, 그 기준은 어느 하나에 한정된 것은 아니다. 또한, 색상 그룹을 구성하는 색상은 많을수록 텍스트 인식의 정확도가 증가할 수 있으나, 작업시간 또한 증가하는 측면이 있는 바, 대상에 따라 달리 적용이 가능할 것이다. 보다 자세한 색상 변환 과정은 후술한다.

따라서, 프로세서(180)는 제1이미지를 색상 그룹을 이용하여 색상 변환을 수행하여 제2이미지를 획득할 수 있다.

프로세서(180)는 획득된 제2이미지에 기초하여 제1이미지에 포함된 텍스트의 인식 결과를 획득할 수 있다(S230). 프로세서(180)는 획득한 인식 결과를 디스플레이에 표시할 수 있다. 본 발명의 일 실시예에 따르면, 프로세서(180)는 획득한 인식 결과를 이용하여 목적에 맞게 처리할 수 있다. 예컨대, 텍스트를 인식한 것이 획득한 텍스트로 웹 브라우저 등을 이용하여 검색하기 위한 것일 수 있다. 이 때, 프로세서(180)는 사용자입력부(130)를 통한 사용자입력에 기초하여 혹은 사용자입력 없이 검색을 수행할 수 있다.

본 발명의 일 실시예에 따르면, 이미지에 포함된 텍스트를 인식할 때, 텍스트 후보 색상이 주변 색상들과 구별될 수 있도록 색상 변환함으로써 보다 쉽게 문자 인식을 할 수 있는 상태로 이미지를 변환하여 텍스트 인식의 신뢰성을 높일 수 있다.

도 3은 본 발명의 일 실시예에 따른 이미지에 따른 색상 그룹을 도시한 도면이다. 도 3은 타겟(200)이 표시하는 동일한 화면을 여러 번 촬상하여 획득한 복수의 이미지(310)와 각 이미지에 포함된 색상들로 이루어진 색상 그룹(색상 그룹 1, 색상 그룹 2, 색상 그룹 3)을 도시하고 있다.

제1이미지는 제1이미지를 표시하는 타겟(200)의 디스플레이의 종류 등 특성 또는 촬영 장소의 밝기 수준 등 타겟(200)의 주변 환경에 따라 도 3에 도시된 복수의 이미지(310)와 같이 다르게 보일 수 있으므로, 신뢰성 있는 결과를 위해 다양한 샘플을 획득할 수 있다.

색상 그룹은 각 획득된 제1이미지의 텍스트와 배경에 대응하는 색상들로 지정되어 저장부(140)에 저장될 수 있다. 다만, 색상 그룹은 획득한 이미지에 기초하여 정해질 뿐만 아니라, 사용자의 선택에 따라 정해질 수도 있는 등 이를 정하는 기준은 어느 하나에 한정되지 않는다. 또한, 저장된 색상 그룹은 보다 정확한 색상으로 업데이트 되거나 새로운 이미지에 기초한 색상 그룹이 추가될 수 있다. 본 발명의 일 실시예에 따르면, 제1이미지에 대응하는 복수의 색상은 텍스트 후보 색상 또는 배경 후보 색상의 색상값이 서로 다른 복수의 색상 그룹 중 어느 한 그룹의 색상일 수 있다.

도 3에 도시된 바에 따르면, 색상 그룹에 포함된 색상은 텍스트 후보 색상(320)과 배경 후보 색상(330)으로 나뉠 수 있고, 배경 후보 색상(330)은 주 배경 색상, 텍스트 후보 색상(320)과 유사한 색상값을 가지는 색상, 기타 색상으로 나뉘어질 수 있다. 예컨대, 색상 그룹 1을 기준으로 주 배경 색상은 0E465E, 3E9599이고, 텍스트 후보 색상(320)과 유사한 색상값을 가지는 색상은 B2B2B2이고, 이들과 텍스트 후보 색상(320)을 제외한 나머지가 기타 색상일 수 있다.

본 발명에 따르면, 저장된 색상 그룹을 이용하는 방법은 다양하게 존재할 수 있다. 먼저 프로세서(180)는 하나의 색상 그룹을 고정해두고, 이를 그대로 동작 중에 이용할 수 있다. 이는, 이미지에 포함된 색상이 고정되고, 그 이미지에 포함된 텍스트를 인식하는 경우에 적용할 수 있다. 예컨대, 타겟(200)이 컴퓨터이고, 해당 컴퓨터로 게임을 실행한다고 가정해본다. 게임 내 특정 화면에 포함된 텍스트를 인식하는 것이 필요한 경우, 게임 내 특정 화면은 색상이 고정되어 있을 가능성이 높다. 따라서, 텍스트의 인식이 요구되는 게임 내 특정 화면의 모습을 다양한 환경에서 촬상한 후, 촬상된 이미지에서 텍스트와 배경에 대응하는 색상으로 구성된 색상 그룹을 지정할 수 있다.

추후, 프로세서(180)는 해당 화면을 촬상한 이미지를 수신한 경우, 저장된 색상 그룹을 그대로 동작 중에 이용할 수 있다. 따라서, 저장된 색상 그룹을 이용한 색상 변환을 통해 신속하고, 정확한 텍스트 인식이 이루어질 수 있다.

다른 실시예로서, 프로세서(180)는 촬상된 제1이미지를 수신하는 경우, 저장된 복수의 색상 그룹 중 수신한 제1이미지와 유사한 색상 그룹을 선택할 수 있다. 이 경우, 프로세서(180)는 제1이미지의 텍스트 색상에 관한 정보에 기초하여 텍스트 색상에 대응하는 색상 그룹을 선택할 수 있다. 제1이미지의 텍스트 색상에 관한 정보는 프로세서(180)가 제1이미지를 분석하여 획득할 수 있고, 사용자로부터 정보를 입력 받거나, 외부장치로부터 정보를 수신하는 등 다양하게 획득 가능할 것이다.

또한, 프로세서(180)는 제1이미지를 수신하고, 텍스트의 인식을 용이하게 하기 위한 색상 변환을 하는 과정에서 텍스트 후보 색상에 관한 정보를 수신하여 색상 그룹을 정할 수 있다. 예컨대, 프로세서(180)는 사용자입력부(130)를 통해 텍스트 후보 색상 등을 지정하는 사용자입력을 수신할 수 있다. 자세한 사항은 도 6에서 후술한다.

다양한 방법을 통해 색상 그룹을 지정하여, 상황에 맞게 수신한 이미지에 대응하는 색상 그룹을 통해 신속하고 정확하게 텍스트 인식을 위한 색상 변환을 수행할 수 있다.

도 4는 본 발명의 실시예에 따른 전자장치의 이미지 색상 변환의 원리 및 그 예를 도시한 도면이다.

도 4는 프로세서(180)가 제1이미지를 색상 변환하는 원리를 도시한다. 이미지는 수많은 픽셀들로 이루어져 있고, 각 픽셀 별로 서로 다른 색상값을 가지게 된다. 예컨대, 도 4에 도시된 RGB 큐브 모델(410)과 같이 하나의 색상은 삼원색(RGB)을 기준선으로 하는 삼차원 직교 좌표계의 한 점으로 나타낼 수 있다. 프로세서(180)는 제1이미지의 각 픽셀의 제1색상값을 식별하고, 식별된 제1색상값을 텍스트 후보 색상 또는 배경 후보 색상의 제2색상값 중에서 제1색상값과 유사한 색상값으로 치환하여 제1이미지의 색상 변환을 수행할 수 있다.

유사한 색상값이란, 각 픽셀의 R, G, B 값과 색상 그룹을 구성하고 있는 색상의 R, G, B 값을 각각 3차원 평면상의 x, y, z값으로 변환하여 거리가 가까운 값을 유사한 색상값이라고 볼 수 있다. 예컨대, 도 4에 도시된 삼차원 직교 좌표계(420)에서 제1이미지의 한 픽셀의 색상값이 P(p1, p2, p3)라고 가정해본다. 그리고 프로세서(180)는 제1이미지의 색상 그룹에서 P와 가장 가까운 거리에 있는 색상값이 Q(q1, q2, q3)인 것을 식별하고, 그 픽셀을 Q 색상값을 가지는 색상으로 치환할 수 있다. 색상값 간의 거리를 계산하는 방법은, 두 좌표 간 거리를 계산하는 방법으로써 다음과 같은 수식을 이용할 수 있다.

[수식 1]

따라서, 위와 같은 방법으로 색상 변환 전의 이미지(430)와 색상 변환 후의 이미지(440)를 도시하고 있다. 프로세서(180)는 선택된 일 영역에 포함된 텍스트의 크기에 기초하여 일 영역의 크기를 설정할 수 있다. 따라서, 이미지 변환 작업은 전체 이미지에서 필요한 영역, 예컨대, 텍스트 영역만 선택한 후 축소시켜 사용할 수 있다. 이미지가 작을수록 빠른 연산이 가능하나, 텍스트의 폭(450)이 도 4의 이미지(430)에 도시된 바와 같이, 6 픽셀 이상은 되어야 정확한 텍스트 인식이 가능할 것이다.

본 발명의 일 실시예에 따르면, 색상 변환을 통해 제1이미지에 포함된 색상을 단순화 시키고, 텍스트와 배경의 구별을 선명하게 할 수 있으므로 텍스트 인식이 용이하게 이루어질 수 있다.

도 5는 본 발명의 일 실시예에 따른 이미지 색상 변환 및 필터링 모습을 도시한 도면이다.

도 5는 타겟(200)의 화면을 촬상한 제1이미지(510), 제1이미지(510)를 색상 변환한 제2이미지(520) 및 제2이미지에 필터링을 수행하여 획득한 제3이미지(530)를 도시하고 있다.

프로세서(180)는 앞서 설명한 바와 같이, 이미지 열화를 위해 제1이미지(510)를 색상 변환하여 제2이미지(520)를 획득할 수 있다. 이 때, 색상 변환을 위한 색상 그룹은 수신한 제1이미지의 샘플을 미리 획득하여 정한 복수의 색상 그룹 중 하나를 선택할 수도 있고, 수신한 제1이미지에 포함된 색상을 바로 식별하여 정할 수도 있으며, 어느 하나에 한정된 것은 아니다.

그리고, 프로세서(180)는 획득된 제2이미지(520)에 필터링을 수행하여 제3이미지(530)를 획득할 수 있다. 이 때, 필터링은 텍스트를 문자 인식 라이브러리에서 빠르고 정확하게 인식할 수 있도록 흰 배경에 검은색 텍스트로 변환하는 흑백 필터링일 수 있으나, 어느 하나에 한정되는 것은 아니다.

만약 프로세서(180)가 색상 변환을 하지 않고 제1이미지(510)에 필터링을 바로 수행하는 경우, 도 5의 왼쪽 아래 이미지(540)를 획득하게 된다. 이미지(540)에 나타난 것처럼 인식 대상이 되는 텍스트 주변에 텍스트와 비슷한 색상의 픽셀이 존재 할 경우, 인식 결과의 정확성이 떨어질 수 있다. 따라서, 프로세서(180)는 인식의 대상이 되는 텍스트와 주변 픽셀을 별도의 색상으로 색상 그룹을 구성하여 색상 변환을 수행할 수 있다. 이렇게 색상 변환 후 흑백 필터링을 적용한 제3이미지(530)와 비교해 보면, 텍스트 색상과 유사한 색상의 배경이 흑백 필터링 시 제거되어 텍스트 부분만 남아있게 되고 텍스트 인식의 정확도가 증가한다.

도 6은 본 발명의 일 실시예에 따른 일 영역을 지정하는 사용자입력을 도시한 도면이다.

프로세서(180)는 인식하고자 하는 텍스트가 위치하고 있는 영역을 쉽게 추출하기 위해 촬영 가이드 UI를 디스플레이에 표시하고, 촬상된 이미지 내 해당 영역에 위치하고 있는 텍스트의 크기와 좌표를 이용하여 필터링을 할 수 있다. 이 외에도, 도 6에서와 같이 전자장치(100)는 사용자입력부(130)를 더 포함하고, 프로세서(180)는, 사용자입력부(130)를 통해 제1이미지(610)의 텍스트에 대응되는 일 영역(620)을 지정하는 사용자입력을 수신할 수 있다. 이는 도 3에서 설명한 바와 같이 텍스트에 대응되는 일 영역(620)에 관한 정보는 색상 그룹을 지정할 때 필요한 텍스트 색상에 관한 정보가 될 수 있다.

본 발명의 일 실시예를 따르면, 사용자는 촬상된 제1이미지에서도 인식하고자 하는 텍스트에 대응되는 일 영역을 지정함으로써 프로세서(180)는 지정된 일 영역을 기준으로 색상 변환 및 텍스트 인식을 수행할 수 있다. 따라서, 신속하고 더 정확한 텍스트 인식 결과를 획득할 수 있을 것이다.

도 7은 본 발명의 일 실시예에 따른 노이즈 보정을 수행하는 모습을 도시한 도면이다.

촬상된 이미지의 경우, 노이즈가 발생할 수 있으므로 보다 나은 텍스트 인식을 위한 보정 작업이 필요할 수 있다. 따라서, 프로세서(180)는 동일한 색상값을 가지는 연속된 픽셀과 유사한 색상값을 참고하여 보정 작업을 진행한다.

프로세서(180)는 필터링을 거친 제3이미지 내의 픽셀을 확대하는 제1동작 또는 인접한 2이상의 픽셀을 서로 연결하는 제2동작 중 적어도 하나를 수행하여, 제1이미지에 포함된 텍스트의 인식 결과를 획득할 수 있다.

예컨대, 모니터를 촬상하여 이미지를 획득한 경우, 모니터 특성상 촬상된 이미지에는 가로 혹은 세로 방향으로 결이 생길 수 있다. 따라서, 도 7에 도시된 바와 같이 이를 확대할 경우, 확대된 영역(710)은 빈 틈이 존재하는 것을 확인할 수 있다. 따라서, 프로세서(180)는 확대된 영역(710)에서 인접한 2 이상의 픽셀을 서로 연결하여 빈 틈을 메울 수 있다. 도 7에서 빈 틈을 메우게 된 영역(720, 730)을 확인할 수 있다.

본 발명의 일 실시예에 따르면, 텍스트의 빈 틈을 메워 텍스트가 선명해짐에 따라 텍스트를 인식하는 시간이 단축될 수 있고, 인식이 불가능한 부분이 가능해지고 정확도 또한 증가할 수 있다.

100: 전자장치
110: 인터페이스부
120: 디스플레이부
130: 사용자입력부
140: 저장부
150: 카메라
160: 마이크로폰
170: 스피커
180: 프로세서

Claims

카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치에 있어서,
인터페이스부; 및
카메라를 이용하여 촬상한 제1이미지를 수신하고,
상기 제1이미지에 포함된 텍스트에 대응하는 텍스트 후보 색상을 포함하는 복수의 색상에 기초하여 상기 제1이미지의 색상 변환을 수행하여 제2이미지를 획득하고,
상기 획득된 제2이미지에 기초하여 상기 제1이미지에 포함된 텍스트의 인식 결과를 획득하고,
상기 획득한 인식 결과를 디스플레이에 표시하는,
프로세서를 포함하는 전자장치.
제1항에 있어서,
상기 복수의 색상은 상기 텍스트 후보 색상과 다른 색상값을 가지는 배경 후보 색상을 포함하는 전자장치.
제2항에 있어서,
상기 프로세서는,
상기 제1이미지의 각 픽셀의 제1색상값을 식별하고,
상기 식별된 제1색상값을 상기 텍스트 후보 색상 또는 상기 배경 후보 색상의 제2색상값 중에서 상기 제1색상값과 유사한 값으로 치환하여 상기 제1이미지의 색상 변환을 수행하는 전자장치.
제1항에 있어서,
상기 복수의 색상은, 상기 텍스트 후보 색상 또는 상기 배경 후보 색상의 색상값이 서로 다른 복수의 색상 그룹 중 어느 한 그룹의 색상인 전자장치.
제4항에 있어서,
상기 프로세서는,
상기 복수의 색상 그룹 중에서 상기 제1이미지에 포함된 텍스트에 대응하는 색상값을 가지는 상기 텍스트 후보 색상을 포함하는 색상 그룹을 선택하는 전자장치.
제4항에 있어서,
상기 프로세서는,
상기 복수의 색상 그룹 중에서 상기 제1이미지에 포함된 배경에 대응하는 색상값을 가지는 상기 배경 후보 색상을 포함하는 색상 그룹을 선택하는 전자장치.
제4항에 있어서,
상기 프로세서는,
상기 제1이미지를 표시하는 타겟의 디스플레이 특성 또는 상기 타겟의 주변 환경 중 적어도 하나에 기초하여 상기 색상 그룹을 선택하는 전자장치.
제1항에 있어서,
사용자입력부를 더 포함하고,
상기 프로세서는, 상기 사용자입력부를 통해 상기 제1이미지에 대응하는 상기 텍스트에 대응되는 일 영역을 선택하는 사용자입력을 수신하는 전자장치.
제8항에 있어서,
상기 프로세서는,
상기 선택된 일 영역에 포함된 텍스트의 크기에 기초하여 상기 일 영역의 크기를 설정하는 전자장치.
제1항에 있어서,
상기 프로세서는,
상기 획득된 제2이미지에 필터링을 수행하여 제3이미지를 획득하고,
상기 제3이미지 내의 픽셀을 확대하는 제1동작 또는 인접한 2이상의 픽셀을 서로 연결하는 제2동작 중 적어도 하나를 수행하여, 상기 제1이미지에 포함된 텍스트의 인식 결과를 획득하는 전자장치.
카메라를 이용하여 촬상한 이미지에 포함된 텍스트의 인식이 가능한 전자장치의 제어방법에 있어서,
카메라를 이용하여 촬상한 제1이미지를 수신하는 단계;
상기 제1이미지에 포함된 텍스트에 대응하는 텍스트 후보 색상을 포함하는 복수의 색상에 기초하여 상기 제1이미지의 색상 변환을 수행하여 제2이미지를 획득하는 단계;
상기 획득된 제2이미지에 기초하여 상기 제1이미지에 포함된 텍스트의 인식 결과를 획득하는 단계; 및
상기 획득한 인식 결과를 디스플레이에 표시하는 단계를 포함하는 전자장치의 제어방법.