KR20150059989A - 문서 인식 방법 및 장치 - Google Patents

문서 인식 방법 및 장치 Download PDF

Info

Publication number
KR20150059989A
KR20150059989A KR1020130143821A KR20130143821A KR20150059989A KR 20150059989 A KR20150059989 A KR 20150059989A KR 1020130143821 A KR1020130143821 A KR 1020130143821A KR 20130143821 A KR20130143821 A KR 20130143821A KR 20150059989 A KR20150059989 A KR 20150059989A
Authority
KR
South Korea
Prior art keywords
document
image
text
images
control unit
Prior art date
Application number
KR1020130143821A
Other languages
English (en)
Inventor
김희진
김경화
김선화
최조아
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130143821A priority Critical patent/KR20150059989A/ko
Priority to US14/553,695 priority patent/US20150146265A1/en
Publication of KR20150059989A publication Critical patent/KR20150059989A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 개시의 다양한 실시예에 따르면, 다수의 문서를 인식하는 방법에 있어서, 다수의 문서 이미지를 포함하는 프리뷰 영상을 캡쳐하는 과정; 상기 캡쳐 영상 내에 포함된 문서 이미지들의 테두리를 기준으로 여백을 잘라내는 과정; 상기 잘라낸 여백에 따라 분리된 문서 이미지들을 지정된 기준 문서 이미지의 속성값으로 편집하는 과정; 및 상기 편집된 문서 이미지들 각각에 대응하는 문서 파일을 생성하는 을 포함할 수 있다.

Description

문서 인식 방법 및 장치{Apparatus and Method for recognition a documentation with text and image}
본 개시는 복수 개의 문서를 인식할 수 있는 문서 인식 방법 및 장치에 관한 것이다.
일반적으로 문서 입력은 사용자가 키보드 또는 키 패드를 통해 직접 입력하게 되므로 많은 양의 문서를 빠르게 전자 장치에 입력하기가 어렵다. 정보 처리에 대한 발전으로 전자 장치에 많은 양의 문서를 저장할 필요성이 증가함에 따라 입력 작업의 자동화에 대한 요구가 증대되고 있다.
이에 따라, 문서에 포함된 텍스트나 이미지를 자동으로 인식하여 전자 장치의 파일로 저장하고, 저장된 문서를 이용하여 사용자의 목적에 맞게 편집하여 출력할 수 있는 문서 인식 방법이 제안되고 있다.
한편, 문서인식 방법은 여러 장의 문서를 한번에 스캔(scan)할 경우, 하나의 이미지로 저장이 되는 단점이 존재한다. 이 경우, 사용자가 하나의 이미지에 포함된 여러 장의 문서를 별도로 편집해야 하는 과정이 필요하다.
본 개시의 다양한 실시예는 여러 장의 문서를 한번에 스캔할 경우, 각각의 문서를 별개의 문서 파일로 저장할 수 있는 문서 인식 방법 및 장치를 제공하는 데 그 목적이 있다.
본 개시의 다양한 실시예는 스캔 이미지 내에 포함된 문서의 크기 및 종횡비를 동일하게 자동으로 편집할 수 있는 문서 인식 방법 및 장치를 제공하는 데 그 목적이 있다.
본 개시의 다양한 실시예는 인식된 문서에 포함된 손 글씨체의 속성값을 유지할 수 있는 문서 인식 방법 및 장치를 제공하는 데 그 목적이 있다.
본 개시의 다양한 실시예에 따른 문서 인식 방법은, 다수의 문서를 인식하는 방법에 있어서, 다수의 문서 이미지를 포함하는 프리뷰 영상을 캡쳐하는 과정; 상기 캡쳐 영상 내에 포함된 문서 이미지들의 테두리를 기준으로 여백을 잘라내는 과정; 상기 잘라낸 여백에 따라 분리된 문서 이미지들을 지정된 기준 문서 이미지의 속성값으로 편집하는 과정; 및 상기 편집된 문서 이미지들 각각에 대응하는 문서 파일을 생성하는 과정을 포함할 수 있다.
본 개시의 다양한 실시예에 따른 문서 인식 장치는, 다수의 문서 이미지를 포함하는 프리뷰 영상을 수집하는 카메라부; 상기 프리뷰 영상 및 캡쳐 영상을 표시하는 표시부; 및 상기 프리뷰 영상을 캡쳐하고, 상기 캡쳐 영상 내에 포함된 문서 이미지들의 테두리를 기준으로 여백을 잘라내고, 상기 잘라낸 여백에 따라 분리된 문서 이미지들의 종횡비 및 크기 중 적어도 하나를 지정된 기준 문서 이미지의 속성값으로 편집하고, 상기 편집된 문서 이미지들 각각에 대응하는 문서 파일을 생성하도록 제어하는 제어부를 포함할 수 있다.
본 개시의 다양한 실시예에 따른 문서 인식 방법 및 장치는 크기가 서로 다른 여러 장의 문서를 한번에 인식하고, 인식된 문서 중 기준 문서를 설정함으로써, 기준 문서의 속성값으로 여러 장의 문서를 동일한 크기 및 종횡 비율을 갖도록 편집하고, 여러 장의 문서를 각각 별개의 문서 파일로 저장할 수 있다.
또한, 본 개시의 다양한 실시예에 따른 문서 인식 방법 및 장치는 인식된 문서 내에 이미지와 텍스트를 분류하여 별개의 인식 과정으로 처리할 수 있다. 또한, 본 개시의 다양한 실시예에 따른 문서 인식 방법 및 장치는 문서 내에 포함된 수기 입력된 텍스트를 인식하여 편집 가능한 형태로 저장 및 공유함으로써, 사용자 편의성 및 사용성을 증대시킬 수 있다.
도 1은 본 개시의 다양한 실시예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 2는 본 개시의 다양한 실시예에 따른 문서 인식 방법을 도시한 흐름도이다.
도 3은 본 개시의 다양한 실시예에 따른 문서 인식 방법을 도시한 흐름도이다.
도 4는 본 개시의 다양한 실시예에 따른 문서 인식 화면 예시도이다.
도 5는 본 개시의 다양한 실시예에 따른 프리뷰 영상 화면의 예시도이다
도 6은 본 개시의 다양한 실시예에 따른 기준 문서 설정 화면의 예시도들이다.
도 7은 본 개시의 다양한 실시예에 따른 문서 스캔 화면 예시도들이다.
도 8은 본 개시의 다양한 실시예에 따른 문서 내의 여백을 잘라낸 화면 예시도이다.
도 9는 본 개시의 다양한 실시예에 따른 인식된 문서들의 편집 화면 예시도들이다.
도 10은 본 개시의 다양한 실시예에 따른 텍스트 인식 화면의 예시도들이다.
도 11은 본 개시의 다양한 실시예에 따른 텍스트 및 이미지 인식 화면 예시도들이다.
이하, 첨부된 도면들을 참조하여 다양한 실시예들을 상세히 설명한다. 이때, 첨부된 도면들에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의해야 한다. 또한 본 개시의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 하기의 설명에서는 본 개시의 다양한 실시 예들에 따른 동작을 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 개시의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
본 개시의 다양한 실시예에 따른 전자 장치는 통신 기능 및 촬영 기능(또는 스캔 기능)이 포함된 장치일 수 있다. 예를 들면, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), 전자 앱세서리(appcessory), 카메라(camera), 웨어러블 장치(wearable device), 전자 시계(electronic clock), 손목 시계(wrist watch), 스마트 가전(smart white appliance), 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 셋톱 박스(set-top box), 전자 사전, 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(electronic equipment for ship, 예를 들면, 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 전자 의복, 전자 키, 캠코더(camcorder), 게임 콘솔(game consoles), HMD(head-mounted display), 평판표시장치(flat panel display device), 전자 앨범, 통신 기능을 포함한 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device) 또는 프로젝터(projector) 등의 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 본 개시에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.
본 개시의 다양한 실시예에서 ‘문서’또는 ‘문서 이미지’는 전자 장치에서 전자적인 형태로 작성되어 송수신되거나 저장된 문서 형식의 자료를 의미하며, 동일한 의미로 해석될 수 있다.
도 1은 본 개시의 다양한 실시예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 개시의 다양한 실시예에 따른 전자 장치는 프리뷰 영상에 포함된 문서 이미지를 인식하는 기능, 문서 이미지 중 기준 문서를 선택하는 기능, 기준 문서의 속성값을 기준으로 인식된 문서 이미지의 종횡비 및 사이즈를 편집하는 기능, 인식된 문서 이미지 이외의 여백 또는 배경을 잘라내는 기능, 문서 이미지에 포함된 삽입이미지 및 텍스트를 인식하는 기능, 수기 입력체를 설정하는 기능, 및 인식된 문서 이미지 각각을 별개의 파일로 저장하는 기능을 지원할 수 있다.
한 실시예에 따른 전자 장치는 통신부(110), 제어부(120), 표시부(130), 입력부(140), 카메라부(150), 오디오 처리부(160) 및 저장부(170)를 포함할 수 있다.
통신부(110)는 제어부(120)의 제어 하에, 지원 가능한 이동 통신 네트워크와 통신 채널을 형성하여 음성 통신, 화상 통신 및 데이터 통신 중 적어도 하나를 수행하는 기능을 지원할 수 있다. 통신부(110)는 사용자의 통신 기능 요청 또는 설정된 스케줄 정보나 외부 요청 등에 따라 구동될 수 있다. 통신부는 무선 통신 모듈 또는 RF 모듈 중 적어도 하나를 포함할 수 있다. 무선 통신 모듈은, 예를 들면, WiFi, BT(bluetooth), GPS 또는 NFC(near field communication) 중 적어도 하나를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 무선 주파수를 이용하여 무선 통신 기능을 제공할 수 있다. 추가적으로 또는 대체적으로, 무선 통신 모듈은 하드웨어를 네트워크(예: Internet, LAN(local area network), WAN(wire area network), telecommunication network, cellular network, satellite network 또는 POTS(plain old telephone service) 등)와 연결시키기 위한 네트워크 인터페이스(예: LAN card) 또는 모뎀 등을 포함할 수 있다. RF 모듈은 데이터의 송수신, 예를 들면, RF 신호 또는 호출된 전자 신호의 송수신을 담당할 수 있다. RF 모듈은, 도시되지는 않았으나, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter) 또는 LNA(low noise amplifier) 등을 포함할 수 있다. 또한, RF 모듈은 무선통신에서 자유공간상의 전자파를 송수신하기 위한 부품, 예를 들면, 도체 또는 도선 등을 더 포함할 수 있다.
제어부(120)는 배터리에서 내부 구성들로의 전원 공급을 제어한다. 제어부(120)는 전원이 공급되면, 전자 장치의 부팅 과정을 제어하고, 사용자의 설정에 따라 기능 실행을 위해 프로그램 영역에 저장된 각종 응용 프로그램을 실행할 수 있다. 제어부(120)는 하나 이상의 어플리케이션 프로세서(AP: application processor) 또는 하나 이상의 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다.
한 실시예에 따른 제어부(120)는 인식부(121), 판단부(122), 편집부(123) 및 처리부(124)를 포함할 수 있다.
인식부(121)는 프리뷰 영상 또는 스캔 이미지에서 문서로 추정되는 문서 이미지를 검출하는 기능, 문서 이미지에 포함된 삽입이미지 및 텍스트 중 적어도 하나를 인식하는 기능을 수행할 수 있다.
판단부(122)는 프리뷰 영상 또는 스캔 이미지에 포함된 문서 이미지의 종횡비를 판단하고, 기 정해진 룰에 의해 프리뷰 영상 또는 스캔 이미지에 포함된 문서 이미지들 중 하나를 기준 문서로 선택하는 기능을 수행할 수 있다. 또한, 판단부(122)는 사용자 제어 입력 또는 기 정해진 룰에 의해 선택된 기준 문서의 속성값(예, 종횡비 및 크기값)을 저장할 수 있다.
편집부(123)는 스캔 이미지 내에 포함된 문서 이미지의 테두리를 인식하여 문서 이외의 여백 또는 배경을 잘라내기 하는 기능, 잘라진 문서 이미지의 종횡비 및 크기를 기준 문서의 속성값으로 편집하는 기능을 수행할 수 있다.
처리부(124)는 문서이미지 내에 포함된 삽입이미지와 텍스트를 분류하고, 분류된 삽입이미지 또는 텍스트를 각각 보정 및 편집되도록 처리하고, 문서 내에 포함된 텍스트의 글꼴 정보를 판별하여 디지털 데이터로 변환하는 기능을 수행할 수 있다.
표시부(130)는 영상 또는 데이터를 사용자에게 표시하는 기능을 수행할 수 있다. 표시부(130)는 표시 패널을 포함할 수 있다. 표시 패널에는, 예를 들어, LCD(Liquid-Crystal Display) 또는 AM-OLED(Active-Matrix Organic Light-Emitting Diode) 등이 이용될 수 있다. 이때, 표시부(130)는 표시 패널을 제어하는 컨트롤러를 더 포함할 수 있다. 표시 패널은, 예를 들면, 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 한편, 표시부(130)는 터치 패널과 결합되어 터치 스크린의 형태로 제공될 수 있다. 예를 들어, 터치 스크린은 표시 패널과 터치 패널이 적층 구조로 결합된 일체형의 모듈을 포함할 수 있다.
표시부(130)는 문서 인식 기능 실행이 실행되면, 제어부(120)로부터 카메라를 통해 수집되는 프리뷰 영상을 수신하고, 수신된 프리뷰 영상을 아날로그 신호로 변환하여 출력할 수 있다. 표시부(130)는 문서 인식 기능을 제어할 수 있는 메뉴 항목들을 프리뷰 영상에 오버랩하여 표시할 수 있다. 프리뷰 영상은 고해상도의 로우 데이터가 화면의 크기에 맞게 저해상도로 줄어들어 표시부(130)에 출력되는 이미지일 수 있다. 여기서, 로우 데이터는 카메라부(150)에서 생성하여 가공되지 않은 디지털 형태의 이미지를 의미한다.
또한, 표시부(130)는 제어부의 제어 하에, 사용자 입력 제어에 응답하여 프리뷰 영상을 캡쳐하고, 캡쳐된 스캔이미지를 출력할 수 있다. 스캔 이미지는 프리뷰 영상을 중 캡쳐된 이미지를 고해상도로 가공 처리된 디지털 형태의 정지 이미지를 의미한다.
입력부(140)는 사용자 설정 및 단말기의 기능 제어와 관련된 신호를 생성하여 제어부(120)로 전달할 수 있다. 제어부(120)는 이러한 키 신호에 응답하여 해당 입력 신호에 따른 기능들을 제어할 수 있다. 입력부(140)는 터치 패널, 펜 센서 및 키를 포함할 수 있다. 터치 패널은, 예를 들면, 정전식, 감압식, 적외선 방식 또는 초음파 방식 중 적어도 하나의 방식으로 사용자에 의한 터치 입력을 인식할 수 있다. 터치 패널은 컨트롤러(미도시)를 더 포함할 수도 있다. 한편, 정전식의 경우에는 직접 터치 외에 근접 인식도 가능할 수 있다. 펜 센서는, 예를 들면, 사용자의 터치 입력을 받는 것과 동일한 방식으로 별도의 펜 인식용 쉬트(sheet)를 이용하여 구현될 수 있다. 키에는, 예를 들어, 기계(Mechanical) 키 또는 터치 키 등이 있을 수 있다.
카메라부(150)는 화상 및 동영상을 촬영하고, 촬영되는 영상을 제어부(120)로 전달할 수 있다. 카메라부(150)는 하나 이상의 이미지 센서(예, 전면 렌즈 또는 후면 렌즈), IPS(image signal processor) 또는 플래쉬 LED(flash LED)를 포함할 수 있다. 카메라부(150)는 문서 인식 기능 실행이 요청된 경우, 제어부(120)의 제어 하에, 백그라운드(background) 기능으로 활성화될 수 있다.
오디오 처리부(160)는 통신부(110)를 통해 송수신 되는 오디오 데이터, 저장부(160)에 저장된 오디오 데이터 등을 출력하기 위한 스피커(SPK) (151)와, 사용자의 음성 또는 기타 오디오 신호를 수집하기 위한 마이크(MIC) (152)를 포함할 수 있다. 오디오 처리부(150)는 음성과 전기신호를 쌍방향으로 변환시킬 수 있다. 오디오 처리부(150), 예를 들어, 스피커, 리시버, 이어폰 또는 마이크 중 적어도 하나를 포함하여 입력 또는 출력되는 음성 정보를 변환시킬 수 있다.
저장부(170)는 제어부(120) 또는 다른 구성요소들(예, 표시부(130), 입력부(140) 및 통신부(110) 등)로부터 수신되거나 제어부(120) 또는 다른 구성요소들에 의해 생성된 명령 또는 데이터를 저장한다. 저장부(170)는 전자 장치의 부팅 및 상술한 각 구성 운용을 위한 운영체제(OS, Operating System), 적어도 하나의 응용프로그램, 네트워크와 송수신하는 메시지 및 어플리케이션 실행에 따른 데이터 등을 저장한다.
저장부(170)는 내장 메모리(Internal Memory) 및 외장 메모리(External Memory) 중 적어도 하나 이상을 포함할 수 있다. 내장 메모리는, 예를 들어, 휘발성 메모리(예를 들면, DRAM(Dynamic RAM), SRAM(Static RAM), SDRAM(Synchronous Dynamic RAM) 등), 비휘발성 메모리(예를 들면, OTPROM(One Time Programmable ROM), PROM(Programmable ROM), EPROM(Erasable and Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), Mask ROM, Flash ROM 등), 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나를 포함할 수 있다. 외장 메모리는 CF(Compact Flash), SD(Secure Digital), Micro-SD(Micro Secure Digital), Mini-SD(Mini Secure Digital), xD(extreme Digital) 및 Memory Stick 중 적어도 하나 이상을 포함할 수 있다.
본 개시의 한 실시예에 따른 전자 장치의 전술한 구성요소들의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 또한, 본 개시의 한 실시예에 따른 전자 장치는 전술한 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 본 개시의 한 실시예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.
도 2는 본 개시의 다양한 실시예에 따른 문서 인식 방법을 도시한 흐름도이다.
도 2를 참조하면, 단계 210에서 제어부(120)는 기 정해진 스케줄 또는 사용자 입력 제어에 따라 문서 인식 기능이 실행될 수 있다. 이 과정에서 제어부(120)는 문서 인식 기능 실행 요청에 응답하여 카메라부(150)를 활성화(on)할 수 있다.
단계 220에서 제어부(120)는 카메라부(150)를 통해 수집되는 프리뷰(preview) 영상을 표시부(130)에 표시할 수 있다. 사용자는 프리뷰 영상에 인식할 문서들이 포함되도록 전자 장치의 위치를 제어할 수 있다.
단계 230에서 제어부(120)는 프리뷰 영상 내에 포함된 문서 영역의 수가 1개를 초과하는지를 판단한다. 예컨대, 제어부(120)는 표시부(130)를 통해 프리뷰 영상을 출력하고, 백그라운드(background)로 임시 저장된 프리뷰 영상의 데이터를 이용해 영상 내에 포함된 문서 이미지를 검출할 수 있다. 다양한 실시예에서, 제어부(120)는 프리뷰 영상 내에서 문서 이미지를 검출하기 위해 다양한 판단 알고리즘을 이용할 수 있다.
한 실시예에서, 제어부(120)는 밝기, 색상, 채도 등의 경사도 연속성을 이용하여 객체의 윤곽선을 추출하는 알고리즘을 이용할 수 있다. 이 경우, 제어부(120)는 영상 내의 추출된 객체의 윤관선이 특정 도형(예, 사각형, 직사각형 등)과의 유사도를 비교하여 문서 영역을 판단할 수 있다.
단계 240에서 제어부(120)는 프리뷰 영상 내에 1개를 초과하는 문서 이미지가 존재하는 경우, 기준 문서를 지정할 수 있다. 여기서, 기준 문서는 랜덤으로 선택된 문서 이미지, 기 정해준 룰에 의해 선택된 문서 이미지, 사용자 입력에 의해 선택된 문서 이미지 중 하나일 수 있다. 이하, 기준 문서를 지정하는 방법에 대한 실시예는 도 3의 도면을 들어 설명하기로 한다.
단계 250에서 제어부(120)는 기준 문서로 기정된 문서 이미지의 속성값을 저장할 수 있다. 여기서, 속성값은 문서 영역의 종횡비 및 크기값을 포함할 수 있다.
단계 260에서 제어부(120)는 스캔 요청 입력이 수신되는지를 결정하고, 단계 270에서 제어부(120)는 스캔 요청 입력이 수신되면, 이에 응답하여 표시부(130)에 스캔 이미지를 표시한다. 스캔이미지는 프리뷰 영상을 캡쳐하고, 캡쳐된 이미지를 고해상도로 가공 처리한 정지 이미지일 수 있다.
한편, 본 개시의 한 실시예에 따른 문서 인식 프로세서는, 단계 240 및 250이 표시부에 프리뷰 영상이 출력된 상태에서 백그라운드로 수행되는 과정으로 개시되어 있으나, 이에 한정하는 것은 아니다.
다른 실시예에서 문서 인식 프로세서는, 스캔 이미지가 표시부에 출력된 상태(예, 270 단계) 다음으로 단계 240 및 250이 변경될 수 있다. 예를 들면, 제어부는 스캔 이미지 데이터를 기준으로 스캔 이미지에서 문서로 추정되는 문서이미지를 검출하고, 검출된 문서 이미지 중 기준 문서를 지정하고, 기준 문서의 속성값을 저장할 수 있다.
단계 275에서 제어부는 스캔 이미지에 포함된 문서 이미지들의 테두리(edge)를 검출하여 적어도 하나의 문서를 인식한다.
단계 280에서 제어부(120)는 인식된 문서 이미지를 제외한 여백(또는 배경)을 잘라내기할 수 있다. 이 과정에서 제어부(120)는 잘라낸 여백 또는 배경을 인식된 문서 이미지와 구별되도록 투명(또는 화이트) 처리할 수 있으나, 이에 한정하는 것은 아니다. 예를 들면, 제어부(120)는 자르기 툴(crop tool)을 이용하여 문서 이미지 이외의 여백(또는 배경)을 잘라내기할 수 있다.
단계 290에서 제어부(120)는 인식된 적어도 하나의 문서 이미지의 크기 및 종횡비 중 적어도 하나를 기준 문서의 속성값으로 편집하고, 단계 295에서 제어부(120)는 편집된 문서 이미지에 포함된 삽입이미지 및 텍스트 중 적어도 하나를 인식하여 처리할 수 있다. 이후 제어부(120)는 인식된 문서 각각을 하나의 페이지 또는 파일로 저장할 수 있다.
한편, 한 실시예에서, 제어부(120)는 문서 간 테두리 인식, 여백 잘라내기, 삽입이미지 및 텍스트 중 적어도 하나를 인식하는 과정이 순차적으로 수행되는 것으로 설명되어 있으나, 이에 한정하지 않으며, 상술한 과정은 독립적으로, 또는 동시에 수행될 수도 있다.
도 3은 본 개시의 다양한 실시예에 따른 전자 장치의 기준 문서 설정 방법을 도시한 흐름도이다.
도 3을 참조하면, 본 개시의 다양한 실시예에 따르면, 제어부(120)는 정해진 룰 또는 사용자 입력에 따라 프리뷰 영상 또는 스캔 이미지에서 기준 문서를 지정할 수 있다.
한 실시예에 따르면, 단계 310에서 제어부(120)는 프리뷰 영상에 포함된 문서들의 종횡비가 상이한지를 판단할 수 있다. 예컨대, 제어부(120)는 임시 저장된 프리뷰 영상 또는 스캔 이미지를 내에 문서로 추정되는 문서 이미지를 검출하고, 검출된 문서 이미지의 가로 및 세로값을 측정하여 종횡비(aspect ratio)를 측정할 수 있다.
한편, 제어부(120)는 문서 이미지의 종횡비 정보를 프리뷰 영상 또는 스캔 이미지에 출력되도록 제어할 수 있으나, 이에 한정하는 것은 아니다.
단계 320에서 제어부(120)는 문서 이미지들의 종횡비가 서로 상이하지 않은 경우, 문서들의 종횡비가 동일하다고 판단하고, 단계 330에서 제어부(120)는 문서들의 크기를 비교하여 가장 작은 크기의 문서이미지를 기준 문서로 지정할 수 있다.
단계 340에서 제어부(120)는 문서 이미지들의 종횡비가 서로 상이한 경우, 기준 문서를 선택하라는 요청 정보를 표시부(130)에 제공하고, 단계 350에서 제어부(120)는 사용자의 선택 신호를 수신하여 선택된 문서이미지를 기준 문서로 지정할 수 있다. 예를 들면, 제어부(120)는 표시부(130)에 프리뷰 영상과 오버랩되는 기준 문서의 선택 요청 메뉴를 제공하고, 프리뷰 영상에 포함된 문서이미지 중 하나를 선택하는 사용자의 선택 신호를 수신할 수 있다.
다른 예를 들면, 제어부(120)는 표시부(130)에 스캔이미지와 오버랩되는 기준 문서의 선택 요청 메뉴를 제공하고, 스캔 이미지에 포함된 문서이미지 중 하나를 선택하는 사용자의 선택 신호를 수신할 수 있다.
단계 360에서 제어부(120)는 지정된 기준 문서의 속성값 예컨대, 종횡비 및 크기값을 저장할 수 있다.
또한, 다른 실시예에서 제어부(120)는 프리뷰 영상 또는 스캔 이미지 내에 포함된 문서이미지 중 랜덤으로 임의의 문서를 선택하고, 선택된 임의의 문서를 기준 문서로 설정할 수 있다.
도 4는 본 개시의 다양한 실시예에 따른 전자 장치의 문서 인식 방법이 도시된 흐름도이다.
도 4를 참조하면, 단계 410에서 제어부(120)는 문서 내에 삽입이미지가 존재하는지를 판단하고, 단계 415에서 제어부(120)는 삽입이미지가 존재하는 경우, 삽입 이미지와 텍스트를 분리하고 분리된 이미지와 텍스트 각각에 대해 별개의 인식 절차를 수행할 수 있다.
한편, 제어부(120)는 문서 내에 삽입이미지가 존재하지 않는 경우, 단계 440으로 진행하여 문서 내에 포함된 텍스트를 인식하는 과정을 수행할 수 있다.
단계 420에서 제어부(120)는 삽입 이미지와 텍스트가 결합되어 있는지를 판단하고, 단계 425에서 제어부(120)는 문서 내에 포함된 삽입이미지와 텍스트가 결합된 경우, 삽입이미지 안에 텍스트가 위치한 영역을 색상, 모양, 효과 중 적어도 하나를 주변값으로 보정할 수 있다.
한편, 단계 430에서 제어부(120)는 인식된 문서의 빛 반사를 보정하고, 휘도(brightness) 및 컨트라스트(contrast)를 조절하는 과정을 포함할 수 있으나, 이에 한정하는 것은 아니며, 단계 430 과정은 필요에 따라 생략될 수도 있다.
단계 440에서 제어부(120)는 분리되는 텍스트의 글꼴 정보를 구분하여 문서 내에 포함된 문자가 수기 입력체인지를 결정한다.
예를 들면, 디지털체(font)는 문자들 각각의 크기가 동일하고, 일괄적인 형태의 형상일 수 있으나, 수기 입력체는 문자들 각각의 크기가 서로 상이하고, 일괄적인 형태의 형상이 아닐 수 있다.
단계 445에서 제어부(120)는 문서 영역 내에 포함된 문자가 디지털체인 경우, 광학적 문자 판독기(optical character reader)를 이용하여 특정 형태의 숫자, 알파벳, 자음, 모음 등의 문자 또는 기호 형태를 부호화된 디지털 데이터로 변환하여 인식할 수 있다. 예를 들면, 제어부(120)는 문자의 글꼴 정보, 글자 간격, 글자의 윤곽 정보를 기반으로 이에 대응되는 디지털체가 있는 경우, 해당 디지털체의 글꼴 정보를 기반으로 문자를 디지털 데이터로 변환할 수 있다.
단계 450에서 제어부(120)는 인식된 문자가 수기 입력체일 경우, 수기 입력된 문자 또는 기호에 대응하는 수기 입력 데이터를 서버로 전송하고, 단계 455에서 제어부(120)는 서버로부터 수기 입력 데이터에 대한 벡터값을 수신한다. 단계 460에서 제어부(120)는 수신된 벡터 값에 대응하는 수기 입력체가 단말 내에 존재하는지를 결정한다.
한 실시예에서 제어부(120)는 단계 465에서 전자 장치 내에 문서 내에 포함된 문자에 대응하는 수기 입력체가 존재(또는 저장)하는 경우, 해당 수기 입력체의 글꼴 정보를 기반으로 수기 입력된 문자를 변환할 수 있다. 예를 들면, 제어부(120)는 단말에 저장된 수기 입력체의 글꼴 정보와 문서 내에 수기 입력된 문자의 글꼴 정보를 비교하여, 유사도가 기정해진 설정값(예, N%) 이상일 경우, 단말 내에 저장된 수기 입력체의 글꼴 정보를 기반으로 수기 입력된 문자를 디지털 데이터로 변환할 수 있다.
다른 실시예에서 제어부(120)는 수기 입력체가 전자 장치 내에 존재(또는 저장)하지 경우, 단계 470으로 진행하여 수기 입력체 생성을 요청하고, 단계 475 에서 제어부(120)는 수기 입력 폰트 생성 절차에 따라 수기 입력 폰트를 생성할 수 있다. 예를 들면, 제어부(120)는 수기 입력체의 글꼴 정보를 요청하는 요청 메뉴를 표시부(130)에 제공하고, 사용자의 제어 입력에 따라 입력되는 글꼴 테이터 정보를 수신하여 디지털 테이터로 변환하여 수기 입력에 대응되는 폰트 및 크기를 갖는 수기 입력체를 생성할 수 있다. 한편, 한 실시예에서, 전자 장치는 전자 장치에서 생성된 수기 입력체에 대한 정보를 서버로 전송하여 서버를 이용하는 사용자들과 공유할 수도 있다.
단계 480에서 제어부(120)는 인식된 텍스트 및 이미지 중 적어도 하나를 해당 문서와 결합하고, 인식된 각각의 문서를 개별적으로 하나의 페이지 또는 파일로 저장할 수 있다.
도 5 내지 도 12는 본 개시의 다양한 실시예에 따른 문서 인식의 예시도들이다.
도 5는 프리뷰 영상 화면의 예시도이다.
도 5를 참조하면, 사용자는 문서 인식 기능을 실행하여 카메라부(150)를 활성화시킬 수 있다. 이에 응답하여 제어부(120)는 문서 인식 모드로 운용 중일 수 있다. 이 과정에서, 제어부(120)는 표시부(130)에 카메라부(150)를 통해 수집되는 프리뷰 영상 화면(510)을 출력할 수 있다. 또한, 문서 인식 모드에서 제어부(120)는 카메라를 통해 수집되는 프리뷰 영상을 버퍼에 임시 저장할 수 있다.
프리뷰 영상 화면(510)은 카메라를 통해 수집되는 영상이 출력되는 뷰 영역(520)과, 기능 키 영역(530)을 할 수 있다. 기능 키 영역(530)에는, 영상을 스캐닝할 수 있는 스캔 항목(532), 조명 온/오프 설정 항목(534), 언어 설정 항목(533), 화면 모드 전환 항목(532), 자동 초점 설정 항목(535) 중 적어도 하나를 포함할 수 있으나, 이에 한정하는 것은 아니다. 기능 키 영역(530)에는 문서 인식 기능을 제어하기 위한 다양한 항목들을 포함할 수 있다. 뷰 영역(520)은 카메라를 통해 수집된 영상 처리와 버퍼링이 수행된 영상이 출력될 수 있다.
사용자는 인식할 문서들이 뷰 영역(520)에 출력되도록 카메라부(150)를 제어할 수 있다. 예를 들면, 사용자는 도 5에 도시된 바와 같이, 한 번의 스캔으로 문서를 3개 인식하기 위해, 인식 대상인3 개의 문서들을 배치하고, 3개의 문서들이 뷰 영역에 포함되도록 카메라부(150)를 제어할 수 있다.
그러면, 제어부(120)는 프리뷰 영상을 표시부(130)에 출력하면서 백그라운드로 프리뷰 영상 내에 문서로 추정되는 문서 이미지(540,550,560)를 검출할 수 있다. 예를 들면, 제어부(120)는 버퍼에 저장되는 프리뷰 영상을 통해 문서로 추정되는 객체를 추적하거나 에지 검출을 통해 문서로 추정되는 영역을 인식할 수 있다. 제어부(120)는 문서로 추정되는 문서 이미지(또는 문서)의 종횡 비 및 크기를 측정할 수 있다.
도 6은 기준 문서 설정 화면의 예시도들이다.
도 6을 참조하면, 제어부(120)는 검출된 문서 이미지들의 종횡 비 및 크기를 판단하고, 문서 이미지들을 비교하여 기준 문서를 지정할 수 있다. 제어부(120)는 기준 문서의 종횡 비 및 크기값을 저장할 수 있다. 여기서, 도 6의 프리뷰 영상에 포함된 문서이미지 테두리가 점선으로 표시되어 있으나, 이는 백그라운드 상에서 문서로 추정되는 영역을 검출되는 내용을 설명하기 위해 도시한 것 일뿐, 표시부(130)는 카메라로부터 수집되는 프리뷰 영상을 계속해서 출력할 수 있다.
한 실시예에서, 제어부(120)는 프리뷰 영상에서 검출된 문서 이미지가 동일한 종횡비를 갖는 경우, 검출된 문서 이미지들 중 가장 작은 문서를 기준 문서로 지정할 수 있다. 예를 들면, 601에 도시된 바와 같이, 프리뷰 영상(610)에서 동일한 종회 비(예, A:B 비율)를 갖는 3개의 문서 이미지(640,650,660)가 검출된 경우, 3 개의 문서 이미지 중 가장 작은 문서(660)를 기준 문서로 설정할 수 있다.
이 경우, 제어부(120)는 기준 문서로 지정된 문서(660)가 다른 문서(640,650)와 시각적으로 구별되도록 그래픽 처리하여 표시할 수 있으나, 이에 한정하는 것은 아니다. 또한, 제어부(120)는 프리뷰 영상에서 검출된 문서들의 종횡비값(680)이 각각의 문서 위에 오버랩되어 출력되도록 표시부(130)를 제어할 수 있으나, 이에 한정하는 것은 아니다.
한 실시예에서, 제어부(120)는 프리뷰 영상에서 검출된 문서 이미지가 서로 상이한 종횡비를 갖는 경우, 기준 문서의 선택을 요청하고, 사용자의 입력에 따라 선택된 문서를 기준 문서로 설정할 수 있다. 예를 들면, 제어부(120)는 602에 도시된 바와 같이, 프리뷰 영상에서 서로 상이한 종횡비를 갖는 2개의 문서이미지(685,687)를 검출할 수 있다. 예를 들면, 하나의 문서(685)는 A:B 비율을 갖고, 다른 문서(687)는 C:B 비율을 갖는 경우, 제어부(120)는 기준 문서를 선택하라는 요청 메시지를 출력하거나, 기준 문서 설정 불가 메시지를 프리뷰 영상 화면에 출력할 수 있다.
그러면, 제어부(120)는 사용자 선택 입력을 수신하고, 사용자에 의해 선택된 문서를 기준 문서로 설정할 수 있다.
한 실시예에서, 제어부(120)는 문서 인식 설정 옵션에 따라 프리뷰 영상에서 검출된 문서들 중 랜덤으로 기준 문서를 지정할 수도 있다.
도 7은 문서 스캔 화면 예시도들이다.
도 7을 참조하면, 사용자는 프리뷰 영상에 포함된 문서를 인식하기 위해 스캔 항목(720)을 선택할 수 있다. 그러면, 전자 장치는 스캔 항목(720)의 선택 입력에 응답하여 카메라부를 통해 수집되는 프리뷰 영상을 캡쳐하여 저장하고, 저장된 스캔 이미지를 표시부에 출력할 수 있다. 여기서, 스캔 이미지는 프리뷰 영상을 중 캡쳐된 이미지를 고해상도로 가공 처리한 디지털 형태의 정지 이미지를 의미한다. 한 실시예에서 제어부가 터치스크린을 구비하는 경우, 사용자는 스캔 항목(720)을 터치하거나 탭 할 수 있다.
제어부(120)는 701에 도시된 바와 같이, 표시부(130)에 프리뷰 영상 화면(710)을 출력하다가, 스캔 항목(720)이 선택되는 경우, 702에 도시된 바와 같이, 표시부에 캡쳐된 스캔 이미지를 출력할 수 있다.
이때, 이와 동시에 제어부(120)는 문서를 인식하기 위한 인식 과정을 수행할 수 있다. 여기서, 인식 과정은, 문서 테두리 인식, 텍스트 인식 및 이미지 인식 과정을 동시 또는 순차적으로 수행할 수 있다.
예를 들면, 제어부(120)는 702에 도시된 바와 같이, 스캔 이미지(730)에서 문서로 추정되는 문서 이미지의 테두리를 검출하고, 검출된 테두리를 점선으로 표시할 수 있다.
도 8은 문서 내의 여백을 잘라낸 화면 예시도이다.
도 8을 참조하면, 제어부(120)는 스캔 이미지 내에 포함된 문서 이미지의 테두리를 인식하고, 문서이미지 이외의 여백(또는 배경)을 잘라낼 수 있다. 한 실시예에 따르면, 제어부(120)는 스캔 이미지(도 7의 702 화면)에서 문서 이미지의 테두리를 기준으로 여백을 잘라내기하고, 여백이 잘라진 화면(810)을 표시부에 출력할 수 있다.
한 실시예에서 제어부(120)는 잘라낸 부분이 시각적으로 구별되도록 그래픽 처리(예, 화이트 등의 색상 변경, 또는 투명 처리) 할 수 있다. 이때, 제어부(120)는 테두리 안에 남겨진 문서이미지가 분리되고, 분리된 문서 이미지를 하나의 문서로 인식하고, 인식된 문서들 각각 개별적으로 삽입이미지 및 텍스트 인식과정이 수행되도록 제어할 수 있다.
예를 들면, 제어부(120)는 여백이 잘라진 후, 화면에서 테두리 안에 남겨진 문서 이미지 각각(820,830,840)을 하나의 문서로 인식하여, 3개의 문서가 스캔 됐음을 인식할 수 있다.
도 9는 인식된 문서들의 편집 화면 예시도들이다.
도 9을 참조하면, 제어부(120)는 인식된 문서의 크기 및 종횡비를 설정된 기준 문서의 설정값과 동일하게 편집할 수 있다.
한 실시예에 따르면, 제어부(120)는 각 문서 이미지의 종횡비가 동일한 경우, 가장 작은 문서를 기준 문서로 지정하고, 다른 문서들의 크기를 확대하거나 축소할 수 있다. 예를 들면, 도 901에 도시된 바와 같이, 제2문서 이미지(920) 및 제3 문서이미지(930)의 종횡비는 제1 문서이미지(910)와 동일하므로, 제어부(120)는 제1 문서이미지(910)를 기준 문서로 지정할 수 있다. 이 경우, 제어부(120)는 제2문서이미지(920)를 제1 문서이미지(910)의 크기와 동일해지도록 축소 할 수 있다. 또한, 제어부(120)는 제3 문서이미지(930) 역시, 제1 문서이미지(910)의 크기와 동일해지도록 축소할 수 있다.
다른 실시예에 따르면, 제어부(120)는 각 문서이미지들의 종횡비가 서로 상이한 경우, 사용자 입력 또는 랜덤으로 선택된 문서를 기준 문서로 지정하고, 기준 문서들의 종횡비 및 크기와 동일하도록 다른 문서들의 종횡비 및 크기로 편집할 수 있다. 예를 들면, 도 902에 도시된 바와 같이, 제어부(120)는 두 개의 문서이미지(940,950)의 종횡비가 서로 다를 경우, 제1 문서이미지(950)를 기준 문서로 지정하고, 제1 문서이미지(950)의 속성값을 기준으로 다른 제2문서이미지(940)의 종횡비 및 크기로 편집할 수 있다.
도 10은 텍스트 인식 화면의 예시도들이다.
도 10을 참조하면, 제어부(120)는 인식된 문서 내에 포함된 텍스트의 속성을 구분하여 문자를 인식할 수 있다. 예컨대, 제어부(120)는 인식된 문자 또는 기호를 추출하고, 디지털 데이터로 변환할 수 있다. 또한, 제어부는 인식된 문서 각각을 하나의 파일 또는 페이지로 저장할 수 있다.
예를 들면, 제어부(120)는 1001에 도시된 바와 같이, 디지털체로 쓰여진 글자를 포함하는 제1 문서이미지(1010)와, 수기로 입력된 글자를 포함하는 제2 문서이미지(1020)를 인식할 수 있다.
한 실시예에서, 제어부(120)는 문서 내에 포함된 텍스트의 글꼴 정보, 글자 간격, 글자의 윤곽 정보를 기반으로 이에 대응되는 디지털체가 없다고 판단할 수 있다. 이 경우, 제어부(120)는 제1 문서이미지(1010)에 포함된 텍스트 데이터를 벡터값을 제공해주는 서버로 전송하고, 서버로부터 수기 입력에 대응하는 벡터값을 수신받을 수 있다.
그러면, 제어부(120)는 단말 내에 저장된 수기입력체와의 유사도를 비교하고, 유사도가 정해진 기준값을 초과하는 경우, 해당 수기입력체의 글꼴 정보를 기반으로 제1 문서(1010a)를 생성할 수 있다. 한 실시예에서, 제어부(120)는 문서 내에 포함된 텍스트의 글꼴 정보, 글자 간격, 글자의 윤과 정보를 기반으로 이에 대응하는 디지털체가 있는 경우, 이에 해당되는 디지털체의 글꼴 정보를 기반으로 1003에 도시된 바와 같이, 제2 문서(1020a)를 생성할 수 있다.
이때, 생성된 제1 문서(1010a) 및 제2 문서(1020a) 각각은 하나의 페이지 또는 파일로 저장되며, 관리될 수 있다.
한편, 한 실시예서, 제어부(120)는 수기 입력에 대응하는 수기입력체가 단말 내에 저장되어 있지 않은 경우, 수기입력체 생성 절차를 진행할 수 있다. 예를 들면, 화면에 수기 입력 폰트를 새로 생성 요청하는 항목을 출력하고, 생성 요청에 응답하는 경우, 글자의 폰트 테이블을 요청하는 화면(예, 자음, 모음, 소문자 대문자, 기호 등의 입력 요청 화면)을 제공하고, 사용자에 의해 입력된 글자들의 데이터를 기반으로 수기입력체를 생성할 수 있다.
도 11은 텍스트 및 이미지 인식 화면 예시도들이다.
도 11을 참조하면, 제어부(120)는 문서 내에 포함된 텍스트 및 이미지를 분리하고, 분리된 각각의 텍스트 및 이미지 개별적으로 인식 및 처리할 수 있다. 예를 들면, 1101에 도시된 바와 같이, 제어부(120)는 삽입이미지와 텍스트가 중첩되지 않은 제1 문서이미지(1120)와, 삽입이미지와 텍스트가 겹쳐진 제2 문서이미지(1130)를 포함하는 스캔 이미지(1110)를 표시부(1130)에 출력할 수 있다.
한 실시예에서, 제어부(120)는 삽입이미지와 텍스트가 중첩되지 않는 제1 문서이미지(1120)는 배경이미지와, 삽입이미지 및 텍스트를 포함할 수 있다. 제어부(120)는 이미지들와 텍스트를 분리하여 텍스트에 대한 인식과정을 수행할 수 있다. 이와 더불어, 제어부(120)는 1225에 도시된 바와 같이, 배경 이미지와 함께 삽입 이미지들을 하나의 전체 이미지로 인식할 수 있다.
또한, 제어부(120)는 1226에 도시된 바와 같이, 배경 이미지를 제외하고, 삽입이미지를 분리하여 삽입이미지에 대한 인식 과정을 수행할 수도 있다. 이 경우, 도시된 바와 같이, 문서이미지는 배경 이미지를 제외하고, 삽입이미지와 텍스트만을 포함하는 문서로 생성될 수 있다.
다른 실시예에서, 제어부(120)는 삽입이미지와 텍스트가 중첩되는 제2 문서이미지(1130)는 배경 이미지와, 텍스트를 포함할 수 있다. 제어부(120)는 배경이미지와 텍스트를 분리하여 텍스트에 대한 인식과정을 수행할 수 있다. 이와 더불어, 제어부(120)는 1235에 도시된 바와 같이, 전체 이미지와 텍스트를 하나의 이미지로 인식할 수 있다.
또한, 제어부(120)는, 1237에 도시된 바와 같이, 배경 이미지와 텍스트를 분리하여 배경 이미지 및 텍스트를 각각 별도로 인식할 수 있다. 이후, 제어부(120)는 배경이미지에서 텍스트 영역이 위치한 영역을 색상, 모양, 효과 중 적어도 하나를 주변값으로 보정하여 문서로 생성할 수 있다.
한편, 다양한 실시예에 따른 전자 장치는 각 문서 각각에 대해 인식된 이미지와 텍스트를 하나의 파일 또는 페이지로 생성, 저장할 수 있다. 또한, 전자 장치는 생성된 문서를 공유 프로그램을 이용하여 다른 단말기와 공유할 수도 있다.
그리고 본 명세서와 도면에 개시된 실시 예들은 본 개시의 내용을 쉽게 설명하고, 이해를 돕기 위해 특정 예를 제시한 것이며, 본 개시의 범위를 한정하고자 하는 것은 아니다. 따라서 본 개시의 범위는 여기에 개시된 실시예들 이외에도 본 개시의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.
110: 통신부 120: 제어부
130: 표시부 140: 입력부
150: 카메라부 160: 오디오 처리부
170: 저장부

Claims (18)

  1. 다수의 문서를 인식하는 방법에 있어서,
    다수의 문서 이미지를 포함하는 프리뷰 영상을 캡쳐하는 과정;
    상기 캡쳐 영상 내에 포함된 문서 이미지들의 테두리를 기준으로 여백을 잘라내는 과정;
    상기 잘라낸 여백에 따라 분리된 문서 이미지들을 지정된 기준 문서 이미지의 속성값으로 편집하는 과정; 및
    상기 편집된 문서 이미지들 각각에 대응하는 문서 파일을 생성하는 과정을 포함하는 문서 인식 방법.
  2. 제1항에 있어서,
    상기 문서 이미지들을 지정된 기준 문서 이미지의 속성값으로 편집하는 과정은,
    상기 캡쳐 영상에 포함된 문서 이미지들의 종횡비 및 크기 중 적어도 하나를 상기 기준 문서 이미지의 종횡비 및 크기와 동일하게 편집하는 문서 인식 방법.
  3. 제1항에 있어서,
    상기 프리뷰 영상을 캡쳐하는 과정은,
    상기 프리뷰 영상 내에 포함된 문서 이미지들을 검출하는 과정; 및
    상기 검출된 문서 이미지 중 하나를 기준 문서로 지정하는 과정을 더 포함하는 문서 인식 방법.
  4. 제3항에 있어서,
    상기 기준 문서로 지정하는 과정은,
    상기 문서 이미지들의 종횡비가 서로 상이한 경우, 사용자 선택 입력을 요청하고, 사용자의 선택 입력에 따라 선택된 문서 이미지를 기준 문서로 지정하는 과정;
    상기 문서 이미지들의 종횡비가 서로 동일한 경우, 문서 이미지들 중 가장 작은 크기의 문서 이미지를 기준 문서로 지정하는 과정; 또는
    상기 프리뷰 영상 내에 포함된 문서 이미지들 중 하나를 랜덤으로 선택하여 지정하는 과정 중 적어도 하나를 수행하는 문서 인식 방법.
  5. 제1항에 있어서,
    상기 문서를 생성하는 과정은,
    상기 문서 이미지에 포함된 텍스트 및 삽입이미지 중 적어도 하나를 검출하는 과정;
    상기 텍스트와 삽입이미지를 분리하는 과정; 및
    상기 텍스트를 인식하는 과정 및 상기 삽입이미지를 인식하는 과정을 동시에 또는 순차적으로 수행하는 과정을 더 포함하는 문서 인식 방법.
  6. 제5항에 있어서,
    상기 텍스트를 인식하는 과정은,
    상기 문서 이미지에 포함된 텍스트가 수기 입력이면, 저장부에 저장된 수기 입력체와의 유사도를 비교하는 과정;
    상기 비교결과, 유사도가 기 정해진 기준값을 초과하는 경우, 유사도를 초과하는 수기 입력체의 글꼴 정보를 기반으로 상기 문서 이미지에 포함된 텍스트를 디지털 데이터로 변환하는 과정; 및
    상기 비교 결과, 유사도가 기 정해진 기준값 이하인 경우, 수기 입력체 생성을 요청하는 과정, 사용자 입력에 따라 입력된 수기 입력 데이터를 기반으로 수기 입력체를 생성하는 과정, 및 생성된 수기 입력체를 기반으로 상기 문서 이미지에 포함된 텍스트를 디지털 데이터로 변환하는 과정을 더 포함하는 문서 인식 방법.
  7. 제5항에 있어서,
    상기 텍스트를 인식하는 과정은,
    디지털체의 글꼴 정보를 기반으로 상기 문서 이미지에 포함된 텍스트를 디지털 데이터로 변환하는 과정을 더 포함하는 문서 인식 방법.
  8. 제5항에 있어서,
    상기 삽입이미지를 인식하는 과정은,
    상기 삽입이미지에 텍스트가 중첩되는 경우, 상기 삽입이미지와 텍스트를 분리하는 과정; 및
    상기 삽입이미지 내에 텍스트가 위치한 영역의 색상, 모양 및 효과 중 적어도 하나를 주변 값으로 보정하는 과정을 더 포함하는 문서 인식 방법.
  9. 제 5항에 있어서,
    상기 삽입이미지를 인식하는 과정은,
    상기 삽입이미지에 배경 이미지가 포함된 경우, 배경 이미지와 삽입이미지를 하나의 이미지로 분리하여 인식하는 문서 인식 방법.
  10. 다수의 문서 이미지를 포함하는 프리뷰 영상을 수집하는 카메라부;
    상기 프리뷰 영상 및 캡쳐 영상을 표시하는 표시부; 및
    상기 프리뷰 영상을 캡쳐하고, 상기 캡쳐 영상 내에 포함된 문서 이미지들의 테두리를 기준으로 여백을 잘라내고, 상기 잘라낸 여백에 따라 분리된 문서 이미지를 지정된 기준 문서 이미지의 속성값으로 편집하고, 상기 편집된 문서 이미지 각각에 대응하는 문서 파일을 생성하는 제어부를 포함하는 문서 인식 장치.
  11. 제10항에 있어서,
    상기 제어부는,
    상기 캡쳐된 영상에 포함된 문서 이미지들의 종횡비 및 크기 중 적어도 하나를 상기 기준 문서 이미지의 종횡비 및 크기와 동일하게 편집하도록 제어하는 문서 인식 장치.
  12. 제10항에 있어서,
    상기 제어부는,
    상기 프리뷰 영상 내에 포함된 문서 이미지들을 검출하고, 상기 검출된 문서 이미지 중 하나를 기준 문서로 지정하도록 제어하는 문서 인식 장치.
  13. 제12항에 있어서,
    상기 제어부는,
    상기 문서 이미지들의 종횡비가 서로 상이한 경우, 사용자 선택 입력을 요청하고, 사용자의 선택 입력에 따라 선택된 문서 이미지를 기준 문서로 지정하거나, 상기 문서 이미지들의 종횡비가 서로 동일한 경우, 문서 이미지들 중 가장 작은 크기의 문서 이미지를 기준 문서로 지정하거나, 또는 상기 프리뷰 영상 내에 포함된 문서 이미지들 중 하나를 랜덤으로 선택하여 지정하도록 제어하는 문서 인식 장치.
  14. 제12항에 있어서,
    상기 제어부는,
    상기 문서 이미지에 포함된 텍스트 및 삽입이미지 중 적어도 하나를 검출하고, 상기 텍스트와 삽입이미지를 분리하고, 상기 텍스트를 인식하는 과정 및 상기 삽입이미지를 인식하는 과정을 동시에 또는 순차적으로 수행하도록 제어하는 문서 인식 장치.
  15. 제14항에 있어서,
    상기 제어부는,
    상기 문서 이미지에 포함된 텍스트가 수기입력이면, 저장부에 저장된 수기 입력체와의 유사도를 비교하고, 상기 비교결과, 유사도가 기 정해진 기준값을 초과하는 경우, 유사도를 초과하는 수기 입력체의 글꼴 정보를 기반으로 상기 문서 이미지에 포함된 텍스트를 디지털 데이터로 변환하거나, 상기 비교 결과, 유사도가 기 정해진 기준값 이하인 경우, 수기 입력체 생성을 요청하는 과정, 사용자 입력에 따라 입력된 수기 입력 데이터를 기반으로 수기 입력체를 생성하는 과정, 및 생성된 수기 입력체를 기반으로 상기 문서 이미지에 포함된 텍스트를 디지털 데이터로 변환하도록 제어하는 문서 인식 장치.
  16. 제14항에 있어서,
    상기 제어부는,
    디지털체의 글꼴 정보를 기반으로 상기 문서 이미지에 포함된 텍스트를 디지털 데이터로 변환하도록 제어하는 문서 인식 장치.
  17. 제14항에 있어서,
    상기 제어부는,
    상기 삽입이미지에 텍스트가 중첩되는 경우, 상기 삽입이미지와 텍스트를 분리하고, 상기 삽입이미지 내에 텍스트가 위치한 영역의 색상, 모양 및 효과 중 적어도 하나를 주변 값으로 보정하도록 제어하는 문서 인식 장치.
  18. 제14항에 있어서,
    상기 제어부는,
    상기 삽입이미지에 배경 이미지가 포함된 경우, 배경 이미지와 삽입이미지를 하나의 이미지로 분리하여 인식하도록 제어하는 문서 인식 장치.
KR1020130143821A 2013-11-25 2013-11-25 문서 인식 방법 및 장치 KR20150059989A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130143821A KR20150059989A (ko) 2013-11-25 2013-11-25 문서 인식 방법 및 장치
US14/553,695 US20150146265A1 (en) 2013-11-25 2014-11-25 Method and apparatus for recognizing document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130143821A KR20150059989A (ko) 2013-11-25 2013-11-25 문서 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20150059989A true KR20150059989A (ko) 2015-06-03

Family

ID=53182463

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130143821A KR20150059989A (ko) 2013-11-25 2013-11-25 문서 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US20150146265A1 (ko)
KR (1) KR20150059989A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018084381A1 (ko) * 2016-11-04 2018-05-11 (주)한국플랫폼서비스기술 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법
KR20190107331A (ko) * 2018-03-12 2019-09-20 주식회사 한글과컴퓨터 폰트 결정 장치 및 이의 동작 방법
KR102669805B1 (ko) * 2023-12-28 2024-05-29 주식회사 티맥스알지 이미지에 포함된 한글 및 수학식을 인식하기 위한 방법 및 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152815B2 (en) 2017-01-17 2018-12-11 Opentv, Inc. Overlay emphasis modification in augmented reality displays
US10235788B2 (en) 2017-01-17 2019-03-19 Opentv, Inc. Overlay contrast control in augmented reality displays
US9916492B1 (en) * 2017-03-21 2018-03-13 SkySlope, Inc. Image processing and analysis for UID overlap avoidance
JP2019029883A (ja) * 2017-08-01 2019-02-21 株式会社東芝 画像処理装置
CN111163264B (zh) * 2019-12-31 2022-02-01 维沃移动通信有限公司 一种信息显示方法及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324711B2 (en) * 2004-02-26 2008-01-29 Xerox Corporation Method for automated image indexing and retrieval
US20070269109A1 (en) * 2005-03-23 2007-11-22 Jakob Ziv-El Method and apparatus for processing selected images on image reproduction machines

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018084381A1 (ko) * 2016-11-04 2018-05-11 (주)한국플랫폼서비스기술 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법
KR20190107331A (ko) * 2018-03-12 2019-09-20 주식회사 한글과컴퓨터 폰트 결정 장치 및 이의 동작 방법
KR102669805B1 (ko) * 2023-12-28 2024-05-29 주식회사 티맥스알지 이미지에 포함된 한글 및 수학식을 인식하기 위한 방법 및 장치

Also Published As

Publication number Publication date
US20150146265A1 (en) 2015-05-28

Similar Documents

Publication Publication Date Title
US10423193B2 (en) Electronic device and method for controlling displays
KR20150059989A (ko) 문서 인식 방법 및 장치
US20200302108A1 (en) Method and apparatus for content management
US9967444B2 (en) Apparatus and method for capturing image in electronic device
KR102367828B1 (ko) 이미지 운용 방법 및 이를 지원하는 전자 장치
KR102240279B1 (ko) 컨텐트 처리 방법 및 그 전자 장치
US9852491B2 (en) Objects in screen images
KR102220443B1 (ko) 깊이 정보를 활용하는 전자 장치 및 방법
US10025451B2 (en) Method and electronic device for managing screen
KR102218901B1 (ko) 색 보정 방법 및 장치
KR102199786B1 (ko) 콘텐트를 기반으로 하는 정보 제공 방법 및 장치
CN111176506A (zh) 一种屏幕显示方法及电子设备
US9734591B2 (en) Image data processing method and electronic device supporting the same
US9930269B2 (en) Apparatus and method for processing image in device having camera
US20140226052A1 (en) Method and mobile terminal apparatus for displaying specialized visual guides for photography
US20220350470A1 (en) User Profile Picture Generation Method and Electronic Device
EP2677501A2 (en) Apparatus and method for changing images in electronic device
KR20150083636A (ko) 전자 장치에서 이미지 운영 방법 및 장치
CN111699673B (zh) 电子设备及其操作方法
US10326936B2 (en) Method for providing images and electronic device supporting the same
US10120637B2 (en) Mirror display system having low data traffic and method thereof
KR20150110032A (ko) 영상데이터 처리 전자장치 및 방법
KR20150140012A (ko) 화면 표시 방법 및 이를 구현하는 전자장치
KR20200042226A (ko) 전자 장치 및 그 제어 방법
CN116204143A (zh) 一种界面显示方法以及装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid