KR101779165B1 - 문서 스캐닝 시스템 - Google Patents

문서 스캐닝 시스템 Download PDF

Info

Publication number
KR101779165B1
KR101779165B1 KR1020150178556A KR20150178556A KR101779165B1 KR 101779165 B1 KR101779165 B1 KR 101779165B1 KR 1020150178556 A KR1020150178556 A KR 1020150178556A KR 20150178556 A KR20150178556 A KR 20150178556A KR 101779165 B1 KR101779165 B1 KR 101779165B1
Authority
KR
South Korea
Prior art keywords
unit
word
document
character string
server
Prior art date
Application number
KR1020150178556A
Other languages
English (en)
Other versions
KR20170070710A (ko
Inventor
김동우
Original Assignee
주식회사 씨코소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨코소프트 filed Critical 주식회사 씨코소프트
Priority to KR1020150178556A priority Critical patent/KR101779165B1/ko
Publication of KR20170070710A publication Critical patent/KR20170070710A/ko
Application granted granted Critical
Publication of KR101779165B1 publication Critical patent/KR101779165B1/ko

Links

Images

Classifications

    • G06K9/22
    • G06F17/21
    • G06F17/273
    • G06F17/2755
    • G06F17/277
    • G06K2209/01

Landscapes

  • Character Discrimination (AREA)

Abstract

본 발명은 문서 스캐닝 시스템에 관한 것으로, 해결하고자 하는 기술적 과제는 문서를 캡쳐하여 이미지를 생성하는 하드웨어 부분과 캡쳐된 이미지에 대한 문서 분석 작업을 수행하는 소프트웨어 부분을 분리하되, 상기 소프트웨어 부분을 서버의 기능으로서 공유되도록 분리함으로써, 문서 스캐닝 작업 비용을 절감하고 고품질의 문서 분석 결과를 얻는데 있다.
일례로, 문서를 촬영하여 이미지 파일을 생성하기 위한 펜 스캐너; 상기 펜 스캐너로부터 상기 이미지 파일을 수신하여 저장하기 위한 휴대 단말기; 및 상기 휴대 단말기로부터 상기 이미지 파일을 수신하고, 상기 이미지 파일에 포함된 문자를 판독하고, 문법적 분석 알고리즘과 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 판독되지 않은 교정 대상 문자를 최적합 문자로 교정하기 위한 클라우드 서버를 포함하는 문서 스캐닝 시스템을 개시한다.

Description

문서 스캐닝 시스템{A SYSTEM FOR SCANNIG DOCUMENT}
본 발명의 실시예는 문서 스캐닝 시스템에 관한 것이다.
종래의 OCR(optical character reader) 작업과 같은 문서 분석 방법에서는 모든 언어에 대해서 분석을 시도하여 처리속도가 많이 걸린다는 문제점이 있다. 특히, OCR과 같은 문서 분석 방법은 분석 가능한 언어에 대한 모든 데이터베이스를 갖고 있고, 입력된 문서에 대해 각 언어별로 정합률을 비교하며 그 중 정합률이 가장 높은 언어를 기반으로 동작한다. 이런 경우, 각 언어별로 비교해야 하기 때문에 처리 속도가 많이 걸린다는 문제점이 있었다.
문서를 캡쳐하여 이미지를 생성하는 하드웨어 부분과 캡쳐된 이미지에 대한 OCR 작업을 수행하는 소프트웨어 부분이 하나의 제품 내에 구현되는 경우, 그 제품에 대한 물리적인 스케일이 필연적으로 커질 수밖에 없다. 따라서, 휴대 스캐너를 개발하는 경우 소형화시키는데 한계가 있다.
또한, 문서를 캡쳐하여 이미지를 생성하는 하드웨어 부분과 캡쳐된 이미지에 대한 OCR 작업을 수행하는 소프트웨어 부분을 서로 분리하더라도, 고용량의 해당 소프트웨어를 해당 장치에 설치 및 업데이트 등에 따른 번거로움과 장치적인 부하가 있으며 비용적 측면에서 부담이 될 수 있다.
공개특허공보 제10-2009-0132238호(2009.12.30.) '펜 스캐너' 등록특허공보 제 10-1010178호(2011.01.14.) '펜 스캐너를 구비한 스캐너 계산기' 공개특허공보 제10-2010-0066700호(2010.06.18.) '핸드폰을 이용한 문자인식 전자사전'
본 발명의 실시예는, 문서를 캡쳐하여 이미지를 생성하는 하드웨어 부분과 캡쳐된 이미지에 대한 문서 분석 작업을 수행하는 소프트웨어 부분을 분리하되, 상기 소프트웨어 부분을 서버의 기능으로서 공유되도록 분리함으로써, 문서 스캐닝 작업 비용을 절감하고 고품질의 문서 분석 결과를 얻을 수 있는 문서 스캐닝 시스템을 제공한다.
본 발명의 실시예에 따른 문서 스캐닝 시스템은, 문서를 촬영하여 이미지 파일을 생성하기 위한 펜 스캐너; 상기 펜 스캐너로부터 상기 이미지 파일을 수신하여 저장하기 위한 휴대 단말기; 및 상기 휴대 단말기로부터 상기 이미지 파일을 수신하고, 상기 이미지 파일에 포함된 문자를 판독하고, 문법적 분석 알고리즘과 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 판독되지 않은 교정 대상 문자를 최적합 문자로 교정하기 위한 클라우드 서버를 포함한다.
또한, 상기 클라우드 서버는, 상기 이미지 파일에 포함된 문자를 판독하기 위한 OCR 서버; 상기 OCR 서버를 통해 판독된 문자를 형태소로 분할하기 위한 형태소 분석 서버; 및 상기 문법적 분석 알고리즘과 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 상기 OCR 서버를 통해 판독되지 않은 교정 대상 단어를 최적합 단어로 교정하기 위한 최적화 교정 서버를 포함할 수 있다.
또한, 상기 최적화 교정 서버는, 상기 문법적 분석 알고리즘을 이용하여 상기 형태소 분석 서버를 통해 처리된 단어들의 품사를 각각 파악하기 위한 단어 품사 파악부; 상기 단어 품사 파악부를 통해 처리된 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화하는 연속 문자열 리스트 생성부; 및 상기 교정 대상 단어의 앞뒤 단어를 파악하고, 상기 연속 문자열 리스트 생성부를 통해 제공되는 문자열 리스트에 상기 앞뒤 단어를 포함하는 문자열을 검색하고, 검색된 문자열 중 가장 많이 출현된 문자열에 기초하여 상기 교정 대상 단어를 교정하는 단어 교정부를 포함할 수 있다.
또한, 상기 문자열 리스트는 적어도 3개의 단어가 연속해서 출현한 문자열을 포함할 수 있다.
또한, 상기 최적화 교정 서버는, 사용자가 미리 등록한 문서 파일들을 대상으로, 해당 문서 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화된 개인 패턴 데이터베이스를 더 포함하고, 상기 단어 교정부는, 상기 연속 문자열 리스트 생성부와 상기 개인 패턴 데이터베이스에 기초하여 교정 대상 단어를 교정할 수 있다.
또한, 상기 최적화 교정 서버는, 제3자가 미리 등록한 문서 파일들을 대상으로, 해당 문서 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화된 제3자 패턴 데이터베이스를 더 포함하고, 상기 단어 교정부는, 상기 연속 문자열 리스트 생성부, 상기 개인 패턴 데이터베이스 및 제3자 패턴 데이터 베이스에 기초하여 교정 대상 단어를 교정할 수 있다.
또한, 상기 연속 문자열 리스트 생성부, 상기 개인 패턴 데이터베이스 및 상기 제3자 패턴 데이터베이스는, 상기 연속 문자열 리스트 생성부, 상기 개인 패턴 데이터베이스 및 상기 제3자 패턴 데이터베이스를 각각 노드(node)로 하는 신경망을 구성하고 딥러닝(deep learning)을 실행할 수 있다.
본 발명의 실시예에 따르면, 문서를 캡쳐하여 이미지를 생성하는 하드웨어 부분과 캡쳐된 이미지에 대한 문서 분석 작업을 수행하는 소프트웨어 부분을 분리하되, 상기 소프트웨어 부분을 서버의 기능으로서 공유되도록 분리함으로써, 문서 스캐닝 작업 비용을 절감하고 고품질의 문서 분석 결과를 얻을 수 있다.
도 1은 본 발명의 실시예에 따른 문서 스캐닝 시스템의 구성도이다.
도 2는 본 발명의 실시예에 따른 최적화 교정 서버의 구성도이다.
도 3은 본 발명의 실시예에 따른 펜, 펜 스캐너와 단말기 간의 관계를 설명하기 위해 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 펜 스캐너의 상면도와 정면도이다.
도 5는 본 발명의 일 실시예에 따른 펜 스캐너의 하면도와 정면도이다.
도 6은 본 발명의 일 실시예에 따른 펜이 결합된 상태의 펜 스캐너의 측면도이다.
도 7은 본 발명의 다른 실시예에 따른 스캐너부의 구성과 펜 거치부의 결합 방법을 나타낸 도면이다.
도 8은 본 발명의 다른 실시예에 따른 펜이 결합된 상태의 펜 스캐너의 측면도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "스캐너" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 발명의 실시예에 따른 문서 스캐닝 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 문서 스캐닝 시스템(1000)은, 펜 스캐너(100), 휴대 단말기(200) 및 클라우드 서버(300)를 포함한다. 더불어, 상기 문서 스캐닝 시스템(1000)은 저장 서버(400)와 음성 변환 서버(500)를 더 포함할 수 있다.
상기 펜 스캐너(100)는 문서에 인쇄된 문자(문자열 단위)나 도형의 이미지를 스캔하여 이미지 파일을 생성하고, 생성된 이미지 파일을 블루투스(Bluetooth)와 같은 근거리 무선 통신 또는 USB 통신과 같은 유선 통신을 통해 상기 휴대 단말기(200)로 전송(파일 동기화)할 수 있다. 상기 펜 스캐너(100)에 대한 보다 상세한 설명은 후술하도록 한다.
상기 휴대 단말기(200)은 스마트 폰, 테블렛 PC 또는 노트북과 같은 인터넷 접속 가능한 단말기일 수 있으며, 상기 펜 스캐너(100)로부터 이미지 파일을 수신하여 저장하고, 저장된 이미지 파일을 인터넷 통신을 통해 상기 클라우드 서버(300)로 문서 분석을 요청할 수 있다. 여기서, 상기 휴대 단말기(200)를 통한 문서 분석 요청은 사용자 계정 별로 처리 및 관리될 수 있다.
상기 클라우드 서버(300)는 인터넷 통신을 통해 상기 휴대 단말기(200)로부터 이미지 파일을 수신하고, 수신된 이미지 파일에 포함되어 있는 문자들을 판독하고, 문법적 분석 알고리즘과 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 판독되지 않은 문자인 교정 대상 문자를 최적합 문자로 교정할 수 있다.
이를 위해 상기 클라우드 서버(300)는 OCR 서버(310), 형태소 분석 서버(320) 및 최적화 교정 서버(330)를 포함할 수 있다.
상기 OCR 서버(310)는 상기 휴대 단말기(200)로부터 수신된 이미지 파일에 포함되어 있는 문자를 판독하기 위한 수단으로, 통상의 OCR 기능을 적용하여 문자 이미지에 대한 1차적인 변환을 수행할 수 있다.
상기 형태소 분석 서버(320)는 상기 OCR 서버를 통해 판독된 문자를 상기 문법적 분석 알고리즘에 기초하여 형태소로 분할할 수 있다.
예를 들어, 상기 OCR 서버(310)를 통해 판독된 문장 중 "파란색 물병이 테이블에 있다."라는 문장인 있다고 가정하면, 상기 형태소 분석 서버(320)는 '파란색/물병/이/테이블/에/있다'과 같이, 형태소와 그 품사를 분석하여 분할한 결과를 제공할 수 있다.
상기 최적화 교정 서버(330)는 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 상기 OCR 서버(310)를 통해 판독되지 않은 교정 대상 단어를 최적합 단어로 교정할 수 있다.
도 2에는 본 발명의 실시예에 따른 최적화 교정 서버의 구성도가 도시되어 있다.
도 2를 참조하면, 상기 최적화 교정 서버(330)는 단어 품사 파악부(311), 연속 문자열 리스트 생성부(312) 및 단어 교정부(313)를 포함할 수 있다. 더불어, 상기 최적화 교정 서버(330)에는 개인 패턴 데이터베이스(314) 및 제3자 패턴 데이터베이스(315)가 구축될 수 있다.
상기 단어 품사 파악부(311)는 상기 문법적 분석 알고리즘을 이용하여 상기 형태소 분석 서버(320)를 통해 처리된 단어들의 품사를 각각 파악할 수 있다.
예를 들어, 상기 형태소 분석 서버(320)를 통해 '파란색/물병/이/테이블/에/있다'라는 분석 결과가 있다고 가정할 경우, 상기 단어 품사 파악부(311)는 '파란색(형용사)/물병(명사)/이(조사)/테이블(명사)/에(조사)/있다(동사)'와 같은 품사 파악 결과를 제공할 수 있다. 상기 단어 품사 파악부(311)는 상기 최적화 교정 서버(330)를 통해 교정 대상 단어를 최적의 단어로 교정하기 위해 단어 분석을 위한 기본적인 형태 분석 과정을 수행할 수 있다.
상기 연속 문자열 리스트 생성부(312)는 상기 단어 품사 파악부(331)를 통해 처리된 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화할 수 있다.
예를 들어, 상기 단어 품사 파악부(331)를 통해 처리된 파일 내에 연속해서 출연하는 동일한 문자열이 4개가 존재하는 것으로 파악한 경우, 좀 더 구체적으로, (1) "파란색 물병이 테이블에" (2) "파란색 가방이 테이블에" (3) "파란색 신발이 테이블에" (4) "파란색 물감이 테이블에"라는 문자열이 있고, (1)번 문자열은 10회, (2)번 문자열은 4회, (3)번 문자열은 2회, 그리고 (4)번 문자열은 1회 출현된 것으로 파악한 것으로 가정한다. 이때, 상기 연속 문자열 리스트 생성부(312)는 유사 문자열들을 최다 출현 횟수에 따라 (1)번, (2)번, (3)번, (4)번 순으로 정렬하고 리스트화 할 수 있다.
한편, 상기 단어 교정부(313)가 앞뒤 단어를 이용하여 그 사이의 교정 대상 단어를 추정하기 위하여, 상기 연속 문자열 리스트 생성부(312)를 통해 생성된 문자열 리스트는 적어도 3개의 단어가 연속해서 출현한 문자열을 포함하는 것이 바람직하다.
상기 단어 교정부(313)는, 교정 대상 단어의 앞뒤 단어를 파악하고, 상기 연속 문자열 리스트 생성부(312)를 통해 제공되는 문자열 리스트에 앞뒤 단어를 포함하는 문자열을 검색하고, 검색된 문자열 중 가장 많이 출현된 문자열에 기초하여 교정 대상 단어를 교정할 수 있다.
예를 들어, 상기 OCR 서버(310)를 통해 특정 단어가 판독되지 않을 경우, 해당 단어가 교정 대상 단어로 지정되고, 지정된 교정 대상 단어의 앞뒤 단어를 파악한 후, 그 앞의 단어가 "파란색"이고, 그 뒤의 단어가 "이" 또는 "이 테이블에"일 경우, 이를 바탕으로 상기 연속 문자열 리스트 생성부(312)를 통해 (1)번, (2)번, (3)번, (4)번의 문자열 리스트를 검색하여 조회하고, 해당 문자열들을 후보군으로 지정한다.
이후, 상기 단어 교정부(313)는, 가장 많이 출현된 것으로 파악된 (1)번의 (1) "파란색 물병이 테이블에"라는 문자열을 선택하고, 문자열 구조 내에서 교정 대상 단어와 대응되는 위치 즉 "물병"이라는 단어를 추출하여 교정 대상 단어를 교정할 수 있다.
이상에서 설명한 본 실시예에서는, 문서 파일 내에서 연속해서 출연하는 동일한 문자열을 대상으로 리스트화하는 것으로 설명하였으나, 이에 한정되는 것이 아니라, 연속해서 출현하는 동일한 문장을 대상으로 리스트화 할 수 있으며, 이와 같은 유사 문장 구조를 이용하여 교정 대상 단어에 대한 교체 단어로서 추출할 수도 있다.
상기 개인 패턴 데이터베이스(334)는, 사용자가 미리 등록한 문서 파일들을 대상으로, 해당 문서 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화된 데이터를 포함할 할 수 있다.
상기 개인 패턴 데이터베이스(334)는, 사용자가 즐겨 찾는 문서에서 자주 등장하는 문장 구조나 어휘 사용 패턴에 관한 정보가 등록된 것으로, 상기 연속 문자열 리스트 생성부(332)를 통해 생성된 리스트 정보와 함께 이용될 수 있다. 상기 개인 패턴 데이터베이스(334)에 저장된 리스트 정보는 상기 연속 문자열 리스트 생성부(332)에서 사용된 알고리즘과 동일한 알고리즘을 통해 생성될 수 있다.
상기 제3자 패턴 데이터베이스(335)는, 제3자(또는 사용자의 지인)가 미리 등록한 문서 파일들을 대상으로, 해당 문서 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화된 데이터를 포함할 수 있다.
상기 제3자 패턴 데이터베이스(335)는, 제3자(또는 사용자의 지인)가 즐겨 찾는 문서에서 자주 등장하는 문장 구조나 어휘 사용 패턴에 관한 정보가 등록된 것으로, 다양한 개인 패턴 데이터베이스들이 취합되어 이루어진 데이터베이스일 수 있다. 따라서, 상기 제3자 패턴 데이터베이스(335)은 다양한 개인 패턴 데이터베이스들을 공유하여 이용하기 위한 것으로, 상기 개인 패턴 데이터베이스(334) 및 상기 연속 문자열 리스트 생성부(332)를 통해 생성된 리스트 정보와 함께 이용될 수 있다. 상기 제3자 패턴 데이터베이스(335)에 저장된 각각의 리스트 정보는 상기 연속 문자열 리스트 생성부(332)에서 사용된 알고리즘과 동일한 알고리즘을 통해 각각 생성될 수 있다.
이와 같이 상기 연속 문자열 리스트 생성부(332), 개인 패턴 데이터베이스(334) 및 제3자 패턴 데이터베이스(334)는, 이들을 노드(node)로 하는 신경망을 구성하고 딥러닝(deep learning)을 실행할 수도 있다.
상기 펜 스캐너(100), 휴대 단말기(200) 및 클라우드 서버(300)는 스캐닝 프로세스를 실시하기 위한 구성이며, 상기 저장 서버(400)와 음성 변환 서버(500)는 스캐닝 프로세스를 통해 생성된 스캔 데이터를 디지털화하는 프로세스를 위한 구성이다.
상기 저장 서버(400)는 상기 클라우드 서버(300)를 통해 생성된 스캔 데이터의 텍스트를 저장하기 위한 서버로, 상기 휴대 단말기(200)의 요청에 따라 제공될 수 있다. 이에 따라 상기 휴대 단말기(200)는 상기 저장 서버(400)로부터 디지털화된 문서 파일을 재생 또는 열람할 수 있다.
상기 음성 변환 서버(500)는 상기 클라우드 서버(300)를 통해 생성된 스캔 데이터를 디지털 데이터로 변환하고, 변환된 데이터를 미리 구축된 음성 데이터베이스(510)에 기초하여 음성으로 변환하고, 상기 휴대 단말기(200)의 요청에 따라 제공될 수 있다. 이에 따라 상기 휴대 단말기(200)는 상기 음성 변환 서버(400)로부터 음성 파일을 제공받아 재생할 수 있다.
이하, 본 발명의 실시예에 따른 펜 스캐너에 대하여 상세히 설명한다.
도 3은 본 발명의 실시예에 따른 펜, 펜 스캐너와 단말기 간의 관계를 설명하기 위해 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 펜 스캐너(100)의 상면도와 정면도이고, 도 5는 본 발명의 일 실시예에 따른 펜 스캐너(100)의 하면도와 정면도이며, 도 6은 본 발명의 일 실시예에 따라 펜(20)이 결합된 상태의 펜 스캐너(100)의 측면도이다.
도 3 내지 도 6을 참조하면, 본 발명의 일 실시예에 따른 펜 스캐너(100)는, 스캐너부(110), 데이터 전송부(120) 및 펜 거치부(130)를 포함한다. 더불어, 상기 펜 스캐너(100)는 메모리부(140)와 배터리부(150)를 더 포함할 수 있다.
상기 스캐너부(110)는, 문서에 인쇄된 문자(문자열 단위)나 도형의 이미지를 스캔하여 이미지 파일을 생성하기 위한 수단으로, 상기 펜 거치부(130)의 선단부에 결합될 수 있다.
상기 스캐너부(110)는 문서에 인쇄된 내용을 촬영하고, 촬영된 영상을 소정의 이미지 데이터로 생성하기 위한 수단일 수 있다. 상기 스캐너부(110)를 통해 생성된 이미지 데이터는 상기 메모리부(140)에 저장되거나 외부 장치(10)의 데이터 요청 신호에 응답하여 상기 데이터 전송부(120)를 통해 외부 장치(10)로 전송될 수 있다. 여기서, 이미지 파일은 상기 메모리부(140)에 임시 저장되었다가 외부 장치(10)의 데이터 요청에 따라 외부 장치(10)로 보내지거나, 상기 스캐너부(110)를 통해 생성된 후 외부 장치(10)로 실시간 전송될 수 있다.
한편, 외부 장치(10)는 스마트 폰(1)이나 노트북(2)과 같은 PC 등 이미지 파일을 문서 파일로 변환하여 디스플레이할 수 있는 수단을 의미할 수 있다. 여기서 외부 장치(1)는 상술한 휴대 단말기(200)를 의미할 수도 있다.
상기 데이터 전송부(120)는 상기 스캐너부(110)를 통해 생성된 이미지 파일을 외부 장치(10)로 전송하기 위한 수단으로, 상기 펜 거치부(130)에 내장될 수 있다.
상기 데이터 전송부(120)는 무선과 유선 통신 방식을 통해 외부 장치(10)와 접속하여 상기 스캐너부(110)를 통해 생성된 이미지 파일을 외부 장치(10)로 전송할 수 있다.
예를 들어, 무선 통신 방식의 경우 상기 데이터 전송부(120)는 블루투스(Bluetooth)를 이용하는 무선 데이터 전송부(121)를 포함할 수 있으며, 와이파이(Wi-Fi)나 지그비(Zigbee)와 같은 근거리 통신 기술을 적용하여 실시할 수도 있다. 그리고, 유선 통신 방식의 경우 USB 데이터 케이블(미도시)를 이용하는 USB 단자부(122)를 포함할 수 있다. 상기 무선 데이터 전송부(121)는 외부 장치(10)와 블루투스 기능 활성화를 통해 페이링(pairing)되어 사용될 수 있으며, 상기 USB 단자부(122)는 USB 데이터 케이블을 통해 외부 장치(10)와 연결될 때 즉시 사용 가능할 수 있다.
상기 펜 거치부(130)는 그 선단부에 상기 스캐너부(110)가 결합될 수 있으며, 펜(20)이 탈착 가능하게 형성될 수 있다. 여기서, 펜(20)은 글씨를 쓰거나 그림을 그릴 수 있는 통상의 필기구일 수 있다. 또한, 펜(20)은 문서 상에 쓰여진 글씨나 그려진 그림이 사용자의 육안으로는 확인이 가능하나 상기 스캐너부(110)를 통해 촬영된 영상에서는 표시되지 않는 특정 물질의 잉크를 포함할 수 있다. 또는, 상기 스캐너부(110)가 문서 상에 인쇄된 문자나 이미지 외에 펜(20)을 통해 쓰여지거나 그려진 부분을 인식하지 않도록 구성될 수 있다. 또는, 펜(20)과 펜 거치부(130) 간의 거리가 충분히 이격됨으로써 펜(20)을 통해 쓰여지거나 그려진 부분이 상기 스캐너부(110)의 촬영 영역 외에 형성되도록 구성될 수 있다. 왜냐하면, 펜(20)에 의해 쓰여진 밑줄 등이 상기 스캐너부(110)을 통해 촬영되거나 인식되지 않도록 하여 고품질의 최종 결과물 즉 스캔 문서를 얻는 것이 바람직하기 때문이다.
또한, 상기 펜 거치부(130)는 상기 데이터 전송부(120), 상기 메모리부(140) 및 상기 배터리부(150)를 내장할 수 있다. 여기서, 상기 USB 단자부(122)는 상기 펜 거치부(130)의 후단부에 노출되도록 이루어질 수 있다. 이를 위해 상기 펜 거치부(130)는 펜 안착부(131)와 모듈 내장부(132)를 포함할 수 있다.
상기 펜 안착부(131)는 펜(20)이 안착 가능하도록 반원통 형태로 이루어지며, 그 선단부에 상기 스캐너부(110)가 결합될 수 있다. 좀 더 구체적으로, 상기 펜 안착부(131)는 고정 밴드부(131A), 스캔 버튼부(131B), 알림 램프부(131C)를 포함할 수 있다.
상기 고정 밴드부(131A)는 상기 펜 안착부(131)에 안착된 펜(20)을 감아 고정시키기 위한 다수의 밴드를 포함할 수 있다. 예를 들어, 상기 고정 밴드부(131A)는 제1 내지 제4 밴드(131A1, 131A2, 131A3, 131A4)를 포함할 수 있다.
상기 제1 및 제2 밴드(131A1, 131A2)는 도 4 및 도 5에 도시된 바와 같이, 상기 펜 안착부(131)의 선단부 양측에 각각 형성되되 상기 펜 안착부(131)의 길이방향에 대하여 서로 중첩되지 않는 위치(P1, P2)에 형성될 수 있다.
상기 제3 및 제4 밴드(131A3, 131A4)는 상기 펜 안착부(131)의 후단부 양측에 각각 형성되되, 상기 제1 및 제2 밴드(131A1, 131A2)의 형성 위치와 마찬가지로 상기 펜 안착부(131)의 길이방향에 대하여 서로 중첩되지 않는 위치에 형성될 수 있다.
상기 스캔 버튼부(131B)는 상기 스캐너부(110)의 작동을 제어하기 위한 수단일 수 있다. 예를 들어, 상기 스캔 버튼부(131B)를 최초로 한번 누르면 상기 스캐너부(110)의 작동이 개시될 수 있으며, 그 다음 한번 더 누르게 되면 상기 스캐너부(110)의 작동이 종료될 수 있다. 또는, 연속해서 누르는 횟수에 따라 작동 개시와 종료가 실행될 수 있으며, 좀 더 구체적으로, 상기 스캔 버튼부(131B)를 1회 누르면 상기 스캐너부(110)의 작동이 개시될 수 있으며, 그 다음 2회 연속으로 누르게 되면 상기 스캐너부(110)의 작동이 종료될 수 있다.
상기 알림 램프부(131C)는 상기 펜 스캐너(100)의 작동 여부, 전원 상태 및 데이터 전송 상태를 각각 표시할 수 있다. 예를 들어, 상기 알림 램프부(131C)는 제1 내지 제3 램프(131C1, 131C2, 131C3)를 포함할 수 있다.
상기 제1 램프(131C1)는 상기 스캔 버튼부(131B)의 스위칭 동작에 따른 상기 펜 스캐너(100)의 작동 여부를 표시할 수 있다.
상기 제2 램프(131C2)는 상기 펜 스캐너(100)의 전원 상태 즉 상기 배터리부(150)의 잔여용량 상태를 표시할 수 있다. 예를 들어, 상기 제2 램프(131C2)는 상기 배터리부(150)로부터 잔여용량에 따른 신호를 수신하여 상기 배터리부(150)의 잔여용량을 각각 나타내는 상이한 색상으로 발광하거나, 점등 개수에 따라 상기 배터리부(150)의 잔여용량을 표시할 수도 있다.
상기 제3 램프(131C3)는 점등되는 경우 상기 데이터 전송부(120)와 외부 장치(10)가 접속되었음을 표시할 수 있다.
상기 모듈 내장부(132)는 상기 펜 안착부(131)의 후단부와 연결되고, 상기 데이터 전송부(120), 상기 메모리부(140) 및 상기 배터리부(150)가 내장될 수 있으며, 상술한 바와 같이 여기서, 상기 USB 단자부(122)의 경우 상기 펜 거치부(130)의 후단부에 노출되도록 이루어질 수 있다.
또한, 상기 모듈 내장부(132)에서 상기 펜 안착부(131)와 연결되는 부분에는 펜(20)의 후단부가 삽입될 수 있는 펜 결합홈(132A)이 형성될 수 있다. 상기 펜 결합홈(132A)은 펜(20)이 상기 펜 안착부(131)에 안착될 때 펜(20)의 후단부가 삽입되는 부분으로, 상기 펜 안착부(131)에 안착된 펜(20)을 상기 펜 스캐너(100)에 더욱 견고히 고정시킬 수 있다.
상기 메모리부(140)는 상기 모듈 내장부(132)에 내장되며 상기 스캐너부(110)를 통해 생성된 이미지 파일을 임시 저장할 수 있다. 예를 들어, 상기 메모리부(140)는 플래시 메모리(flash memory)를 포함할 수 있다.
상기 배터리부(150) 상기 모듈 내장부(132)에 내장되며 상기 펜 스캐너(100)의 전원을 공급할 수 있다. 상기 배터리부(150)는 상기 펜 스캐너(100)의 각 구성요소들과 연결되어 전원을 공급할 수 있으며, 상기 USB 단자부(122)를 통해 외부 장치(10) 또는 충전기(미도시)를 통해 충전될 수 있다. 상기 배터리부(150)는 이차전지, 충방전 회로, 과충전 보호회로 등의 구성요소를 포함하여 이루어진 배터리 팩일 수 있다.
도 7은 본 발명의 다른 실시예에 따른 스캐너부(110')의 구성과 펜 거치부(130')의 결합 방법을 나타낸 도면이고, 도 8은 본 발명의 다른 실시예에 따른 펜(20)이 결합된 상태의 펜 스캐너(100')의 측면도이다.
도 7 및 도 8을 참조하면, 본 발명의 다른 실시예에 따른 펜 스캐너(100')는 일 실시예와 달리 펜 거치부(130')와 탈착 가능하도록 형성된다. 이러한 펜 스캐너(100')는 스캔 모듈부(111), 결합부(112), 스캐너 밴드(113) 및 제1 단자부(114)를 포함한다.
상기 스캔 모듈부(111)는 문서에 인쇄된 문자(문자열 단위)나 도형의 이미지를 촬영하고, 촬영된 영상을 소정의 이미지 파일로 생성할 수 있다.
상기 결합부(112)는, 상기 스캔 모듈부(111)와 연결되고, 펜 안착부(131')의 선단부가 삽입되어 상기 펜 안착부(131')와 결합되며 상기 펜 안착부(131')를 감싸도록 상기 펜 안착부(131')보다 더 큰 호로 이루어진 C자 링 형상으로 형성될 수 있다. 이에 따라 상기 결합부(112)는 상기 스캐너부(110')가 상기 펜 안착부(131')로부터 이탈되는 것을 방지할 수 있다.
상기 스캐너 밴드(113)는 상기 결합부(112)와 함께 원형의 고리 형상을 이루며, 상기 펜 안착부(131')에 안착된 펜(20)에 탄성을 가하여 상기 펜(20)이 상기 펜 스캐너(100')에 좀 더 견고히 고정될 수 있도록 한다.
상기 제1 단자부(114)는 상기 스캔 모듈부(11)와 전기적으로 연결되고 상기 결합부(112)의 내면부로부터 돌출되며 상기 펜 거치부(130')와 전기적으로 연결될 수 있다. 상기 결합부(112)에는 상기 제1 단자부(114)와 연결된 탄성 수단(예를 들어 스프링)이 구비되어 상기 스캐너부(110')와 팬 거치부(130')의 결합 시 상기 제1 단자부(114)가 일시적으로 상기 결합부(112) 내에 인입될 수 있다. 이때, 상기 펜 안착부(131')의 선단부에는 상기 제1 단자부(114)와 대응되는 홈 형상으로 이루어진 제2 단자부(131D)가 형성될 수 있다. 이에 따라 상기 결합부(112) 내에 일시적으로 인입된 상기 제1 단자부(114)가 상기 제2 단자부(131D)로 돌출되면서 상기 제2 단자부(131D)와 전기적으로 연결될 수 있다.
한편, 상기 제2 단자부(131D)는 상술한 데이터 전송부(120), 메모리부(140) 및 배터리부(150)와 각각 전기적으로 연결되어, 상기 스캐너부(110')를 통해 생성된 이미지 파일을 외부 장치(10) 또는 상기 메모리부(140)로 전송하거나, 상기 배터리부(150)에서 상기 스캐너부(110')로 필요한 전력을 전달할 수 있다.
본 발명의 실시예에 따르면, 펜을 이용하여 문서 상에서 스캔되는 부분에 대한 마킹을 실시하여 사용자가 스캔한 부분을 육안으로 직접 확인하여 스캔 작업을 진행할 수 있으므로, 스캔 오류를 최소화할 수 있다.
이상에서 설명한 것은 본 발명에 의한 문서 스캐닝 시스템을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
1000: 문서 스캐닝 시스템 100, 100': 펜 스캐너
110, 110': 스캐너부 111: 스캔 모듈부
112: 결합부 113: 스캐너 밴드
114: 제1 단자부 120: 데이터 전송부
121: 무선 데이터 전송부 122, 122': USB 단자부
130, 130': 펜 거치부 131, 131': 펜 안착부
131A: 고정 밴드부 131A1: 제1 밴드
131A2: 제2 밴드 131A3: 제3 밴드
131A4: 제4 밴드 131B, 131B': 스캔 버튼부
131C, 131C': 알림 램프부 131C1, 131C1': 제1 램프
131C2, 131C2': 제2 램프 131C3, 131C3': 제3 램프
131D: 제2 단자부 131E, 131E': 펜 안착홈
132. 132': 모듈 내장부 132A, 132A': 펜 결합홈
140: 메모리부 150: 배터리부
100: 펜 스캐너 200: 휴대 단말기
300: 클라우드 서버 310: OCR 서버
320: 형태소 분석 서버 330: 최적화 교정 서버
331: 단어 품사 파악부 332: 연속 문자열 리스트 생성부
333: 단어 교정부 334: 개인 패턴 데이터베이스
335: 제3자 패턴 데이터베이스

Claims (7)

  1. 문서를 촬영하여 이미지 파일을 생성하기 위한 펜 스캐너;
    상기 펜 스캐너로부터 상기 이미지 파일을 수신하여 저장하기 위한 휴대 단말기; 및
    상기 휴대 단말기로부터 상기 이미지 파일을 수신하고, 상기 이미지 파일에 포함된 문자를 판독하고, 문법적 분석 알고리즘과 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 판독되지 않은 교정 대상 문자를 최적합 문자로 교정하기 위한 클라우드 서버를 포함하고,
    상기 클라우드 서버는,
    상기 이미지 파일에 포함된 문자를 판독하기 위한 OCR 서버;
    상기 OCR 서버를 통해 판독된 문자를 형태소로 분할하기 위한 형태소 분석 서버; 및
    상기 문법적 분석 알고리즘과 유사 문장 구조를 이용한 추천 단어 리스트를 이용하여 상기 OCR 서버를 통해 판독되지 않은 교정 대상 단어를 최적합 단어로 교정하기 위한 최적화 교정 서버를 포함하며,
    상기 최적화 교정 서버는,
    상기 문법적 분석 알고리즘을 이용하여 상기 형태소 분석 서버를 통해 처리된 단어들의 품사를 각각 파악하기 위한 단어 품사 파악부;
    상기 단어 품사 파악부를 통해 처리된 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화하는 연속 문자열 리스트 생성부; 및
    상기 교정 대상 단어의 앞뒤 단어를 파악하고, 상기 연속 문자열 리스트 생성부를 통해 제공되는 문자열 리스트에 상기 앞뒤 단어를 포함하는 문자열을 검색하고, 검색된 문자열 중 가장 많이 출현된 문자열에 기초하여 상기 교정 대상 단어를 교정하는 단어 교정부를 포함하는 것을 특징으로 하는 문서 스캐닝 시스템.
  2. 삭제
  3. 삭제
  4. 제1 항에 있어서,
    상기 문자열 리스트는 적어도 3개의 단어가 연속해서 출현한 문자열을 포함하는 것을 특징으로 하는 문서 스캐닝 시스템.
  5. 제1 항에 있어서,
    상기 최적화 교정 서버는,
    사용자가 미리 등록한 문서 파일들을 대상으로, 해당 문서 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화된 개인 패턴 데이터베이스를 더 포함하고,
    상기 단어 교정부는,
    상기 연속 문자열 리스트 생성부와 상기 개인 패턴 데이터베이스에 기초하여 교정 대상 단어를 교정하는 것을 특징으로 하는 문서 스캐닝 시스템.
  6. 제5 항에 있어서,
    상기 최적화 교정 서버는,
    제3자가 미리 등록한 문서 파일들을 대상으로, 해당 문서 파일 내에 연속해서 출현하는 동일한 문자열을 각각 추출하고, 추출된 문자열에 대한 출현 횟수를 각각 파악하여 최다 출현 순으로 정렬하고 리스트화된 제3자 패턴 데이터베이스를 더 포함하고,
    상기 단어 교정부는,
    상기 연속 문자열 리스트 생성부, 상기 개인 패턴 데이터베이스 및 제3자 패턴 데이터 베이스에 기초하여 교정 대상 단어를 교정하는 것을 특징으로 하는 문서 스캐닝 시스템.
  7. 제6 항에 있어서,
    상기 연속 문자열 리스트 생성부, 상기 개인 패턴 데이터베이스 및 상기 제3자 패턴 데이터베이스는, 상기 연속 문자열 리스트 생성부, 상기 개인 패턴 데이터베이스 및 상기 제3자 패턴 데이터베이스를 각각 노드(node)로 하는 신경망을 구성하고 딥러닝(deep learning)을 실행하는 것을 특징을 하는 문서 스캐닝 시스템.
KR1020150178556A 2015-12-14 2015-12-14 문서 스캐닝 시스템 KR101779165B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150178556A KR101779165B1 (ko) 2015-12-14 2015-12-14 문서 스캐닝 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150178556A KR101779165B1 (ko) 2015-12-14 2015-12-14 문서 스캐닝 시스템

Publications (2)

Publication Number Publication Date
KR20170070710A KR20170070710A (ko) 2017-06-22
KR101779165B1 true KR101779165B1 (ko) 2017-09-15

Family

ID=59282927

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150178556A KR101779165B1 (ko) 2015-12-14 2015-12-14 문서 스캐닝 시스템

Country Status (1)

Country Link
KR (1) KR101779165B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132249A (ko) 2019-05-16 2020-11-25 페이트 주식회사 문서 스캔 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018108A (ja) * 2009-07-07 2011-01-27 Toshiba Corp 認識文字列補正装置および認識文字列補正用プログラム
KR200465008Y1 (ko) * 2012-09-07 2013-01-29 황경욱 팬스캐너를 이용한 문자 인식 시스템
JP2014120032A (ja) * 2012-12-18 2014-06-30 Fujitsu Ltd 文字認識装置および文字認識方法並びに文字認識プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018108A (ja) * 2009-07-07 2011-01-27 Toshiba Corp 認識文字列補正装置および認識文字列補正用プログラム
KR200465008Y1 (ko) * 2012-09-07 2013-01-29 황경욱 팬스캐너를 이용한 문자 인식 시스템
JP2014120032A (ja) * 2012-12-18 2014-06-30 Fujitsu Ltd 文字認識装置および文字認識方法並びに文字認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132249A (ko) 2019-05-16 2020-11-25 페이트 주식회사 문서 스캔 방법 및 장치

Also Published As

Publication number Publication date
KR20170070710A (ko) 2017-06-22

Similar Documents

Publication Publication Date Title
US9715524B1 (en) Natural language comprehension system
CN101558416B (zh) 移动通信设备的文本检测
US20140188477A1 (en) Method for correcting a speech response and natural language dialogue system
US20140188478A1 (en) Natural language dialogue method and natural language dialogue system
US20190370557A1 (en) Video processing method, apparatus and device
US9183199B2 (en) Communication device for multiple language translation system
WO2020032487A1 (ko) 우선 순위에 기반하여 상품과 관련된 정보를 제공하는 방법 및 그 전자 장치
CN101605399A (zh) 一种实现手语识别的移动终端及方法
CN113297843B (zh) 指代消解的方法、装置及电子设备
CN109034148A (zh) 一种基于文字图像识别音频阅读方法及其装置
CN108121987B (zh) 一种信息处理方法和电子设备
KR101779165B1 (ko) 문서 스캐닝 시스템
WO2011065065A1 (ja) 情報処理装置、および情報処理装置の制御方法
JP5640601B2 (ja) 文字認識装置、文字認識装置制御プログラム、文字認識装置制御方法及び携帯端末装置
TWM457241U (zh) 結合擴增實境的圖像文字辨識系統
CN101668071A (zh) 具备扫描功能的移动通信终端及其实现方法
KR20200098933A (ko) 펜 타입 텍스트 번역 장치 및 방법
KR100906380B1 (ko) 펜 형태의 전자사전 장치 및 그 방법
KR100623192B1 (ko) 장착된 카메라를 통하여 입력된 영상에 관한 음성데이터를 출력하는 휴대 단말기
US20060278714A1 (en) Portable communication apparatus having optics character recognition function
KR20200049435A (ko) 문자 인식에 기반한 서비스 제공 방법 및 장치
WO2012036345A1 (ko) 서버 연동 통페이지 광학문자 인식 및 사전 검색 시스템 및 방법
CN110580359A (zh) 一种汉字与阿拉伯语的互通互识技术方法
CN103700289A (zh) 一种扫描查询方法及其装置
CN210402846U (zh) 一种手语翻译终端及手语翻译服务器

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant