KR101585029B1 - 문서 인식 분류 시스템 - Google Patents

문서 인식 분류 시스템 Download PDF

Info

Publication number
KR101585029B1
KR101585029B1 KR1020150066362A KR20150066362A KR101585029B1 KR 101585029 B1 KR101585029 B1 KR 101585029B1 KR 1020150066362 A KR1020150066362 A KR 1020150066362A KR 20150066362 A KR20150066362 A KR 20150066362A KR 101585029 B1 KR101585029 B1 KR 101585029B1
Authority
KR
South Korea
Prior art keywords
image
personal information
module
unit
recognition
Prior art date
Application number
KR1020150066362A
Other languages
English (en)
Inventor
조석홍
Original Assignee
(주)코드원시스템
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)코드원시스템 filed Critical (주)코드원시스템
Priority to KR1020150066362A priority Critical patent/KR101585029B1/ko
Application granted granted Critical
Publication of KR101585029B1 publication Critical patent/KR101585029B1/ko

Links

Images

Classifications

    • G06K9/00523
    • G06F17/30707
    • G06K9/00449
    • G06K9/6276

Landscapes

  • Character Input (AREA)

Abstract

본 발명은 문자인식 대상물의 이미지 데이터를 수신 또는 획득하여 제공하는 입력부; 상기 입력부로부터 이미지 데이터를 수신받아 상기 이미지 데이터에 대하여, OCR(Optical Character Reader) 인식률을 높이도록 이미지전처리를 수행하고, 상기 전처리된 이미지 데이터로부터 텍스트를 추출함과 아울러 서식라인을 인식하며, 상기 텍스트와 상기 서식라인의 좌표 및 개인정보를 추출하고, 개인정보 마스킹 이미지를 생성하여 상기 이미지 데이터의 원본 또는 사본 이미지에 상기 개인정보 마스킹 이미지를 오버레이함으로써 개인정보의 식별을 방지하도록 보호 처리하며, 상기 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하는 인식부; 및 상기 인식부로부터 제공되는 처리 데이터를 출력 및 저장하는 출력부;를 포함하도록 한 문서 인식 분류 시스템에 관한 것이다.
본 발명에 따르면, 스캔, 복사 또는 촬영된 이미지 파일 형태의 문서, 신분증, 증명서, 신청서 등을 OCR(Optical Character Reader)에 의해 인식하여 이미지 내의 특정 키워드와 개인정보를 정확하게 추출하도록 하고, 추출된 데이터 내에 키워드, 개인정보가 존재 시 해당 정보를 제공함과 아울러, 기업, 공공기관의 개인정보보호 정책에 따른 보안기능을 적용할 수 있다.

Description

문서 인식 분류 시스템{Recognition and classification system of document}
본 발명은 문서 인식 분류 시스템에 관한 것으로서, 보다 상세하게는 문자인식 대상물에 대한 문자 등의 인식과 함께 인식된 개인정보의 식별을 방지하기 위한 보호 처리가 가능한 문서 인식 분류 시스템에 관한 것이다.
일반적으로, 공공기관이나 은행 또는 회사 등 뿐만 아니라 개인에게 있어서, 문서의 자동 분류는 업무의 효율 측면에서 그 필요성이 증대되고 있다. 이러한 기능을 만족시키기 위한 자동 문서 분류 장치는 문서의 분류 작업, 보관 작업 및 보관 이후 문서의 검색 및 확인 작업에 있어서 신속성과 효율성을 제공한다.
또한 전자문서의 도입에 따라, 문서보관량이 많이 줄었지만, 결제서, 검토서, 공문, 확인서, 인증서, 신분증 등은 여전히 문서 형식으로 사용되고 있는데, 이들을 전자화하여 분류 및 보관하는데 많은 어려움이 따르고 있다. 따라서 이를 해결하기 위하여, 자동 문서 분류 장치가 개발되어 사용되고 있다.
종래의 문서를 전자화하여 분류하는 기술로는 한국공개특허 제10-2012-0017235호의 "자동으로 문서를 스캔, 분류, 보관하는 기능과 보관 이후에도 사용자 인터페이스를 이용하여 전자화된 문서를 검색, 확인, 인쇄하는 기능을 갖고 있는 자동문서분류보관장치"가 있다. 이는 자동문서분류보관장치와 서버, 사용자인터페이스가 네트워크에 의해 연결되어 있다. 또한 문서분류작업의 자동화를 위해 문서를 문서입력부에 넣고 컨트롤러에 문서가 보관되는 문서함 번호를 입력하면 자동적으로 문서가 문서이동통로의 롤러를 타고 이동하여 문서함에 넣어지도록 되어 있다. 또한 문서함안에는 문서BOX가 들어있으며, 문서BOX에 문서가 가득 차면 사용자는 문서BOX를 분리하여 창고에 보관하고 새 문서BOX로 교체하도록 설계되어 있다. 또한 문서가 전자문서가 되도록 스캔장치를 지나면 전자문서는 서버에 저장되도록 한다.
그러나 이와 같은 종래 기술은 문서를 전자화하여 분류함에 있어서 정확도와 효율성을 높이기 위한 방안이 제시되어 있지 않고, 개인정보가 제대로 보호되지 못하다는 문제점을 가지고 있었다.
상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 스캔, 복사 또는 촬영된 이미지 파일 형태의 문서, 신분증, 증명서, 신청서 등을 OCR(Optical Character Reader)에 의해 인식하여 이미지 내의 특정 키워드와 개인정보를 정확하게 추출하도록 하고, 추출된 데이터 내에 키워드, 개인정보가 존재시 해당 정보를 제공함과 아울러, 기업, 공공기관의 개인정보보호 정책에 따른 보안기능을 적용할 수 있도록 하는데 목적이 있다.
본 발명의 다른 목적들은 이하의 실시례에 대한 설명을 통해 쉽게 이해될 수 있을 것이다.
상기한 바와 같은 목적을 달성하기 위해, 본 발명의 일측면에 따르면, 문자인식 대상물의 이미지 데이터를 수신 또는 획득하여 제공하는 입력부; 상기 입력부로부터 이미지 데이터를 수신받아 상기 이미지 데이터에 대하여, OCR(Optical Character Reader) 인식률을 높이도록 이미지전처리를 수행하고, 상기 전처리된 이미지 데이터로부터 텍스트를 추출함과 아울러 서식라인을 인식하며, 상기 텍스트와 상기 서식라인의 좌표 및 개인정보를 추출하고, 개인정보 마스킹 이미지를 생성하여 상기 이미지 데이터의 원본 또는 사본 이미지에 상기 개인정보 마스킹 이미지를 오버레이함으로써 개인정보의 식별을 방지하도록 보호 처리하며, 상기 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하는 인식부; 및 상기 인식부로부터 제공되는 처리 데이터를 출력 및 저장하는 출력부;를 포함하는, 문서 인식 분류 시스템이 제공된다.
상기 인식부는, 상기 입력부로부터 제공되는 이미지 데이터를 수신하는 데이터수신부; 상기 데이터수신부에 수신된 이미지 데이터에 대한 개인정보 처리와 문서분류 처리를 위해 사전에 서식, 키워드 및 타이틀 구분값을 등록하고 관리하는 환경설정관리부; 상기 데이터수신부에 수신된 이미지 데이터에 대하여 OCR 인식률을 높이기 위해 이미지 프로세싱에 의한 전처리를 수행하는 이미지전처리부; 상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 문자인식 텍스트 추출, 서식라인 인식, 그리고 문자별 및 서식라인별 좌표 추출을 처리하는 OCR 인식처리부; 상기 OCR 인식처리부에 의해 획득된 데이터를 이용하여, 추출된 문자열에 대한 개인정보 패터닝, 키워드 필터링, 지문정보 필터링 그리고 서식에 의한 개인정보 및 지문정보의 위치 및 크기 취득 처리를 통해서, 개인정보 마스킹 이미지를 생성하고, 상기 이미지 데이터의 원본 또는 사본 이미지에 상기 개인정보 마스킹 이미지를 오버레이함으로써 개인정보의 식별을 방지하도록 보호 처리하는 개인정보보호처리부; 상기 OCR 인식처리부에 의해 획득된 데이터로부터 상기 환경설정관리부에 등록된 서식, 키워드 및 타이틀 구분값에 의해 상기 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하는 문서분류처리부; 상기 OCR 인식처리부에 의해 추출된 문자열 값에 의한 메타데이터를 생성하여 등록 처리하는 메타데이터처리부; 및 상기 개인정보보호처리부, 상기 문서분류처리부 및 상기 메타데이터처리부에 의해 처리된 데이터를 송신하는 데이터송신부;를 포함할 수 있다.
상기 환경설정관리부는, 상기 이미지전처리부에 의한 이미지 전처리의 초기값을 설정하는 이미지전처리설정모듈; 상기 개인정보보호처리부에 의해 이미지 데이터에서 보호 처리되는 개인식별정보의 정규식 패턴과 개인정보 식별자 키워드를 설정하는 개인정보패턴설정모듈; 상기 개인정보보호처리부에 의한 이미지 데이터의 보호 처리에 필요한, 개인정보 마스킹 이미지, 개인정보 마스킹 자리수, 개인정보 원본이나 사본의 이미지 마스킹 및 조회시 마스킹 오버레이 수행 중에서 일부 또는 전부를 포함하는 마스킹 방식을 설정하는 개인정보마스킹설정모듈; 상기 메타데이터처리부에 의한 메타데이터 생성 필드값을 설정하는 메타데이터설정모듈; 상기 문서분류처리부에 의한 문서 분류를 위해 미리 정의하고자 하는 이미지 파일의 서식 및 키워드, 타이틀 크기 및 위치를 등록하는 이미지문서서식등록모듈; 및 상기 문서분류처리부에 의해 이미지 데이터의 문서 분류시 분류 조건 및 출력 대상 시스템을 설정하는 이미지문서분류조건설정모듈;을 포함할 수 있다.
상기 이미지전처리부는, 상기 데이터수신부에 의해 수신된 이미지 데이터에 대한 밝기 조절, 대비 조절 및 필섹 크기 조절을 수행하는 밝기/대비/픽셀이미지전처리모듈; 상기 데이터수신부에 의해 수신된 이미지 데이터에 대한 원근에 의한 왜곡 및 기울기 조정을 수행하는 기울기조정이미지전처리모듈; 및 상기 데이터수신부에 의해 수신된 이미지 데이터에 대한 음영을 제거하는 음영제거이미지전처리모듈;를 포함할 수 있다.
상기 OCR 인식처리부는, 상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 줄 단위 문자를 인식하는 이미지문서광학문자인식모듈; 상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 서식라인을 인식하는 이미지서식라인인식모듈; 및 상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 문자 및 라인의 이미지 픽셀에 대한 좌표를 추출하는 인식이미지좌표추출모듈;를 포함할 수 있다.
상기 개인정보보호처리부는, 상기 OCR 인식처리부에 의해 획득된 데이터에서, 추출된 문자열의 개인정보 패턴 인식을 통해 개인정보 여부를 필터링하는 개인정보패턴필터링모듈; 상기 OCR 인식처리부에 의해 획득된 데이터에서, 추출된 문자열의 개인정보 식별자 키워드를 필터링하는 개인정보키워드필터링모듈; 상기 OCR 인식처리부에 의해 획득된 데이터에서, 추출된 개인정보 패턴, 식별자 키워드 및 서식정보에 의한 지문정보를 필터링하는 지문정보필터링모듈; 상기 OCR 인식처리부에 의해 획득된 데이터에 대하여, 사전에 등록된 이미지 서식정보와의 매핑을 통해 지정된 개인정보 필드를 인식하는 서식매핑개인정보인식모듈; 상기 개인정보패턴필터링모듈, 상기 개인정보키워드필터링모듈 및 상기 지문정보필터링모듈로부터 필터링된 데이터와 상기 서식매핑개인정보인식모듈의 필드 인식을 통해 개인정보 및 지문정보의 좌표 값 및 크기를 인식하는 마스킹좌표인식처리모듈; 상기 이미지 데이터에 개인정보 및 지문정보의 마스킹을 하기 위한 마스킹용 이미지를 생성하는 오버레이마스킹이미지생성모듈; 상기 이미지 데이터의 원본 또는 사본 이미지 파일에 상기 오버레이마스킹이미지생성모듈에 의해 생성된 마스킹용 이미지를 결합하여 이미지 마스킹을 처리하는 개인/지문정보이미지마스킹모듈; 및 상기 개인/지문정보이미지마스킹모듈에 의해 마스킹된 이미지 데이터의의 메타데이터 추출과 문서분류 조건에 따른 분류를 처리하는 마스킹문서분류처리모듈;을 포함할 수 있다.
상기 문서분류처리부는, 상기 입력부에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식과의 매핑을 수행하는 이미지서식매핑문서인식모듈; 상기 입력부에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식의 키워드를 필터링하는 이미지서식키워드필터링모듈; 상기 입력부에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식의 타이틀을 필터링하는 이미지서식타이틀필터링모듈; 및 상기 이미지서식매핑문서인식모듈, 상기 이미지서식키워드필터링모듈 및 상기 이미지서식타이틀필터링모듈의 서식 인식을 통한 상기 이미지 데이터의 메타데이터 추출과 문서분류 조건에 따른 분류를 처리하는 서식인식문서분류처리모듈;을 포함할 수 있다.
본 발명에 따른 문서 인식 분류 시스템에 의하면, 스캔, 복사 또는 촬영된 이미지 파일 형태의 문서, 신분증, 증명서, 신청서 등을 OCR(Optical Character Reader)에 의해 인식하여 이미지 내의 특정 키워드와 개인정보를 정확하게 추출하도록 하고, 추출된 데이터 내에 키워드, 개인정보가 존재시 해당 정보를 제공함과 아울러, 기업, 공공기관의 개인정보보호 정책에 따른 보안기능을 적용할 수 있다.
도 1은 본 발명의 일 실시례에 따른 문서 인식 분류 시스템을 도시한 구성도이다.
도 2는 본 발명의 일 실시례에 따른 문서 인식 분류 시스템의 인식부를 도시한 구성도이다.
도 3은 본 발명의 일 실시례에 따른 문서 인식 분류 시스템의 이미지전처리부에 의한 처리 예를 나타낸 이미지이다.
도 4 내지 도 8은 본 발명의 일 실시례에 따른 문서 인식 분류 시스템의 이미지전처리부에 의한 처리의 구체적인 예들을 나타낸 이미지이다.
도 9는 본 발명의 일 실시례에 따른 문서 인식 분류 시스템의 개인정보보호처리부에 의한 마스킹 처리 과정의 예를 나타낸 도면이다.
도 10은 본 발명의 일 실시례에 따른 문서 인식 분류 시스템의 개인정보보호처리부에 의한 마스킹 처리 결과의 예를 나타낸 도면이다.
도 11은 본 발명의 일 실시례에 따른 문서 인식 분류 시스템의 문서분류처리부의 처리 예를 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고, 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니고, 본 발명의 기술 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 식으로 이해되어야 하고, 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시례에 한정되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시례를 상세히 설명하며, 도면 부호에 관계없이 동일하거나 대응하는 구성요소에 대해서는 동일한 참조 번호를 부여하고, 이에 대해 중복되는 설명을 생략하기로 한다.
도 1은 본 발명의 일 실시례에 따른 문서 인식 분류 시스템을 도시한 구성도이다.
도 1을 참조하면, 본 발명의 일 실시례에 따른 문서 인식 분류 시스템(10)은 입력부(100), 인식부(200) 및 출력부(300)를 포함할 수 있다.
입력부(100)는 문자인식 대상물의 이미지 데이터를 수신 또는 획득하여 제공하도록 한다. 여기서 문자인식 대상물은, 예컨대 주민등록증, 운전면허증, 여권, 주민등록등초본 등과 같은 고객신원의 증명을 위해 개인정보가 포함된 각종 증명서와, 신청서, 청구서, 송장, 신고서, 견적서, 발주서 등이 포함된 업무 협업을 위한 각종 수발신 서식문서를 비롯하여, 문자인식을 통한 문서전자화 및 분류를 요구하는 각종 대상물이 포함될 수 있다.
입력부(100)는 예컨대 본 실시례에서처럼, 문자인식 대상물의 이미지 데이터를 수신 및 송신하는 팩스(110)와, 문자인식 대상물을 이미지 데이터로 변환하여 획득하는 스캐너(120)와, 업무 전산화를 위해 정해진 형식의 전자문서를 관리하는 제 1 전자문서관리부(130)와, 팩스(110) 및 스캐너(120)에 의해 제공되는 이미지 데이터를 업무 전산화를 위한 이미지 데이터로서 관리하는 제 1 이미지관리부(140)와, 팩스(110) 및 스캐너(120)에 의해 획득된 데이터와, 제 1 전자문서관리부(130)와 제 1 이미지관리부(140)에 의해 관리되는 데이터를 보관하는 제 1 저장부(150)를 포함할 수 있다.
인식부(200)는 입력부(100)로부터 이미지 데이터를 수신받아 이미지 데이터에 대하여, OCR(Optical Character Reader, 광학식 문자 판독기) 인식률을 높이도록 이미지전처리를 수행하고, 전처리된 이미지 데이터로부터 텍스트를 추출함과 아울러 서식라인을 인식하며, 텍스트와 서식라인의 좌표 및 개인정보를 추출하고, 개인정보 마스킹 이미지를 생성하여 이미지 데이터의 원본 또는 사본 이미지에 개인정보 마스킹 이미지를 오버레이(overlay)함으로써 개인정보의 식별을 방지하도록 보호 처리하며, 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하도록 한다.
인식부(200)는 입력부(100)로부터 제공되는 이미지 데이터를 수신하는 데이터수신부(210)와, 데이터수신부(210)에 수신된 이미지 데이터에 대한 개인정보 처리와 문서분류 처리를 위해 사전에 서식, 키워드 및 타이틀 구분값을 등록하고 관리하는 환경설정관리부(220)와, 데이터수신부(210)에 수신된 이미지 데이터에 대하여 OCR 인식률을 높이기 위해 이미지 프로세싱(image processing)에 의한 전처리를 수행하는 이미지전처리부(230)와, 이미지전처리부(230)에 의해 전처리된 이미지 데이터에서 문자인식 텍스트 추출, 서식라인 인식, 그리고 문자별 및 서식라인별 좌표 추출을 처리하는 OCR 인식처리부(240)와, OCR 인식처리부(240)에 의해 획득된 데이터를 이용하여, 추출된 문자열에 대한 개인정보 패터닝, 키워드 필터링, 지문정보 필터링 그리고 서식에 의한 개인정보 및 지문정보의 위치 및 크기 취득 처리를 통해서, 개인정보 마스킹 이미지를 생성하고, 이미지 데이터의 원본 또는 사본 이미지, 예컨대 입력부(100)에 의해 제공되는 이미지 데이터 또는 이미지전처리부(230)에 의해 이미지 전처리를 마친 이미지 데이터 등에 개인정보 마스킹 이미지를 오버레이함으로써 개인정보의 식별을 방지하도록 보호 처리하는 개인정보보호처리부(250)와, OCR 인식처리부(240)에 의해 획득된 데이터로부터 환경설정관리부(220)에 등록된 서식, 키워드 및 타이틀 구분값에 의해 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하는 문서분류처리부(260)와, OCR 인식처리부(240)에 의해 추출된 문자열 값에 의한 메타데이터를 생성하여 등록 처리하는 메타데이터처리부(270)와, 개인정보보호처리부(250), 문서분류처리부(260) 및 메타데이터처리부(270)에 의해 처리된 데이터를 송신하는 데이터송신부(280)를 포함할 수 있다.
데이터수신부(210)는 입력부(100)로부터 이미지 데이터를 수신 처리하기 위한 이미지파일수신모듈(211)이 마련될 수 있다.
환경설정관리부(220)는 이미지전처리부(230)에 의한 이미지 전처리의 초기값을 설정하는 이미지전처리설정모듈(222)과, 개인정보보호처리부(250)에 의해 이미지 데이터에서 보호 처리되는 주민등록번호, 여권번호 등과 같은 개인식별정보의 정규식 패턴과 개인정보 식별자 키워드를 설정하는 개인정보패턴설정모듈(223)과, 개인정보보호처리부(250)에 의한 이미지 데이터의 보호 처리에 필요한, 개인정보 마스킹 이미지, 개인정보 마스킹 자리수, 개인정보 원본이나 사본의 이미지 마스킹 및 조회시 마스킹 오버레이 수행 중에서 일부 또는 전부를 포함하는 마스킹 방식을 설정하는 개인정보마스킹설정모듈(224)과, 메타데이터처리부(270)에 의한 메타데이터 생성 필드값을 설정하는 메타데이터설정모듈(225)과, 문서분류처리부(260)에 의한 문서 분류를 위해 미리 정의하고자 하는 이미지 파일의 서식 및 키워드, 타이틀 크기 및 위치를 등록하는 이미지문서서식등록모듈(226)과, 문서분류처리부(260)에 의해 이미지 데이터의 문서 분류시 분류 조건 및 출력 대상 시스템을 설정하는 이미지문서분류조건설정모듈(227)을 포함할 수 있다. 또한 환경설정관리부(220)는 제어처리를 위한 환경설정값 등을 저장 및 관리하도록 하는 환경설정DB(221)를 더 포함할 수 있다.
이미지전처리부(230)는 이미지 기울기 조정, 잡영(노이즈) 제거, 배경 문양 제거 및 적응형 이진화, 양면 스캔된 이미지 분할 후 개별 기울기 보정, 이미지 방향 식별(예를 들면, 90도, 180도 또는 270도), 컬러 문자 영상 및 배경 이미지 처리, 컬러 필터링, 개별 필드 이미지에 대한 잡영 제거, 테두리 제거 등을 통해서 이미지를 전처리할 수 있으며, 이러한 처리의 예를 도 3에 나타낸다. 도 3에서는 좌측으로부터 우측으로 이미지를 전처리하는 과정을 나타낸다.
이미지전처리부(230)는 데이터수신부(210)에 의해 수신된 이미지 데이터에 대한 밝기 조절, 대비 조절 및 필섹 크기 조절을 수행하는 밝기/대비/픽셀이미지전처리모듈(231)과, 데이터수신부(210)에 의해 수신된 이미지 데이터에 대한 원근에 의한 왜곡 및 기울기 조정을 수행하는 기울기조정이미지전처리모듈(232)과, 데이터수신부(210)에 의해 수신된 이미지 데이터에 대한 음영을 제거하는 음영제거이미지전처리모듈(233)을 포함할 수 있다.
밝기/대비/픽셀이미지전처리모듈(231)은 도 4에서와 같이, 좌측 이미지를 반전없이 그레이 스케일로 변환하고, 밝기 및 대비를 조정하여 흑백으로 변환함으로써 전처리된 우측 이미지를 얻도록 하거나(Black-and-white document), 도 5에서와 같이, 좌측 이미지를 반전없이 그레이 스케일로 변환하고, 밝기 및 대비를 조정하여 흑백으로 변환함으로써 전처리된 우측 이미지를 얻도록 하거나(Light-on-dark document), 도 6에서와 같이, 좌측 이미지와 같이 흐릿하거나 초점이 맞지 않는 어두운 사진을 노이즈 제거, 밝기 감소, 밝기 및 대비 조정을 통해 전처리된 우측 이미지를 얻도록 하거나(Spy shot), 도 7에서와 같이, 좌측 이미지를 에지 검출(인식 경계선)하고, 배경에 대한 문서의 경계선을 파악하며, 배경을 잘라냄으로써 전처리된 우측 이미지를 얻도록 할 수 있다(Auto cropping/Edge detection, Recognize edges). 밝기/대비/픽셀이미지전처리모듈(231)은 그 밖에 문서의 배경을 흰색으로 변경하거나(Whitepaper), 컬러/그레이스케일 이미지를 흑백으로 변환할 수 있다(Binarization, 이진화).
기울기조정이미지전처리모듈(232)은 도 8에서와 같이, 좌측 이미지를 원근에 의한 왜곡을 수정하여, 예컨대 사다리꼴 모양에서 직사각형으로 수정함으로써 전처리된 우측 이미지를 얻도록 할 수 있다(Perspective correction).
음영제거이미지전처리모듈(233)은 글자 주위의 얼룩을 제거할 수 있다(Sharpening).
OCR 인식처리부(240)는 이미지전처리부(230)에 의해 전처리된 이미지 데이터에서 줄 단위 문자를 인식하는 이미지문서광학문자인식모듈(241)과, 이미지전처리부(230)에 의해 전처리된 이미지 데이터에서 서식라인을 인식하는 이미지서식라인인식모듈(242)과, 이미지전처리부(230)에 의해 전처리된 이미지 데이터에서 문자 및 라인의 이미지 픽셀에 대한 좌표를 추출하는 인식이미지좌표추출모듈(243)을 포함할 수 있다.
개인정보보호처리부(250)는 OCR 인식처리부(240)에 의해 획득된 데이터에서, 추출된 문자열의 개인정보 패턴 인식을 통해 개인정보 여부를 필터링하는 개인정보패턴필터링모듈(251)과, OCR 인식처리부(240)에 의해 획득된 데이터에서, 추출된 문자열의 개인정보 식별자 키워드를 필터링하는 개인정보키워드필터링모듈(252)과, OCR 인식처리부(240)에 의해 획득된 데이터에서, 추출된 개인정보 패턴, 식별자 키워드 및 서식정보에 의한 지문정보를 필터링하는 지문정보필터링모듈(253)과, OCR 인식처리부(240)에 의해 획득된 데이터에 대하여, 사전에 등록된 이미지 서식정보와의 매핑을 통해 지정된 개인정보 필드를 인식하는 서식매핑개인정보인식모듈(254)과, 개인정보패턴필터링모듈(251), 개인정보키워드필터링모듈(252) 및 지문정보필터링모듈(253)로부터 필터링된 데이터와 서식매핑개인정보인식모듈(254)의 필드 인식을 통해 개인정보 및 지문정보의 좌표 값 및 크기를 인식하는 마스킹좌표인식처리모듈(255)과, 상기의 이미지 데이터에 개인정보 및 지문정보의 마스킹을 하기 위한 마스킹용 이미지를 생성하는 오버레이마스킹이미지생성모듈(256)과, 상기의 이미지 데이터의 원본 또는 사본 이미지 파일에 오버레이마스킹이미지생성모듈(256)에 의해 생성된 마스킹용 이미지를 결합하여 이미지 마스킹을 처리하는 개인/지문정보이미지마스킹모듈(257)과, 개인/지문정보이미지마스킹모듈(257)에 의해 마스킹된 이미지 데이터의의 메타데이터 추출과 문서분류 조건에 따른 분류를 처리하는 마스킹문서분류처리모듈(258)을 포함할 수 있다.
도 9에서와 같이, 개인정보보호처리부(250)에 의해, 개인정보나 지문정보를 선택한 후, 그 처리방식과, 원본 이미지의 선택폴더와 변환 이미지의 저장폴더를 선택하여 마스킹을 처리할 수 있으며, 이에 따른 마스킹 처리 결과를 도 10에 나타낸다.
문서분류처리부(260)는 입력부(210)에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식과의 매핑을 수행하는 이미지서식매핑문서인식모듈(261)과, 입력부(100)에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식의 키워드를 필터링하는 이미지서식키워드필터링모듈(262)과, 입력부(100)에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식의 타이틀을 필터링하는 이미지서식타이틀필터링모듈(263)과, 이미지서식매핑문서인식모듈(261), 이미지서식키워드필터링모듈(262) 및 이미지서식타이틀필터링모듈(263)의 서식 인식을 통한 이미지 데이터의 메타데이터 추출과 문서분류 조건에 따른 분류를 처리하는 서식인식문서분류처리모듈(264)을 포함할 수 있다.
도 11에서와 같이, 문서분류처리부(260)에 따르면, 우측의 이미지 데이터를 통해서 서식인식, 키워드 인식 및 타이틀 인식에 의해 좌측의 이미지 데이터에서와 같이, 해당 이미지 데이터를 수납검사증으로 문서 분류하게 된다.
메타데이터처리부(270)는 예컨대 본 실시례에서처럼 개인정보보호처리부(250)에 의해 마스킹된 이미지 데이터의 메타데이터를 생성하는 메타데이터생성모듈(272)과, 메타데이터생성모듈(272)에 의해 생성된 메타데이터를 등록하는 메타데이터등록모듈(273)과, 메타데이터등록모듈(273)에 의해 등록된 메타데이터를 검색하는 메타데이터검색모듈(274)과, 메타데이터등록모듈(273)에 의해 등록된 메타데이터의 삭제, 변경 및 로그 관리를 수행하는 메타데이터관리모듈(275)을 포함할 수 있다. 메타데이터처리부(270)는 이미지 데이터의 메타데이터 등을 저장 및 관리하는 메타데이터DB(271)를 더 포함할 수 있다.
데이터송신부(280)는 최종 제어 처리된 이미지 결과 데이터를 출력 시스템으로 송신 처리하는 이미지파일송신모듈(281)을 포함할 수 있다.
출력부(300)는 인식부(200)로부터 제공되는 처리 데이터를 출력 및 저장하도록 한다. 출력부(300)는 예컨대 본 실시례에서처럼 업무 전산화를 위해 정해진 형식의 전자문서를 관리하는 제 2 전자문서관리부(310)와, 인식부(200)에 의해 처리된 데이터를 업무 전산화를 위한 이미지 데이터로서 관리하는 제 2 이미지관리부(320)와, 인식부(200)에 의해 처리된 데이터와, 제 2 전자문서관리부(310)와 제 2 이미지관리부(320)에 의해 관리되는 데이터를 보관하는 제 2 저장부(330)를 포함할 수 있다.
이와 같은 본 발명에 따른 문서 인식 분류 시스템에 의하면, 복사 또는 촬영된 이미지 파일 형태의 문서, 신분증, 증명서, 신청서 등을 OCR(Optical Character Reader)에 의해 인식하여 이미지 내의 특정 키워드와 개인정보를 정확하게 추출하도록 하고, 추출된 데이터 내에 키워드, 개인정보가 존재 시 해당 정보를 제공함과 아울러, 기업, 공공기관의 개인정보보호 정책에 따른 보안기능을 적용할 수 있다.
그러므로, 본 발명에 의해, 신분증, 각종 증명서 및 신청서 이미지 데이터에서 개인정보를 추출하여, 해당 이미지 데이터의 개인정보 위치에 이미지 마스킹을 통한 개인정보를 보호할 수 있도록 하고, 사용자 PC에 보관된 이미지파일을 스캔 및 문자인식하여 개인정보 포함된 이미지 파일의 모니터링, 예컨대 개인정보 보유여뷰, 보유량, 개인정보통계를 확인할 수 있도록 하며, 디지털 복합기에서의 보안, 스캔, 팩스송신 작업시 원문 로그 이미지 파일로부터 개인정보 추출후 사후 모니터링 또는 사전 필터링 차단이 가능하도록 하고, 이 경우 복합기 제조사와 연동 커스터마이징 구현을 가능하도록 하며, 이미지 파일 출력시 해당 이미지 파일의 문자인식을 통한 개인정보 탐지를 가능하도록 한다.
이와 같이 첨부된 도면을 참조하여 본 발명을 설명하였으나, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 수정 및 변형이 이루어질 수 있음은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시례에 한정되어서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이러한 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 입력부 110 : 팩스
120 : 스캐너 130 : 제 1 전자문서관리부
140 : 제 1 이미지관리부 150 : 제 1 저장부
200 : 인식부 210 : 데이터수신부
211 : 이미지파일수신모듈 220 : 환경설정관리부
221 : 환경설정DB 222 : 이미지전처리설정모듈
223 : 개인정보패턴설정모듈 224 : 개인정보마스킹설정모듈
225 : 메타데이터설정모듈 226 : 이미지문서서식등록모듈
227 : 이미지문서분류조건설정모듈 230 : 이미지전처리부
231 : 밝기/대비/픽셀이미지전처리모듈 232 : 기울기조정이미지전처리모듈
233 : 음영제거이미지전처리모듈 240 : OCR 인식처리부
241 : 이미지문서광학문자인식모듈 242 : 이미지서식라인인식모듈
243 : 인식이미지좌표추출모듈 250 : 개인정보보호처리부
251 : 개인정보패턴필터링모듈 252 : 개인정보키워드필터링모듈
253 : 지문정보필터링모듈 254 : 서식매핑개인정보인식모듈
255 : 마스킹좌표인식처리모듈 256 : 오버레이마스킹이미지생성모듈
257 : 개인/지문정보이미지마스킹모듈 258 : 마스킹문서분류처리모듈
260 : 문서분류처리부 261 : 이미지서식매핑문서인식모듈
262 : 이미지서식키워드필터링모듈 263 : 이미지서식타이틀필터링모듈
264 : 서식인식문서분류처리모듈 270 : 메타데이터처리부
271 : 메타데이터DB 272 : 메타데이터생성모듈
273 : 메타데이터등록모듈 274 : 메타데이터검색모듈
275 : 메타데이터관리모듈 280 : 데이터송신부
281 : 이미지파일송신모듈 300 : 출력부
310 : 제 2 전자문서관리부 320 : 제 2 이미지관리부
330 : 제 2 저장부

Claims (7)

  1. 문자인식 대상물의 이미지 데이터를 수신 또는 획득하여 제공하는 입력부;
    상기 입력부로부터 이미지 데이터를 수신받아 상기 이미지 데이터에 대하여, OCR(Optical Character Reader) 인식률을 높이도록 이미지전처리를 수행하고, 상기 전처리된 이미지 데이터로부터 텍스트를 추출함과 아울러 서식라인을 인식하며, 상기 텍스트와 상기 서식라인의 좌표 및 개인정보를 추출하고, 개인정보 마스킹 이미지를 생성하여 상기 이미지 데이터의 원본 또는 사본 이미지에 상기 개인정보 마스킹 이미지를 오버레이함으로써 개인정보의 식별을 방지하도록 보호 처리하며, 상기 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하는 인식부; 및
    상기 인식부로부터 제공되는 처리 데이터를 출력 및 저장하는 출력부;를 포함하고,
    상기 인식부는,
    상기 입력부로부터 제공되는 이미지 데이터를 수신하는 데이터수신부;
    상기 데이터수신부에 수신된 이미지 데이터에 대한 개인정보 처리와 문서분류 처리를 위해 사전에 서식, 키워드 및 타이틀 구분값을 등록하고 관리하는 환경설정관리부;
    상기 데이터수신부에 수신된 이미지 데이터에 대하여 OCR 인식률을 높이기 위해 이미지 프로세싱에 의한 전처리를 수행하는 이미지전처리부;
    상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 문자인식 텍스트 추출, 서식라인 인식, 그리고 문자별 및 서식라인별 좌표 추출을 처리하는 OCR 인식처리부;
    상기 OCR 인식처리부에 의해 획득된 데이터를 이용하여, 추출된 문자열에 대한 개인정보 패터닝, 키워드 필터링, 지문정보 필터링 그리고 서식에 의한 개인정보 및 지문정보의 위치 및 크기 취득 처리를 통해서, 개인정보 마스킹 이미지를 생성하고, 상기 이미지 데이터의 원본 또는 사본 이미지에 상기 개인정보 마스킹 이미지를 오버레이함으로써 개인정보의 식별을 방지하도록 보호 처리하는 개인정보보호처리부;
    상기 OCR 인식처리부에 의해 획득된 데이터로부터 상기 환경설정관리부에 등록된 서식, 키워드 및 타이틀 구분값에 의해 상기 이미지 데이터의 서식 종별을 구분하여 문서분류를 처리하는 문서분류처리부;
    상기 OCR 인식처리부에 의해 추출된 문자열 값에 의한 메타데이터를 생성하여 등록 처리하는 메타데이터처리부; 및
    상기 개인정보보호처리부, 상기 문서분류처리부 및 상기 메타데이터처리부에 의해 처리된 데이터를 송신하는 데이터송신부;를 포함하고,
    상기 개인정보보호처리부는,
    상기 OCR 인식처리부에 의해 획득된 데이터에서, 추출된 문자열의 개인정보 패턴 인식을 통해 개인정보 여부를 필터링하는 개인정보패턴필터링모듈, 상기 OCR 인식처리부에 의해 획득된 데이터에서, 추출된 문자열의 개인정보 식별자 키워드를 필터링하는 개인정보키워드필터링모듈, 상기 OCR 인식처리부에 의해 획득된 데이터에서, 추출된 개인정보 패턴, 식별자 키워드 및 서식정보에 의한 지문정보를 필터링하는 지문정보필터링모듈, 상기 OCR 인식처리부에 의해 획득된 데이터에 대하여, 사전에 등록된 이미지 서식정보와의 매핑을 통해 지정된 개인정보 필드를 인식하는 서식매핑개인정보인식모듈, 상기 개인정보패턴필터링모듈, 상기 개인정보키워드필터링모듈 및 상기 지문정보필터링모듈로부터 필터링된 데이터와 상기 서식매핑개인정보인식모듈의 필드 인식을 통해 개인정보 및 지문정보의 좌표 값 및 크기를 인식하는 마스킹좌표인식처리모듈, 상기 이미지 데이터에 개인정보 및 지문정보의 마스킹을 하기 위한 마스킹용 이미지를 생성하는 오버레이마스킹이미지생성모듈, 상기 이미지 데이터의 원본 또는 사본 이미지 파일에 상기 오버레이마스킹이미지생성모듈에 의해 생성된 마스킹용 이미지를 결합하여 이미지 마스킹을 처리하는 개인/지문정보이미지마스킹모듈, 상기 개인/지문정보이미지마스킹모듈에 의해 마스킹된 이미지 데이터의의 메타데이터 추출과 문서분류 조건에 따른 분류를 처리하는 마스킹문서분류처리모듈을 포함하는, 문서 인식 분류 시스템.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 환경설정관리부는,
    상기 이미지전처리부에 의한 이미지 전처리의 초기값을 설정하는 이미지전처리설정모듈;
    상기 개인정보보호처리부에 의해 이미지 데이터에서 보호 처리되는 개인식별정보의 정규식 패턴과 개인정보 식별자 키워드를 설정하는 개인정보패턴설정모듈;
    상기 개인정보보호처리부에 의한 이미지 데이터의 보호 처리에 필요한, 개인정보 마스킹 이미지, 개인정보 마스킹 자리수, 개인정보 원본이나 사본의 이미지 마스킹 및 조회시 마스킹 오버레이 수행 중에서 일부 또는 전부를 포함하는 마스킹 방식을 설정하는 개인정보마스킹설정모듈;
    상기 메타데이터처리부에 의한 메타데이터 생성 필드값을 설정하는 메타데이터설정모듈;
    상기 문서분류처리부에 의한 문서 분류를 위해 미리 정의하고자 하는 이미지 파일의 서식 및 키워드, 타이틀 크기 및 위치를 등록하는 이미지문서서식등록모듈; 및
    상기 문서분류처리부에 의해 이미지 데이터의 문서 분류시 분류 조건 및 출력 대상 시스템을 설정하는 이미지문서분류조건설정모듈;
    을 포함하는, 문서 인식 분류 시스템.
  4. 청구항 1에 있어서,
    상기 이미지전처리부는,
    상기 데이터수신부에 의해 수신된 이미지 데이터에 대한 밝기 조절, 대비 조절 및 필섹 크기 조절을 수행하는 밝기/대비/픽셀이미지전처리모듈;
    상기 데이터수신부에 의해 수신된 이미지 데이터에 대한 원근에 의한 왜곡 및 기울기 조정을 수행하는 기울기조정이미지전처리모듈; 및
    상기 데이터수신부에 의해 수신된 이미지 데이터에 대한 음영을 제거하는 음영제거이미지전처리모듈;
    을 포함하는, 문서 인식 분류 시스템.
  5. 청구항 1에 있어서,
    상기 OCR 인식처리부는,
    상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 줄 단위 문자를 인식하는 이미지문서광학문자인식모듈;
    상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 서식라인을 인식하는 이미지서식라인인식모듈; 및
    상기 이미지전처리부에 의해 전처리된 이미지 데이터에서 문자 및 라인의 이미지 픽셀에 대한 좌표를 추출하는 인식이미지좌표추출모듈;
    을 포함하는, 문서 인식 분류 시스템.
  6. 삭제
  7. 청구항 1에 있어서,
    상기 문서분류처리부는,
    상기 입력부에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식과의 매핑을 수행하는 이미지서식매핑문서인식모듈;
    상기 입력부에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식의 키워드를 필터링하는 이미지서식키워드필터링모듈;
    상기 입력부에 의해 입력된 이미지 데이터와 미리 등록한 이미지 서식의 타이틀을 필터링하는 이미지서식타이틀필터링모듈; 및
    상기 이미지서식매핑문서인식모듈, 상기 이미지서식키워드필터링모듈 및 상기 이미지서식타이틀필터링모듈의 서식 인식을 통한 상기 이미지 데이터의 메타데이터 추출과 문서분류 조건에 따른 분류를 처리하는 서식인식문서분류처리모듈;
    을 포함하는, 문서 인식 분류 시스템.
KR1020150066362A 2015-05-13 2015-05-13 문서 인식 분류 시스템 KR101585029B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150066362A KR101585029B1 (ko) 2015-05-13 2015-05-13 문서 인식 분류 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150066362A KR101585029B1 (ko) 2015-05-13 2015-05-13 문서 인식 분류 시스템

Publications (1)

Publication Number Publication Date
KR101585029B1 true KR101585029B1 (ko) 2016-01-13

Family

ID=55172892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150066362A KR101585029B1 (ko) 2015-05-13 2015-05-13 문서 인식 분류 시스템

Country Status (1)

Country Link
KR (1) KR101585029B1 (ko)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101794169B1 (ko) * 2016-09-29 2017-11-06 주식회사 엘아이텍 Hwp 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
KR101794168B1 (ko) * 2016-09-29 2017-11-06 주식회사 엘아이텍 Pdf 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
KR101805844B1 (ko) * 2016-09-29 2017-12-07 주식회사 엘아이텍 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
KR101809362B1 (ko) * 2016-04-15 2017-12-14 (주)이카운트 Ocr 시스템을 이용한 거래정보 관리 시스템과 이를 이용한 전산 거래정보 관리방법
KR20180009665A (ko) * 2016-07-19 2018-01-29 펜타온 주식회사 모바일 신용카드 가맹점 가입 처리 시스템 및 방법
KR20180080408A (ko) * 2017-01-03 2018-07-12 주식회사 페이스시스템 정형 및 비정형 데이터 추출 시스템 및 방법
KR101877609B1 (ko) * 2016-04-29 2018-07-12 캐논코리아비즈니스솔루션 주식회사 특정 문자열의 표시 제어가 가능한 화상처리장치
WO2019060274A1 (en) * 2017-09-22 2019-03-28 Intuit Inc. LITTLE ANALYSIS: NATURAL LANGUAGE PROCESSING SYSTEM AND DOMAIN-SPECIFIC LANGUAGE ANALYSIS METHOD
KR20190061342A (ko) * 2017-11-27 2019-06-05 한국통합민원센터 주식회사 민원서류 처리 방법 및 시스템
WO2019088673A3 (ko) * 2017-11-01 2019-06-20 주식회사 안랩 이미지 분류장치 및 방법
KR20190110873A (ko) * 2018-03-21 2019-10-01 주식회사 피앤피소프트 비정형 텍스트 이미지에서 텍스트 데이터를 추출하는 방법 및 장치
WO2019198882A1 (en) * 2018-04-11 2019-10-17 Hp Printing Korea Co., Ltd. Image scanning apparatus for protecting personal information and method for scanning image thereof
KR20190131631A (ko) * 2018-04-19 2019-11-27 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR20190134432A (ko) * 2018-05-24 2019-12-04 주식회사 한컴위드 스마트 계약 시스템 및 방법
US10579721B2 (en) 2016-07-15 2020-03-03 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
WO2020082187A1 (en) * 2018-10-26 2020-04-30 Element Ai Inc. Sensitive data detection and replacement
US10725896B2 (en) 2016-07-15 2020-07-28 Intuit Inc. System and method for identifying a subset of total historical users of a document preparation system to represent a full set of test scenarios based on code coverage
KR102167736B1 (ko) 2019-10-02 2020-10-19 (주)아이티 노매즈 개인정보 보호를 위한 서식 이미지 인식/비식별 처리 시스템 및 방법
KR102256667B1 (ko) * 2020-03-23 2021-05-26 주식회사 신한디에스 문서 인식 방법 및 그 장치
US11049190B2 (en) 2016-07-15 2021-06-29 Intuit Inc. System and method for automatically generating calculations for fields in compliance forms
KR102282025B1 (ko) 2021-02-08 2021-07-28 로지스원 주식회사 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
CN113496222A (zh) * 2021-09-09 2021-10-12 南方电网数字电网研究院有限公司 基于无标签图表数据的模式识别方法、装置和计算机设备
KR102319492B1 (ko) * 2020-04-23 2021-10-29 주식회사 컴트루테크놀로지 Ai 딥러닝을 이용한 개인정보 처리시스템 및 이를 이용한 개인정보 처리방법
US11163956B1 (en) 2019-05-23 2021-11-02 Intuit Inc. System and method for recognizing domain specific named entities using domain specific word embeddings
KR102330325B1 (ko) * 2020-09-25 2021-11-24 유니닥스 주식회사 전자증명서 마스킹 및 원본 검증 방법
US11188747B2 (en) 2019-09-30 2021-11-30 Tata Consultancy Services Limited System and method for masking text within images
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
US11222266B2 (en) 2016-07-15 2022-01-11 Intuit Inc. System and method for automatic learning of functions
KR102388781B1 (ko) * 2021-02-24 2022-04-20 (주)소프트제국 인공지능 딥러닝을 이용한 문서 처리 서비스를 제공하는 방법 및 서버
CN115033543A (zh) * 2022-06-16 2022-09-09 湖北金赋智信科技发展有限公司 自助政务数据存储系统及自助政务终端
KR20230013836A (ko) 2021-07-20 2023-01-27 로지스원 주식회사 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
KR20230027605A (ko) 2021-08-19 2023-02-28 (주)복부인 부동산 계약서 자동 분석 및 관리 장치
KR20230033420A (ko) * 2021-09-01 2023-03-08 주식회사 한글과컴퓨터 기업의 감사보고서를 기초로 공시용 요약보고서를 작성하여 제공할 수 있는 문서 제공 서버 및 그 동작 방법
US11783128B2 (en) 2020-02-19 2023-10-10 Intuit Inc. Financial document text conversion to computer readable operations
KR20240044576A (ko) 2022-09-28 2024-04-05 주식회사 티사이언티픽 Ai 기반의 대화형 텍스트 데이터 개인정보 탐지 시스템
KR20240044577A (ko) 2022-09-28 2024-04-05 주식회사 티사이언티픽 Ai 기반의 대화형 텍스트 데이터 사전 처리장치 및 사전 처리방법
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018267A (ja) * 2009-07-10 2011-01-27 Ricoh Co Ltd セキュリティ管理システム、サーバ装置、セキュリティ管理方法、プログラムおよび記録媒体
KR101177310B1 (ko) * 2011-12-30 2012-08-30 주식회사 한글과컴퓨터 전자 문서 보안 전송 중계 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018267A (ja) * 2009-07-10 2011-01-27 Ricoh Co Ltd セキュリティ管理システム、サーバ装置、セキュリティ管理方法、プログラムおよび記録媒体
KR101177310B1 (ko) * 2011-12-30 2012-08-30 주식회사 한글과컴퓨터 전자 문서 보안 전송 중계 장치 및 방법

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101809362B1 (ko) * 2016-04-15 2017-12-14 (주)이카운트 Ocr 시스템을 이용한 거래정보 관리 시스템과 이를 이용한 전산 거래정보 관리방법
KR101877609B1 (ko) * 2016-04-29 2018-07-12 캐논코리아비즈니스솔루션 주식회사 특정 문자열의 표시 제어가 가능한 화상처리장치
US11222266B2 (en) 2016-07-15 2022-01-11 Intuit Inc. System and method for automatic learning of functions
US10725896B2 (en) 2016-07-15 2020-07-28 Intuit Inc. System and method for identifying a subset of total historical users of a document preparation system to represent a full set of test scenarios based on code coverage
US10579721B2 (en) 2016-07-15 2020-03-03 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
US11520975B2 (en) 2016-07-15 2022-12-06 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
US12019978B2 (en) 2016-07-15 2024-06-25 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
US11049190B2 (en) 2016-07-15 2021-06-29 Intuit Inc. System and method for automatically generating calculations for fields in compliance forms
US11663677B2 (en) 2016-07-15 2023-05-30 Intuit Inc. System and method for automatically generating calculations for fields in compliance forms
US11663495B2 (en) 2016-07-15 2023-05-30 Intuit Inc. System and method for automatic learning of functions
KR101872514B1 (ko) * 2016-07-19 2018-06-28 펜타온 주식회사 모바일 신용카드 가맹점 가입 처리 시스템 및 방법
KR20180009665A (ko) * 2016-07-19 2018-01-29 펜타온 주식회사 모바일 신용카드 가맹점 가입 처리 시스템 및 방법
KR101805844B1 (ko) * 2016-09-29 2017-12-07 주식회사 엘아이텍 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
KR101794168B1 (ko) * 2016-09-29 2017-11-06 주식회사 엘아이텍 Pdf 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
KR101794169B1 (ko) * 2016-09-29 2017-11-06 주식회사 엘아이텍 Hwp 파일의 인쇄위치 기반 개인정보 검출 및 마스킹 시스템 및 방법
KR20180080408A (ko) * 2017-01-03 2018-07-12 주식회사 페이스시스템 정형 및 비정형 데이터 추출 시스템 및 방법
WO2019060274A1 (en) * 2017-09-22 2019-03-28 Intuit Inc. LITTLE ANALYSIS: NATURAL LANGUAGE PROCESSING SYSTEM AND DOMAIN-SPECIFIC LANGUAGE ANALYSIS METHOD
WO2019088673A3 (ko) * 2017-11-01 2019-06-20 주식회사 안랩 이미지 분류장치 및 방법
KR102400058B1 (ko) * 2017-11-27 2022-05-23 한국통합민원센터 주식회사 민원서류 처리 방법 및 시스템
KR20190061342A (ko) * 2017-11-27 2019-06-05 한국통합민원센터 주식회사 민원서류 처리 방법 및 시스템
KR102039989B1 (ko) * 2018-03-21 2019-11-05 주식회사 피앤피소프트 비정형 텍스트 이미지에서 텍스트 데이터를 추출하는 방법 및 장치
KR20190110873A (ko) * 2018-03-21 2019-10-01 주식회사 피앤피소프트 비정형 텍스트 이미지에서 텍스트 데이터를 추출하는 방법 및 장치
WO2019198882A1 (en) * 2018-04-11 2019-10-17 Hp Printing Korea Co., Ltd. Image scanning apparatus for protecting personal information and method for scanning image thereof
EP3688976A4 (en) * 2018-04-11 2021-06-09 Hewlett-Packard Development Company, L.P. IMAGE SCAN APPARATUS FOR PROTECTING PERSONAL INFORMATION AND ASSOCIATED IMAGE SCAN PROCESS
KR102063036B1 (ko) 2018-04-19 2020-01-07 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR20190131631A (ko) * 2018-04-19 2019-11-27 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR20190134432A (ko) * 2018-05-24 2019-12-04 주식회사 한컴위드 스마트 계약 시스템 및 방법
KR102123320B1 (ko) * 2018-05-24 2020-06-16 주식회사 한컴위드 스마트 계약 시스템 및 방법
WO2020082187A1 (en) * 2018-10-26 2020-04-30 Element Ai Inc. Sensitive data detection and replacement
CN113228019A (zh) * 2018-10-26 2021-08-06 艾利文Ai有限公司 敏感数据检测和替换
KR20210095875A (ko) * 2018-10-26 2021-08-03 엘레먼트 에이아이 인크. 민감 데이터 검출 및 대체
KR102523412B1 (ko) * 2018-10-26 2023-04-18 서비스나우 캐나다 인크. 민감 데이터 검출 및 대체
US11687721B2 (en) 2019-05-23 2023-06-27 Intuit Inc. System and method for recognizing domain specific named entities using domain specific word embeddings
US11163956B1 (en) 2019-05-23 2021-11-02 Intuit Inc. System and method for recognizing domain specific named entities using domain specific word embeddings
US11188747B2 (en) 2019-09-30 2021-11-30 Tata Consultancy Services Limited System and method for masking text within images
KR102167736B1 (ko) 2019-10-02 2020-10-19 (주)아이티 노매즈 개인정보 보호를 위한 서식 이미지 인식/비식별 처리 시스템 및 방법
US11783128B2 (en) 2020-02-19 2023-10-10 Intuit Inc. Financial document text conversion to computer readable operations
WO2021194075A1 (ko) * 2020-03-23 2021-09-30 주식회사 신한디에스 문서 인식 방법 및 그 장치
KR102256667B1 (ko) * 2020-03-23 2021-05-26 주식회사 신한디에스 문서 인식 방법 및 그 장치
KR102319492B1 (ko) * 2020-04-23 2021-10-29 주식회사 컴트루테크놀로지 Ai 딥러닝을 이용한 개인정보 처리시스템 및 이를 이용한 개인정보 처리방법
KR102330325B1 (ko) * 2020-09-25 2021-11-24 유니닥스 주식회사 전자증명서 마스킹 및 원본 검증 방법
KR102282025B1 (ko) 2021-02-08 2021-07-28 로지스원 주식회사 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
KR102388781B1 (ko) * 2021-02-24 2022-04-20 (주)소프트제국 인공지능 딥러닝을 이용한 문서 처리 서비스를 제공하는 방법 및 서버
KR102643368B1 (ko) * 2021-02-24 2024-03-05 (주)소프트제국 인공지능 기반의 개인정보 보호를 위한 자동 문서 처리 방법 및 서버
KR20220121223A (ko) * 2021-02-24 2022-08-31 (주)소프트제국 인공지능 기반의 개인정보 보호를 위한 자동 문서 처리 방법 및 서버
KR20230013836A (ko) 2021-07-20 2023-01-27 로지스원 주식회사 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
KR20230027605A (ko) 2021-08-19 2023-02-28 (주)복부인 부동산 계약서 자동 분석 및 관리 장치
KR102525024B1 (ko) * 2021-08-19 2023-04-24 (주)복부인 부동산 계약서 자동 분석 및 관리 장치
KR20230033420A (ko) * 2021-09-01 2023-03-08 주식회사 한글과컴퓨터 기업의 감사보고서를 기초로 공시용 요약보고서를 작성하여 제공할 수 있는 문서 제공 서버 및 그 동작 방법
KR102576825B1 (ko) * 2021-09-01 2023-09-11 주식회사 한글과컴퓨터 기업의 감사보고서를 기초로 공시용 요약보고서를 작성하여 제공할 수 있는 문서 제공 서버 및 그 동작 방법
CN113496222A (zh) * 2021-09-09 2021-10-12 南方电网数字电网研究院有限公司 基于无标签图表数据的模式识别方法、装置和计算机设备
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents
CN115033543B (zh) * 2022-06-16 2024-04-26 湖北金赋智信科技发展有限公司 自助政务数据存储系统及自助政务终端
CN115033543A (zh) * 2022-06-16 2022-09-09 湖北金赋智信科技发展有限公司 自助政务数据存储系统及自助政务终端
KR20240044576A (ko) 2022-09-28 2024-04-05 주식회사 티사이언티픽 Ai 기반의 대화형 텍스트 데이터 개인정보 탐지 시스템
KR20240044577A (ko) 2022-09-28 2024-04-05 주식회사 티사이언티픽 Ai 기반의 대화형 텍스트 데이터 사전 처리장치 및 사전 처리방법

Similar Documents

Publication Publication Date Title
KR101585029B1 (ko) 문서 인식 분류 시스템
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US20210383150A1 (en) Iterative recognition-guided thresholding and data extraction
US10127441B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US8126197B2 (en) Method for image quality assessment using quality vectors
CN101184137B (zh) 图像处理方法和装置、图像读取及形成设备
US8326078B2 (en) System and method for removing artifacts from a digitized document
US20110153515A1 (en) Distributed capture system for use with a legacy enterprise content management system
US8873863B2 (en) System and method for fingerprinting for comics
US10867170B2 (en) System and method of identifying an image containing an identification document
KR102319492B1 (ko) Ai 딥러닝을 이용한 개인정보 처리시스템 및 이를 이용한 개인정보 처리방법
US8848984B2 (en) Dynamic thresholds for document tamper detection
WO2009065151A2 (en) Method for image quality assessment using quality vectors
Rabah et al. The supatlantique scanned documents database for digital image forensics purposes
KR102113756B1 (ko) 이미지 출처 확인을 통한 무단 사용 방지 시스템
CN107016320B (zh) 一种基于中文词库提高图片密级识别准确率的方法
Saju et al. An effective method for detection and localization of tampering
RU2431192C1 (ru) Способ внедрения скрытого цифрового сообщения в печатаемые документы и извлечения сообщения
JP2012049860A (ja) 画像処理装置、画像処理方法およびプログラム
KR101877609B1 (ko) 특정 문자열의 표시 제어가 가능한 화상처리장치
RU2646341C1 (ru) Способ модификации и идентификации копии документа для установления канала несанкционированного распространения
US6678427B1 (en) Document identification registration system
US11652941B1 (en) Methods and systems for securing confidential content of a document while printing and/or generating a copy of the document
US11509791B1 (en) Methods and systems for automatically identifying IR security marks in a document based on halftone frequency information
JP2007048236A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び記憶媒体

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200106

Year of fee payment: 5