KR20200096043A - 검사문서 내 특정정보의 블라인드 처리 방법 및 장치 - Google Patents

검사문서 내 특정정보의 블라인드 처리 방법 및 장치 Download PDF

Info

Publication number
KR20200096043A
KR20200096043A KR1020190058836A KR20190058836A KR20200096043A KR 20200096043 A KR20200096043 A KR 20200096043A KR 1020190058836 A KR1020190058836 A KR 1020190058836A KR 20190058836 A KR20190058836 A KR 20190058836A KR 20200096043 A KR20200096043 A KR 20200096043A
Authority
KR
South Korea
Prior art keywords
specific information
inspection
document
item
computer
Prior art date
Application number
KR1020190058836A
Other languages
English (en)
Other versions
KR102196547B1 (ko
Inventor
박혜린
최재영
문민주
Original Assignee
주식회사 무하유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 무하유 filed Critical 주식회사 무하유
Priority to KR1020190058836A priority Critical patent/KR102196547B1/ko
Publication of KR20200096043A publication Critical patent/KR20200096043A/ko
Application granted granted Critical
Publication of KR102196547B1 publication Critical patent/KR102196547B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Abstract

검사문서 내 특정정보의 블라인드 처리 방법이 제공된다. 상기 방법은 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계, 상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계, 및 상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 포함한다.

Description

검사문서 내 특정정보의 블라인드 처리 방법 및 장치{METHOD AND APPARATUS FOR BLIND PROCESSING OF SPECIFIC INFORMATION IN DOCUMENT}
본 발명은 검사문서 내 특정정보의 블라인드 처리 방법 및 장치에 관한 것이다.
대학입시전형, 기업채용 등과 같은 입시절차나 채용절차 시에 투명성과 공정성 제고를 위해 각 대학이나 각 기업체마다 다양한 규정들을 마련하고 있다. 특히, 선발과정에서 지원자들의 성별, 연령, 출신학교, 출신지, 신체조건, 가족관계 등과 같은 지원자의 역량과 무관한 사항들은 배제하고 선발할 수 있도록 하는 다양한 방안들을 채택하고 있다.
따라서, 각 대학이나 각 기업체마다 채택한 선발규정을 바탕으로 지원자의 특정한 정보(예: 성별, 연령, 출신학교, 출신지, 신체조건, 가족관계 등)를 배제하고 선발과정을 진행할 수 있는 방법이 필요하다.
특히, 선발과정에서 제출하는 지원자들의 서류상에 기재된 다양한 정보 중에서 각 대학이나 각 기업체마다 배제하고자 하는 특정한 정보를 블라인드 처리할 수 있는 방안이 요구된다.
본 발명이 해결하고자 하는 과제는 검사문서 내 특정정보의 블라인드 처리 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 구문분석을 수행하여 검사문서 내 블라인드 처리가 필요한 구문을 추출하는 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 검사문서 내 블라인드 처리가 필요한 구문에 대해 마스킹 또는 하이라이팅을 선택적으로 적용하여 표시하는 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 컴퓨터가 수행하는 검사문서 내 특정정보의 블라인드 처리 방법은, 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계, 상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계, 및 상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 포함한다.
본 발명의 일 실시예에 있어서, 상기 검사대상 항목을 결정하는 단계는, 상기 검사문서의 특징에 따라 미리 정해진 블라인드 규정을 기초로 적어도 하나의 검사대상 항목을 결정할 수 있다.
본 발명의 일 실시예에 있어서, 상기 특정정보를 추출하는 단계는, 상기 검사문서로부터 상기 검사대상 항목에 대응하는 적어도 하나의 키워드를 추출하는 단계, 및 상기 적어도 하나의 키워드를 기반으로 상기 특정정보를 포함하는 후보 구문을 추출하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 키워드를 추출하는 단계는, 상기 검사문서와 연계된 타문서로부터 상기 적어도 하나의 키워드를 추출하는 단계, 및 상기 적어도 하나의 키워드로부터 유추 가능한 정보를 획득하여 확장 키워드를 추가하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 키워드를 추출하는 단계는, 사용자로부터 미리 정해진 키워드 목록을 획득한 경우, 상기 미리 정해진 키워드 목록을 적용하여 상기 적어도 하나의 키워드를 추출할 수 있다.
본 발명의 일 실시예에 있어서, 상기 키워드를 추출하는 단계는, 상기 사용자로부터 상기 미리 정해진 키워드 목록을 적용할 적용 범위를 획득하는 단계를 더 포함하며, 상기 적용 범위는, 검사문서 내 특정 항목을 대상으로 결정되거나, 검사문서에 대한 소유자를 대상으로 결정될 수 있다.
본 발명의 일 실시예에 있어서, 상기 마스킹 처리 또는 상기 하이라이팅 처리 중 하나를 선택하여 적용하는 단계는, 사용자로부터 상기 후보 구문이 블라인드 처리 대상 구문인지 여부에 대한 선택 결과를 획득하는 단계, 및 상기 후보 구문이 블라인드 처리 대상 구문인 것으로 선택된 경우, 상기 후보 구문에 대해 상기 마스킹 처리 또는 상기 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 특정정보를 기초로 상기 검사대상 항목에 추가할 추가 구문을 등록하거나, 또는 상기 특정정보를 기초로 상기 검사대상 항목에서 제외할 제외 구문을 등록하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 특정정보를 추출하는 단계는, 상기 구문분석을 수행하여 상기 검사대상 항목에 대응하는 구문의 문맥을 파악하는 단계, 및 상기 문맥을 파악한 결과를 기초로 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 문맥을 파악하는 단계는, 딥러닝을 이용한 학습을 통해 상기 구문분석을 수행할 수 있다.
본 발명의 일 실시예에 따른 장치는, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계, 상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계, 및 상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 수행한다.
본 발명의 일 실시예에 따른 컴퓨터프로그램은 하드웨어인 컴퓨터와 결합되어, 상기 검사문서 내 특정정보의 블라인드 처리 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된다.
본 발명에 따르면, 문서 내의 텍스트에 대해 구문분석을 통해 문맥을 파악할 수 있도록 함으로써, 단순 단어나 단순 키워드 매칭 방식에 비해 문맥상 의미를 정확히 인식할 수 있고, 간접적인 표현의 경우에도 블라인드 처리 대상 정보를 정확히 검출하는데 효과적이다.
본 발명에 따르면, 각 검사문서마다 상이한 블라인드 처리 규칙을 각각 적용할 수 있도록 함으로써, 각 대학별 또는 각 기업체별 서로 다른 블라인드 처리 방식을 설정하는데 효과적이다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 개략적으로 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝을 이용한 학습을 통해 구문분석을 수행하는 방법을 설명하기 위해 도시한 흐름도이다.
도 3 내지 도 7은 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행할 때 사용자에게 제공되는 사용자 인터페이스 화면의 예시들을 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행하는 장치(600)의 구성을 개략적으로 나타내는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.
본 명세서에서 "컴퓨터"는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 헤드마운트 디스플레이(Head Mounted Display; HMD) 장치가 컴퓨팅 기능을 포함하는 경우, HMD장치가 컴퓨터가 될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.
한편, 대학입시전형, 기업채용 등과 같은 입시절차나 채용절차 시에 투명성과 공정성 제고를 위해 각 대학이나 각 기업체마다 다양한 규정들을 마련하고 있다. 특히, 선발과정에서 지원자들의 성별, 연령, 출신학교, 출신지, 신체조건, 가족관계 등과 같은 지원자의 역량과 무관한 사항들은 배제하고 선발할 수 있도록 하는 다양한 방안들을 채택하고 있다.
이에, 본 발명에서는 각 대학이나 각 기업체마다 채택한 선발규정을 바탕으로 지원자의 특정한 정보(예: 성별, 연령, 출신학교, 출신지, 신체조건, 가족관계 등)를 배제하고 선발과정을 진행할 수 있는 방법을 제공하고자 한다. 특히, 선발과정에서 제출하는 지원자들의 서류상에 기재된 다양한 정보 중에서 각 대학이나 각 기업체마다 배제하고자 하는 특정한 정보를 배제시킬 수 있는 블라인드 처리 방법을 제안한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 개략적으로 도시한 흐름도이다.
도 1의 방법은 설명의 편의를 위하여 컴퓨터에 의하여 수행되는 것으로 서술하나, 각 단계의 수행주체가 특정 장치에 제한되는 것은 아니고 컴퓨팅 처리를 수행할 수 있는 장치를 포괄하는 의미로 사용될 수 있다. 즉, 본 실시예에서 컴퓨터는 본 발명의 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행할 수 있는 장치를 의미할 수 있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법은, 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계(S100), 상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계(S200), 및 상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계(S300)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.
컴퓨터는 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정할 수 있다(S100).
여기서, 검사문서라 함은, 다양한 형식의 전자문서를 말하며, 전자문서 내 블라인드 처리가 필요한 정보를 포함하고 있는지 여부를 확인하고자 하는 검사 대상 문서를 말한다. 예를 들어, 대학입시전형의 경우, 지원자들은 학생부, 자기소개서, 추천서 등을 각 대학의 전형절차 시스템 상에 제출할 수 있다. 이 경우, 학생부 파일, 자기소개서 파일, 추천서 파일 등을 검사문서로서 설정하여, 이 파일들에 대해 블라인드 처리 대상 정보를 포함하고 있는지 여부를 검사할 수 있다. 또는, 기업채용전형의 경우, 지원자들은 자기소개서, 기타 여러가지 파일들을 각 기업체의 전형절차 시스템 상에 제출할 수 있다. 이 경우, 자기소개서 파일, 기타 파일들을 검사문서로서 설정하여, 이 파일들에 대해 블라인드 처리 대상 정보를 포함하고 있는지 여부를 검사할 수 있다.
블라인드 처리라 함은, 대학입시전형, 기업채용 등과 같은 입시절차나 채용절차 시에 지원자들이 제출한 서류(즉, 검사문서)상에서 특정한 정보(예: 성별, 연령, 출신학교, 출신지, 신체조건, 가족관계 등)를 배제시켜야 함을 의미한다.
일 실시예로, 컴퓨터는 지원자의 학생부, 자기소개서, 추천서 등을 획득하여 검사문서로 지정하고, 지정된 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정할 수 있다.
예를 들어, 각 대학별 대학입시전형(예컨대, 대입 블라인드 면접)의 경우, 자기소개서, 추천서 등에 인적사항, 학적사항, 수상경력, 체험활동상황, 공인어학성적 등을 기재할 경우 해당 항목 또는 서류 전체에 대해 0점 처리하는 규정을 둘 수 있다. 또는, 자기소개서, 추천서 등과 같은 서류에 인적사항, 학적사항, 수상경력, 체험활동상황, 공인어학성적 등을 기재하더라도 0점 처리는 되지 않으나 평가에 반영되지 않는 정보로서 취급되는 규정을 둘 수도 있다.
또한, 각 기업체별 채용절차(예컨대, 블라인드 면접)의 경우, 자기소개서 등의 서류에 인적사항, 학적사항, 신체조건정보 등을 기재하지 않도록 하거나 또는 기재하더라도 점수화하지 않는 규정을 둘 수 있다. 또는, 기업체의 채용방식에 따라서는 특정한 사항에 대해서는 가점이나 우선순위를 부여하는 방식을 채택할 수도 있다.
즉, 전형절차를 진행하는 주체(예컨대, 대학, 기업체 등)에 따라서 각기 다른 전형규정을 마련하여 전형절차를 진행할 수 있으며, 이러한 전형규정에 따라 서류(즉, 검사문서)상에서 블라인드 처리가 필요한 항목이 달라질 수 있다.
따라서, 블라인드 처리가 필요한 검사대상 항목을 결정함에 있어서, 각 전형절차에 따라 상이한 전형규정을 반영하여 검사대상 항목을 설정할 수 있는 것이 중요하다.
일 실시예로, 컴퓨터는 각 전형절차에 따라 미리 정해진 전형규정(즉, 블라인드 규정)을 기초로 적어도 하나의 검사대상 항목을 결정할 수 있다. 또한, 각 검사문서(예컨대, 대학입시전형의 자기소개서나 학생부, 기업채용전형의 자기소개서 등)의 특징에 따라서도 상이한 블라인드 규정이 정해질 수 있으므로, 컴퓨터는 각 검사문서의 특징에 따라 미리 정해진 블라인드 규정을 기초로 적어도 하나의 검사대상 항목을 결정할 수 있다.
일례로, 아래 표 1은 대학입시전형에서 학생부 및 자기소개서, 교사추천서 등과 같은 문서 내 작성되는 항목들의 예시를 나타낸 것이다.
Figure pat00001
각 대학별 전형규정에 따라서 표 1의 항목들 중 블라인드 처리가 필요한 항목들이 상이하게 설정될 수 있다. 예를 들어, 자기소개서에 인적사항이나 학적사항을 기재하는 경우 해당 정보는 문서 내에서 마스킹(masking)되어 평가에 반영되지 않는 블라인드 규정이 있을 수 있다. 또는, 자기소개서에 수상경력을 기재할 경우 해당 정보는 0점 처리하는 블라인드 규정이 있을 수 있다. 또는, 특기자 전형이나 재외국민, 외국인 특별전형에는 공인어학성적 등을 기재하더라도 제한을 두지 않거나 해당 정보를 하이라이팅(highlighting) 처리하는 블라인드 규정이 있을 수 있다.
따라서, 컴퓨터는 각 전형절차에 따라 미리 정해진 블라인드 규정을 기초로, 각 검사문서에 대해 블라인드 처리가 필요한 검사대상 항목을 상이하게 설정할 수 있는 사용자 인터페이스(UI; User Interface)를 제공할 수 있다. 일 실시예로, 컴퓨터는 적어도 하나의 검사대상 항목을 포함하는 리스트를 사용자에게 제공하고, 사용자로부터 상기 리스트 내 검사대상 항목들 중 블라인드 처리가 필요한 항목을 선택하도록 할 수 있다.
컴퓨터는 검사문서로부터 구문분석을 수행하여 검사대상 항목에 대응하는 특정정보를 추출할 수 있다(S200).
즉, 컴퓨터는 검사문서 내 기재된 텍스트에 대해 구문분석을 수행하고, 구문분석을 통해 검사문서 내 텍스트로부터 검사대상 항목에 대응하는 특정정보를 추출할 수 있다.
종래 대부분의 기술은 관공서 등에서 사용되는 문서 내 개인정보가 노출되는 것을 방지하기 위해서 문서 내 개인정보를 검출하는 것에 특화되어 있다. 개인정보는 법률적으로 정의되어 있는만큼 그 기준이 명확하다. 따라서, 문서 내 개인정보는 특정 패턴을 이용하면 용이하게 검출할 수 있다.
그러나, 대입입시전형이나 기업채용전형 시에 제출하는 문서들 내 블라인드 처리가 필요한 검사대상 항목에 대응하는 특정정보의 경우, 명확한 기준이 정의되어 있지 않고 일정한 패턴을 가지는 것도 아니다. 대부분의 경우, 자기소개서에 자신의 역량이나 가족관계 등을 직접적으로 표현하는 것이 아니라 간접적으로 표현하는 경우가 많기 때문에, 검사대상 항목마다 일정한 패턴을 정의하는 것도 어렵고, 단순히 단어나 키워드 매칭만을 통해서 간접적인 표현으로부터 블라인드 처리가 필요한 특정정보를 검출하는데 한계가 있다.
예를 들어, 주민번호의 경우는 "111111-2222222"와 같이 특정 패턴이 존재하므로, 용이하게 검출할 수 있다. 이와 달리, 자기소개서의 경우, 1) "?? 선생님과 어머니의 제안에 따라 미국 유학을 가게??", 2) "?? 선생님인 어미니의 제안에 따라 미국 유학을 가게 ??" 와 같이 표현될 수 있다. 1)과 2)의 문장은 단순히 "선생님", "어머니" 등의 단어나 키워드 매칭만 이용할 경우, 1)과 2) 모두 인적사항을 표현한 블라인드 처리 대상으로 판단될 수 있다. 그러나, 문장의 문맥상으로는 2)의 문장이 인적사항을 기재한 표현이다.
즉, 개인정보(예컨대, 주민번호)와 같이 일정한 패턴이 있는 경우는 문맥 독립적(context free)으로 파악될 수 있지만, 본 발명에서와 같은 블라인드 처리가 필요한 특정정보는 문맥 의존적(context sensitive)으로 파악해야 한다. 따라서, 본 발명에서는 검사문서 내 기재된 텍스트에 대해 구문분석을 수행하여 문맥 의존적으로 텍스트의 내용을 파악할 수 있도록 한다.
일 실시예로, 컴퓨터는 검사문서에 대해 구문분석을 수행하여 검사대상 항목에 대응하는 구문의 문맥을 파악하고, 그 결과를 기초로 검사대상 항목에 대응하는 특정정보를 추출할 수 있다. 이때, 컴퓨터는 딥러닝을 이용한 학습을 통해 구문분석을 수행하여 문맥을 파악할 수 있다. 이에 대한 구체적인 설명은 도 2를 참조하여 후술하도록 한다.
보다 구체적으로, 컴퓨터는 검사문서에 대한 구문분석을 통해 검사대상 항목에 대응하는 적어도 하나의 키워드를 추출하고, 추출된 적어도 하나의 키워드를 기반으로 문장의 문맥 파악을 통해 특정정보를 포함하는 후보 구문을 추출할 수 있다.
일 실시예로, 키워드를 추출함에 있어서, 컴퓨터는 검사대상 항목의 종류에 따라서 추출 가능한 키워드를 획득할 수 있다. 예를 들어, 검사대상 항목으로 인적사항을 지정한 경우, 인적사항에 포함될 수 있는 성명, 주소, 부모 직업 등을 기초로 이와 관련된 정보를 키워드로서 추출할 수 있고, 검사대상 항목으로 학적사항을 지정한 경우, 학적사항에 포함될 수 있는 출신학교명, 성적 등을 기초로 이와 관련된 정보를 키워드로서 추출할 수 있다. 또한, 컴퓨터는 검사대상 항목에 대응하는 키워드를 추출한 다음, 추출한 키워드로부터 유추 가능한 정보를 추가적으로 획득하여 키워드를 확장시킬 수 있다. 예를 들어, 검사대상 항목에 대응하는 키워드로서 특정 학교 이름을 추출한 경우, 컴퓨터는 추출한 특정 학교 이름으로부터 유추할 수 있는 학교 축제명, 학교 주소, 학교 내 건물명 등과 같은 특정 학교과 관련된 확장 키워드를 추가적으로 획득할 수 있다.
이때, 동일한 지원자에 대한 검사문서가 복수 개일 경우, 컴퓨터는 동일한 지원자에 대한 복수 개의 검사문서를 기초로 검사대상 항목에 대응하는 키워드를 추출할 수도 있다. 일 실시예로, 컴퓨터는 제1 지원자에 대한 제1 검사문서(예컨대, 학생부 문서)와 제2 검사문서(예컨대, 자기소개서 문서)를 획득한 경우, 제1 검사문서로부터 제1 지원자의 인적사항, 학적사항 등을 키워드로 추출할 수 있다. 또한, 컴퓨터는 제1 검사문서로부터 추출된 키워드를 기초로 유추 가능한 확장 키워드를 추가적으로 더 획득할 수 있다. 컴퓨터는 제1 검사문서로부터 추출된 키워드(확장 키워드 포함)를 기초로 제1 검사문서와 연계된 제2 검사문서에 대해 구문분석을 수행할 수 있다. 그 결과, 컴퓨터는 제2 검사문서 내 상기 키워드에 해당하는 특정정보를 포함하고 있는 후보 구문들을 추출할 수 있다.
다른 실시예로, 키워드를 추출함에 있어서, 컴퓨터는 사용자로부터 미리 정해진 키워드 목록을 획득할 수 있다. 이 경우, 컴퓨터는 검사문서에 대해 사용자에 의해 미리 정해진 키워드 목록을 적용하여 적어도 하나의 키워드를 추출할 수 있다. 예를 들어, 사용자(예컨대, 지원자)가 자신의 검사문서를 대상으로 블라인드 처리가 필요한 내용이 포함되어 있는지 여부를 검사하기 위해서 자신의 인적사항, 학적사항 등과 관련된 정보를 키워드로 미리 정하고, 이를 키워드 목록으로 제공할 수 있다. 또는, 사용자(예컨대, 대학입시전형을 주최하는 대학, 채용전형을 주최하는 기업체 등)가 지원자들의 검사문서를 대상으로 블라인드 처리가 필요한 내용이 포함되어 있는지 여부를 검사하기 위해서 각 대학별로 또는 각 기업체별로 정해진 블라인드 규정을 기초로 키워드들을 미리 생성한 다음, 이러한 키워드들을 포함하는 키워드 목록을 제공할 수 있다.
이때, 컴퓨터가 사용자로부터 미리 정해진 키워드 목록을 제공받은 경우, 실시예에 따라서는 사용자로부터 제공받은 키워드 목록을 우선적으로 적용하여 검사대상 항목에 대응하는 키워드를 추출할 수 있다.
또한, 실시에에 따라서, 컴퓨터는 사용자로부터 키워드 목록을 적용할 적용 범위를 획득할 수 있다. 적용 범위는 검사문서 내 특정 항목을 대상으로 결정되거나, 검사문서에 대한 소유자를 대상으로 결정될 수 있다. 일 실시예로, 컴퓨터는 사용자로부터 키워드 목록을 획득하고, 획득된 키워드 목록을 적용할 적용 범위를 추가적으로 입력 받을 수 있다. 예를 들어, 컴퓨터는 적용 범위를 설정할 수 있는 사용자 인터페이스 화면을 제공할 수 있다. 이 경우, 사용자는 사용자 인터페이스 화면을 통해 검사문서 내 키워드 목록을 적용할 적용 범위를 선택할 수 있다. 예컨대, 사용자 인터페이스 화면은 인적사항, 학적사항, 수상경력 사항 등과 같은 검사대상 항목별로 적용 범위를 지정할 수 있도록 제공될 수도 있고, 특정 지원자에게만 적용할지 지원자 전체에 대해 적용할지, 지원자가 제출한 전체 검사문서에 대해 적용할지 일부 검사문서에 대해 적용할지 등을 적용 범위로 지정할 수 있도록 제공될 수도 있다.
컴퓨터는 검사문서로부터 추출된 검사대상 항목에 대응하는 특정정보에 대해, 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 블라인드 처리로서 적용할 수 있다(S300).
일 실시예로, 컴퓨터는 상술한 바와 같이 검사문서에 대한 구문분석을 통해, 검사대상 항목에 대응하는 키워드를 기반으로 특정정보를 포함하는 후보 구문을 추출할 수 있다. 이때, 컴퓨터는 검사문서로부터 추출된 후보 구문이 블라인드 처리 대상 구문인지 여부에 대해 사용자로부터 선택하도록 할 수 있다. 즉, 컴퓨터는 후보 구문이 블라인드 처리 대상인지 여부에 대한 선택 결과를 사용자로부터 획득할 수 있다. 사용자의 선택에 의해 후보 구문이 블라인드 처리 대상 구문인 것으로 선택된 경우, 컴퓨터는 후보 구문에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용할 수 있다.
이와 같은 본 발명의 일 실시예에 따르면, 먼저 검사대상 항목에 대응하는 키워드를 기반으로 특정정보를 포함하는 후보 구문들을 추출한 다음, 후보 구문들 중에서 마스킹 처리 또는 하이라이팅 처리가 되어야 할 필요가 있는 실제 구문들만 최종적으로 선별할 수 있게 된다. 따라서, 최종적으로는 블라인드 처리 대상에 대한 인식률을 높일 수 있고, 이를 통해 정확성과 객관성이 보장된 결과를 제공해 줄 수 있다.
또한 후보 구문에 대한 마스킹 처리 또는 하이라이팅 처리를 함에 있어서, 컴퓨터는 검사대상 항목별로 마스킹 처리를 할지 하이라이팅 처리를 할지를 결정할 수 있다. 예컨대, 컴퓨터는 사용자로부터 각 검사대상 항목별로 마스킹 처리를 할지 하이라이팅 처리를 할지를 결정하도록 할 수도 있고, 블라인드 규정(예컨대, 0점 처리되는 정보, 평가에 반영되지 않는 정보, 가점이나 우선순위가 부여되는 정보 등)에 따라 각 검사대상 항목별로 마스킹 처리 또는 하이라이팅 처리를 결정하여 적용할 수도 있다.
실시예에 따라, 컴퓨터는 특정정보를 포함하는 후보 구문을 바탕으로 추출되어야 하는 항목인데 추출되지 않았거나, 추출될 필요가 없는 항목이 추출된 경우를 판단하여, 해당 항목에 대해 후보정을 수행할 수 있다.
후보정을 수행함에 있어, 컴퓨터는 특정정보를 포함하는 후보 구문을 바탕으로 블라인드 규칙 또는 하이라이트 규칙을 추가하거나 제외할 수 있다. 블라인드 규칙은 검사문서로부터 마스킹 처리를 하고 싶은 검사대상 항목이나 특정 문구를 정하는 것을 말하며, 하이라이트 규칙은 검사문서로부터 하이라이트 처리를 하고 싶은 검사대상 항목이나 특정 문구를 정하는 것을 말한다.
일 실시예로, 컴퓨터는 특정정보를 포함하는 후보 구문을 바탕으로 검사대상 항목에 추가할 추가 구문을 등록함으로써, 새로운 블라인드 규칙을 생성할 수 있다. 또는, 컴퓨터는 특정정보를 포함하는 후보 구문을 바탕으로 검사대상 항목에서 제외할 제외 구문을 등록함으로써, 블라인드 규칙으로부터 제외 구문에 해당하는 규칙을 제거할 수 있다. 또한, 컴퓨터는 블라인드 규칙과는 별도로 특정 구문을 확인하고 싶을 때 특정 구문을 등록하여, 하이라이트 규칙으로 지정할 수도 있다. 이와 같이 블라인드 규칙 및 하이라이트 규칙을 추가하거나 제외한 경우, 컴퓨터는 검사문서를 대상으로 검사를 다시 수행함으로써 추가 또는 제외한 블라인드 규칙 및 하이라이트 규칙을 적용할 수 있다.
컴퓨터는 단계 S100 ~ S300을 통해 검사문서로부터 추출된 블라인드 처리가 필요한 특정정보를 포함하는 구문에 대해 최종적으로 마스킹 처리 또는 하이라이팅 처리하여, 사용자에게 제공할 수 있다.
도 2는 본 발명의 일 실시예에 따른 딥러닝을 이용한 학습을 통해 구문분석을 수행하는 방법을 설명하기 위해 도시한 흐름도이다.
도 2의 방법은 상술한 도 1의 단계 S200 과정에 적용될 수 있다. 이때 딥러닝을 통한 학습 과정은 사전에 수행된 것일 수 있고, 도 1의 단계 S200 과정에는 이러한 학습을 통해 도출된 구문분석을 위한 학습 모델을 사용할 수 있다.
도 2를 참조하면, 컴퓨터는 검사문서를 딥러닝이 처리할 수 있는 형태(즉, 벡터값)로 데이터를 변환할 수 있다(S210).
일 실시예로, 컴퓨터는 자기소개서 등과 같은 검사문서를 획득하고, 획득한 검사문서 내 텍스트를 단어 레벨, 글자 레벨, 자모 레벨 중 적어도 하나의 형태로 변환할 수 있다. 본 발명의 실시예에서는 글자 레벨의 형태로 검사문서를 변환할 수 있다. 글자 레벨의 경우는 새로운 데이터에 대한 대처 능력이 상대적으로 뛰어나고, 특히 새로운 단어나 글자의 조합이 생겼을 때 대처하기 용이하다.
예를 들어, 컴퓨터는 먼저 한글에서 쓰일 수 있는 글자를 바탕으로, 각 글자를 벡터값으로 변환하여 정의해 둘 수 있다. 그리고, 컴퓨터는 검사문서를 획득하여 검사문서 내 각 글자를 정의된 벡터값으로 변환하여 표현할 수 있다.
컴퓨터는 변환된 데이터를 학습데이터로 사용하여 학습을 수행할 수 있다(S220).
일 실시예로, 컴퓨터는 변환된 데이터로부터 검사대상 항목에 대응하는 데이터(예컨대, 부모직업이 포함된 데이터)와 검사대상 항목에 대응하지 않는 데이터(예컨대, 부모직업이 포함되지 않은 데이터)를 분리하고, 이를 각각 학습시킬 수 있다. 이때, 컴퓨터는 글자 단위로 N-gram 모델을 적용하여 학습을 수행할 수 있다. 또한, 학습은 훈련과 검증 과정을 거쳐 수행될 수 있다.
컴퓨터는 학습 데이터에 대한 학습의 결과를 판단하고, 이를 통해 문맥 의존적인 구문분석을 수행하는 학습 모델을 도출할 수 있다(S230).
일 실시예로, 컴퓨터는 변환된 데이터(즉, 학습 데이터)를 기초로 학습을 수행한 결과로서 정확률과 재현율을 산출하고, 산출된 정확률과 재현율을 종합적으로 고려하여 최종적인 학습 결과를 판단할 수 있다. 그리고, 컴퓨터는 학습 결과를 바탕으로 학습 모델을 도출할 수 있다.
따라서, 컴퓨터는 도출된 학습 모델을 이용함으로써, 블라인드 처리가 필요한 검사문서에 대해 구문분석을 수행하여 검사대상 항목에 해당하는 각 문장의 문맥을 파악할 수 있다. 예를 들어, 컴퓨터는 블라인드 처리가 필요한 검사문서를 학습 모델에 입력값으로 입력하여 구문분석을 수행한 다음, 그 결과로서 검사문서 내 각 문장에 대한 문맥 파악을 통해 블라인드 처리가 필요한 특정정보를 추출한 출력값을 출력할 수 있다.
도 3 내지 도 7은 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행할 때 사용자에게 제공되는 사용자 인터페이스 화면의 예시들을 도시한 도면이다.
먼저, 사용자는 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행할 수 있는 프로그램을 컴퓨팅 장치(즉, 컴퓨터)에 설치하고, 이를 실행시킬 수 있다. 컴퓨터는 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행할 수 있는 프로그램을 구동시킴으로써, 후술할 도 3 내지 도 8과 같은 다양한 사용자 인터페이스 화면을 제공할 수 있다. 사용자는 사용자 인터페이스 화면을 통해 검사문서를 대상으로 블라인드 처리 대상 정보가 존재하는지 여부를 검사할 수 있다.
도 3은 사용자가 블라인드 처리 여부를 검사하기 위한 검사문서를 입력하는 사용자 인터페이스 화면의 일례를 도시한 것이다.
일 실시예로, 컴퓨터는 사용자로부터 검사문서 파일을 입력하는 입력 액션을 수신하면, 도 3의 파일 입력을 위한 사용자 인터페이스(100)와 같은 화면을 제공할 수 있다. 이때, 사용자는 파일 입력을 위한 사용자 인터페이스(100)를 통해 '불러오기'(110)를 실행하여 검사문서 파일을 입력할 수 있다.
컴퓨터는 사용자로부터 '불러오기'(110) 액션을 수신하면, 도 3의 불러오기 사용자 인터페이스(120)와 같은 화면을 제공할 수 있다. 이때, 사용자는 불러오기 사용자 인터페이스(120)를 통해 검사문서(예컨대, 학생부 파일, 자기소개서 파일 등)를 검사를 실행할 해당 폴더에 입력할 수 있다. 따라서, 컴퓨터는 사용자로부터 검사문서를 획득할 수 있다.
실시예에 따라, 컴퓨터는 검사문서를 특정 형식의 파일(예컨대, db3 파일)로 변환하는 과정을 수행할 수도 있다. 이 경우, 사용자는 도 3의 사용자 인터페이스(100)를 통해 '자기소개서 변환'을 실행하여 검사문서를 특정 형식의 파일로 변환할 수 있다.
도 4는 검사문서 내에서 블라인드 처리 여부를 검사할 검사 범위를 설정하는 사용자 인터페이스 화면의 일례를 도시한 것이다.
일 실시예로, 컴퓨터는 사용자로부터 검사문서 내 검사 범위를 설정하는 액션을 수신하면, 도 4의 학생부 설정을 위한 사용자 인터페이스(200) 또는 도 4의 자기소개서 설정을 위한 사용자 인터페이스(210)와 같은 화면을 제공할 수 있다. 이때, 사용자는 학생부 설정을 위한 사용자 인터페이스(200) 또는 자기소개서 설정을 위한 사용자 인터페이스(210)를 통해 검사문서 내 기재된 각 항목별로 블라인드 처리 여부를 검사할 검사 범위를 선택할 수 있다.
이에 따라, 컴퓨터는 사용자로부터 검사 범위를 설정한 설정 정보를 수신하고, 수신한 설정 정보를 기초로 검사문서 내 해당 검사 범위에 대해서만 블라인드 처리가 필요한 정보가 포함되어 있는지 여부를 검사할 수 있다.
도 5는 검사문서 내에서 블라인드 처리가 필요한 검사대상 항목을 설정하는 사용자 인터페이스 화면의 일례를 도시한 것이다.
일 실시예로, 컴퓨터는 사용자로부터 검사문서 내 검사대상 항목을 설정하는 액션을 수신하면, 도 5의 검사항목 설정을 위한 사용자 인터페이스(300)와 같은 화면을 제공할 수 있다. 이때, 사용자는 검사항목 설정을 위한 사용자 인터페이스(300)를 통해 검사문서 내 기재된 각 항목별로 검사대상 정보를 설정할 수 있다.
예를 들어, 각 대학입시전형별로 자기소개서 등과 같은 검사문서 내 배제시켜야 할 정보, 즉 블라인드 처리가 필요한 규칙이 다를 수 있다. 예컨대, 대학입시전형 시 자기소개서 내에 인적사항 항목, 학적사항 항목, 0점처리 항목 등을 배제시켜야 할 항목으로 지정할 수 있다. 특히, 인적사항 항목 중에서 부모 직업, 출신 고등학교, 수험번호, 지원자 성명 등의 특정정보에 대해 자기소개서에 기재해서는 안되는 블라인드 처리 항목으로 지정할 수 있다.
이 경우, 사용자는 도 5의 검사항목 설정을 위한 사용자 인터페이스(300)를 통해 검사문서 내 부모직업, 고등학교, 수험번호, 지원자 성명, 공인어학성적, 교회수상실적 등과 같은 특정한 정보를 검사대상 항목으로 지정할 수 있다. 이에 따라, 컴퓨터는 사용자로부터 검사대상 항목에 대한 정보를 수신하고, 수신한 검사대상 항목에 대한 정보를 기초로 검사문서로부터 검사대상 항목에 대응하는 특정정보를 추출할 수 있다.
도 6은 검사문서에 대해 검사를 실행한 결과를 나타내는 사용자 인터페이스 화면의 일례를 도시한 것이다.
일 실시예로, 컴퓨터는 검사문서에 대한 블라인드 처리 여부 검사를 실행한 다음, 그 결과로 도 6과 사용자 인터페이스(400)와 같은 결과 화면을 제공할 수 있다.
이때, 결과 화면에는 학생부 또는 자기소개서 등의 검사문서에 대해 검사를 실행한 최종 결과를 요약해서 보여주는 검사문서 리스트 화면(410)을 포함할 수 있다.
또한, 결과 화면에는 검사문서로부터 추출된 블라인드 처리가 필요한 특정정보를 보여주는 화면(420)을 포함할 수 있다. 이때, 화면(420) 상에는 특정정보를 하이라이트 처리하여 표시할 수 있으며, 또한 해당 특정정보를 포함하는 구문 전체에 대해 하이라이트 처리할 수도 있다.
일 실시예로, 사용자는 검사문서로부터 추출된 특정정보를 보여주는 화면(420)을 통해 출력된 하이라이트 처리된 구문들 중에서 실제 블라인드 처리 대상 구문인지 여부를 결정할 수 있고, 실제 블라인드 처리 대상 구문에 대해 블라인드 처리할 것을 요청할 수 있다. 따라서, 컴퓨터는 사용자의 블라인드 처리 요청에 대해, 해당 구문을 블라인드 처리(예컨대, 하이라이트 처리 또는 마스킹 처리)를 수행할 수 있다.
또한, 결과 화면에는 하나의 검사문서 전체 내용을 출력하여 보여주되, 검사문서 내 텍스트에 대해 마스킹 처리 또는 하이라이팅 처리를 적용한 화면(430)을 포함할 수 있다. 이때, 검사문서로부터 추출된 블라인드 처리가 필요한 특정정보를 다양하게 볼 수 있는 사용자 인터페이스(440)를 제공할 수 있다. 예를 들어, 표시하기(하이라이팅) 탭, 가리기(마스킹) 탭, 원본 탭을 포함하는 사용자 인터페이스(440)를 제공할 수 있다. 컴퓨터는 사용자로부터 사용자 인터페이스(440)의 표시하기(하이라이팅) 탭을 실행시키는 액션을 수신하면, 검사문서 내 추출된 특정정보를 하이라이트하여 출력할 수 있다. 컴퓨터는 사용자로부터 사용자 인터페이스(440)의 가리기(마스킹) 탭을 실행시키는 액션을 수신하면, 검사문서 내 추출된 특정정보를 마스킹하여 출력할 수 있다. 컴퓨터는 사용자로부터 사용자 인터페이스(440)의 원본 탭을 실행시키는 액션을 수신하면, 검사문서 내 텍스트를 마스킹 또는 하이라이팅 처리 없이 원본 상태로 출력할 수 있다.
도 7은 사용자가 블라인드 규칙 및 하이라이트 규칙을 추가/제거할 수 있는 사용자 인터페이스 화면의 일례를 도시한 것이다.
일 실시예로, 컴퓨터는 사용자로부터 블라인드 규칙 또는 하이라이트 규칙을 추가하거나 제외하는 액션을 수신하면, 도 7의 사용자 인터페이스(500)와 같은 화면을 제공할 수 있다. 이때, 사용자는 사용자 인터페이스(500)를 통해 '블라인드 규칙 추가', '블라인드 규칙 제외', '하이라이트 규칙 추가' 등의 기능을 실행시킬 수 있다. 이에 따라, 컴퓨터는 해당 기능에 대한 화면(510)을 제공하고, 사용자로부터 블라인드 규칙 또는 하이라이트 규칙을 입력 받을 수 있다.
예컨대, 사용자는 도 6의 결과 화면(420) 상에 출력된 특정정보를 포함하는 텍스트를 바탕으로, 텍스트 내 원하는 구문을 지정하여 블라인드 규칙 또는 하이라이트 규칙을 설정할 수 있다. 도 6의 결과 화면(420) 상에서 텍스트 내 원하는 구문을 지정하여 특정 액션(예컨대, 마우스 오른쪽 버튼 클릭)을 수행하면, 도 7의 사용자 인터페이스(500) 화면이 제공될 수 있다.
사용자는 도 7과 같은 블라인드 규칙 또는 하이라이트 규칙을 추가/제거할 수 있는 사용자 인터페이스(500)를 통해 다음과 같은 다양한 규칙들을 설정할 수 있다.
예를 들어, 지원자의 출신고교명은 블라인드 처리(예컨대, 마스킹 처리)를 하되, 지원자의 출신고교명이 아닌 다른 고등학교 명칭은 블라인드 처리를 하지 않는 규칙을 설정할 수 있다. 또는, 지원자가 2개 이상의 고등학교를 다닌 경우(예컨대, 고등학교를 전학한 경우), 지원자가 다닌 모든 고등학교를 출신고교로 인식하여 블라인드 처리하는 규칙을 설정할 수 있다. 학생부 파일과 연동하여 지원자의 이름 정보를 추출하고, 추출된 지원자의 이름 정보를 자기소개서 파일에 적용한다는 규칙을 설정할 수 있다. 또는, 지원자의 이름에서 성을 제외하고 이름만 사용한 경우, 이름에 한해서도 블라인드 처리하는 규칙을 설정할 수 있다.
또한, 블라인드 규칙 또는 하이라이트 규칙을 추가/제거함에 있어서, 사용자는 블라인드 처리를 위한 추가 구문 또는 제외 구문을 등록하면서 등록된 구문의 검사 방식에 대해 설정할 수도 있다.
예를 들어, 블라인드 규칙 또는 하이라이트 규칙으로 추가 구문 또는 제외 구문이 등록된 경우, 컴퓨터는 검사문서 내에서 추가 구문 또는 제외 구문을 어절 단위로 매칭할지 음절 단위로 매칭할지를 선택하는 사용자 인터페이스를 추가적으로 제공할 수 있다. 일례로, 추가 구문으로 '아버지'가 등록되었고 검사문서 상에는 '할아버지'가 있는 경우를 예로 들어 설명하면, 사용자가 어절 단위 매칭을 선택한 경우에는 검사문서로부터 추가 구문('아버지')과 매칭되는 구문을 검출할 수 없으나, 사용자가 음절 단위 매칭을 선택한 경우에는 검사문서로부터 추가 구문('아버지')과 매칭되는 구문('할아버지')을 검출하게 된다.
다른 예로, 블라인드 규칙 또는 하이라이트 규칙으로 추가 구문 또는 제외 구문이 등록된 경우, 컴퓨터는 추가 구문 또는 제외 구문에 대해 검사문서 내에서 띄워쓰기를 유지한 채로 매칭할지 무시하고 매칭할지를 선택하는 사용자 인터페이스를 추가적으로 제공할 수 있다. 일례로, 추가 구문으로 '친형'이 등록되었고 검사문서 상에는 '도망친 형을 만나서'가 있는 경우를 예로 들어 설명하면, 사용자가 띄어쓰기 유지 매칭을 선택한 경우에는 검사문서로부터 추가 구문('친형')과 매칭되는 구문을 검출할 수 없으나, 사용자가 띄어쓰기 무시 매칭을 선택한 경우에는 검사문서로부터 추가 구문('친형')과 매칭되는 구문('도망친 형을 만나서')을 검출하게 된다.
도 8은 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법을 수행하는 장치(600)의 구성을 개략적으로 나타내는 도면이다.
도 8을 참조하면, 프로세서(610)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.
일 실시예에 따른 프로세서(610)는 메모리(620)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 1 내지 도 7과 관련하여 설명된 검사문서 내 특정정보의 블라인드 처리 방법을 수행한다.
일례로, 프로세서(610)는 메모리(620)에 저장된 하나 이상의 인스트럭션을 실행함으로써 검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계, 상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계, 및 상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 수행할 수 있다.
한편, 프로세서(610)는 프로세서(610) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(610)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
메모리(620)에는 프로세서(610)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(620)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 검사문서 내 특정정보의 블라인드 처리 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (12)

  1. 컴퓨터가 수행하는 검사문서 내 특정정보의 블라인드 처리 방법에 있어서,
    검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계;
    상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계; 및
    상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 포함하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  2. 제1항에 있어서,
    상기 검사대상 항목을 결정하는 단계는,
    상기 검사문서의 특징에 따라 미리 정해진 블라인드 규정을 기초로 적어도 하나의 검사대상 항목을 결정하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  3. 제1항에 있어서,
    상기 특정정보를 추출하는 단계는,
    상기 검사문서로부터 상기 검사대상 항목에 대응하는 적어도 하나의 키워드를 추출하는 단계; 및
    상기 적어도 하나의 키워드를 기반으로 상기 특정정보를 포함하는 후보 구문을 추출하는 단계를 포함하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  4. 제3항에 있어서,
    상기 키워드를 추출하는 단계는,
    상기 검사문서와 연계된 타문서로부터 상기 적어도 하나의 키워드를 추출하는 단계; 및
    상기 적어도 하나의 키워드로부터 유추 가능한 정보를 획득하여 확장 키워드를 추가하는 단계를 포함하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  5. 제3항에 있어서,
    상기 키워드를 추출하는 단계는,
    사용자로부터 미리 정해진 키워드 목록을 획득한 경우, 상기 미리 정해진 키워드 목록을 적용하여 상기 적어도 하나의 키워드를 추출하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  6. 제5항에 있어서,
    상기 키워드를 추출하는 단계는,
    상기 사용자로부터 상기 미리 정해진 키워드 목록을 적용할 적용 범위를 획득하는 단계를 더 포함하며,
    상기 적용 범위는,
    검사문서 내 특정 항목을 대상으로 결정되거나, 검사문서에 대한 소유자를 대상으로 결정되는, 검사문서 내 특정정보의 블라인드 처리 방법.
  7. 제3항에 있어서,
    상기 마스킹 처리 또는 상기 하이라이팅 처리 중 하나를 선택하여 적용하는 단계는,
    사용자로부터 상기 후보 구문이 블라인드 처리 대상 구문인지 여부에 대한 선택 결과를 획득하는 단계; 및
    상기 후보 구문이 블라인드 처리 대상 구문인 것으로 선택된 경우, 상기 후보 구문에 대해 상기 마스킹 처리 또는 상기 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 포함하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  8. 제1항에 있어서,
    상기 특정정보를 기초로 상기 검사대상 항목에 추가할 추가 구문을 등록하거나, 또는
    상기 특정정보를 기초로 상기 검사대상 항목에서 제외할 제외 구문을 등록하는 단계를 더 포함하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  9. 제1항에 있어서,
    상기 특정정보를 추출하는 단계는,
    상기 구문분석을 수행하여 상기 검사대상 항목에 대응하는 구문의 문맥을 파악하는 단계; 및
    상기 문맥을 파악한 결과를 기초로 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계를 포함하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  10. 제9항에 있어서,
    상기 문맥을 파악하는 단계는,
    딥러닝을 이용한 학습을 통해 상기 구문분석을 수행하는, 검사문서 내 특정정보의 블라인드 처리 방법.
  11. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    검사문서 내 블라인드 처리가 필요한 검사대상 항목을 결정하는 단계;
    상기 검사문서로부터 구문분석을 수행하여 상기 검사대상 항목에 대응하는 특정정보를 추출하는 단계; 및
    상기 특정정보에 대해 마스킹 처리 또는 하이라이팅 처리 중 하나를 선택하여 적용하는 단계를 수행하는, 장치.
  12. 하드웨어인 컴퓨터와 결합되어, 제1항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.
KR1020190058836A 2019-05-20 2019-05-20 검사문서 내 특정정보의 블라인드 처리 방법 및 장치 KR102196547B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190058836A KR102196547B1 (ko) 2019-05-20 2019-05-20 검사문서 내 특정정보의 블라인드 처리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190058836A KR102196547B1 (ko) 2019-05-20 2019-05-20 검사문서 내 특정정보의 블라인드 처리 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190013317A Division KR101982207B1 (ko) 2019-02-01 2019-02-01 검사문서 내 특정정보의 블라인드 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200096043A true KR20200096043A (ko) 2020-08-11
KR102196547B1 KR102196547B1 (ko) 2020-12-29

Family

ID=72048220

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190058836A KR102196547B1 (ko) 2019-05-20 2019-05-20 검사문서 내 특정정보의 블라인드 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102196547B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022225701A1 (en) * 2021-04-19 2022-10-27 Tekion Corp Data security for a document management system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050032937A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
KR20110010676A (ko) * 2009-07-25 2011-02-07 공주대학교 산학협력단 전자문서의 선택적 마스킹과 확인 통지 서비스 방법 및 시스템
KR101282705B1 (ko) * 2012-07-30 2013-08-23 주식회사 한글과컴퓨터 전자 문서에 포함된 개인 정보 유출 방지 장치 및 방법
JP2014131217A (ja) * 2012-12-28 2014-07-10 Canon Marketing Japan Inc 個人情報の漏洩を抑止する撮影装置、撮影システム、制御方法、及びプログラム。
KR101756288B1 (ko) * 2017-02-07 2017-07-10 윤상훈 문서 보안 시스템
WO2018175212A1 (en) * 2017-03-23 2018-09-27 Microsoft Technology Licensing, Llc Obfuscation of user content in structured user data files

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050032937A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
KR20110010676A (ko) * 2009-07-25 2011-02-07 공주대학교 산학협력단 전자문서의 선택적 마스킹과 확인 통지 서비스 방법 및 시스템
KR101282705B1 (ko) * 2012-07-30 2013-08-23 주식회사 한글과컴퓨터 전자 문서에 포함된 개인 정보 유출 방지 장치 및 방법
JP2014131217A (ja) * 2012-12-28 2014-07-10 Canon Marketing Japan Inc 個人情報の漏洩を抑止する撮影装置、撮影システム、制御方法、及びプログラム。
KR101756288B1 (ko) * 2017-02-07 2017-07-10 윤상훈 문서 보안 시스템
WO2018175212A1 (en) * 2017-03-23 2018-09-27 Microsoft Technology Licensing, Llc Obfuscation of user content in structured user data files

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022225701A1 (en) * 2021-04-19 2022-10-27 Tekion Corp Data security for a document management system

Also Published As

Publication number Publication date
KR102196547B1 (ko) 2020-12-29

Similar Documents

Publication Publication Date Title
Mandera et al. Subtlex-pl: subtitle-based word frequency estimates for Polish
US9766868B2 (en) Dynamic source code generation
KR20210098394A (ko) 직무 추천 방법 및 구직자 및 구인자 매칭 방법
US9619209B1 (en) Dynamic source code generation
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US11762926B2 (en) Recommending web API's and associated endpoints
US9589049B1 (en) Correcting natural language processing annotators in a question answering system
US10755094B2 (en) Information processing apparatus, system and program for evaluating contract
US11537797B2 (en) Hierarchical entity recognition and semantic modeling framework for information extraction
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
US20090112845A1 (en) System and method for language sensitive contextual searching
US20220309332A1 (en) Automated contextual processing of unstructured data
US9223889B2 (en) Age appropriate filtering
CN111209753B (zh) 一种实体命名识别方法及装置
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US9384191B2 (en) Written language learning using an enhanced input method editor (IME)
KR102196547B1 (ko) 검사문서 내 특정정보의 블라인드 처리 방법 및 장치
US10706109B2 (en) Persona based content modification
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
Gañan Plagiarism detection
US20200302076A1 (en) Document processing apparatus and non-transitory computer readable medium
Zhang et al. A hands-on tutorial for systematic review and meta-analysis with example data set and codes
US11501072B1 (en) System, method, and computer program product for automated factual citation detection
KR101982207B1 (ko) 검사문서 내 특정정보의 블라인드 처리 방법 및 장치

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant