KR20160068441A - 개인 정보 보호를 위한 장치 및 기록 매체 - Google Patents

개인 정보 보호를 위한 장치 및 기록 매체 Download PDF

Info

Publication number
KR20160068441A
KR20160068441A KR1020140174216A KR20140174216A KR20160068441A KR 20160068441 A KR20160068441 A KR 20160068441A KR 1020140174216 A KR1020140174216 A KR 1020140174216A KR 20140174216 A KR20140174216 A KR 20140174216A KR 20160068441 A KR20160068441 A KR 20160068441A
Authority
KR
South Korea
Prior art keywords
personal information
context
text data
sentence
masking
Prior art date
Application number
KR1020140174216A
Other languages
English (en)
Other versions
KR102166102B1 (ko
Inventor
신승은
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140174216A priority Critical patent/KR102166102B1/ko
Publication of KR20160068441A publication Critical patent/KR20160068441A/ko
Application granted granted Critical
Publication of KR102166102B1 publication Critical patent/KR102166102B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Abstract

본 발명은 인식 대상 문자열 및 전후 문자열간의 문맥을 고려하여 비정형화된 텍스트 데이터로부터 개인 정보를 보다 정확하게 추출하여 마스킹할 수 있는 개인 정보 보호를 위한 장치 및 기록 매체에 관한 것으로서, 텍스트 데이터에 포함된 문장의 구조적 형태를 분석하는 문장 분석부, 상기 분석된 문장의 구조적 형태로부터 문맥을 파악하여, 문맥 기반의 개인 정보를 추출하는 문맥기반 개인정보 인식부, 상기 텍스트 데이터에서 상기 문맥기반 개인정보 인식부에 의해 추출된 개인 정보를 마스킹하는 문맥 기반 마스킹부를 포함하여 이루어질 수 있다.

Description

개인 정보 보호를 위한 장치 및 기록 매체{Device and storage medium for protecting privacy information}
본 발명은 텍스트 데이터에 포함된 개인 정보를 마스킹하여 보호하기 위한 장치 및 기록 매체에 관한 것으로서, 더욱 상세하게는 인식 대상 문자열 및 전후 문자열간의 문맥을 고려하여 비정형화된 텍스트 데이터로부터 개인 정보를 보다 정확하게 추출하여 마스킹할 수 있는 개인 정보 보호를 위한 장치 및 기록 매체에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
정보 통신 기술의 발달과 함께, PC, 스마트폰 등과 같은 디지털 기기의 이용이 생활화면서, 이러한 디지털 기기의 이용에 따라 생성되는 디지털 데이터가 기하급수적으로 증가하고 있으며, 이러한 디지털 데이터는 과거 아날로그 환경에서 생성되던 데이터에 비하여 그 규모가 방대하여 대용량 데이터(Big Data)라 불리우며, 생성 주기도 짧고, 형태도 단순한 수치 데이터뿐만 아니라 문자, 영상 및 음성 데이터를 포함하는 특징을 갖는다.
이러한 빅데이터는, IT 및 스마트 혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 간주되고 있으며, 빅데이터 분석 기술이 주요 관심 기술로 집중 받고 있다.
빅 데이터의 예로, 휴대폰 통화량, 카드 결제, 기상 정보, 소셜 네트워크 서비스 메시지, 인터넷 검색 내역, 도로 교통량, 고객 상담 내역 등을 들 수 있으며, 고객의 행동을 미리 예측하고, 대처 방안을 마련하여 기업 경쟁력을 강화시킨다는 측면에서 이러한 빅데이터의 분석을 위한 연구가 활발히 이루어지고 있다.
그런데, 상술한 바와 같은 빅데이터들은, 기본적으로 개인의 디지털 기기의 이용에 따라서 발생되는 데이터들로서, 성명, 전화번호, 주소, 생년월일, 주민번호, 자동자 번호, 개인이 접속한 IP 주소 등과 같은 개인 정보들을 포함하게 되는데, 사생활 보호 및 보안 측면에서 개인 정보의 표시 제한 기준이 강화됨에 따라서, 방대한 양의 빅데이터에 포함된 개인 정보를 자동으로 추출하여 마스킹할 수 있는 자동 마스킹 기술이 요구된다.
그런데, 고객 상담 내역과 같은 정형화되지 않은 데이터의 경우, 다양한 종류의 개인 정보를 자동으로 추출하는데 어려움이 있으며, 또한, 고객 상담 내역의 경우, 음성 인식 기술을 통해 통화 내용이나 녹음된 오디오 데이터를 텍스트로 변환된 것이기 때문에, 띄어쓰기 오류로 인해 성명이나 주소 등 규칙성이 없는 개인 정보를 정확하게 추출하기 어렵다.
한국공개특허 제10-2010-0034330호, 2010년 04월 01일 공개 (명칭: 개인 정보 보호 방법 및 시스템)
이에 본 발명은, 고객 상담 내역과 같은 대량의 데이터에 포함된 개인 정보를 자동으로 마스킹하기 위하여 제안된 것으로서, 특히, 인식 대상 문자열 및 전후 문자열간의 문맥을 고려하여 비정형화된 텍스트 데이터로부터 개인 정보를 보다 정확하게 추출하여 마스킹할 수 있는 개인 정보 보호를 위한 장치 및 기록 매체를 제공하고자 한다.
본 발명은 상술한 과제의 해결 수단으로서, 텍스트 데이터에 포함된 문장의 구조적 형태를 분석하는 문장 분석부; 상기 분석된 문장의 구조적 형태로부터 문맥을 파악하여, 문맥 기반의 개인 정보를 추출하는 문맥기반 개인정보 인식부; 및 상기 텍스트 데이터에서 상기 문맥기반 개인정보 인식부에 의해 추출된 개인 정보를 마스킹하는 문맥 기반 마스킹부를 포함하는 것을 특징으로 하는 개인 정보 보호를 위한 장치를 제공한다.
상기 장치는, 기 설정된 패턴에 기반하여, 상기 텍스트 데이터로부터 일정한 규칙을 갖는 개인 정보를 추출하여 마스킹하는 패턴 기반 마스킹부를 더 포함할 수 있다.
여기서, 상기 문맥기반 마스킹부 및 패턴 기반 마스킹부는, 상기 추출한 개인 정보를 다른 문자열로 치환할 수 있다.
그리고, 상기 문맥 기반 개인 정보 인식부는, 인식할 개인 정보를 정의한 개체명 사전 및 상기 인식할 개인 정보에 인접하여 배치되는 문자열을 정의한 문맥 사전을 기반으로 상기 텍스트 데이터로부터 상기 개인 정보를 추출하거나, 문장 구조에 기반하여 문장 내의 각 문자열이 개인 정보일 확률을 산출하는 확률 모델 및 인식할 개인 정보를 정의한 개체명 사전을 이용하여, 상기 개인 정보를 추출할 수 있다.
더하여, 본 발명은 상술한 과제의 다른 해결 수단으로서, 텍스트 데이터를 입력받는 단계; 상기 텍스트 데이터에 포함된 문장의 구조적 형태를 분석하는 단계; 상기 문장의 구조적 형태로부터 상기 문장의 문맥을 파악하여, 상기 텍스트 데이터로부터 문맥 기반의 개인 정보를 추출하는 단계; 및 상기 텍스트 데이터에서 상기 추출한 개인 정보를 마스킹하는 단계를 수행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공한다.
여기서, 상기 개인 정보를 추출하는 단계는, 인식할 개인 정보를 정의한 개체명 사전 및 문맥 상 상기 인식할 개인 정보에 인접하여 배치되는 문자열을 정의한 문맥 사전을 이용하여 상기 텍스트 데이터에 포함된 상기 개인 정보를 추출하거나, 문장 구조에 기반하여 문장 내의 각 문자열이 개인 정보일 확률을 산출하는 확률 모델 및 인식할 개인 정보를 정의한 개체명 사전을 이용하여 상기 개인 정보를 추출할 수 있다.
상기 기록 매체에 기록된 프로그램은, 기 설정된 패턴에 기반하여 상기 텍스트 데이터로부터 일정한 규칙을 갖는 개인 정보를 추출하여 마스킹하는 단계를 포함할 수 있다.
본 발명은 문자, 기호 및 숫자를 포함하는 텍스트 데이터로부터 개인 정보를 추출하여 마스킹하는데 있어서, 텍스트 데이터에 포함된 문장의 구조적 형태, 즉, 문장 구조에 기초하여 상기 텍스트 데이터에 포함된 문장의 문맥을 파악하고, 이러한 문맥을 고려하여 개인 정보를 추출하는 것으로서, 이를 통해서 일정한 규칙을 갖지 못하는 개인정보를 정확하게 추출하여 마스킹할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 장치의 구성을 개략적으로 나타낸 블럭도이다.
도 2는 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 방법을 나타낸 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 방법에 있어서, 패턴 기반의 마스킹 과정을 나타낸 예시도이다.
도 4는 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 방법에 있어서, 문맥 기반 마스킹 과정을 나타낸 예시도이다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
먼저, 도 1은 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 장치의 구성을 개략적으로 나타낸 블럭도이다. 본 발명에 따른 개인 정보 보호를 위한 장치는, 소프트웨어 또는 하드웨어 또는 소프트웨어와 하드웨어의 조합으로 구현될 수 있는 것으로서, 도 1은 이러한 개인 정보 보호를 위한 장치의 구성 요소를 기능 단위로 구분하여 나타낸 것이다.
도 1을 참조하면, 본 발명에 따른 개인 정보 보호를 위한 장치는, 문장 분석부(200)와, 문맥 기반 개인정보 인식부(300)와, 문맥 기반 마스킹부(400)를 포함할 수 있으며, 필요에 따라서 패턴 기반 마스킹부(100)를 더 포함할 수 있다.
상기 패턴 기반 마스킹부(100)는, 기 설정된 패턴에 기반하여 상기 텍스트 데이터로부터 개인 정보를 추출하여 마스킹하기 위한 수단이다. 상기 패턴 기반 마스킹부(100)는 개인 정보에 포함된 패턴을 이용하여 입력된 텍스트 데이터로부터 개인 정보를 추출하고, 추출된 개인 정보를 인식할 수 없도록 마스킹한다. 여기서, 마스킹은 상기 추출된 개인 정보를 해당 개인 정보의 종류를 나타내는 보통 명사로 치환하는 형태로 이루어질 수 있다. 이때, 상기 패턴 기반 마스킹부(100)는, 상기 일정한 규칙을 갖는 개인 정보를 추출하여 보통 명사로 치환하기 위하여, 정규 표현식(Regular Expressions)을 이용할 수 있다. 상기 정규 표현식은 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어로서, 어떤 패턴을 찾아 값을 추출하거나, 해당 패턴이 유효한지 검사하거나, 다른 문자열로 치환할 때 사용된다.
즉, 본 발명의 일 실시 예에서, 상기 패턴 기반 마스킹부(100)는, 텍스트 데이터내에 존재하는 정규표현식을 이용하여 일정한 규칙을 갖는 개인 정보를 설정된 다른 문자열(예를 들어, 해당 개인 정보를 나타내는 보통명사)로 치환한다.
이러한 패턴 기반 마스킹부(100)는, 주민번호, 전화번호, 카드번호, 계좌번호, 여권번호, 운전면허번호, 생년월일, 이메일주소, IP주소 등과 같이 일정한 패턴을 갖는 개인 정보를 추출하여 마스킹할 수 있다.
상기 문장 분석부(200)는, 상기 텍스트 데이터의 문맥을 분석할 수 있도록 일정한 문법 규칙에 기초하여 문장의 구성이나 구조적 형태를 분석하기 위한 구성으로서, 상기 텍스트 데이터의 문장을 분석하여, 최소 의미 단위인 형태소 단위로 문자열을 인식하고, 인식된 문자열에 품사를 태깅한다. 이를 위하여, 상기 문장 분석부(200)는 텍스트 데이터의 문장 구조를 파악하여, 문장 분할, 분석, 추출 및 원형 복원을 수행할 수 있다.
이어서, 문맥기반 개인 정보 인식부(300)는 상기 문장 분석부(200)의 분석 결과를 기반으로, 상기 텍스트 데이터에 포함된 문자열의 의미론적 관계인 문맥(context)을 파악하고, 이렇게 파악된 문맥에 기반하여 개인 정보를 추출한다. 이때, 상기 문맥 기반 개인 정보 인식부(300)는 고유 명사를 포함하는 개인 정보를 정의한 개체명 사전, 문맥 상 상기 개인 정보에 인접하여 배치되는 표현을 정의한 문맥 사전, 및 문장 구조적으로 해당 문자열이 개인 정보일 확률을 산출하는 확률 모델 중 하나 이상을 이용하여 개인 정보를 추출할 수 있다.
상기 문맥 기반 개인 정보 인식부(300)는 의미론적 관점에서 개인 정보를 추출함으로써, 상기 패턴 기반 마스킹부(100)에서 추출할 수 없는 개인 정보를 추출할 수 있으며, 상기 문맥 기반 개인 정보 인식부(300)에서 추출 가능한 개인 정보는, 예를 들어, 성명 또는 주소가 될 수 있다.
마지막으로, 문맥기반 마스킹부(400)는 텍스트 데이터에서 상기 문맥기반 개인 정보 인식부(300)에 의해 추출된 개인 정보를 인식할 수 없도록 마스킹하는 수단이다. 상기 문맥기반 마스킹부(400)는, 상기 추출한 개인 정보를 다른 문자열, 예를 들어, 상기 추출한 개인 정보에 대응하는 보통 명사로 치환하는 형태로, 상기 개인 정보를 마스킹할 수 있다.
상술한 바와 같이 구성되는 장치에 의해 수행되는 개인 정보 보호를 위한 과정을 도 2 내지 도 4를 참조하여 구체적으로 설명한다.
도 2는 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 방법을 나타낸 순서도이고, 도 3 및 도 4는 본 발명의 일 실시 예에 따른 개인 정보 보호를 위한 방법에 따른 마스킹 실행 결과를 예시한 도면이다.
도 2를 참조하면, 본 발명에 따른 장치는, 개인 정보 보호를 위한 마스킹 수행 대상물인, 텍스트 데이터를 입력받는다(S110). 상기 텍스트 데이터는 기호, 숫자 및 문자 중 하나 이상을 포함하는 디지털 데이터로서, 예를 들어, 음성 인식 기술을 통해 오디오 데이터로부터 변환된 디지털 데이터일 수 있다.
본 발명에 따른 개인 정보 보호를 위한 방법은, 기 설정된 패턴을 이용하여 상기 입력된 텍스트 데이터로부터 일정한 규칙을 갖는 개인 정보를 추출하여 마스킹할 수 있다(S120). 이는 상기 패턴 기반 마스킹부(110)에 의해 수행될 수 있는 것으로서, 정규 표현식을 통해 텍스트 데이터에 포함된 일정한 패턴으로 표현되는 개인 정보를 추출하여, 인식할 수 없도록 마스킹된다. 상기 마스킹은, 상기 추출한 개인 정보를 다른 문자열, 예를 들어, 상기 개인 정보에 대응하는 보통 명사로 치환하는 형태로 이루어질 수 있다.
도 3은 정규표현식을 이용하여 일정 규칙을 갖는 개인 정보를 마스킹하는 과정을 나타낸 예시도로서, 부호 31은 입력된 텍스트 데이터를 나타내고, 부호 32는 기 설정된 정규 표현식의 일 예을 나타내며, 부호 33은, 정규 표현식에 의하여 개인 정보가 마스킹된 결과를 나타낸다.
부호 32의 정규 표현식은, "영, 공, 일, 이, 삼, 사, 오, 육, 륙, 칠, 팔, 구, 하나, 둘, 셋, 넷, 다섯, 여섯, 일곱, 여덟, 아홉" 등과 같은 숫자가 2회가 이상 반복되는 패턴을 추출하여 "NUM"으로 문자열로 치환하도록 정의된 것으로서, 상기 정규 표현식에 의하여, 상기 입력된 텍스트 데이터(31) 중 상기 패턴에 매칭되는 "공 일 공 삼 사 일 사로 표시된 문자열(31a)과, "공 하나 칠 오"로 표시된 문자열(32a)이 <NUM>이란 문자열(33a, 33b)로 마스킹된다.
또한, 본 발명에 따른 방법은, 상기 텍스트 데이터에 대한 문장 분석을 수행한다(S130). 상기 문장 분석은, 상기 텍스트 데이터에 포함된 문장의 구조적 형태를 분석하는 것으로서, 구체적으로, 상기 텍스트 데이터에 포함된 문자열을 최소 의미단위인 형태소 단위로 추출하고, 추출된 각 문자열에 해당하는 품사를 태깅한다(S130). 상기 품사는 상기 추출된 각 문자열의 문장 성분을 나타내는 것으로서, 예를 들어, 명사, 조사, 동사 등을 의미한다. 이러한 품사를 통해서 상기 문장에 포함된 문자열의 의미론적 관계, 즉, 문맥을 알 수 있다. 상술한 과정은, 상기 문장 분석부(200)를 통해서 수행된다.
이어서, 상기 본 발명에 따른 방법은, 상술한 문장 분석을 기초하여 파악된 문맥에 기초하여 상기 텍스트 데이터로부터 개인 정보를 추출하고(S140), 상기 텍스트 데이터에서 상기 추출한 개인 정보를 인식할 수 없도록 마스킹한다(S150). 상기 S140 단계에서는, 문맥 기반의 개인 정보 추출을 위하여, 다양한 언어 처리 기술이 이용될 수 있는데, 예를 들어, 고유 명사를 포함하는 개인 정보를 정의한 개체명 사전, 문맥 상 상기 개인 정보에 인접하여 배치되는 표현을 정의한 문맥 사전, 및 문장 구조적으로 해당 문자열이 개인 정보일 확률을 산출하는 확률 모델 중 하나 이상을 이용하여 개인 정보를 추출할 수 있다. 즉, 본 발명의 일 실시 예에서, 상기 S140 단계는, 인식할 개인 정보와 문장 구조상 인접하여 배치되는 문자열을 정의한 문맥 사전 및 상기 개인 정보에 포함되는 고유 명사를 정의한 개체명 사전을 기반으로 상기 텍스트 데이터 중 상기 고유 명사를 포함하는 개인 정보를 추출할 수 있다. 즉, 개체명 사전에 기반하여 상기 텍스트 데이터로부터 인식된 문자열 중 상기 개체명 사전에 등록된 개인 정보와 매칭되는 문자열을 추출하고, 추출된 문자열에 인접하여, 상기 문맥 사전에 정의된 상기 매칭된 개인 정보와 인접할 수 있는 문자열이 존재하는 경우, 상기 추출된 문자열을 개인 정보로 판단할 수 있다. 반대로, 상기 문맥 사전에 정의된 문자열의 전후에 위치한 문자열을 상기 개체명 사전과 대비하여, 문맥 기반의 개인 정보를 추출할 수 도 있다.
또한, 상기 S150 단계에서의 개인 정보 마스킹은, 추출된 개인 정보를 다른 문자열, 예를 들어, 상기 개인 정보에 대응하는 보통 명사로 치환하는 형태로 이루어질 수 있다.
도 4는 문맥 기반의 마스킹 과정을 예시한 도면으로서, 부호 41은, 앞서 도 3의 부호 33과 같은 텍스트 데이터에 대하여 문장 분석이 이루어져, 형태소 단위로 문자열이 분리되어 품사가 태깅된 상태를 나타낸다. 상기 부호 41에서, "/"이후에 표시된 NNG, MM, EM, VV 등은 각각 명사, 조사, 동사 등과 같은 문법적 성질을 나타내는 품사 태그이다.
상술한 텍스트 데이터에서, "도봉 이 동"(42a) 은 주소에 해당하는 개인 정보로서 "주소"(43a)라는 보통 명사로 치환되고, "홍길동"(42b)은 성명에 해당하는 개인 정보로서, "성명"이라는 보통 명사로 치환되어 나타난다.
상기 S140 단계에서는, 부호 41과 같은 문장 분석 결과로 추출된 각 문자열 및 그 문자열이 분류된 품사를 참조함으로써, 문자열 간의 구조적 관계를 파악하고, 이로부터 각 문자열 사이에 성립하는 의미론적인 관계를 파악할 수 있다. 특히, "현재 문의하시는 번호가 홍 길동 고객님 번호 맞으시구요"라는 문장에서 각 문장 성분 간의 관계에 기초할 때, "고객님"이란 문자열 앞에 배치된 "홍 길동"은 고객의 성명을 의미하는 것으로 파악될 수 있으며, 이러한 문맥에 기초하여, 본 발명은 "홍 길동"을 성명을 나타내는 개인 정보를 추출한다.
상술한 바와 같인 문맥을 더 고려할 경우, 소설 속 등장인물을 나타내는 "홍 길동"과, 실제 사용자의 이름을 나타내는 "홍 길동"을 구분할 수 있다. 예를 들어, "너 홍 길동이라는 드라마 봤니?"라는 문장이 있을 때, 상기 문장에 포함된 "홍 길동"은 개인 정보로서 사람의 성명을 나타내는 것이 아니라, 드라마 명칭을 나타낸다. 본 발명은, 문맥에 기초하여 문장 내에서 "홍 길동"이라는 문자열의 의미를 분석함으로써, "현재 문의하시는 번호가 홍 길동 고객님 번호 맞으시구요"라는 문장에 포함된 "홍 길동"이라는 문자열은 개인 정보로 인식하나, "너 홍 길동이라는 드라마 봤니?"라는 문장에 포함된 "홍 길동"은 개인 정보로 인식하지 않는다.
이상의 과정을 통해서, 본 발명은 상기 텍스트 데이터에 포함된 일정한 규칙을 갖는 개인 정보뿐만 아니라 패턴화될 수 없는 개인 정보까지 추출하여 마스킹된 텍스트 데이터를 출력할 수 있다(S160).
참고로, 상술한 개인 정보 보호를 위한 과정에서, S120 단계는, S130 단계 이전에 수행되거나, S150 단계 이후에 수행되거나, S130 단계 내지 S150 단계와 병렬로 수행될 수 있다.
상술한 개인 정보 보호를 위한 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으나, 여기에 개시된 실시 예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.
본 명세서에서 설명한 주제의 특정한 실시형태를 설명하였다. 기타의 실시형태들은 이하의 청구항의 범위 내에 속한다. 예컨대, 청구항에서 인용된 동작들은 상이한 순서로 수행되면서도 여전히 바람직한 결과를 성취할 수 있다. 일 예로서, 첨부도면에 도시한 프로세스는 바람직한 결과를 얻기 위하여 반드시 그 특정한 도시된 순서나 순차적인 순서를 요구하지 않는다. 특정한 구현예에서, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.
본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.
따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.
본 발명은 문자, 기호 및 숫자를 포함하는 텍스트 데이터로부터 개인 정보를 추출하여 마스킹하는데 있어서, 텍스트 데이터에 포함된 문장의 구조적 형태, 즉, 문장 구조에 기초하여 상기 텍스트 데이터에 포함된 문자열 간의 문맥을 파악하고, 이러한 문맥을 고려하여 개인 정보를 추출하는 것으로서, 이를 통해서 일정한 규칙을 갖지 못하는 개인정보를 정확하게 추출하여 마스킹할 수 있다.
특히, 본 발명은 텍스트 데이터에 포함된 문자열 중 주소 및 성명과 같은 개인 정보를 추출하는데 있어서, 개인 정보와 매칭되는 문자열의 전후 문맥을 고려함으로써, 띄어쓰기 오류가 존재하더라도 보다 정확하게 개인 정보를 추출할 수 있다.
100: 패턴 기반 마스킹부
200: 문장 분석부
300: 문맥기반 개인정보 인식부
400: 문맥기반 마스킹부

Claims (10)

  1. 텍스트 데이터에 포함된 문장의 구조적 형태를 분석하는 문장 분석부;
    상기 분석된 문장의 구조적 형태로부터 문맥을 파악하여, 문맥 기반의 개인 정보를 추출하는 문맥기반 개인정보 인식부; 및
    상기 텍스트 데이터에서 상기 문맥기반 개인정보 인식부에 의해 추출된 개인 정보를 마스킹하는 문맥 기반 마스킹부를 포함하는 것을 특징으로 하는 개인 정보 보호를 위한 장치.
  2. 제1항에 있어서,
    기 설정된 패턴에 기반하여, 상기 텍스트 데이터로부터 일정한 규칙을 갖는 개인 정보를 추출하여 마스킹하는 패턴 기반 마스킹부를 더 포함하는 것을 특징으로 하는 개인 정보 보호를 위한 장치.
  3. 제2항에 있어서,
    상기 문맥기반 마스킹부 및 패턴 기반 마스킹부는, 상기 추출한 개인 정보를, 다른 문자열로 치환하는 것을 특징으로 하는 개인 정보 보호를 위한 장치.
  4. 제1항에 있어서, 상기 문맥기반 개인정보 인식부는
    인식할 개인 정보를 정의한 개체명 사전 및 상기 인식할 개인 정보에 인접하여 배치되는 문자열을 정의한 문맥 사전을 기반으로 상기 텍스트 데이터로부터 상기 개인 정보를 추출하는 것을 특징으로 하는 개인 정보 보호를 위한 장치.
  5. 제1항에 있어서, 상기 문맥기반 개인정보 인식부는
    문장 구조에 기반하여 문장 내의 각 문자열이 개인 정보일 확률을 산출하는 확률 모델 및 인식할 개인 정보를 정의한 개체명 사전을 이용하여, 상기 개인 정보를 추출하는 것을 특징으로 하는 개인 정보 보호를 위한 장치.
  6. 텍스트 데이터를 입력받는 단계;
    상기 텍스트 데이터에 포함된 문장의 구조적 형태를 분석하는 단계;
    상기 문장의 구조적 형태로부터 상기 문장의 문맥을 파악하여, 상기 텍스트 데이터로부터 문맥 기반의 개인 정보를 추출하는 단계; 및
    상기 텍스트 데이터에서 상기 추출한 개인 정보를 마스킹하는 단계를 수행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  7. 제6항에 있어서,
    기 설정된 패턴에 기반하여 상기 텍스트 데이터로부터 일정한 규칙을 갖는 개인 정보를 추출하여 마스킹하는 단계를 더 수행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  8. 제7항에 있어서,
    상기 마스킹하는 단계는, 상기 추출한 개인 정보를, 다른 문자열로 치환하는 단계인 것을 특징으로 하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  9. 제6항에 있어서, 상기 개인 정보를 추출하는 단계는
    인식할 개인 정보를 정의한 개체명 사전 및 문맥 상 상기 인식할 개인 정보에 인접하여 배치되는 문자열을 정의한 문맥 사전을 이용하여 상기 텍스트 데이터에 포함된 상기 개인 정보를 추출하는 단계인 것을 특징으로 하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  10. 제6항에 있어서, 상기 개인 정보를 추출하는 단계는
    문장 구조에 기반하여 문장 내의 각 문자열이 개인 정보일 확률을 산출하는 확률 모델 및 인식할 개인 정보를 정의한 개체명 사전을 이용하여 상기 개인 정보를 추출하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020140174216A 2014-12-05 2014-12-05 개인 정보 보호를 위한 장치 및 기록 매체 KR102166102B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140174216A KR102166102B1 (ko) 2014-12-05 2014-12-05 개인 정보 보호를 위한 장치 및 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140174216A KR102166102B1 (ko) 2014-12-05 2014-12-05 개인 정보 보호를 위한 장치 및 기록 매체

Publications (2)

Publication Number Publication Date
KR20160068441A true KR20160068441A (ko) 2016-06-15
KR102166102B1 KR102166102B1 (ko) 2020-10-15

Family

ID=56135133

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140174216A KR102166102B1 (ko) 2014-12-05 2014-12-05 개인 정보 보호를 위한 장치 및 기록 매체

Country Status (1)

Country Link
KR (1) KR102166102B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101721063B1 (ko) * 2016-12-02 2017-03-29 충남대학교산학협력단 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체
KR102067926B1 (ko) * 2019-04-10 2020-01-17 주식회사 데이타솔루션 전자문서에 포함된 개인정보 비식별화 장치 및 방법
KR20230077963A (ko) * 2021-11-26 2023-06-02 주식회사 스파이스웨어 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500756B1 (ko) * 2021-10-20 2023-02-16 주식회사 한글과컴퓨터 채팅 서비스를 통해 사용자들이 입력한 채팅 메시지들이 삽입된 전자 문서를 생성하는 전자 단말 장치 및 그 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496873B1 (ko) * 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
KR20100034330A (ko) 2008-09-23 2010-04-01 (주)소만사 개인정보 보호 방법 및 시스템
KR20110022104A (ko) * 2009-08-27 2011-03-07 (주)소만사 개인정보 은닉화를 수행하는 db보안 방법
KR20130032660A (ko) * 2011-09-23 2013-04-02 한전케이디엔주식회사 개인정보 유출 검색 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496873B1 (ko) * 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
KR20100034330A (ko) 2008-09-23 2010-04-01 (주)소만사 개인정보 보호 방법 및 시스템
KR20110022104A (ko) * 2009-08-27 2011-03-07 (주)소만사 개인정보 은닉화를 수행하는 db보안 방법
KR20130032660A (ko) * 2011-09-23 2013-04-02 한전케이디엔주식회사 개인정보 유출 검색 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김민호 외 1명, ‘한국어 어휘의미망의 의미 관계를 이용한 어의 중의성 해소’, 한국정보과학회논문지, vol.38, No.10, 2011.10. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101721063B1 (ko) * 2016-12-02 2017-03-29 충남대학교산학협력단 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체
KR102067926B1 (ko) * 2019-04-10 2020-01-17 주식회사 데이타솔루션 전자문서에 포함된 개인정보 비식별화 장치 및 방법
KR20230077963A (ko) * 2021-11-26 2023-06-02 주식회사 스파이스웨어 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치

Also Published As

Publication number Publication date
KR102166102B1 (ko) 2020-10-15

Similar Documents

Publication Publication Date Title
US10943582B2 (en) Method and apparatus of training acoustic feature extracting model, device and computer storage medium
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
Oudah et al. A pipeline Arabic named entity recognition using a hybrid approach
US20170228365A1 (en) Systems and methods for language feature generation over multi-layered word representation
CN110597952A (zh) 信息处理方法、服务器及计算机存储介质
GB2557015A (en) System and method for extracting entities in electronic documents
CN114580382A (zh) 文本纠错方法以及装置
US8949111B2 (en) System and method for identifying phrases in text
TWI536183B (zh) 語言歧義消除系統及方法
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
CN108121455B (zh) 识别纠正方法及装置
KR102166102B1 (ko) 개인 정보 보호를 위한 장치 및 기록 매체
CN111881297A (zh) 语音识别文本的校正方法及装置
CN109660621A (zh) 一种内容推送方法及服务设备
Kantharuban et al. Quantifying the Dialect Gap and its Correlates Across Languages
Oudah et al. Person name recognition using the hybrid approach
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN111143559A (zh) 基于三元组的词云展示方法及装置
CN111785259A (zh) 信息处理方法、装置及电子设备
Celikkaya et al. A mobile assistant for Turkish
CN113032529B (zh) 英文短语识别方法、装置、介质和电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right