KR102627819B1 - Device, method and computer program for determining personal information in context using artificial intelligence - Google Patents
Device, method and computer program for determining personal information in context using artificial intelligence Download PDFInfo
- Publication number
- KR102627819B1 KR102627819B1 KR1020230031172A KR20230031172A KR102627819B1 KR 102627819 B1 KR102627819 B1 KR 102627819B1 KR 1020230031172 A KR1020230031172 A KR 1020230031172A KR 20230031172 A KR20230031172 A KR 20230031172A KR 102627819 B1 KR102627819 B1 KR 102627819B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- personal information
- sentences
- entity name
- input text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 13
- 238000004590 computer program Methods 0.000 title claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 44
- 230000014509 gene expression Effects 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
인공지능을 이용한 문맥 내 개인정보 판단 장치, 방법 및 컴퓨터 프로그램이 제공된다. 상기 장치는 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 둘 이상의 문장을 포함하는 입력 텍스트 내에서 개체명을 탐지하고, 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제2 문장을 추출하고, 문장 요약 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약하고, 문맥 판단 신경망 모델을 이용하여 상기 제3 문장이 개인 정보와 관련된 문장인지 여부를 추론한다.Devices, methods, and computer programs for determining personal information in context using artificial intelligence are provided. The device includes a memory that stores one or more instructions, and one or more processors that execute the one or more instructions stored in the memory, wherein the one or more processors execute the one or more instructions, thereby generating an input containing two or more sentences. Detect an entity name in a text, extract a first sentence and one or more second sentences adjacent to the first sentence containing the detected entity name in the input text, and use a sentence summary neural network model to extract the first sentence and the one or more second sentences. The above second sentence is summarized into one third sentence, and a context judgment neural network model is used to infer whether the third sentence is a sentence related to personal information.
Description
본 발명은 인공지능을 이용한 문맥 내 개인정보 판단 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.The present invention relates to an apparatus, method, and computer program for determining personal information in context using artificial intelligence.
개인정보 유출로 인한 피해 사례가 매해 증가하고 있다. 온라인의 경우 유출된 개인정보의 확산 속도가 빨라 개인정보 유출 피해자의 피해가 가중될 수 있다. 이를 반영하여 개인정보 보호를 위한 법률의 제개정, 개인정보 처리자에 대한 개인정보의 안전성 확보 조치 수립 등 규제가 강화되고 있다.Cases of damage caused by personal information leaks are increasing every year. In the case of online, the speed of spread of leaked personal information can increase the damage to victims of personal information leakage. Reflecting this, regulations are being strengthened, such as enacting and revising laws to protect personal information and establishing measures to ensure the safety of personal information for personal information processors.
따라서 개인정보 처리자는 내부 시스템의 개인정보 보호 관리 수준 및 체계를 향상시켜야 하는 상황이다. 대표적으로 개인정보의 유통 및 오남용 탐지, 개인정보 오남용 식별, 개인정보 열람 탐지 등 제반 모니터링을 강화시켜야 한다. 특히, 개인정보 유통 감사를 위하여 개인정보 접근에 대한 자동화된 모니터링이 수행되어야 하기도 한다.Therefore, personal information processors must improve the personal information protection management level and system of their internal systems. For example, overall monitoring should be strengthened, including detection of distribution and misuse of personal information, identification of misuse and abuse of personal information, and detection of personal information viewing. In particular, automated monitoring of access to personal information should be performed to audit personal information distribution.
최근에는 기관, 기업, 학교 등 일반 사용자가 열람 가능한 웹사이트, 포털 사이트, 인터넷 게시판, 온라인 커뮤니티, 오픈 채팅방 등에서 개인정보가 유출되는 경우가 많다. 개인정보 처리자는 이 같은 공간에서 개인정보를 포함한 정보를 수집 및 분석하여 개인정보를 사전에 탐지하고, 필요한 경우 개인정보를 포함한 새로운 정보가 입력되는 것을 다양한 응용 소프트웨어를 이용하여 방지할 수 있어야 한다.Recently, personal information is often leaked from websites, portal sites, Internet bulletin boards, online communities, and open chat rooms that are accessible to general users such as institutions, companies, and schools. Personal information processors must be able to collect and analyze information, including personal information, in such spaces to detect personal information in advance and, if necessary, prevent new information, including personal information, from being entered using various application software.
본 발명이 해결하고자 하는 과제는 보다 정확하게 개인정보 여부를 판단할 수 있는 인공지능을 이용한 문맥 내 개인정보 판단 장치, 방법 및 컴퓨터 프로그램을 제공하는 것이다.The problem that the present invention seeks to solve is to provide a device, method, and computer program for determining personal information in context using artificial intelligence that can more accurately determine whether personal information exists.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.However, the problem to be solved by the present invention is not limited to the problems described above, and other problems may exist.
상술한 과제를 해결하기 위한 수단으로서, 본 발명의 제1 측면은 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 둘 이상의 문장을 포함하는 입력 텍스트 내에서 개체명을 탐지하고, 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제2 문장을 추출하고, 문장 요약 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약하고, 문맥 판단 신경망 모델을 이용하여 상기 제3 문장이 개인 정보와 관련된 문장인지 여부를 추론하는, 인공지능을 이용한 문맥 내 개인정보 판단 장치를 제공한다.As a means to solve the above-mentioned problem, a first aspect of the present invention includes a memory storing one or more instructions, and one or more processors executing the one or more instructions stored in the memory, wherein the one or more processors are configured to: Executing one or more instructions to detect an entity name in input text containing two or more sentences, extracting from the input text one or more second sentences adjacent to a first sentence containing the detected entity name, Summarizing the first sentence and the one or more second sentences into one third sentence using a sentence summary neural network model, and inferring whether the third sentence is a sentence related to personal information using a context judgment neural network model. , provides a device for determining personal information in context using artificial intelligence.
일부 실시예에서, 상기 하나 이상의 프로세서는, 상기 제3 문장이 개인정보와 관련된 문장으로 추론되면, 상기 탐지된 개체명을 개인정보로 판단할 수 있다.In some embodiments, the one or more processors may determine the detected entity name to be personal information if the third sentence is inferred to be a sentence related to personal information.
또한, 상기 하나 이상의 프로세서는, 상기 입력 텍스트 내에서 상기 제1 문장과 인접한 하나 이상의 제4 문장을 추출하고, 상기 제1 문장과 상기 하나 이상의 제4 문장 내에서 상기 개인정보에 상응하는 식별자를 탐지하고, 상기 식별자가 탐지되면, 상기 탐지된 개체명을 개인정보로 2차 판단할 수 있다.In addition, the one or more processors extract one or more fourth sentences adjacent to the first sentence within the input text, and detect an identifier corresponding to the personal information within the first sentence and the one or more fourth sentences. And, when the identifier is detected, the detected entity name can be secondarily determined as personal information.
일부 실시예에서, 상기 하나 이상의 프로세서는, 상기 입력 텍스트가 제1 유형일 때에는, 상기 문맥 판단 신경망 모델을 이용하여 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 상기 제1 문장이 개인 정보와 관련된 문장인지 여부를 추론할 수 있다.In some embodiments, the one or more processors determine, when the input text is of a first type, the first sentence including the detected entity name within the input text using the context-sensitive neural network model to determine whether the first sentence is related to personal information. You can infer whether it is a sentence or not.
상술한 과제를 해결하기 위한 수단으로서, 본 발명의 제2 측면은 둘 이상의 문장을 포함하는 입력 텍스트 내에서 개체명을 탐지하는 단계, 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제2 문장을 추출하는 단계, 문장 요약 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약하는 단계, 및 문맥 판단 신경망 모델을 이용하여 상기 제3 문장이 개인 정보와 관련된 문장인지 여부를 추론하는 단계를 포함하는, 인공지능을 이용한 문맥 내 개인정보 판단 방법을 제공한다.As a means to solve the above-described problem, a second aspect of the present invention includes detecting an entity name in an input text containing two or more sentences, a first sentence containing the detected entity name in the input text. extracting one or more second sentences adjacent to each other, summarizing the first sentence and the one or more second sentences into one third sentence using a sentence summary neural network model, and using a context judgment neural network model Provides a method for determining personal information in context using artificial intelligence, including the step of inferring whether the third sentence is a sentence related to personal information.
일부 실시예에서, 상기 방법은, 상기 제3 문장이 개인정보와 관련된 문장으로 추론되면, 상기 탐지된 개체명을 개인정보로 판단하는 단계를 더 포함할 수 있다.In some embodiments, the method may further include determining the detected entity name as personal information if the third sentence is inferred to be a sentence related to personal information.
또한, 상기 방법은, 상기 입력 텍스트 내에서 상기 제1 문장과 인접한 하나 이상의 제4 문장을 추출하는 단계, 상기 제1 문장과 상기 하나 이상의 제4 문장 내에서 상기 개인정보에 상응하는 식별자를 탐지하는 단계, 및 상기 식별자가 탐지되면, 상기 탐지된 개체명을 개인정보로 2차 판단하는 단계를 더 포함할 수 있다.In addition, the method includes extracting one or more fourth sentences adjacent to the first sentence within the input text, detecting an identifier corresponding to the personal information within the first sentence and the one or more fourth sentences. A step, and when the identifier is detected, may further include the step of secondarily determining the detected entity name as personal information.
일부 실시예에서, 상기 방법은, 상기 입력 텍스트가 제1 유형일 때에는, 상기 문맥 판단 신경망 모델을 이용하여 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 상기 제1 문장이 개인 정보와 관련된 문장인지 여부를 추론하는 단계를 더 포함할 수 있다.In some embodiments, when the input text is of a first type, the method determines whether the first sentence including the detected entity name in the input text is a sentence related to personal information by using the context judgment neural network model. A step of inferring whether or not may be further included may be included.
일부 실시예에서, 상기 방법은, 상기 입력 텍스트 내에서 개체명을 탐지하는 단계 이전에, 정규식 패턴 매칭을 이용하여 상기 둘 이상의 문장을 포함하는 입력 텍스트 내에서 개인정보를 탐지하는 단계를 더 포함할 수 있다.In some embodiments, the method may further include detecting personal information within the input text containing the two or more sentences using regular expression pattern matching prior to detecting an entity name within the input text. You can.
상술한 과제를 해결하기 위한 수단으로서, 본 발명의 제3 측면은 컴퓨터와 결합되어, 상술한 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램을 제공한다.As a means to solve the above-described problem, a third aspect of the present invention provides a computer program stored in a computer-readable recording medium for combining with a computer and executing the above-described method.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific details of the invention are included in the detailed description and drawings.
상술한 본 발명에 의하면, 개체명을 포함하는 문장과 하나 이상의 인접 문장을 하나의 요약문으로 요약한 후, 전후 맥락이 반영된 요약문이 개인정보를 포함하고 있는지 여부를 추론함으로써, 개체명이 개인정보에 해당하는지 여부를 보다 정확하게 판단할 수 있다.According to the present invention described above, the sentence containing the entity name and one or more adjacent sentences are summarized into one summary, and then inferred whether the summary reflecting the context contains personal information, thereby determining whether the entity name is personal information. You can judge more accurately whether it is done or not.
또한, 상술한 본 발명에 의하면, 하나 이상의 인접 문장에서 개인정보로 1차 판단된 개체명에 상응하는 식별자를 추가적으로 탐지함으로써, 개체명이 개인정보에 해당하는지 여부를 보다 확정적으로 판단할 수 있다.In addition, according to the present invention described above, it is possible to determine more definitively whether the entity name corresponds to personal information by additionally detecting an identifier corresponding to the entity name that is initially determined to be personal information in one or more adjacent sentences.
또한, 상술한 본 발명에 의하면, 소정 유형에 해당하는 입력 텍스트에 대해서는 하나의 요약문을 생성하는 과정을 생략하고, 상기 입력 텍스트 내에서 개체명을 포함하는 문장이 개인정보를 포함하고 있는지 여부를 추론함으로써, 개체명이 개인정보에 해당하는지 여부를 보다 효율적으로 판단할 수 있다.In addition, according to the present invention described above, the process of generating a single summary sentence for input text corresponding to a predetermined type is omitted, and it is inferred whether a sentence including an entity name in the input text contains personal information. By doing so, it is possible to more efficiently determine whether the entity name corresponds to personal information.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.
도 1은 본 발명의 일 실시예에 따른 장치의 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 방법의 흐름도이다.
도 3은 인공 신경망 모델을 이용한 개체명 탐지, 문장 요약 및 문맥 판단 과정을 설명하기 위한 도면이다.
도 4는 예시적인 입력 텍스트에 대한 개인 정보 판단 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 또 다른 실시예에 따른 개체명에 상응하는 식별자를 추가적으로 탐지하여 개인정보를 판단하는 방법의 흐름도이다.
도 6은 본 발명의 또 다른 실시예에 따른 정규식 패턴 매칭과 인공 신경망 모델을 모두 이용하여 개인정보를 탐지하는 방법의 흐름도이다.
도 7은 본 발명의 또 다른 실시예에 따른 소정 유형에 해당하는 입력 텍스트에 대해서는 하나의 요약문을 생성하는 과정을 생략하는 방법의 흐름도이다.1 is a block diagram of a device according to an embodiment of the present invention.
Figure 2 is a flowchart of a method according to another embodiment of the present invention.
Figure 3 is a diagram to explain the process of entity name detection, sentence summary, and context determination using an artificial neural network model.
FIG. 4 is a diagram illustrating a personal information determination process for an exemplary input text.
Figure 5 is a flowchart of a method for determining personal information by additionally detecting an identifier corresponding to an entity name according to another embodiment of the present invention.
Figure 6 is a flowchart of a method for detecting personal information using both regular expression pattern matching and an artificial neural network model according to another embodiment of the present invention.
Figure 7 is a flowchart of a method for omitting the process of generating one summary for input text corresponding to a predetermined type according to another embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. The advantages and features of the present invention and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms. The present embodiments are merely provided to ensure that the disclosure of the present invention is complete and to provide a general understanding of the technical field to which the present invention pertains. It is provided to fully inform the skilled person of the scope of the present invention, and the present invention is only defined by the scope of the claims.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for describing embodiments and is not intended to limit the invention. As used herein, singular forms also include plural forms, unless specifically stated otherwise in the context. As used in the specification, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other elements in addition to the mentioned elements. Like reference numerals refer to like elements throughout the specification, and “and/or” includes each and every combination of one or more of the referenced elements. Although “first”, “second”, etc. are used to describe various components, these components are of course not limited by these terms. These terms are merely used to distinguish one component from another. Therefore, it goes without saying that the first component mentioned below may also be a second component within the technical spirit of the present invention.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention pertains. Additionally, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless clearly specifically defined.
본 발명을 설명함에 있어서 관련된 공지 기술에 대하여 통상의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.In describing the present invention, detailed descriptions of related known technologies will be omitted if they are obvious to those skilled in the art and are judged to unnecessarily obscure the gist of the present invention.
"개인정보"란 살아있는 개인에 관한 정보로서 성명, 주민등록번호, 영상 등 개인을 알아볼 수 있는 정보를 말한다. 개인정보는 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 특정 개인을 알아볼 수 있는 정보를 포함한다. 개인정보는 성명, 주소, 연락처, 소득, 학력, 성적, 직업, 전자우편, 영상, 통화내용, 신용, 부채, 인터넷 접속 IP 등 객관적 사실에 관한 정보와 개인에 대한 제3자의 의견이나 평가 등 주관적 정보를 포함한다.“Personal information” refers to information about a living individual that can identify the individual, such as name, resident registration number, or video. Personal information includes information that can be easily combined with other information to identify a specific individual, even if the information alone cannot identify the specific individual. Personal information includes information about objective facts such as name, address, contact information, income, education, grades, occupation, e-mail, video, call content, credit, debt, and Internet access IP, as well as subjective information such as a third party's opinion or evaluation of the individual. Contains information.
"식별자"는 개인 또는 개인과 관련된 사물에 고유하게 부여된 값 또는 이름을 말한다. 예를 들어, 식별자는 고유식별정보(주민등록번호, 여권번호 등), 성명, 상세 주소, 날짜정보(생일, 기념일 등), 전화번호, 의료기록번호, 통장계좌번호, 신용카드번호, 자격증 번호, 자동차 번호, 이메일 주소 등을 포함할 수 있으나, 이에 제한되지 않는다.“Identifier” refers to a value or name uniquely assigned to an individual or an object related to an individual. For example, identifiers include unique identification information (resident registration number, passport number, etc.), name, detailed address, date information (birthday, anniversary, etc.), phone number, medical record number, bank account number, credit card number, certificate number, and automobile. It may include, but is not limited to, number, email address, etc.
"민감정보"란 사전적 또는 법적 정의와 달리 식별자와 인접하게 위치하여 특정 개인을 알아볼 수 있는 개인정보를 말한다.“Sensitive information”, contrary to dictionary or legal definitions, refers to personal information that is located adjacent to an identifier and can identify a specific individual.
"개체명(Named Entity)"은 특정한 의미를 가지는 명사 또는 숫자 표현 등의 하나 이상의 어절, 단어 또는 형태소를 말한다. 예를 들어, 개체명은 인물, 기관, 단체, 장소, 위치, 동물, 식물, 제품, 사건, 창작물, 날짜, 시간, 통화, 비율, 기타 수량 표현을 포함할 수 있으나, 이에 제한되지 않는다.“Named Entity” refers to one or more words, words, or morphemes, such as nouns or numerical expressions, that have a specific meaning. For example, an entity name may include, but is not limited to, a person, institution, organization, place, location, animal, plant, product, event, creative work, date, time, currency, ratio, or other quantitative expressions.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. Hereinafter, embodiments of the present invention will be described in detail with reference to the attached drawings.
도 1은 본 발명의 일 실시예에 따른 장치의 블록도이다.1 is a block diagram of a device according to an embodiment of the present invention.
도 1을 참조하면, 장치(100)는 메모리(110) 및 프로세서(120)을 포함한다.Referring to Figure 1, device 100 includes memory 110 and processor 120.
메모리(110)는 장치(100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 애플리케이션을 저장한다. 메모리(110)에 저장된 프로그램 또는 애플리케이션은 하나 이상의 인스트럭션을 포함한다. 메모리(110)에 저장된 프로그램 또는 애플리케이션은 프로세서(120)에 의해서 실행될 수 있다.The memory 110 stores various data, programs, or applications for driving and controlling the device 100. A program or application stored in memory 110 includes one or more instructions. A program or application stored in the memory 110 may be executed by the processor 120.
일부 실시예에서, 메모리(110)는 인공 신경망을 구성하는 하나 이상의 데이터, 프로그램 또는 애플리케이션을 저장할 수 있다. 또는, 메모리(110)는 인공 신경망을 제어하는 하나 이상의 데이터, 프로그램 또는 애플리케이션을 저장할 수 있다.In some embodiments, memory 110 may store one or more data, programs, or applications that make up an artificial neural network. Alternatively, memory 110 may store one or more data, programs, or applications that control an artificial neural network.
프로세서(120)는 메모리(110)에 저장된 운영 체제(Operation System)와 다양한 프로그램 또는 애플리케이션을 실행한다. 프로세서(120)는 싱글 코어, 듀얼 코어, 트리플 코더, 쿼드 코어 및 그 배수의 코어를 포함하는 하나 이상의 프로세서를 포함할 수 있다. 프로세서(120)는 메인 프로세서 및 슬립 모드에서 동작하는 서브 프로세서를 포함할 수 있다.The processor 120 executes an operating system (Operation System) and various programs or applications stored in the memory 110. Processor 120 may include one or more processors including single core, dual core, triple core, quad core, and multiple cores thereof. The processor 120 may include a main processor and a subprocessor operating in a sleep mode.
프로세서(120)가 메모리(110)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 장치(100)는 후술하는 다양한 실시예에 따른 방법들을 실행할 수 있다.As the processor 120 executes one or more instructions stored in the memory 110, the device 100 can execute methods according to various embodiments, which will be described later.
장치(100)는 서버의 형태로 구현될 수 있다.Device 100 may be implemented in the form of a server.
또는, 장치(100)는 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치로 구현될 수 있으나, 이에 제한되지 않는다. 또한, 장치(100)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 디바이스로 구현될 수도 있다.Alternatively, the device 100 may be a smartphone, tablet PC, PC, smart TV, mobile phone, personal digital assistant (PDA), laptop, media player, micro server, global positioning system (GPS) device, e-book reader, or digital broadcasting terminal. , navigation, kiosks, MP3 players, digital cameras, home appliances, and other mobile or non-mobile computing devices, but are not limited to these. Additionally, the device 100 may be implemented as a wearable device such as a watch, glasses, hair band, or ring equipped with communication and data processing functions.
장치(100)는 도 1에 도시하지 않은 통신 인터페이스, 입력 장치, 디스플레이부 등과 같은 다른 구성요소를 더 포함할 수 있다.The device 100 may further include other components not shown in FIG. 1, such as a communication interface, an input device, and a display unit.
도 2는 본 발명의 다른 실시예에 따른 방법의 흐름도이다.Figure 2 is a flowchart of a method according to another embodiment of the present invention.
도 2를 참조하면, 단계 S210에서, 장치(100)는 둘 이상의 문장을 포함하는 입력 텍스트 내에서 개체명을 탐지한다.Referring to FIG. 2, in step S210, the device 100 detects an entity name in input text containing two or more sentences.
입력 텍스트 내에서 탐지된 개체명은 특정한 의미를 가지는 명사 또는 숫자 표현 등이므로 개인정보로 의심되는 개인정보 후보가 된다. 개인정보 후보에 해당하는 개체명을 포함하는 문장에 대해서 이후의 단계를 실행함으로써 개인정보 여부를 판단할 수 있다.The entity name detected within the input text is a noun or numeric expression with a specific meaning, so it is a candidate for personal information that is suspected to be personal information. Personal information can be determined by executing the following steps for a sentence containing an entity name corresponding to a personal information candidate.
일부 실시예에서, 장치(100)는 사용자로부터 입력 텍스트를 수신할 수 있다. 사용자는 입력 디바이스 또는 장치(100)와 연결된 다른 컴퓨팅 장치를 이용하여 장치(100)에 입력 텍스트를 입력할 수 있다. 또는, 장치(100)는 인터넷 상의 사전에 지정된 또는 지정되지 않은 임의의 주소 공간에서 입력 텍스트를 직접 추출할 수 있다.In some embodiments, device 100 may receive input text from a user. A user may enter input text into device 100 using an input device or another computing device connected to device 100. Alternatively, the device 100 may directly extract the input text from a random address space that may or may not be specified in advance on the Internet.
일부 실시예에서, 개체명 탐지를 위하여 규칙 기반의 사전을 이용한 개체명 탐지 방식이 이용될 수 있다. 또는, 개체명 탐지를 위하여 기계 학습 기반의 인공 신경망 모델이 이용될 수 있다. 개체명 탐지를 위하여 다양한 공지의 방식이 사용될 수 있다.In some embodiments, an entity name detection method using a rule-based dictionary may be used to detect entity names. Alternatively, a machine learning-based artificial neural network model can be used to detect entity names. Various known methods can be used for entity name detection.
입력 텍스트는 둘 이상의 문장을 포함한다. 원칙적으로 입력 텍스트의 문장의 개수나 길이는 제한되지 않는다. 그러나 개체명 탐지 속도 또는 정확도를 향상시키기 위하여 문장의 개수나 길이 등을 소정의 크기로 제한할 수 있다.The input text contains two or more sentences. In principle, the number or length of sentences in the input text is not limited. However, in order to improve the speed or accuracy of entity name detection, the number or length of sentences can be limited to a predetermined size.
명확하게 도시하지 않았으나, 단계 S210은 문장 분리, 형태소 분석 등의 과정을 더 포함할 수 있다.Although not clearly shown, step S210 may further include processes such as sentence separation and morpheme analysis.
장치(100)는 상기 입력 텍스트 내에서 탐지된 개체명 각각에 대해서 이하의 단계들을 실행한다.The device 100 executes the following steps for each entity name detected in the input text.
단계 S220에서, 장치(100)는 상기 입력 텍스트 내에서 탐지된 상기 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제2 문장을 추출한다.In step S220, the device 100 extracts one or more second sentences adjacent to the first sentence containing the entity name detected in the input text.
제1 문장은 단계 S210에서 탐지된 개체명을 포함하는 문장을 말한다. 제2 문장은 상기 제1 문장과 인접한 문장을 말한다. 예를 들어, 제2 문장은 상기 제1 문장의 앞뒤 n개의 문장일 수 있으나, 이에 제한되지 않는다.The first sentence refers to a sentence containing the entity name detected in step S210. The second sentence refers to a sentence adjacent to the first sentence. For example, the second sentence may be n sentences before and after the first sentence, but is not limited thereto.
일부 실시예에서, 상기 제1 문장의 앞뒤 두개의 문장 또는 앞뒤 네개의 문장을 제2 문장으로 추출할 수 있다. 또는, 더 많은 수의 문장을 동일한 방식으로 제2 문장으로 추출할 수 있다. 제2 문장을 추출함에 있어서, 상기 제1 문장의 앞에 위치한 문장의 개수와 상기 제1 문장의 뒤에 위치한 문장의 개수를 동일하지 않게 할 수 있다. 제1 문장의 앞에 위치한 문장의 개수가 제1 문장의 뒤에 위치한 문장의 개수보다 상대적으로 부족하거나 그 반대의 경우를 고려한 것이다. 또는, 제2 문장을 추출함에 있어서, 상기 제1 문장의 앞에 위치한 문장 또는 상기 제1 문장의 뒤에 위치한 문장을 아예 추출하지 않을 수도 있다. 제1 문장이 입력 텍스트의 첫 번째 문장, 마지막 문장인 경우를 고려한 것이다.In some embodiments, the two sentences preceding or following the first sentence or the four sentences preceding or following the first sentence may be extracted as the second sentence. Alternatively, a larger number of sentences can be extracted as the second sentence in the same manner. When extracting the second sentence, the number of sentences located before the first sentence may not be the same as the number of sentences located after the first sentence. This takes into account cases where the number of sentences located before the first sentence is relatively insufficient compared to the number of sentences located after the first sentence, or vice versa. Alternatively, when extracting the second sentence, the sentence located before the first sentence or the sentence located after the first sentence may not be extracted at all. This considers the case where the first sentence is the first or last sentence of the input text.
단계 S230에서, 장치(100)는 인공 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약한다.In step S230, the device 100 summarizes the first sentence and the one or more second sentences into one third sentence using an artificial neural network model.
단계 S240에서, 장치(100)는 인공 신경망 모델을 이용하여 상기 제3 문장이 개인정보와 관련된 문장인지 여부를 추론한다. "개인정보와 관련된 문장"이란 예를 들어 개인 정보가 포함된 문장을 의미할 수 있다.In step S240, the device 100 uses an artificial neural network model to infer whether the third sentence is a sentence related to personal information. “Sentence related to personal information” may mean, for example, a sentence containing personal information.
단계 S250에서, 상기 제3 문장이 개인정보와 관련된 문장으로 추론되면, 장치(100)는 상기 탐지된 개체명을 개인정보로 판단한다.In step S250, if the third sentence is inferred to be a sentence related to personal information, the device 100 determines the detected entity name to be personal information.
상술한 바와 같이, 개체명은 개인정보로 의심하는 개인정보 후보이지만, 문맥을 고려하지 않은 채 개체명 단독으로는 개인정보 여부를 정확하게 판단하기 어렵다.As described above, the entity name is a personal information candidate that is suspected to be personal information, but it is difficult to accurately determine whether or not it is personal information based on the entity name alone without considering the context.
반면 개체명을 포함하고 있는 문장이 개인정보를 포함하고 있는지 여부를 판단하는 것은 개체명 단독으로 판단하는 경우와 비교하여 정보량이 많아 상대적으로 정확한 판단이 가능하다. 도 2의 방법은 개체명을 포함하고 있는 문장뿐만 아니라 해당 문장에 인접한 주변 문장까지 고려하여 해당 문장이 개인정보를 포함하고 있는지 여부를 판단하도록 함으로써 더욱 정확하게 개인정보를 판단할 수 있도록 하였다. 특히, 단순히 여러 개의 문장을 개인정보 판단의 단위로 하여 정보의 범위를 넓히는 것이 아니라, 여러 개의 문장을 요약한 요약문이 개인정보를 포함하고 있는지 여부를 판단하도록 하였다는 것에 특징이 있다. 이로써, 의미가 적은 노이즈성 정보가 제거되면서 문장이 정제되고, 전후 문맥을 관찰하면서 동시에 정보의 양을 효율화하여 보다 빠르게 개인정보를 판단할 수 있다.On the other hand, determining whether a sentence containing an entity name contains personal information allows for a relatively accurate judgment due to the large amount of information compared to judging the entity name alone. The method of Figure 2 considers not only the sentence containing the entity name but also surrounding sentences adjacent to the sentence to determine whether the sentence contains personal information, thereby enabling more accurate determination of personal information. In particular, rather than simply using multiple sentences as the unit of personal information judgment to expand the scope of information, it is characterized by determining whether a summary that summarizes multiple sentences contains personal information. As a result, sentences are refined by removing meaningless noisy information, and personal information can be determined more quickly by observing the context and at the same time streamlining the amount of information.
도 3은 인공 신경망 모델을 이용한 개체명 탐지, 문장 요약 및 문맥 판단 과정을 설명하기 위한 도면이다.Figure 3 is a diagram to explain the process of entity name detection, sentence summary, and context determination using an artificial neural network model.
도 3을 참조하면, 장치(100)는 3개의 인공 신경망 모델(310, 320, 330)을 이용하여 개체명 탐지, 문장 요약 및 문맥 판단 과정을 실행할 수 있다.Referring to FIG. 3, the device 100 can perform entity name detection, sentence summary, and context determination processes using three artificial neural network models 310, 320, and 330.
개체명 탐지 신경망 모델(310)은 둘 이상의 문장을 포함하는 입력 텍스트를 입력받고, 상기 입력 텍스트 내에서 개체명을 탐지하여 출력한다.The entity name detection neural network model 310 receives input text containing two or more sentences, detects and outputs the entity name within the input text.
도 3에서는 개체명 탐지를 위하여 인공 신경망 모델을 이용하는 것으로 설명하지만, 이에 제한되는 것은 아니다. 상술한 바와 같이, 개체명 탐지를 위하여 규칙 기반의 사전을 이용한 개체명 탐지 방식이 이용될 수 있다. 이 경우 규칙 기반의 개체명 탐지 모델이 입력 텍스트를 입력받고, 상기 입력 텍스트 내에서 개체명을 탐지하여 출력할 수 있다.In Figure 3, an artificial neural network model is used to detect entity names, but the method is not limited thereto. As described above, an entity name detection method using a rule-based dictionary can be used to detect entity names. In this case, a rule-based entity name detection model can receive input text, detect the entity name within the input text, and output it.
문장 요약 신경망 모델(320)은 개체명 탐지 신경망 모델(310)이 탐지한 개체명을 포함하는 제1 문장을 입력받는다. 또한 문장 요약 신경망 모델(320)은 상기 제1 문장과 인접한 하나 이상의 제2 문장을 함께 입력받는다. 상술한 바와 같이, 제2 문장은 상기 제1 문장의 앞뒤 n개의 문장일 수 있으나, 이에 제한되지 않는다. 문장 요약 신경망 모델(320)은 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약하여 출력한다.The sentence summary neural network model 320 receives the first sentence including the entity name detected by the entity name detection neural network model 310. Additionally, the sentence summary neural network model 320 receives the first sentence and one or more second sentences adjacent to each other as input. As described above, the second sentence may be n sentences before or after the first sentence, but is not limited thereto. The sentence summary neural network model 320 summarizes the first sentence and the one or more second sentences into one third sentence and outputs it.
일부 실시예에서, 문장 요약 신경망 모델(320)은 트랜스포머(Transformer) 모델 기반으로 구현될 수 있다. 예를 들어, 문장 요약 신경망 모델(320)은 트랜스포머 모델 기반의 언어 모델을 이용하여 둘 이상의 문장 형태의 데이터를 수치 벡터(numerical vector)로 임베딩하고, 임베딩한 벡터를 하나 이상의 레이어로 구성된 요약층(summarization layer)에 입력하여 하나의 문장으로 요약하는 구조로 구현될 수 있으나, 이에 제한되는 것은 아니다.In some embodiments, the sentence summary neural network model 320 may be implemented based on a Transformer model. For example, the sentence summary neural network model 320 uses a language model based on a transformer model to embed data in the form of two or more sentences as numerical vectors, and uses the embedded vectors as a summary layer consisting of one or more layers ( It may be implemented as a structure that is input into a summarization layer and summarized as a single sentence, but is not limited to this.
문맥 판단 신경망 모델(330)은 문장 요약 신경망 모델(320)이 요약한 제3 문장을 입력받는다. 문맥 판단 신경망 모델(330)은 상기 제3 문장이 개인 정보와 관련된 문장인지 여부를 추론하고, 추론 값을 출력한다.The context judgment neural network model 330 receives the third sentence summarized by the sentence summary neural network model 320. The context judgment neural network model 330 infers whether the third sentence is a sentence related to personal information and outputs an inferred value.
일부 실시예에서, 문맥 판단 신경망 모델(330)도 트랜스포머 모델 기반으로 구현될 수 있다. 예를 들어, 문맥 판단 신경망 모델(330)은 트랜스포머 모델 기반의 언어 모델을 이용하여 하나의 문장 형태의 데이터를 수치 벡터로 임베딩하고, 임베딩한 벡터를 하나 이사으이 레이어로 구성된 분류층(classification layer)에 입력하여 문장 내의 개인정보 포함 여부를 분류하는 구조로 구현될 수 있으나, 이에 제한되는 것은 아니다.In some embodiments, the context judgment neural network model 330 may also be implemented based on a transformer model. For example, the context judgment neural network model 330 uses a language model based on a transformer model to embed data in the form of a single sentence as a numerical vector, and the embedded vector is a classification layer composed of two layers. It can be implemented as a structure that classifies whether or not personal information is included in the sentence by entering it in , but is not limited to this.
일부 실시예에서, 상술한 바와 달리 트랜스포머 모델이 아닌 다른 언어 모델이 사용될 수 있다. 공지된 트랜스포머 모델을 포함한 언어 모델에 대한 상세한 설명은 본 발명의 요지를 불필요하게 흐릴 수 있기 때문에 생략한다.In some embodiments, as described above, a language model other than the Transformer model may be used. A detailed description of the language model, including the known transformer model, is omitted because it may unnecessarily obscure the gist of the present invention.
도 4는 예시적인 입력 텍스트에 대한 개인 정보 판단 과정을 설명하기 위한 도면이다.FIG. 4 is a diagram illustrating a personal information determination process for an exemplary input text.
도 4를 참조하면, 일련의 대화가 예시적인 입력 텍스트(410)로서 개체명 탐지 신경망 모델(310)에 입력된다. 입력 텍스트(410)는 도 4에 도시된 3개의 대화문 외에 더 많은 문장을 포함할 수 있다. 설명의 편의를 위하여 도 4는 요약문에 이용되는 문장만을 도시하였다.Referring to FIG. 4 , a series of conversations are input to the entity name detection neural network model 310 as example input text 410 . The input text 410 may include more sentences than the three dialogue sentences shown in FIG. 4. For convenience of explanation, Figure 4 shows only sentences used in the summary.
개체명 탐지 신경망 모델(310)은 예시적인 입력 텍스트(410)에서 개체명으로 "11월"과 "영희"를 각각 탐지할 수 있다. 하지만 이하의 과정은 "11월"에 대한 후속 과정만을 설명하기로 한다.The entity name detection neural network model 310 can detect “November” and “Younghee” as entity names in the example input text 410, respectively. However, the following process will only explain the follow-up process for “November”.
다음으로 입력 텍스트(410) 내에서 개체명 "11월"을 포함하는 제1 문장으로 "11월에 영희 언니 생일 미리 축하할까?"가 추출된다. 그리고 상기 제1 문장과 인접한 하나 이상의 제2 문장으로 "비엘 조회해도 안되네. 우편이라 그런가?"와 "언제 볼지 모르는데"가 함께 추출된다. 도 4의 예시에서는 상기 제1 문장의 앞에 위치한 문장이 없기 때문에 상기 제1 문장의 뒤에 위치한 문장만이 상기 제2 문장으로 추출되었다. 그리고 상기 제1 문장의 뒤에 위치한 2개의 문장이 상기 제2 문장으로 추출되었다. 하지만 이에 제한되는 것은 아니고, 동일한 예시에서도 제2 문장은 다양한 방식과 개수로 추출될 수 있다.Next, “Shall we celebrate Younghee’s birthday in advance in November?” is extracted as the first sentence containing the entity name “November” in the input text 410. And one or more second sentences adjacent to the first sentence above are extracted together with "I can't look up BL. Is it because it's mail?" and "I don't know when I'll see it." In the example of FIG. 4, since there is no sentence located before the first sentence, only the sentence located after the first sentence was extracted as the second sentence. And the two sentences located after the first sentence were extracted as the second sentence. However, it is not limited to this, and even in the same example, the second sentence can be extracted in various ways and in various numbers.
이렇게 추출된 상기 제1 문장과 하나 이상의 상기 제2 문장(420)이 문장 요약 신경망 모델(320)에 입력된다. 문장 요약 신경망 모델(320)은 상기 제1 문장과 하나 이상의 상기 제2 문장(420)을 "11월에 영희 언니 생일을 축하하려고 하는데 우편이라서 언제 볼지 모르겠다"와 같이 하나의 제3 문장(430)으로 요약한다.The first sentence and one or more second sentences 420 extracted in this way are input to the sentence summary neural network model 320. The sentence summary neural network model 320 combines the first sentence and one or more second sentences 420 into one third sentence 430, such as "I'm going to celebrate Younghee's birthday in November, but I don't know when I'll see it because it's by mail." Summarize.
그리고 요약문인 제3 문장(430)이 문맥 판단 신경망 모델(330)에 입력되면, 문맥 판단 신경망 모델(330)은 해당 문장이 개인 정보와 관련된 문장인지 여부를 추론하게 된다. 주어진 예시에 대해서 문맥 판단 신경망 모델(330)은 개인정보에 해당한다는 추론 결과를 출력할 것이다.And when the third sentence 430, which is a summary sentence, is input to the context judgment neural network model 330, the context judgment neural network model 330 infers whether the sentence is related to personal information. For a given example, the context judgment neural network model 330 will output an inference result indicating that it corresponds to personal information.
도 5는 본 발명의 또 다른 실시예에 따른 개체명에 상응하는 식별자를 추가적으로 탐지하여 개인정보를 판단하는 방법의 흐름도이다. 도 2의 방법의 단계 S210 내지 S250과 동일한 단계 S510 내지 S540에 대해서는 중복적인 설명을 생략한다.Figure 5 is a flowchart of a method for determining personal information by additionally detecting an identifier corresponding to an entity name according to another embodiment of the present invention. Redundant description of steps S510 to S540, which are the same as steps S210 to S250 of the method of FIG. 2, will be omitted.
도 5를 참조하면, 단계 S550에서, 제3 문장이 개인정보와 관련된 문장으로 추론되면, 장치(100)는 단계 S510에서 탐지된 개체명을 개인정보로 1차 판단한다. "1차 판단한다"는 것은 단계 S550의 판단 결과를 후속하는 단계 S570에서 검증한다는 것을 의미한다. 즉, 단계 S550에서는 임시적인 또는 잠정적인 판단을 내린다.Referring to FIG. 5, in step S550, if the third sentence is inferred to be a sentence related to personal information, the device 100 first determines that the entity name detected in step S510 is personal information. “Making the first judgment” means that the judgment result of step S550 is verified in the subsequent step S570. That is, in step S550, a temporary or provisional judgment is made.
단계 S560에서, 장치(100)는 입력 텍스트 내에서 탐지된 개체명에 상응하는 식별자, 즉 개인정보로 1차 판단된 개체명에 상응하는 식별자를 탐지한다.In step S560, the device 100 detects an identifier corresponding to the entity name detected within the input text, that is, an identifier corresponding to the entity name first determined to be personal information.
일부 실시예에서, 장치(100)는 입력 텍스트 전부에 대해서 식별자를 탐지할 수 있다.In some embodiments, device 100 may detect identifiers for all of the input text.
일부 실시예에서, 장치(100)는 입력 텍스트의 일부에 대해서만 식별자를 탐지할 수 있다. 장치(100)는 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제4 문장을 추출할 수 있다. 장치(100)는 상술한 제2 문장을 추출하는 방식과 동일한 또는 유사한 방식으로 제4 문장을 추출할 수 있다. 예를 들어, 제4 문장을 추출하는 범위가 제2 문장을 추출하는 범위보다 넓거나 또는 그 반대일 수 있다. 제4 문장으로 추출하는 문장의 개수가 제2 문장으로 추출하는 문장의 개수보다 많거나 또는 그 반대일 수 있다. 장치(100)는 상기 제1 문장과 하나 이상의 상기 제4 문장 내에서 상기 개체명에 상응하는 식별자를 탐지할 수 있다.In some embodiments, device 100 may detect identifiers for only a portion of the input text. The device 100 may extract one or more fourth sentences adjacent to the first sentence containing the detected entity name from the input text. The device 100 may extract the fourth sentence in the same or similar manner as the method for extracting the second sentence described above. For example, the range for extracting the fourth sentence may be wider than the range for extracting the second sentence, or vice versa. The number of sentences extracted as the fourth sentence may be greater than the number of sentences extracted as the second sentence, or vice versa. The device 100 may detect an identifier corresponding to the entity name within the first sentence and one or more fourth sentences.
일부 실시예에서, 장치(100)는 단계 S510에서 탐지된 하나 이상의 개체명을 대상으로 식별자를 탐지할 수 있다. 입력 텍스트 내에서 둘 이상의 개체명이 탐지되었을 경우, 개인정보 판단 대상인 당해 개체명 외에 다른 하나 이상의 개체명 중에서 당해 개체명에 상응하는 식별자를 탐지할 수 있다.In some embodiments, device 100 may detect an identifier for one or more entity names detected in step S510. When two or more entity names are detected in the input text, an identifier corresponding to the entity name can be detected among one or more entity names other than the entity name subject to personal information determination.
개체명과 식별자가 서로 "상응하다"는 것은 개체명이 식별자로 특정할 수 있는 개인의 개인 정보에 해당하는 경우를 말한다. 개체명과 식별자가 서로 상응하는 경우, 개체명은 식별자와 쉽게 결합하여 특정 개인을 알아볼 수 있게 하는 정보로 기능한다. 따라서, 이 경우 개체명은 민감한 개인 정보가 된다.The fact that an entity name and an identifier "correspond" to each other refers to a case where the entity name corresponds to personal information of an individual that can be identified by an identifier. If the entity name and identifier correspond to each other, the entity name is easily combined with the identifier and functions as information that allows identification of a specific individual. Therefore, in this case, the entity name becomes sensitive personal information.
한편, 단계 S550에서, 제3 문장이 개인정보와 관련되지 않은 문장으로 추론될 경우에도, 장치(100)는 입력 텍스트 내에서 탐지된 개체명에 상응하는 식별자를 탐지한다. 인경 신경망 모델의 추론이 틀릴 수 있음을 고려하여 보충적으로 개인정보를 탐지하기 위한 것이다.Meanwhile, in step S550, even if the third sentence is inferred to be a sentence not related to personal information, the device 100 detects an identifier corresponding to the entity name detected in the input text. This is to supplementally detect personal information, taking into account that the inference of the human neural network model may be incorrect.
단계 S570에서, 상기 식별자가 탐지되면, 장치(100)는 단계 S510에서 탐지된 개체명을 개인정보로 2차 판단한다. 단계 S570에서의 2차 판단은 최종적이며 확정적인 판단에 해당한다.If the identifier is detected in step S570, the device 100 secondarily determines the entity name detected in step S510 as personal information. The secondary judgment in step S570 corresponds to the final and definitive judgment.
개체명과 연관된 식별자가 탐지되면, 1차 판단 결과와 다르더라도 2차 판단 결과에 따라 당해 개체명이 개인정보에 해당한다고 판단한다.When an identifier associated with an entity name is detected, the entity name is determined to be personal information according to the secondary judgment result, even if it is different from the first judgment result.
도 6은 본 발명의 또 다른 실시예에 따른 정규식 패턴 매칭과 인공 신경망 모델을 모두 이용하여 개인정보를 탐지하는 방법의 흐름도이다. 도 5의 방법의 단계 S520 내지 S570과 동일한 단계 S630 내지 S680에 대해서는 중복적인 설명을 생략한다.Figure 6 is a flowchart of a method for detecting personal information using both regular expression pattern matching and an artificial neural network model according to another embodiment of the present invention. Redundant description of steps S630 to S680, which are the same as steps S520 to S570 of the method of FIG. 5, will be omitted.
도 6을 참조하면, 단계 S610에서, 입력 텍스트 내에서 개체명을 탐지하는 단계 이전에, 장치(100)는 정규식 패턴 매칭을 이용하여 둘 이상의 문장을 포함하는 입력 텍스트 내에서 개인정보를 탐지한다. 정규식은 정규 표현식(regular expression)으로도 불리어질 수 있다.Referring to FIG. 6, in step S610, before detecting the entity name in the input text, the device 100 detects personal information in the input text including two or more sentences using regular expression pattern matching. Regular expressions can also be called regular expressions.
장치(100)는 정규식 패턴 매칭을 이용하여 일정한 규칙, 형식 또는 패턴 등에 따라 표현된 개인정보를 입력 텍스트 내에서 탐지할 수 있다. 예를 들어, 정규식 패턴 매칭을 이용하여 탐지할 수 있는 개인정보는 주민등록번호, 여권번호, 성명, 주소, 생일, 전화번호, 통장계좌번호, 신용카드번호, 자동차 번호, 이메일 주소 등이 있으나, 이에 제한되는 것은 아니다.The device 100 can detect personal information expressed according to a certain rule, format, or pattern within the input text using regular expression pattern matching. For example, personal information that can be detected using regular expression pattern matching includes resident registration number, passport number, name, address, birthday, phone number, bank account number, credit card number, automobile number, and email address, but is limited to this. It doesn't work.
일부 실시예에서, 단계 S620에서, 정규식 패턴 매칭을 이용하여 탐지된 개인정보에 대해서, 장치(100)는 개체명 탐지를 실행하지 않을 수 있다. 또는, 정규식 패턴 매칭을 이용하여 탐지된 개인정보가 개체명으로 탐지되더라도, 장치(100)는 요약문을 생성하는 이하의 단계들을 실행하지 않을 수 있다. 정규식 패턴 매칭을 이용하는 경우가 문맥 판단 신경망 모델을 이용하는 경우보다 상대적으로 더 정확하게 개인정보를 판단할 수 있기 때문에 개인정보 판단 과정을 반복하지 않는 것이다.In some embodiments, in step S620, the device 100 may not perform entity name detection for personal information detected using regular expression pattern matching. Alternatively, even if personal information detected using regular expression pattern matching is detected as an entity name, the device 100 may not execute the following steps for generating a summary. When using regular expression pattern matching, personal information can be judged relatively more accurately than when using a context judgment neural network model, so the personal information determination process is not repeated.
문맥 판단 신경망 모델은 정규식 패턴 매칭을 이용하여 탐지하지 못하는, 즉 일정한 규칙을 따르지 않는 자유로은 형식의 개인정보를 폭 넓게 탐지할 수 있다는 장점이 있다. 또한 개인정보에 해당함에도 규칙이나 형식을 지키지 않고 임의의 패턴으로 쓰여진 숫자 표현들에 대한 개인정보 탐지 정확도를 높일 수 있다. The context judgment neural network model has the advantage of being able to detect a wide range of personal information in a free form that does not follow certain rules, which cannot be detected using regular expression pattern matching. In addition, even though it is personal information, it is possible to increase the accuracy of personal information detection for numerical expressions written in random patterns without following rules or formats.
도 6의 방법은 규칙 기반의 정규식 패턴 매칭과 기계 학습 기반의 인공 신경망 모델을 상호 보완적으로 이용함으로써 입력 텍스트 내의 개인정보를 정확하게 그리고 빠짐없이 판단해낼 수 있다.The method of Figure 6 can accurately and completely determine personal information in the input text by complementary use of rule-based regular expression pattern matching and machine learning-based artificial neural network model.
도 7 본 발명의 또 다른 실시예에 따른 소정 유형에 해당하는 입력 텍스트에 대해서는 하나의 요약문을 생성하는 과정을 생략하는 방법의 흐름도이다. 도 7의 방법의 단계들과 동일한 단계들에 대해서는 중복적인 설명을 생략한다.Figure 7 is a flowchart of a method for omitting the process of generating one summary for input text corresponding to a predetermined type according to another embodiment of the present invention. Redundant description of steps that are the same as those of the method in FIG. 7 will be omitted.
단계 S730에서, 입력 텍스트 내에서 개체명을 탐지한 이후, 장치(100)는 입력 텍스트가 제1 유형인지 판단한다. 예를 들어, 제1 유형은 대화문 이외의 일반 글을 말한다. 또는, 장치(100)는 입력 텍스트의 문장의 길이나 완성도 등을 평가하고 유형을 분류해낼 수도 있다. 장치(100)는 문장의 길이가 소정의 길이보다 길거나 문장의 완성도가 소정의 값보다 클 경우 입력 텍스트를 제1 유형으로 분류할 수 있다.In step S730, after detecting the entity name in the input text, the device 100 determines whether the input text is of the first type. For example, the first type refers to general writing other than conversation. Alternatively, the device 100 may evaluate the sentence length or completeness of the input text and classify the type. The device 100 may classify the input text as the first type when the length of the sentence is longer than a predetermined length or the completeness of the sentence is greater than a predetermined value.
입력 텍스트가 제1 유형일 경우, 장치(100)는 단계 S740 내지 S750의 요약문 생성 과정을 생략한다.If the input text is the first type, the device 100 omits the summary text generation process of steps S740 to S750.
이 경우, 단계 S760에서, 장치(100)는 문맥 판단 신경망 모델을 이용하여 앞서 탐지된 개체명을 포함하는 제1 문장이 개인정보와 관련된 문장인지 여부를 추론한다. 즉, 요약문을 생성하지 않았기 때문에, 요약문인 제3 문장을 대상으로 문맥 판단 신경망 모델을 이용한 추론을 실행하지 않는다.In this case, in step S760, the device 100 uses a context judgment neural network model to infer whether the first sentence including the previously detected entity name is a sentence related to personal information. In other words, since the summary sentence was not created, inference using the context judgment neural network model is not performed on the third sentence, which is the summary sentence.
입력 텍스트가 대화문일 경우, 특히 온라인 채팅 대화문의 경우 문장이 짧고, 의미가 적은 이모티콘, 의성어, 의태어 등이 다수 포함되어 있기 때문에 문장 단위로 개인정보 포함 여부를 판단할 경우 부정확한 결과가 나올 가능성이 높다. 이 같은 경우 단계 S740 내지 S750의 요약문 생성 과정을 통해서 인접한 주변의 문장을 포함하여 요약문을 생성하고, 대화의 전후 맥락이 담긴 요약문에 개인정보가 포함되어 있는지 여부를 판단하는 것이 효과적이다. 그러나 매번 요약문을 생성하도록 하는 것은 시간, 비용 및 자원 등의 면에서 효율적이지 않으므로, 도 7의 방법은 입력 텍스트가 문장의 완성도가 높은 일반 글의 유형이라면 요약문을 생성하는 과정을 생략하도록 한 것이다.If the input text is a conversation, especially in the case of an online chat conversation, the sentences are short and contain many emoticons, onomatopoeia, and mimetic words with little meaning, so there is a possibility of inaccurate results if you judge whether or not personal information is included on a sentence-by-sentence basis. high. In this case, it is effective to generate a summary including adjacent sentences through the summary generation process of steps S740 to S750, and determine whether the summary containing the context of the conversation contains personal information. However, generating a summary every time is not efficient in terms of time, cost, and resources, so the method of Figure 7 omits the process of generating a summary if the input text is a general text type with high sentence completeness.
본 발명의 실시예에 따른 방법들의 단계는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. The steps of the methods according to the embodiment of the present invention may be further divided into additional steps or combined into fewer steps, depending on the implementation of the present invention. Additionally, some steps may be omitted or the order between steps may be changed as needed.
이상에서 전술한 본 발명의 실시예에 따른 인공지능을 이용한 문맥 내 개인정보 판단 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 컴퓨터 프로그램(또는 애플리케이션)으로 구현되어 컴퓨터 판독가능 기록매체에 저장될 수 있다.The method of determining personal information in context using artificial intelligence according to the embodiment of the present invention described above can be implemented as a computer program (or application) to be executed in combination with a computer as hardware and stored in a computer-readable recording medium. there is.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, Python 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.The above-mentioned program is C, C++, JAVA, Ruby, and It may include code coded in a computer language such as Python machine language. These codes may include functional codes related to functions that define the necessary functions for executing the methods, and include control codes related to execution procedures necessary for the computer's processor to execute the functions according to predetermined procedures. can do. In addition, these codes may further include memory reference-related codes that indicate at which location (address address) in the computer's internal or external memory additional information or media required for the computer's processor to execute the above functions should be referenced. there is. In addition, if the computer's processor needs to communicate with any other remote computer or server to execute the above functions, the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes regarding whether communication should be performed and what information or media should be transmitted and received during communication.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.The storage medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as a register, cache, or memory. Specifically, examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers that the computer can access or on various recording media on the user's computer. Additionally, the medium may be distributed to computer systems connected to a network, and computer-readable code may be stored in a distributed manner.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The description of the present invention described above is for illustrative purposes, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. For example, each component described as unitary may be implemented in a distributed manner, and similarly, components described as distributed may also be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. The scope of the present invention is indicated by the claims described below rather than the detailed description above, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.
Claims (10)
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써
정규 표현식 패턴 매칭을 이용하여 둘 이상의 문장을 포함하는 입력 텍스트 내에서 소정의 규칙, 형식 또는 패턴에 따라 표현된 개인정보를 탐지하고,
둘 이상의 문장을 포함하는 상기 입력 텍스트 내에서 개체명을 탐지하고,
상기 입력 텍스트 내에서 상기 탐지된 개체명을 개인정보 후보로 정의하고,
상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제2 문장을 추출하고,
문장 요약 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약하고,
문맥 판단 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장의 요약문인 상기 제3 문장이 개인 정보와 관련된 문장인지 여부를 추론하고,
상기 제3 문장이 개인정보와 관련된 문장으로 추론되면, 상기 제1 문장 내에서 상기 탐지된 개체명을 개인정보로 판단하고,
상기 입력 텍스트 내에서 개체명을 탐지하는 것은 규칙 기반의 사전을 이용한 방식 또는 기계 학습 기반의 개체명 탐지 신경망 모델을 이용하고,
상기 문장 요약 신경망 모델은 트랜스포머(Transformer) 모델 기반의 언어 모델을 이용하여 둘 이상의 문장 형태의 데이터를 수치 벡터(numerical vector)로 임베딩하고, 임베딩한 벡터를 하나 이상의 레이어로 구성된 요약층(summarization layer)에 입력하여 하나의 문장으로 요약하는 구조로 구현되고,
상기 문맥 판단 신경망 모델은 트랜스포머 모델 기반의 언어 모델을 이용하여 하나의 문장 형태의 데이터를 수치 벡터로 임베딩하고, 임베딩한 벡터를 하나 이상의 레이어로 구성된 분류층(classification layer)에 입력하여 문장 내의 개인정보 포함 여부를 분류하는 구조로 구현되는 것을 특징으로 하는,
인공지능을 이용한 문맥 내 개인정보 판단 장치.A memory that stores one or more instructions; and
Comprising one or more processors executing the one or more instructions stored in the memory,
The one or more processors execute the one or more instructions
Detect personal information expressed according to predetermined rules, formats, or patterns within input text containing two or more sentences using regular expression pattern matching,
Detecting entity names within the input text containing two or more sentences,
Define the detected entity name within the input text as a personal information candidate,
Extracting one or more second sentences adjacent to a first sentence containing the detected entity name from the input text,
Summarizing the first sentence and the one or more second sentences into one third sentence using a sentence summary neural network model,
Inferring whether the third sentence, which is a summary of the first sentence and the one or more second sentences, is a sentence related to personal information using a context judgment neural network model,
If the third sentence is inferred to be a sentence related to personal information, the entity name detected in the first sentence is determined to be personal information,
Detecting entity names within the input text uses a rule-based dictionary or a machine learning-based entity name detection neural network model,
The sentence summary neural network model uses a language model based on the Transformer model to embed data in the form of two or more sentences into numerical vectors, and the embedded vectors are divided into a summary layer consisting of one or more layers. It is implemented in a structure that is entered into and summarized in one sentence,
The context judgment neural network model uses a language model based on a transformer model to embed data in the form of a single sentence into a numerical vector, and inputs the embedded vector into a classification layer consisting of one or more layers to obtain personal information within the sentence. Characterized by being implemented in a structure that classifies inclusion or non-inclusion,
A device for determining personal information in context using artificial intelligence.
상기 하나 이상의 프로세서는,
상기 입력 텍스트 내에서 상기 제1 문장과 인접한 하나 이상의 제4 문장을 추출하고,
상기 제1 문장과 상기 하나 이상의 제4 문장 내에서 상기 개인정보에 상응하는 식별자를 탐지하고,
상기 식별자가 탐지되면, 상기 제1 문장 내에서 상기 탐지된 개체명을 개인정보로 2차 판단하고,
상기 개체명은 상기 식별자로 특정할 수 있는 개인의 개인정보에 해당하고, 상기 개체명은 상기 식별자와 결합하여 특정 개인을 알아볼 수 있게 하는 정보로 기능하는,
인공지능을 이용한 문맥 내 개인정보 판단 장치.According to paragraph 1,
The one or more processors:
Extracting one or more fourth sentences adjacent to the first sentence within the input text,
Detecting an identifier corresponding to the personal information within the first sentence and the one or more fourth sentences,
When the identifier is detected, the detected entity name in the first sentence is secondarily determined as personal information,
The entity name corresponds to the personal information of an individual that can be identified by the identifier, and the entity name functions as information that enables identification of a specific individual by combining with the identifier,
A device for determining personal information in context using artificial intelligence.
상기 하나 이상의 프로세서는,
상기 입력 텍스트가 제1 유형일 때에는,
상기 문맥 판단 신경망 모델을 이용하여 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 상기 제1 문장이 개인 정보와 관련된 문장인지 여부를 추론하는,
인공지능을 이용한 문맥 내 개인정보 판단 장치.According to paragraph 3,
The one or more processors:
When the input text is the first type,
Inferring whether the first sentence including the detected entity name in the input text is a sentence related to personal information using the context judgment neural network model,
A device for determining personal information in context using artificial intelligence.
둘 이상의 문장을 포함하는 상기 입력 텍스트 내에서 개체명을 탐지하는 단계;
상기 입력 텍스트 내에서 상기 탐지된 개체명을 개인정보 후보로 정의하는 단계;
상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 제1 문장과 인접한 하나 이상의 제2 문장을 추출하는 단계;
문장 요약 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장을 하나의 제3 문장으로 요약하는 단계;
문맥 판단 신경망 모델을 이용하여 상기 제1 문장과 상기 하나 이상의 제2 문장의 요약문인 상기 제3 문장이 개인 정보와 관련된 문장인지 여부를 추론하는 단계; 및
상기 제3 문장이 개인정보와 관련된 문장으로 추론되면, 상기 제1 문장 내에서 상기 탐지된 개체명을 개인정보로 판단하는 단계를 포함하고,
상기 입력 텍스트 내에서 개체명을 탐지하는 것은 규칙 기반의 사전을 이용한 방식 또는 기계 학습 기반의 개체명 탐지 신경망 모델을 이용하고,
상기 문장 요약 신경망 모델은 트랜스포머(Transformer) 모델 기반의 언어 모델을 이용하여 둘 이상의 문장 형태의 데이터를 수치 벡터(numerical vector)로 임베딩하고, 임베딩한 벡터를 하나 이상의 레이어로 구성된 요약층(summarization layer)에 입력하여 하나의 문장으로 요약하는 구조로 구현되고,
상기 문맥 판단 신경망 모델은 트랜스포머 모델 기반의 언어 모델을 이용하여 하나의 문장 형태의 데이터를 수치 벡터로 임베딩하고, 임베딩한 벡터를 하나 이상의 레이어로 구성된 분류층(classification layer)에 입력하여 문장 내의 개인정보 포함 여부를 분류하는 구조로 구현되는 것을 특징으로 하는,
인공지능을 이용한 문맥 내 개인정보 판단 방법.Detecting personal information expressed according to a predetermined rule, format, or pattern within an input text containing two or more sentences using regular expression pattern matching;
detecting an entity name within the input text containing two or more sentences;
defining the detected entity name within the input text as a personal information candidate;
extracting one or more second sentences adjacent to a first sentence containing the detected entity name from the input text;
summarizing the first sentence and the one or more second sentences into one third sentence using a sentence summarizing neural network model;
inferring whether the third sentence, which is a summary of the first sentence and the one or more second sentences, is a sentence related to personal information using a context judgment neural network model; and
If the third sentence is inferred to be a sentence related to personal information, determining the detected entity name in the first sentence as personal information,
Detecting entity names within the input text uses a rule-based dictionary or a machine learning-based entity name detection neural network model,
The sentence summary neural network model uses a language model based on the Transformer model to embed data in the form of two or more sentences into numerical vectors, and the embedded vectors are divided into a summary layer consisting of one or more layers. It is implemented in a structure that is entered into and summarized in one sentence,
The context judgment neural network model uses a language model based on a transformer model to embed data in the form of a single sentence into a numerical vector, and inputs the embedded vector into a classification layer consisting of one or more layers to obtain personal information within the sentence. Characterized by being implemented in a structure that classifies inclusion or non-inclusion,
A method of determining personal information in context using artificial intelligence.
상기 입력 텍스트 내에서 상기 제1 문장과 인접한 하나 이상의 제4 문장을 추출하는 단계;
상기 제1 문장과 상기 하나 이상의 제4 문장 내에서 상기 개인정보에 상응하는 식별자를 탐지하는 단계; 및
상기 식별자가 탐지되면, 상기 제1 문장 내에서 상기 탐지된 개체명을 개인정보로 2차 판단하는 단계를 더 포함하고,
상기 개체명은 상기 식별자로 특정할 수 있는 개인의 개인정보에 해당하고, 상기 개체명은 상기 식별자와 결합하여 특정 개인을 알아볼 수 있게 하는 정보로 기능하는,
인공지능을 이용한 문맥 내 개인정보 판단 방법.According to clause 5,
extracting one or more fourth sentences adjacent to the first sentence within the input text;
detecting an identifier corresponding to the personal information within the first sentence and the one or more fourth sentences; and
When the identifier is detected, further comprising the step of secondarily determining the detected entity name in the first sentence as personal information,
The entity name corresponds to the personal information of an individual that can be identified by the identifier, and the entity name functions as information that enables identification of a specific individual by combining with the identifier,
A method of determining personal information in context using artificial intelligence.
상기 입력 텍스트가 제1 유형일 때에는,
상기 문맥 판단 신경망 모델을 이용하여 상기 입력 텍스트 내에서 상기 탐지된 개체명을 포함하는 상기 제1 문장이 개인 정보와 관련된 문장인지 여부를 추론하는 단계를 더 포함하는,
인공지능을 이용한 문맥 내 개인정보 판단 방법.In clause 7,
When the input text is the first type,
Further comprising the step of inferring whether the first sentence including the detected entity name in the input text is a sentence related to personal information using the context judgment neural network model,
A method of determining personal information in context using artificial intelligence.
제5항, 제7항 또는 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.Combined with a computer,
A computer program stored in a computer-readable recording medium to execute the method of any one of claims 5, 7, or 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230031172A KR102627819B1 (en) | 2023-03-09 | 2023-03-09 | Device, method and computer program for determining personal information in context using artificial intelligence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230031172A KR102627819B1 (en) | 2023-03-09 | 2023-03-09 | Device, method and computer program for determining personal information in context using artificial intelligence |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102627819B1 true KR102627819B1 (en) | 2024-01-23 |
Family
ID=89713551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230031172A KR102627819B1 (en) | 2023-03-09 | 2023-03-09 | Device, method and computer program for determining personal information in context using artificial intelligence |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102627819B1 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180025691A (en) * | 2016-09-01 | 2018-03-09 | 성균관대학교산학협력단 | An apparatus for generating paragraph based on artificial neural network and method thereof |
KR20190019607A (en) * | 2017-08-18 | 2019-02-27 | 충남대학교산학협력단 | User terminal, method for managing personal data, and computer readable recording medium |
KR102041621B1 (en) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | System for providing artificial intelligence based dialogue type corpus analyze service, and building method therefor |
KR102067926B1 (en) * | 2019-04-10 | 2020-01-17 | 주식회사 데이타솔루션 | Apparatus and method for de-identifying personal information contained in electronic documents |
KR20210049546A (en) | 2019-10-25 | 2021-05-06 | 중앙대학교 산학협력단 | De-identification Method for Personal Information Protecting and Equipment Thereof |
KR102298330B1 (en) * | 2021-01-27 | 2021-09-06 | 주식회사 두유비 | System for generating medical consultation summary and electronic medical record based on speech recognition and natural language processing algorithm |
KR20220022726A (en) * | 2020-08-19 | 2022-02-28 | 삼성전자주식회사 | Method and apparatus for training embedding vector generation model |
-
2023
- 2023-03-09 KR KR1020230031172A patent/KR102627819B1/en active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180025691A (en) * | 2016-09-01 | 2018-03-09 | 성균관대학교산학협력단 | An apparatus for generating paragraph based on artificial neural network and method thereof |
KR20190019607A (en) * | 2017-08-18 | 2019-02-27 | 충남대학교산학협력단 | User terminal, method for managing personal data, and computer readable recording medium |
KR102041621B1 (en) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | System for providing artificial intelligence based dialogue type corpus analyze service, and building method therefor |
KR102067926B1 (en) * | 2019-04-10 | 2020-01-17 | 주식회사 데이타솔루션 | Apparatus and method for de-identifying personal information contained in electronic documents |
KR20210049546A (en) | 2019-10-25 | 2021-05-06 | 중앙대학교 산학협력단 | De-identification Method for Personal Information Protecting and Equipment Thereof |
KR20220022726A (en) * | 2020-08-19 | 2022-02-28 | 삼성전자주식회사 | Method and apparatus for training embedding vector generation model |
KR102298330B1 (en) * | 2021-01-27 | 2021-09-06 | 주식회사 두유비 | System for generating medical consultation summary and electronic medical record based on speech recognition and natural language processing algorithm |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Illia et al. | Applying co‐occurrence text analysis with ALCESTE to studies of impression management | |
US20200334492A1 (en) | Ablation on observable data for determining influence on machine learning systems | |
Kleinberg et al. | Using named entities for computer‐automated verbal deception detection | |
WO2017067153A1 (en) | Credit risk assessment method and device based on text analysis, and storage medium | |
US10713423B2 (en) | Content adjustment and display augmentation for communication | |
Demilie et al. | Detection of fake news and hate speech for Ethiopian languages: a systematic review of the approaches | |
US9632998B2 (en) | Claim polarity identification | |
Banjar et al. | Aspect-Based Sentiment Analysis for Polarity Estimation of Customer Reviews on Twitter. | |
CN112214652B (en) | Message generation method, device and equipment | |
Ashktorab et al. | Fairness evaluation in text classification: Machine learning practitioner perspectives of individual and group fairness | |
CN113626576A (en) | Method and device for extracting relational characteristics in remote supervision, terminal and storage medium | |
CN108268602A (en) | Analyze method, apparatus, equipment and the computer storage media of text topic point | |
Hofslot | Automatic classification of legal violations in cookie banner texts | |
Bodaghi et al. | A literature review on detecting, verifying, and mitigating online misinformation | |
KR20200066119A (en) | Method of fake news evaluation based on knowledge-based inference, recording medium and apparatus for performing the method | |
Polzehl et al. | Fighting Disinformation: Overview of Recent AI-Based Collaborative Human-Computer Interaction for Intelligent Decision Support Systems. | |
Boyle et al. | Mailtrout: a machine learning browser extension for detecting phishing emails | |
Klimczak | Text analysis in finance: The challenges for efficient application | |
KR102627819B1 (en) | Device, method and computer program for determining personal information in context using artificial intelligence | |
von Selasinsky et al. | It's all in the (sub-) title? Expanding signal evaluation in crowdfunding research | |
KR102604576B1 (en) | Monitoring device, method and computer program for preventing leakage and exposure of personal information in a web environment | |
Kumari et al. | Enhancing the fairness of offensive memes detection models by mitigating unintended political bias | |
US11055491B2 (en) | Geographic location specific models for information extraction and knowledge discovery | |
Barunaha et al. | Real-Time Sentiment Analysis of Social Media Content for Brand Improvement and Topic Tracking | |
CN113051396A (en) | Document classification identification method and device and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |