KR101150070B1 - 아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하기위한 방법 및 시스템 - Google Patents

아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하기위한 방법 및 시스템 Download PDF

Info

Publication number
KR101150070B1
KR101150070B1 KR1020050056896A KR20050056896A KR101150070B1 KR 101150070 B1 KR101150070 B1 KR 101150070B1 KR 1020050056896 A KR1020050056896 A KR 1020050056896A KR 20050056896 A KR20050056896 A KR 20050056896A KR 101150070 B1 KR101150070 B1 KR 101150070B1
Authority
KR
South Korea
Prior art keywords
documents
sentences
keywords
sentence
document
Prior art date
Application number
KR1020050056896A
Other languages
English (en)
Other versions
KR20060048686A (ko
Inventor
벤유 즈항
후아-준 젱
웨이-잉 마
즈헹 첸
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060048686A publication Critical patent/KR20060048686A/ko
Application granted granted Critical
Publication of KR101150070B1 publication Critical patent/KR101150070B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)
  • Facsimiles In General (AREA)

Abstract

아웃고잉 통신이 기밀 정보 또는 기타 타겟 정보를 포함하는지를 검출하기 위한 방법 및 시스템이 제공된다. "기밀 문서"라고 불리는 기밀 정보를 포함하는 문서들의 컬렉션을 갖는 검출 시스템이 제공된다. 검출 ㅍ시스템이 아웃고잉 통신을 제공받으면, 아웃고잉 통신의 내용을 기밀 문서들의 내용에 비교한다. 만약 아웃고잉 통신이 기밀 정보를 포함하면, 검출 시스템은 아웃고잉 통신이 조직 외부로 전송되는 것을 금지할 수 있다. 검출 시스템은 아웃고잉 통신의 내용과 기밀 정보를 포함하는 것으로 알려진 기밀 문서들의 내용 사이의 유사성에 기초하여 기밀 정보를 검출한다.
유사성, 기밀, 타겟 정보, 용어 빈도, 역 문서 빈도

Description

아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR DETECTING WHEN AN OUTGOING COMMUNICATION CONTAINS CERTAIN CONTENT}
도 1은 일 실시예에서 검출 시스템의 컴포넌트들을 도시하는 블럭도.
도 2는 일 실시예에서 도 1의 검출 시스템의 데이터 구조들을 도시하는 블럭도.
도 3은 일 실시예에서 키워드 인덱스 생성의 프로세싱을 도시하는 흐름도.
도 4는 일 실시예에서 문장 해시 테이블 생성 컴포넌트의 프로세싱을 도시하는 흐름도.
도 5는 일 실시예에서 단락의 키워드들에 대한 문장들의 키워드들의 유사성에 기초한 주요 문장 식별 컴포넌트의 프로세싱을 도시하는 흐름도.
도 6는 일 실시예에서 역 문장 빈도(inverse sentence frequency)에 기초한 주요 문장 식별 컴포넌트의 프로세싱을 도시하는 흐름도.
도 7은 일 실시예에서 부합 검출 컴포넌트의 프로세싱을 도시하는 흐름도.
도 8은 일 실시예에서 후보 문서 선택 컴포넌트의 프로세싱을 도시하는 흐름도.
도 9는 일 실시예에서 완전 부합 카운트 컴포넌트의 프로세싱을 도시하는 흐 름도.
도 10은 일 실시예에서 불완전 부합 카운트 컴포넌트의 프로세싱을 도시하는 흐름도.
<도면의 주요부분에 대한 부호의 설명>
701: 부합 검출
702: 완전 부합 검출
703: 완전 부합 > 임계값 ?
704: 불완전 부합 카운트
705: 불완전 부합 > 임계값 ?
본 발명은 문서들이 유사한 내용을 가질 경우를 검출하는 것에 관한 것으로, 특히, 아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하는 것에 관한 것이다.
많은 조직이 그러한 각 조직의 성공적인 운영에 중요한 기밀, 영업 비밀, 소유권, 및 기타 정보를 개발한다. 여러 경우에, 이러한 정보가 조직 외부에 노출되지 않음을 보장하는 것이 조직에게 매우 중요하다. 그러한 정보가 조직 외부에 노출되면, 정보가 가치없게 되거나 또는 조직에 상당한 해가 될 것이다. 예를 들어, 제조 회사는 제품의 다음 버전에 통합될 특성들의 리스트를 개발할 수 있다. 만약 다음 버전이 릴리즈되기 전에 경쟁사가 특성들의 리스트를 확인할 수 있다면, 경쟁 사는 그들의 경쟁적 이점에 그 정보를 사용할 수 있다. 또다른 예로서, 조직은 조직의 소정 규칙을 위반한 피고용인에 대해 내부 징계 행위를 행할 필요가 있을 수 있다. 만약 위반이 공개적이 되면, 조직에 대해 공공 관련 문제를 제공할 수 있다. 그들의 기밀 정보가 부적절하게 노출되지 않을 것을 보장하기 위하여, 여러 조직이 그러한 노출이 발생하지 않을 것을 보장하기 위한 광범위한 대책을 구현한다. 예를 들어, 피고용인들이 영업 비밀의 기밀성을 유지하는 것의 중요성을 이해한다는 것을 보장하기 위하여, 몇몇 회사들은 피고용인들에게 영업 비밀을 포함하는 모든 문서는 기밀로서 표시할 것을 알게 하는 등의 훈련 세션(training session)을 실시한다.
전자 통신이 조직의 피고용인들이 효율적이고 생산적으로 통신하도록 허용하지만, 전자 통신은 또한 기밀 정보가 쉽고 신속하게 조직 외부에 배포되도록 허용한다. 예를 들어, 만약 설계 팀의 리더가 제품의 새로운 버전의 새로운 특성들을 아이템화하는 전자 메일을 팀의 구성원들에게 전송하면, 팀의 임의의 구성원은 그 메시지를 회사의 다른 피고용인 또는 경쟁사의 피고용인들에게도 전달할 수 있다. 경쟁사의 피고용인에게의 그러한 기밀 정보의 배포는 우연이거나 의도적일 수 있다. 예를 들어, 피고용인이 새로운 특성들을 아이템화하는 전자 메일 메시지를 회사의 마케팅 팀의 몇몇 구성원들에게 전송하기를 원할 수 있다. 전자 메일 메시지를 전달할 때, 피고용인은 의도된 수신자들의 부분적 이름을 입력할 수 있다. 그러나, 만약 의도된 수신자가 경쟁사의 피고용인과 유사한 이름을 갖는다면, 전자 메일 프로그램은 부분적 이름을 경쟁사의 피고용인의 전자 메일 주소로 해석할 수 있다. 노출이 우연일 수 있을지라도, 그럼에도 불구하고 회사는 심각하게 해를 입을 수 있다. 피고용인이 기밀 정보를 갖는 전자 메일 메시지를 그러한 정보를 수신하도록 허가되지 않은 누군가에게 의도적으로 전달하는 경우 훨씬 더 심각한 문제일 수 있다. 그러한 경우에, 피고용인은, 예를 들어, 전자 메일 메시지로부터 기밀성의 공지(예를 들어, "이 문서는 The Acme Company의 기밀, 소유권, 및 영업 비밀 정보를 포함한다")를 제거함으로써, 정보의 기밀 본질을 감추려 할 수 있다. 게다가, 기밀 정보의 허가되지 않은 노출은 전자 메일 메시지에 제한되지 않으며, 허가되지 않은 노출은 전자 통신의 기타 형태를 취할 수 있다. 예를 들어, 피고용인은 인터넷 뉴스 및 토의 그룹, 인스턴트 메시징 시스템, 전자 메일 메시지에의 첨부물, 보도 자료, 전자 프리젠테이션, 발행 기사 등을 통해 기밀 정보를 노출할 수 있다.
몇몇 전자 메일 시스템들은 전자 메일 메시지들이 부적합한 내용을 포함하지 않음을 보장하기 위하여 전자 메일 메시지의 필터링을 허용하는 특성을 갖는다. 예를 들어, 그러한 시스템은 단어 "소유", "기밀", 또는 "영업 비밀"과 같은 기밀 정보의 표시를 찾기 위해 아웃고잉 메시지(outgoing message)들을 스캔할 수 있다. 메시지에서 그러한 단어들이 발견되면, 시스템은 그 메시지의 전송을 금지할 수 있다. 그러나, 기밀 정보를 포함하는 모든 전자 메일 메시지가 그러한 단어들을 갖는 것은 아니다. 예를 들어, 설계 팀의 피고용인들은 새로운 아이디어에 대해 비공식적 피드백을 얻기 위해 서로에게 전자 메일 메시지를 자주 전송할 수 있다. 그러한 경우에, 전자 메일 메시지들은 전형적으로 기밀성의 공지를 포함하지 않을 것이다. 또한, 의도적으로 경쟁사에게 기밀 정보를 전송하기를 원하는 피고용인은 전달하기 전에 메시지로부터 그러한 단어들을 제거함으로써 그러한 시스템에 의한 검출을 쉽게 피할 수 있다.
전자 메일 메시지에서 및 보다 일반적으로 임의의 아웃고잉 통신(예를 들어, 출판, 뉴스 그룹 포스팅, 및 전자 메일 첨부물)에서 기밀 정보의 존재를 신뢰할 수 있게 검출할 수 있는 시스템을 갖는 것이 바람직할 것이다. 전자 메일 메시지의 경우에, 그러한 시스템은 피고용인이 임의의 수정없이 본래의 전자 메일 메시지를 단순히 전달하는 경우, 피고용인이 본래의 전자 메일 메시지의 부분들을 새로운 전자 메일 메시지에 잘라서 붙여넣는 경우, 피고용인이 부가적인 코멘트와 함께 본래의 전자 메일 메시지의 부분들을 전달하는 경우, 피고용인이 본래의 전자 메일 메시지의 내용을 수정하는 경우 등을 검출할 수 있어야 한다. 게다가, 조직이 생성할 수 있는 전자 메일 메시지들의 양 때문에, 그러한 시스템은 전달을 매우 지연시키지 않고서 및 그러한 검출을 지원하기 위해 부가적인 하드웨어 및 소프트웨어에 상당한 투자를 해야 할 필요없이 전자 메일 메시지에서 그러한 기밀 정보를 신속하게 검출할 수 있는 것이 바람직할 것이다.
통신이 타겟 문서들의 내용에 유사한 내용을 포함하는지를 식별하기 위한 컴퓨터-기반 방법 및 시스템이 제공된다. 시스템은 통신의 키워드에 유사한 키워드들을 포함하는 타겟 문서로서 후보 문서(candidate document)들을 식별한다. 그 후, 시스템은 통신이 후보 문서에 유사한 내용을 포함하는지를 결정하기 위해 후보 문서들을 통신에 비교한다. 통신이 후보 문서들에 유사한 내용을 포함하는 전자 메일 메시지와 같은 아웃고잉 통신인 경우, 시스템은 아웃고잉 통신의 전달을 금지할 수 있다.
아웃고잉 통신이 기밀 정보 또는 기타 타겟 정보를 포함하는지를 검출하기 위한 방법 및 시스템이 제공된다. 일 실시예에서, "기밀 문서"라 칭하는 기밀 정보를 포함하는 문서들의 컬렉션을 갖는 검출 시스템이 제공된다. 예를 들어, 아웃고잉 통신이 전자 메일 메시지인 경우, 기밀 정보를 포함하는 이전에 전송된 전자 메일 메시지들이 기밀 문서일 수 있다. 검출 시스템이 아웃고잉 통신을 제공받으면, 그것은 아웃고잉 통신의 내용을 기밀 문서들의 내용에 비교한다. 만약 비교가 아웃고잉 통신이 기밀 정보를 포함한다는 것을 나타내면, 검출 시스템은 아웃고잉 통신이 조직 외부에 전송되는 것을 금지할 수 있다. 예를 들어, 검출 시스템은 조직의 내부 전자 메일 사용자와 외부 전자 메일 사용자 사이의 전자 메일 게이트웨이의 부분으로서 구현될 수 있다. 이러한 방식으로, 검출 시스템은 아웃고잉 통신의 내용과, 기밀 정보를 포함하는 것으로 알려진 기밀 문서들의 내용 사이의 유사성에 기초하여 기밀 정보를 검출하고, 쉽게 제거될 수 있는 기밀성의 공지에 의존할 필요가 없다.
조직의 피고용인들이 매일 조직 외부에 수백 수천의 전자 메일 메시지를 전송할 수 있고, 조직이 수천의 기밀 문서를 가질 수 있기 때문에, 각 아웃고잉 통신의 각 문장을 각 기밀 문서의 각 문장에 단순히 비교하는 것은 비실용적일 수 있 다. 실제로, 비교의 계산 복잡도가 O(N*M)일 수 있는데, 여기서 N은 기밀 문서의 수이며, M은 아웃고잉 통신의 수이다. 일 실시예에서, 검출 시스템은 아웃고잉 통신에서 기밀 정보가 신속히 식별될 수 있음을 보장하기 위하여 여러 보조 데이터 구조를 사용하여 기밀 문서들을 조직한다. 검출 시스템은 기밀 문서들의 키워드들을 그 키워드들을 포함하는 기밀 문서들에 매핑하는 인덱스를 생성할 수 있다. 예를 들어, 몇몇 기밀 문서들이 "새로운 제품 릴리즈"라는 구를 포함할 수 있다. 그러한 경우에, 키워드 "새로운", "제품", 및 "릴리즈"는 이들의 기밀 문서들 각각에 매핑될 수 있다. 검출 시스템이 아웃고잉 통신을 수신하면, 아웃고잉 통신의 키워드들을 식별한다. 그 후 검출 시스템은 어떤 기밀 문서가 유사한 키워드를 포함하는지를 식별하기 위해 키워드 인덱스를 사용할 수 있다. 예를 들어, 검출 시스템은 아웃고잉 통신과 상당한 수의 키워드를 공통으로 갖는 기밀 문서들을 선택할 수 있다. 그 후, 검출 시스템은 아웃고잉 통신이 실제로 기밀 정보를 포함하는지를 결정하기 위하여 아웃고잉 통신의 내용을 "후보 문서"로도 불리는 식별된 기밀 문서들에 비교할 수 있다. 예를 들어, 만약 아웃고잉 통신이 키워드 "새로운", "제품", 및 "릴리즈"를 포함하지만 각 키워드가 다른 문장에서 사용된다면, 검출 시스템은 구 "새로운 제품 릴리즈"를 포함하는 몇 기밀 문서들을 식별할 수 있다. 그러나, 검출 시스템이 아웃고잉 통신의 내용을 후보 문서들의 실제 내용에 비교할 때, 그것은 유사성을 검출하지 않을 것이고, 따라서 아웃고잉 통신이 전송되도록 허용할 것이다. 검출 시스템은 문서 내에서 키워드들을 식별하기 위한 다양한 기술들을 사용할 수 있다. 예를 들어, 검출 시스템은 키워드들을 식별하기 위하여 역 문서 빈도 메트릭(inverse document frequency metric)(즉, "TF*IDF")에 의해 용어 빈도를 사용할 수 있다. 본 분야에서 숙련된 기술을 가진 자들은 다른 메트릭들이 사용될 수 있다는 점을 잘 알 것이다. 예를 들어, 검출 시스템은 문서에서 단어에 주어진 강조(예를 들어, 폰트 크기, 폰트 가중치, 및 밑줄), 문서의 메타데이터(예를 들어, 키워드 속성, 요약 속성, 및 제목 속성) 등을 고려할 수 있다. 키워드 인덱스를 사용함으로써, 검출 시스템은 기밀 문서들을 또다른 비교를 위한 후보 문서들의 집합으로 효율적으로 좁힐 수 있다.
일 실시예에서, 검출 시스템은 어떤 후보 문서들이 아웃고잉 통신에 유사한지의 식별을 돕기 위해 해시 테이블과 같은 보조 데이터 구조를 사용한다. 검출 시스템은 각 문장에 대해 유도된 해시 코드를 문장을 포함하는 기밀 문서들에 매핑하는 문장 해시 테이블을 생성할 수 있다. 검출 시스템은 각 문장에 대해 해시 코드를 생성하기 위하여 기밀 문서들의 각 문장에 해시 함수를 적용함으로써 문장 해시 테이블을 생성한다. 그 후 검출 시스템은 기밀 문서들 내에서 대응하는 문장들에 대한 해시 코드들의 매핑을 저장한다. 검출 시스템이 아웃고잉 통신에 대한 후보 문서들을 식별한 후, 검출 시스템은 아웃고잉 통신의 문장들에 대해 해시 코드들을 생성한다. 검출 시스템은 어떤 후보 문서들이 동일한 해시 코드들을 갖는 문장들을 포함하는지를 식별하기 위하여, 생성된 해시 코드들을 사용한다. 그 후 검출 시스템은 그들이 부합하는지(즉, 정확히 부합하는지 또는 유사한지)를 결정하기 위하여, 식별된 문장들과 아웃고잉 통신의 대응하는 문장을 비교할 수 있다. 부합의 정도에 의존하여(예를 들어, 아웃고잉 통신의 문장들이 기밀 문서들의 문장들에 부합하는 횟수), 검출 시스템은 아웃고잉 통신을 기밀 정보를 포함하는 것으로서 표시할 수 있다. 아웃고잉 통신의 프로세스의 속도를 증진하기 위하여, 검출 시스템은 기밀 문서 및 아웃고잉 통신의 "주요 문장(key sentences)"만을 분석할 수 있다. 예를 들어, 주요 문장은 단락의 주제 문장(topic sentence)에 대응할 수 있다.
일 실시예에서, 검출 시스템은 어떤 후보 문서들이 아웃고잉 통신에 유사한지의 식별을 돕기 위해 키워드-문장 인덱스와 같은 또다른 보조 데이터 구조를 사용할 수 있다. 검출 시스템은 키워드를 포함하는 기밀 문서들 내의 문장들에 기밀 문서들의 키워드들을 매핑하는 키워드-문장 인덱스를 생성할 수 있다. 검출 시스템이 후보 문서들을 식별한 후에, 검출 시스템은 아웃고잉 통신의 각 문장과 후보 문서들의 각 문장 사이의 유사성을 계산하기 위해 키워드-문장 인덱스를 사용할 수 있다. 검출 시스템은 코사인 유사성(cosine similarity) 및 편집 거리(edit distance)와 같은 다양한 유사성 메트릭 중 임의의 것을 사용할 수 있다. 유사성의 정도에 기초하여(예를 들어, 아웃고잉 통신의 문장들에 유사한 기밀 문서들의 문장의 수), 검출 시스템은 아웃고잉 통신을 기밀 정보를 포함하는 것으로서 표시한다.
일 실시예에서, 검출 시스템은 모든 문장에 대해 분석을 수행하기보다, 기밀 문서 및 아웃고잉 통신의 "주요 문장(key sentence)"들에 기초하여 분석한다. "주요 문장"은 기밀 문서 또는 기밀 문서 내의 단락의 주요 아이디어를 나타내는 문장이다. 검출 시스템은 다양한 방식으로 문서의 주요 문장을 식별할 수 있다. 검출 시스템은 단락에 대한 단락의 각 문장의 유사성을 계산할 수 있다. 단락에 대한 가장 큰 유사성을 갖는 문장은 단락의 기밀 정보를 나타내고, 따라서 단락의 가장 중요한 문장인 단락의 주요 문장으로 여겨질 수 있다. 유사성을 계산하기 위하여, 검출 시스템은 단락 및 각 문장을 키워드에 의해 나타낼 수 있다. 그 후 검출 시스템은 단락의 키워드들에 대한 각 문장의 키워드들 사이의 유사성을 계산한다. 검출 시스템은 가장 큰 유사성을 갖는 문장을 주요 문장으로서 선택한다. 대안적으로, 검출 시스템은 단락에 대한 문장의 중요성을 계산하기 위하여 역 문장 빈도 메트릭(즉, TF*ISF)에 의해 용어 빈도를 사용하여 주요 문장들을 식별할 수 있다. 역 문서 빈도와 같이 역 문장 빈도는 그 단어를 포함하는 문장의 수에 의해 나누어진 문서 내의 문장들의 수를 반영한다. 검출 시스템은 문장 내에서 그 단어의 발생 횟수를 문장의 역 문장 빈도와 곱셈함으로써 문장에 대한 단어의 중요성을 계산한다. 그 후 검출 시스템은 문장 내의 단어들의 중요성의 평균에 대한 각 문장의 중요성을 설정할 수 있다. 검출 시스템은 가장 큰 중요성을 갖는 문장들을 주요 문장들로서 선택한다. 본 분야에서 숙련된 기술을 가진 자들은 주요 문장들이 단락별에 의해서보다, 문서에 대한 문장의 전체 중요성 또는 유사성으로부터 유도될 수 있다는 점을 잘 알 것이다.
일 실시예에서, 검출 시스템은 다양한 방식으로 문서들을 기밀 문서들의 컬렉션에 추가할 수 있다. 검출 시스템은 관리자가 기밀 문서들을 컬렉션에 제출할 수 있는 사용자 인터페이스를 제공할 수 있다. 또한, 검출 시스템은 문서들의 전체를 분석할 수 있고, 어떤 문서들이 기밀성의 공지를 갖는지 검출할 수 있는 서브 시스템을 가질 수 있다. 예를 들어, 표시는 문서의 하단 또는 헤더의 "기밀"이라는 단어일 수 있다.
본 분야에서 숙련된 기술을 가진 자들은 검출 시스템이 전자 메일 시스템을 통해 전송된 기밀 정보를 검출하기 위해서 이외에, 다양한 환경에서 유사한 내용을 검출하기 위해 사용될 수 있다는 점을 잘 알 것이다. 검출 시스템은 뉴스 및 토론 그룹 포스팅, 인스턴트 메시지, 전자 메일 첨부물, 보도 자료, 전자 프리젠테이션, 출판 기사, 음성 통신 시스템에 의해 배포된 메시지, 웹 페이지 등과 같은 임의의 유형의 인커밍 및 아웃고잉 통신에서 유사한 내용을 검출하기 위하여 사용될 수 있다. 웹-기반 토론 그룹에의 포스팅의 경우에, 검출 시스템은 웹 브라우저와 통합될 수 있다. 검출 시스템은 또한 통신의 내용을 적절하게 복호 및 암호화하기 위해 구현될 수 있다. 검출 시스템은 임의의 유형의 타겟 정보를 식별하기 위해 사용될 수 있고, 전자 메일 메시지의 기밀 정보에 제한되지 않는다. 타겟 정보는 피고용인이 어떤 유형의 전자 메일 메시지를 전송하고 있는지를 모니터링하기 위하여 사용될 수 있다. 예를 들어, 타겟 정보는 스케쥴링 메시지, 개인용 메시지, 문제 보고 메시지, 도움 메시지 등과 같이, 피고용인에 의해 전송된 전형적인 메시지들을 나타내는 템플릿(template) 전자 메일 메시지의 컬렉션일 수 있다. 검출 시스템은 액세스된 웹 페이지가 바람직하지 않은 내용을 포함하는지를 검출하기 위해 사용될 수 있다.
도 1은 일 실시예에서 검출 시스템의 컴포넌트들을 도시하는 블럭도이다. 검출 시스템(100)은 문서 스토어 데이터 구조들(101-103), 데이터 구조 초기화 컴 포넌트들(111-113) 및 검출 컴포넌트들(121-124)을 포함한다. 문서 스토어 데이터 구조들은 기밀 문서 스토어(101), 키워드 인덱스(102) 및 문장 해시 테이블(103)을 포함한다. 검출 시스템은 기밀 문서들을 기밀 문서 스토어에 두기 전에 프로세싱할 수 있다. 예를 들어, 전자 메일 메시지의 경우에, 검출 시스템은 From:, To:, 및 Subject: 정보를 떼어낼 수 있고, 내용의 인사 및 맺음말 부분을 떼어낼 수 있다. 검출 시스템은 또한 대문자 제거, 단어 내에서 알파벳이 아닌 문자들 조정(예를 들어, "n*w d*sign")과 같은 다양한 방식으로 나머지 내용을 정규화할 수 있고, 기밀 정보를 불명료하게 하는 전송자의 시도를 방해하기 위해 기타 조정을 행할 수 있다. 키워드 인덱스는 키워드들을 포함하는 기밀 문서들에 기밀 문서들의 키워드를 매핑한다. 일 실시예에서, 키워드 인덱스는 또한 키워드를 포함하는 각 기밀 문서 내의 문장들을 식별할 수 있다. 대안적으로, 문서 스토어 데이터 구조는 또한 키워드들을 포함하는 기밀 문서들의 주요 문장들에 키워드들을 매핑하는 키워드/주요 문장 인덱스를 포함할 수 있다. 문장 해시 테이블은 문장들을 포함하는 기밀 문서들에 문장들(예를 들어, 주요 문장들)의 해시 코드를 매핑한다. 데이터 구조 초기화 컴포넌트는 키워드 인덱스 생성 컴포넌트(111), 문장 해시 테이블 생성 컴포넌트(112), 및 주요 문장 식별 컴포넌트(113)를 포함한다. 키워드 인덱스 생성 컴포넌트는 기밀 문서 스토어의 문서들에 대한 키워드 인덱스를 생성한다. 키워드 인덱스 생성 컴포넌트는 역 문서 빈도 메트릭에 의해 용어 빈도에 기초하여 키워드들을 식별할 수 있다. 문장 해시 테이블 생성 컴포넌트는 기밀 문서 내부의 문장들에 주요 문장들에 대한 해시 코드들을 매핑하기 위해 문장 해시 테이블을 초 기화한다. 문장 해시 테이블 생성 컴포넌트는 주요 문장들을 식별하기 위해 주요 문장 식별 컴포넌트를 인보크한다. 검출 컴포넌트는 후보 문서 선택 컴포넌트(122), 완전 부합 카운트 컴포넌트(123), 및 불완전 부합 카운트 컴포넌트(124)를 인보크하는 부합 검출 컴포넌트(121)를 포함한다. 부합 검출 컴포넌트는 먼저 아웃고잉 통신에 유사할 수 있는 후보 문서들을 식별하기 위해 후보 문서 선택 컴포넌트를 인보크한다. 그 후 부합 검출 컴포넌트는 후보 문서들의 문장들이 아웃고잉 통신의 문장들에 부합하는지를 결정하기 위해 완전 부합 카운트 컴포넌트를 인보크한다. 만약 그렇다면, 부합의 정도에 의존하여, 부합 검출 컴포넌트는 아웃고잉 통신이 기밀 정보를 포함함을 나타낸다. 만약 완전 부합의 정도가 기밀 정보를 나타내기에 충분하지 않으면, 부합 검출 컴포넌트는 아웃고잉 통신의 문장들이 후보 문서들의 문장들에 유사한지(예를 들어, 완전 부합보다는 불완전 부합)를 식별하기 위해 불완전 부합 카운트 컴포넌트를 인보크할 수 있다. 만약 그렇다면, 유사성의 정도에 의존하여, 부합 검출 컴포넌트는 아웃고잉 통신이 기밀 정보를 포함함을 나타낸다. 본 분야에서 숙련된 기술을 가진 자들은 검출 시스템의 구현에 부합 검출 컴포넌트의 다양한 조합이 사용될 수 있다는 점을 잘 알 것이다. 예를 들어, 검출 시스템은 후보 문서 선택 컴포넌트 및 불완전 부합 카운트 컴포넌트를 사용하지만, 완전 부합 카운트 컴포넌트는 사용하지 않을 수 있다. 검출 시스템은 또한 적합한 동작이 행해질 수 있도록(예를 들어, 보안 직원에게 알리고 아웃고잉 통신의 전송을 금지함) 부합의 정도의 등급(예를 들어, 극심히 유사, 매우 유사, 유사, 및 유사하지 않음)을 제공할 수 있다. 본 분야에서 숙련된 기술을 가진 자 들은 아웃고잉 통신이 정의된 집합의 수신자 외부에 전송된 임의의 통신에 대응할 수 있다는 점을 잘 알 것이다. 검출 시스템은 또한 타겟 정보를 상이한 레벨의 중요성으로 분리할 수 있다(예를 들어, 극심히 기밀, 매우 기밀, 및 기밀). 검출 시스템은 상이한 레벨의 중요성을 갖는 통신을 수신하도록 허가된 상이한 집합의 수신자들을 정의할 수 있다.
검출 시스템이 구현되는 컴퓨팅 장치는 중앙 프로세싱 유닛, 메모리, 입력 장치(예를 들어, 키보드 및 포인팅 장치), 출력 장치(예를 들어, 디스플레이 장치), 및 저장 장치(예를 들어, 디스크 드라이브)를 포함할 수 있다. 메모리 및 저장 장치는 검출 시스템을 구현하는 명령어들을 포함할 수 있는 컴퓨터-판독가능 매체이다. 또한, 데이터 구조 및 메시지 구조는 통신 링크 상의 신호와 같은 데이터 전송 매체를 통해 저장되거나 전송될 수 있다. 인터넷, 근거리 통신망, 광역 통신망 또는 점대점 전화 연결과 같은 다양한 통신 링크가 사용될 수 있다.
검출 시스템은 개인용 컴퓨터, 서버 컴퓨터, 포켓형 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 프로그래밍가능 가전기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등을 포함하는 다양한 운영 환경에서 구현될 수 있다.
검출 시스템은 하나 이상의 컴퓨터 또는 기타 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터-실행가능 명령어들의 일반적 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 전형적으 로, 프로그램 모듈의 기능은 다양한 실시예에서 원하는 대로 결합되거나 분산될 수 있다.
도 2는 일 실시예에서 도 1의 검출 시스템의 데이터 구조들을 도시하는 블럭도이다. 키워드 인덱스(201) 및 문장 해시 테이블(211)은 키워드 및 문장을 기밀 문서 스토어(즉, 타겟 정보 스토어)의 기밀 문서들(250)에 매핑한다. 키워드 인덱스는 기밀 문서들의 각 키워드에 대한 엔트리(202)를 포함한다. 각 엔트리는 그 키워드를 포함하는 각 문서에 대한 서브-엔트리(203)를 포함한다. 일 실시예에서, 키워드 인덱스는 키워드를 포함하는 기밀 문서의 주요 문장에 키워드를 매핑하는 보조 데이터 구조를 또한 포함할 수 있다. 문장 해시 테이블은 각 문장 해시 코드에 대한 엔트리(212)를 포함한다. 각 엔트리는 그 문장 해시 코드에 대응하는 문서 내의 특정 문장에 매핑하는 서브-엔트리들(213)을 포함할 수 있다. 예를 들어, 만약 두 기밀 문서가 동일한 주요 문장을 포함한다면, 두 문장에 대한 문장 해시 코드가 동일할 것이다. 또한, 해시 함수는 두 상이한 문장을 동일한 해시 코드에 매핑할 수 있다. 따라서, 서브-엔트리들은 충돌하는 해시 코드들의 체인을 나타낸다. 본 분야에서 숙련된 기술을 가진 자들은 키워드 인덱스 및 문장 해시 테이블이 어레이, 2진 트리, 링크드 리스트 및 해시 테이블과 같은 다양한 데이터 구조 기술을 사용하여 구현될 수 있으며, 도시된 데이터 구조들은 검출 시스템의 데이터의 하나의 가능한 논리적 조직을 나타낸다는 점을 잘 알 것이다.
도 3은 일 실시예에서 키워드 인덱스 생성의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 기밀 문서의 각 단어에 대해 역 문서 빈도 메트릭을 생성하고, 그 후 역 문서 빈도 메트릭에 의해 용어 빈도를 사용하여 문서에 대한 각 단어의 중요성을 계산한다. 그 후 컴포넌트는 각 문서의 가장 중요한 단어들을 그 문서의 키워드로서 선택하고, 각 키워드에 대한 대응하는 엔트리를 키워드 인덱스에 추가한다. 블럭(301)에서, 컴포넌트는 각 문서에서 각 단어의 수를 나타내는 문서 * 단어 행렬(document-by-word matrix)을 생성한다. 컴포넌트는 이 행렬로부터 역 문서 빈도 및 용어 빈도를 도출한다. 블럭(302-304)에서, 컴포넌트는 기밀 문서 내의 각 단어에 대해 역 문서 빈도를 계산하면서 루핑한다. 컴포넌트는 문서에서 중지 단어(예를 들어, "and", "the", 및 "a")를 무시할 수 있다. 블럭(302)에서, 컴포넌트는 기밀 문서들의 다음 단어를 선택한다. 결정 블럭(303)에서, 만약 기밀 문서들의 모든 단어들이 이미 선택되었다면, 컴포넌트는 블럭(305)에서 계속되고, 그렇지 않으면 컴포넌트는 블럭(304)에서 계속된다. 블럭(304)에서, 컴포넌트는 선택된 단어를 포함하는 기밀 문서의 수에 의해 나누어진 기밀 문서들의 수의 로그로서 선택된 단어에 대한 역 문서 빈도를 계산한다. 그 후 컴포넌트는 기밀 문서들의 다음 단어를 선택하기 위해 블럭(302)으로 루핑한다. 블럭들(305-311)에서, 컴포넌트는 각 문서를 선택하고 문서에 대한 그 문서 내의 각 단어의 중요성을 계산하면서 루핑한다. 블럭(305)에서, 컴포넌트는 다음 기밀 문서를 선택한다. 결정 블럭(306)에서, 만약 모든 기밀 문서가 이미 선택되었다면, 컴포넌트는 완료하고, 그렇지 않으면 컴포넌트는 블럭(307)에서 계속된다. 블럭(307)에서, 컴포넌트는 선택된 기밀 문서의 다음 단어를 선택한다. 결정 블럭(308)에서, 만약 선택된 기밀 문서의 모든 단어가 이미 선택되었다면, 컴포넌트는 다음 기밀 문서를 선택하 기 위해 블럭(305)으로 루핑하고, 그렇지 않으면 컴포넌트는 블럭(309)에서 계속된다. 블럭(309)에서, 컴포넌트는 용어 빈도(즉, 선택된 기밀 문서 내에서 선택된 단어의 발생 수)와 선택된 단어에 대한 역 문서 빈도의 곱으로서 선택된 기밀 문서에 대한 선택된 단어의 중요성을 계산한다. 본 분야에서 숙련된 기술을 가진 자들은 문서에 대한 단어의 중요성이 여러 상이한 방식으로 계산될 수 있다는 점을 잘 알 것이다. 예를 들어, 역 문서 빈도 메트릭에 의한 용어 빈도는 문서 내의 단어들의 총 수를 고려하기 위해 정규화될 수 있다. 결정 블럭(310)에서, 만약 중요성이 임계 중요성보다 크면, 컴포넌트는 블럭(311)에서 계속되고, 그렇지 않으면 컴포넌트는 선택된 문서의 다음 단어를 선택하기 위해 블럭(307)에서 계속된다. 블럭(311)에서, 컴포넌트는 선택된 문서에 선택된 단어를 매핑하는 키워드 인덱스에 엔트리를 추가한다. 엔트리는 또한 기밀 문서의 문장이 아웃고잉 통신의 문장에 유사한지를 결정할 때의 사용을 위해 계산된 중요성을 포함할 수 있다. 그 후 컴포넌트는 선택된 기밀 문서의 다음 키워드를 선택하기 위해 블럭(307)으로 루핑한다.
도 4는 일 실시예에서 문장 해시 테이블 생성 컴포넌트의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 기밀 문서의 각 주요 문장에 대한 문장 해시 테이블에 엔트리를 추가한다. 블럭(401)에서, 컴포넌트는 다음 기밀 문서를 선택한다. 결정 블럭(402)에서, 만약 모든 기밀 문서가 이미 선택되었다면, 컴포넌트는 리턴하고, 그렇지 않으면 컴포넌트는 블럭(403)에서 계속된다. 블럭(403)에서, 컴포넌트는 선택된 문서의 다음 단락을 선택한다. 결정 블럭(404)에서, 만약 선택된 문서 의 모든 단락이 이미 선택되었다면, 컴포넌트는 다음 기밀 문서를 선택하기 위해 블럭(401)으로 루핑하고, 그렇지 않으면, 컴포넌트는 블럭(405)에서 계속된다. 블럭(405)에서, 컴포넌트는 선택된 단락을 전달하면서 주요 문장 식별 컴포넌트를 인보크한다. 인보크된 컴포넌트는 전달된 단락의 주요 문장(들)의 표시를 리턴한다. 블럭(406)에서, 컴포넌트는 주요 문장에 대한 해시 코드를 생성하기 위해 해시 함수를 인보크하고, 그 후 식별된 주요 문장에 대한 문장 해시 테이블에 엔트리를 추가한다. 본 분야에서 숙련된 기술을 가진 자들은 다양한 해시 함수가 사용될 수 있다는 것을 잘 알 것이다. 예를 들어, 해시 함수는 문장의 각 키워드의 첫 번째 문자로부터 해시 코드를 생성할 수 있다. 그 후 컴포넌트는 선택된 문서의 다음 단락을 선택하기 위해 블럭(403)으로 루핑한다. 본 분야에서 숙련된 기술을 가진 자들은 주요 문장들이 단락별보다 자격이 주어진 문서에 대한 그들의 유사성에 기초하여 도출될 수 있다는 것을 잘 알 것이다.
도 5는 일 실시예에서 단락의 키워드에 대한 문장의 키워드의 유사성에 기초한 주요 문장 식별 컴포넌트의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 각 문장의 키워드와 단락의 키워드 사이의 유사성을 계산한다. 그 후 컴포넌트는 키워드가 단락의 키워드에 가장 유사한 문장을 단락의 주요 문장으로서 선택한다. 블럭(501)에서, 컴포넌트는 단락 내에서 각 키워드의 발생의 수를 리스트하는 키워드 어레이를 생성한다. 블럭(502)에서, 컴포넌트는 단락의 각 문장 내에서 각 키워드의 발생의 수를 나타내는 문장 * 키워드 행렬(sentence-by-keyword matrix)을 생성한다. 블럭(503-505)에서, 컴포넌트는 단락에 대한 각 문장의 유사성을 계산 하면서 루핑한다. 블럭(503)에서, 컴포넌트는 단락의 다음 문장을 선택한다. 결정 블럭(504)에서, 만약 모든 문장이 이미 선택되었다면, 컴포넌트는 블럭(506)에서 계속되고, 그렇지 않으면 컴포넌트는 블럭(505)에서 계속된다. 블럭(505)에서, 컴포넌트는 단락에 대한 선택된 문장의 유사성을 계산한다. 일 실시예에서, 컴포넌트는 행렬 및 어레이에 의해 나타난 바와 같이, 선택된 문장과 단락 사이에 공통인 키워드들의 중요성들의 곱의 합으로서 유사성을 계산할 수 있다. 그 후 컴포넌트는 단락의 다음 문장을 선택하기 위해 블럭(503)으로 루핑한다. 블럭(506)에서, 컴포넌트는 단락에 대해 가장 큰 유사성을 갖는 문장을 선택한다. 그 후 컴포넌트는 리턴한다. 일 실시예에서, 컴포넌트는 단락의 여러 주요 문장을 식별할 수 있다. 첫 번째 주요 문장이 식별된 후에, 컴포넌트는 단락의 키워드로부터 그 주요 문장의 키워드를 삭제하고, 나머지 문장들에 대한 유사성 계산을 반복하며, 그 후 가장 큰 유사성을 갖는 문장을 또다른 주요 문장으로서 선택할 수 있다. 컴포넌트는 원하는 수의 주요 문장들이 식별될 때까지 이러한 프로세스를 반복할 수 있다.
도 6은 일 실시예에서 역 문장 빈도에 기초한 주요 문장 식별 컴포넌트의 프로세싱을 도시하는 흐름도이다. 따라서, 도 5 및 6은 주요 문장을 식별하기 위한 대안적인 방식을 나타낸다. 본 분야에서 숙련된 기술을 가진 자들은 주요 문장을 식별하기 위하여 둘 중 하나의 방식 또는 방식들의 조합이 사용될 수 있다는 점을 잘 알 것이다. 컴포넌트는 각 키워드에 대하여 역 문장 빈도를 계산한다. 그 후 컴포넌트는 각 문장의 각 단어에 대하여 역 문장 빈도 메트릭에 의한 용어 빈도와 같은 중요성을 계산한다. 그 후 컴포넌트는 문장의 키워드들의 중요성을 합산 함으로써 문장의 중요성을 계산한다. 가장 높은 중요성을 갖는 문장이 단락의 주요 문장으로 고려된다. 블럭(601)에서, 컴포넌트는 문장 * 키워드 행렬(sentence-by-keyword matrix)을 생성한다. 블럭들(602-604)에서, 컴포넌트는 단락의 키워드들을 선택하고 그들의 역 문장 빈도를 계산하면서 루핑한다. 블럭(602)에서, 컴포넌트는 단락의 다음 키워드를 선택한다. 결정 블럭(603)에서, 만약 단락의 모든 키워드들이 이미 선택되었다면, 컴포넌트는 블럭(605)에서 계속되고, 그렇지 않으면 컴포넌트는 블럭(604)에서 계속된다. 블럭(604)에서, 컴포넌트는 선택된 키워드를 포함하는 단락 내의 문장의 수로 나누어진 단락 내의 문장 수의 로그로서 선택된 키워드에 대한 역 문장 빈도를 계산한다. 블럭들(605-610)에서, 컴포넌트는 단락에 대한 각 문장의 중요성을 계산하면서 루핑한다. 블럭(605)에서, 컴포넌트는 단락의 다음 문장을 선택한다. 결정 블럭(606)에서, 만약 모든 문장들이 이미 선택되었다면, 컴포넌트는 블럭(611)에서 계속되고, 그렇지 않으면 컴포넌트는 블럭(607)에서 계속된다. 블럭(607)에서, 컴포넌트는 선택된 문장의 다음 키워드를 선택한다. 결정 블럭(608)에서, 선택된 문장의 모든 키워드들이 이미 선택되었다면, 컴포넌트는 블럭(610)에서 계속되고, 그렇지 않으면 컴포넌트는 블럭(609)에서 계속된다. 블럭(609)에서, 컴포넌트는 문장 내의 키워드의 발생 수와 문장의 역 문장 빈도의 곱으로서 선택된 문장에 대한 선택된 키워드의 중요성을 계산한다. 그 후 컴포넌트는 선택된 문장의 다음 키워드를 선택하기 위하여 블럭(607)으로 루핑한다. 블럭(610)에서, 컴포넌트는 선택된 문장의 키워드들의 수에 의해 나누어진 선택된 문장의 키워드들의 중요성(즉, 평균 키워드 중요성)을 합산함으로써 단 락에 대한 선택된 문장의 중요성을 계산한다. 그 후 컴포넌트는 다음 문장을 선택하기 위하여 블럭(605)으로 루핑한다. 블럭(611)에서, 컴포넌트는 가장 높은 중요성을 갖는 문장을 주요 문장으로서 선택하고, 그 후 리턴한다.
도 7은 일 실시예에서 부합 검출 컴포넌트의 프로세싱을 도시하는 흐름도이다. 블럭(701)에서, 컴포넌트는 부합에 대한 후보 문서를 식별하기 위하여 후보 문서 선택 컴포넌트를 인보크한다. 블럭(702)에서, 컴포넌트는 아웃고잉 통신의 문장들과 기밀 문서들의 문장들 사이에 완전 부합의 정도를 식별하기 위하여 완전 부합 카운트 컴포넌트를 인보크한다. 결정 블럭(703)에서, 만약 완전 부합의 정도가 임계값을 초과하면, 컴포넌트는 완전 부합이 검출되었다는 표시를 리턴하고, 그렇지 않으면 컴포넌트는 블럭(704)에서 계속된다. 블럭(704)에서, 컴포넌트는 기밀 문서의 문장들과 아웃고잉 통신의 문장들 사이의 불완전 부합의 정도를 식별하기 위하여 불완전 부합 카운트 컴포넌트를 인보크한다. 결정 블럭(705)에서, 만약 불완전 부합의 정도가 임계값을 초과하면, 컴포넌트는 불완전 부합이 발견되었다는 표시를 리턴하고, 그렇지 않으면 컴포넌트는 어떠한 부합도 발견되지 않았다는 표시를 리턴한다.
도 8은 일 실시예에서 후보 문서 선택 컴포넌트의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 아웃고잉 통신의 키워드들을 식별하고 그 후 유사한 키워드들을 갖는 문서들을 후보 문서로서 식별한다. 블럭(801)에서, 컴포넌트는 아웃고잉 통신의 단어들의 단어 어레이를 생성한다. 블럭들(802-804)에서, 컴포넌트는 아웃고잉 통신의 단어들의 중요성을 계산하면서 루핑한다. 블럭(802)에서, 컴포넌트는 아웃고잉 통신의 다음 단어를 선택한다. 결정 블럭(803)에서, 만약 아웃고잉 통신의 모든 단어들이 이미 선택되었다면, 컴포넌트는 블럭(805)에서 계속되고, 그렇지 않으면 컴포넌트는 블럭(804)에서 계속된다. 블럭(804)에서, 컴포넌트는 역 문서 빈도 메트릭에 의한 용어 빈도를 사용하여 선택된 단어의 중요성을 계산하고, 다음 단어를 선택하기 위하여 블럭(802)으로 루핑한다. 역 문서 빈도는 기밀 문서들 내의 역 문서 빈도를 나타낼 수 있다. 블럭들(805-809)에서, 컴포넌트는 각 기밀 문서를 선택하고 아웃고잉 통신에 대한 기밀 문서의 유사성을 계산하면서 루핑한다. 블럭(805)에서, 컴포넌트는 다음 기밀 문서를 선택한다. 결정 블럭(806)에서, 만약 모든 기밀 문서들이 이미 선택되었다면, 컴포넌트는 완료하고, 그렇지 않으면 컴포넌트는 블럭(807)에서 계속된다. 블럭(807)에서, 컴포넌트는 기밀 문서들과 아웃고잉 통신 사이에 공통인 키워드들의 중요성들의 곱을 합산함으로써 아웃고잉 통신에 대한 선택된 기밀 문서의 유사성을 계산한다. 결정 블럭(808)에서, 만약 유사성이 임계 유사성을 초과하면, 컴포넌트는 블럭(809)에서 계속되고, 그렇지 않으면 컴포넌트는 다음 기밀 문서를 선택하기 위하여 블럭(805)으로 루핑한다. 블럭(809)에서, 컴포넌트는 선택된 문서를 후보 문서로서 선택하고 그 후 다음 기밀 문서를 선택하기 위하여 블럭(805)으로 루핑한다.
도 9는 일 실시예에서 완전 부합 카운트 컴포넌트의 프로세싱을 도시하는 흐름도이다. 컴포넌트는 아웃고잉 통신의 문장이 후보 문서 내의 문장과 부합하는 횟수를 카운트한다. 블럭(901)에서, 컴포넌트는 아웃고잉 통신의 다음 단락을 선택한다. 결정 블럭(902)에서, 만약 모든 단락이 이미 선택되었다면, 컴포넌트는 리턴하고, 그렇지 않으면 컴포넌트는 블럭(903)에서 계속된다. 블럭(903)에서, 컴포넌트는 선택된 단락의 주요 문장을 식별하기 위하여 주요 문장 식별 컴포넌트를 인보크한다. 블럭(904)에서, 컴포넌트는 주요 문장에 대한 해시 코드를 생성하기 위하여 해시 함수를 인보크한다. 그 후 컴포넌트는 주요 문장이 후보 문서들의 문장들과 부합하는지를 결정하기 위하여 문장 해시 테이블의 해시 엔트리(hashed-to entry)의 각 서브-엔트리를 검사한다. 컴포넌트는 각 해시 문장(hashed-to sentence)에 대해 단어별 검사를 수행할 수 있다. 결정 블럭(905)에서, 만약 부합이 발견되었다면, 컴포넌트는 블럭(906)에서 계속되고, 그렇지 않으면 컴포넌트는 아웃고잉 통신의 다음 단락을 선택하기 위하여 블럭(901)으로 루핑한다. 블럭(906)에서, 컴포넌트는 아웃고잉 통신에 대한 부합 카운트를 발견된 부합 수만큼 증가시킨다. 그 후 컴포넌트는 아웃고잉 통신의 다음 단락을 선택하기 위하여 블럭(901)으로 루핑한다.
도 10은 일 실시예에서 불완전 부합 카운트 컴포넌트의 프로세싱을 도시하는 흐름도이다. 블럭(1001)에서, 컴포넌트는 아웃고잉 통신의 다음 단락을 선택한다. 결정 블럭(1002)에서, 만약 모든 단락들이 이미 선택되었다면, 컴포넌트는 리턴하고, 그렇지 않으면 컴포넌트는 블럭(1003)에서 계속된다. 블럭(1003)에서, 컴포넌트는 다음 후보 문서를 선택한다. 결정 블럭(1004)에서, 만약 모든 후보 문서들이 이미 선택되었다면, 컴포넌트는 아웃고잉 통신의 다음 단락을 선택하기 위하여 블럭(1001)으로 루핑하고, 그렇지 않으면 컴포넌트는 블럭(1005)에서 계속된다. 블럭(1005)에서, 컴포넌트는 선택된 후보 문서의 다음 주요 문장을 선택한다. 블럭 (1006)에서, 컴포넌트는 선택된 문장들 사이의 코사인 유사성(cosine similarity) 또는 편집 거리(edit distance)를 계산한다. 결정 블럭(1007)에서, 만약 유사성 또는 거리가 임계값을 초과하면, 컴포넌트는 블럭(1008)에서 계속되고, 그렇지 않으면 컴포넌트는 다음 후보 문서를 선택하기 위하여 블럭(1003)으로 루핑한다. 블럭(1008)에서, 컴포넌트는 아웃고잉 통신에 대한 유사성 카운트를 증가시키고, 그 후 다음 후보 문서를 선택하기 위하여 블럭(1003)으로 루핑한다.
본 분야에서 숙련된 기술을 가진 자들은 검출 시스템의 특정 실시예들이 예시를 위하여 기술되었지만, 본 발명의 취지 및 범위를 벗어나지 않고서 다양한 변경이 행해질 수 있다는 점을 잘 알 것이다. 따라서, 본 발명은 첨부된 특허청구범위에 의해서를 제외하면 제한되지 않는다.
전자 메일 메시지에서 및 보다 일반적으로 임의의 아웃고잉 통신(예를 들어, 출판, 뉴스 그룹 포스팅 및 전자 메일 첨부물)에서 기밀 정보의 존재를 신뢰할 수 있게 검출할 수 있는 시스템을 제공한다.

Claims (73)

  1. 프로세서 및 메모리를 갖는 컴퓨터 시스템에서 구현되는, 아웃고잉 통신(outgoing communication)이 기밀 정보를 포함하는지를 식별하기 위한 방법으로서,
    상기 컴퓨터 시스템에 의해,
    기밀 정보를 포함하는 문서들을 제공하고,
    제공된 상기 문서들 내 각 단어에 대해, 상기 단어에 대한 중요성 값(importance value)을 결정하고, 상기 단어의 중요성이 제1 임계값을 초과하는 경우에, 상기 단어를 키워드로 지정하고,
    각 키워드를 그 키워드를 포함한 상기 제공된 문서들에 매핑하는 키워드 인덱스를 생성하고,
    문장들의 해시 코드들을, 그 문장들을 포함하는 상기 제공된 문서들에 매핑하는 문장 해시 테이블을 생성함으로써,
    인덱스들을 생성하는 단계; 및
    상기 컴퓨터 시스템에 의해,
    상기 키워드 인덱스 및 문장 해시 테이블이 생성된 후에 아웃고잉 통신을 수신하고,
    상기 아웃고잉 통신의 키워드를 식별 - 상기 아웃고잉 통신은 키워드 및 비-키워드를 포함함 - 하고,
    상기 아웃고잉 통신의 식별된 키워드에 대한 상기 문서들의 키워드들의 유사성에 기초하여 후보 문서들을 찾아내기 위해 생성된 상기 키워드 인덱스를 사용 - 상기 후보 문서들은 타겟 문서들의 진 부분집합임 - 하고,
    상기 아웃고잉 통신의 문장들의 해시 코드들을 생성하고,
    상기 아웃고잉 통신의 문장들에 매치하는 문장들을 포함하는 후보 문서들을 식별하기 위해, 생성된 상기 문장 해시 테이블을 사용하고,
    식별된 상기 후보 문서들의 문장들을 상기 아웃고잉 통신의 문장들에 대해 비교하고,
    상기 비교가, 문장들의 제2 임계값 수가 매치한다고 나타내는 경우에는, 상기 아웃고잉 통신을 기밀 정보를 포함하는 것으로 플래깅함으로써,
    아웃고잉 통신이 기밀 정보를 포함하는지의 여부를 결정하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제공된 문서들 및 상기 아웃고잉 통신은 전자 메일 메시지들인 방법.
  3. 제2항에 있어서,
    상기 컴퓨터 시스템은 전자 메일 서버인 방법.
  4. 제1항에 있어서,
    상기 수신된 아웃고잉 통신이 기밀 정보를 포함한다고 결정된 경우, 상기 수신된 아웃고잉 통신을 의도된 수신자에게 전달하는 것을 금지하는 단계를 포함하는 방법.
  5. 제1항에 있어서,
    단어들은 역 문서 빈도 메트릭(inverted document frequency metric)에 의한 용어 빈도에 기초하여 키워드가 되는 것으로서 식별되는 방법.
  6. 제1항에 있어서,
    상기 문장 해시 테이블은 문서의 주요 문장에 매핑하는 방법.
  7. 제1항에 있어서,
    키워드들을 포함하는 문서들의 문장들에 키워드들을 매핑하는 키워드 인덱스를 생성하는 단계를 포함하고, 상기 비교하는 단계는 상기 수신된 아웃고잉 통신의 키워드들을 포함하는 문장들을 찾아내기 위하여 상기 키워드 인덱스를 사용하는 단계를 포함하는 방법.
  8. 제7항에 있어서,
    찾아낸 문장이 상기 수신된 아웃고잉 통신의 문장과 유사한 경우, 상기 수신된 아웃고잉 통신은 기밀 정보를 포함하는 방법.
  9. 제1항에 있어서,
    상기 아웃고잉 통신은 전자 메일 메시지인 방법.
  10. 제1항에 있어서,
    상기 아웃고잉 통신은 전자 메일 메시지에의 첨부물인 방법.
  11. 제1항에 있어서,
    상기 아웃고잉 통신은 인스턴트 메시지인 방법.
  12. 제1항에 있어서,
    상기 아웃고잉 통신은 음성 통신인 방법.
  13. 제1항에 있어서,
    상기 아웃고잉 통신은 인터넷 포스팅(Internet posting)인 방법.
  14. 제1항에 있어서, 상기 결정된 키워드들은 상기 제공된 문서들의 단어들의 진 부분집합인 방법.
  15. 컴퓨터 시스템에 의해 문서가 타겟 문서들의 내용과 유사한 내용을 포함하는지를 식별하는 방법을 실행하기 위한 명령어를 포함하는 유형의(tangible) 컴퓨터-판독가능 저장 매체로서, 상기 방법은,
    키워드들을, 상기 키워드들을 포함하는 상기 타겟 문서들로 매핑하는 키워드 인덱스를 생성하고,
    제공된 상기 문서들의 집합 내의 각 문서에 대해,
    상기 문서 내 각 문단에 대해,
    문단 및 문장에 공통인 상기 키워드들에 적어도 부분적으로 기초하여 상기 문단 내의 주요 문장을 식별하고,
    상기 식별된 주요 문장에 대한 해시 코드를 생성하고,
    상기 생성된 해시 코드에 대응하는 위치에서 상기 식별된 주요 문장에 대한 상기 문장 해시 테이블에 엔트리를 추가하여,
    문장들의 해시 코드들을, 상기 문장을 포함하는 상기 타겟 문서들에 매핑하는 문장 해시 테이블을 생성함으로써,
    인덱스들을 생성하는 단계; 및
    상기 문서의 키워드들과 유사한 키워드들을 포함하는 타겟 문서들로서 후보 문서들을 식별하기 위해 생성된 상기 키워드 인덱스를 사용하고,
    상기 문서의 문장들의 해시 코드들을 생성하고,
    상기 문서의 문장들의 상기 해시 코드들에 매치하는 해시 코드들을 갖는 문장들을 포함하는 후보 문서들을 식별하기 위해, 생성된 상기 문장 해시 테이블을 사용하고,
    상기 문서 및 상기 후보 문서들 내의 키워드들에 적어도 부분적으로 기초하여 후보 문서들을 선택하고,
    상기 문서들의 각 문단에 대해, 상기 문단 내의 주요 문장을 식별하고, 상기 주요 문장이 상기 후보 문서들 중 적어도 하나의 주요 문장에 정확하게 매치하는지의 여부를 결정하기 위해 상기 문장 해시 테이블을 확인하고,
    상기 문서의 주요 문장들의 제1 임계값 수가, 선택된 상기 후보 문서들의 주요 문장들에 정확하게 매치하는 경우에는, 상기 문서가 식별된 상기 후보 문서들에 매치한다는 것을 나타내고,
    식별된 상기 후보 문서들의 문장들을 상기 문서의 주요 문장들에 대해 비교하고,
    상기 비교가, 주요 문장들의 제2 임계값 수가 퍼지 매치(fuzzy match)라고 나타내는 경우에는, 상기 문서가 상기 식별된 후보 문서들에 매치한다고 나타냄으로써,
    상기 문서들이 타겟 문서들의 내용과 유사한 내용을 포함하는지의 여부를 결정하는 단계
    를 포함하는, 유형의 컴퓨터-판독가능 저장 매체.
  16. 제15항에 있어서,
    상기 타겟 문서들 및 상기 문서들은 전자 메일 메시지들인 유형의 컴퓨터-판독가능 저장 매체.
  17. 제15항에 있어서,
    상기 키워드들은 역 문서 빈도 메트릭에 의해 용어 빈도에 기초하여 식별되는 유형의 컴퓨터-판독가능 저장 매체.
  18. 제15항에 있어서,
    상기 문장 해시 테이블은 타겟 문서들의 주요 문장들에 매핑하는 유형의 컴퓨터-판독가능 저장 매체.
  19. 제15항에 있어서,
    상기 타겟 문서들은 기밀 정보를 포함하는 유형의 컴퓨터-판독가능 저장 매체.
  20. 제19항에 있어서,
    상기 문서가 기밀 정보를 포함하는 아웃고잉 통신인 경우에는, 상기 아웃고잉 통신의 전송을 금지하는 유형의 컴퓨터-판독가능 저장 매체.
  21. 제15항에 있어서,
    상기 문서들은 전자 메일 메시지들이며, 상기 비교는 관련 전자 메일 메시지들을 찾아내는 유형의 컴퓨터-판독가능 저장 매체.
  22. 제15항에 있어서,
    상기 식별된 후보 문서들의 상기 주요 문장들을 상기 문서의 주요 문장들에 대해 비교하는 단계는,
    상기 문서의 각 주요 문장과 각 식별된 후보 문서의 각 주요 문장 간의 유사성을 결정하는 단계; 및
    결정된 상기 유사성이 제3 임계값을 초과하는 경우에는, 상기 문서에 대한 유사성(similarity count)을 증가시키는 단계
    를 포함하는 유형의 컴퓨터-판독가능 저장 매체.
  23. 메모리 및 프로세서를 갖는 컴퓨터 시스템에서, 아웃고잉 통신이 기밀 정보를 포함하는지의 여부를 식별하기 위한 방법으로서,
    기밀 정보를 포함하는 문서들을 제공하는 단계;
    상기 제공된 문서들 내의 각각의 단어에 대해,
    프로세서에 의해, 상기 단어에 대한 중요성의 값을 결정하고, 상기 단어에 대해 결정된 상기 중요성의 값이 임계값을 초과하는 경우, 상기 단어를 키워드로서 지정하는 단계;
    아웃고잉 통신을 수신하는 단계; 및
    프로세서에 의해, 상기 수신된 아웃고잉 통신이 기밀 정보를 포함하는지의 여부를 판정하기 위해, 상기 수신된 아웃고잉 통신을 상기 제공된 문서들과 비교하는 단계
    를 포함하는 방법.
  24. 제23항에 있어서,
    상기 제공된 문서들 및 상기 아웃고잉 통신은 전자 메일 메시지인 방법.
  25. 제24항에 있어서,
    상기 컴퓨터 시스템은 전자 메일 서버인 방법.
  26. 제23항에 있어서,
    상기 수신된 아웃고잉 통신이 기밀 정보를 포함하는 것으로 판정된 경우, 상기 수신된 아웃고잉 통신을 의도된 수신자에게 전달하는 것을 금지하는 단계를 더 포함하는 방법.
  27. 제23항에 있어서,
    키워드들을, 상기 키워드들을 포함하는 문서들에 매핑하는 키워드 인덱스를 생성하는 단계를 더 포함하고,
    상기 비교하는 단계는 상기 키워드 인덱스를 이용하여, 상기 수신된 아웃고잉 통신의 키워드들에 기초하여 후보 문서들을 찾아내는(locate) 단계를 포함하는 방법.
  28. 제27항에 있어서,
    단어들은 역 문서 빈도 메트릭에 의한 용어 빈도에 기초하는 키워드들로서 식별되는 방법.
  29. 제23항에 있어서,
    문장들로부터 유도된 해시 코드들을, 상기 문장들을 포함하는 문서들에 매핑하는 문장 해시 테이블을 생성하는 단계를 더 포함하고,
    상기 비교하는 단계는 상기 문장 해시 테이블을 이용하여, 상기 수신된 아웃고잉 통신의 문장들을 매칭시키는 문장들을 포함하는 문서들을 찾아내는 단계를 포함하는 방법.
  30. 제29항에 있어서,
    상기 문장 해시 테이블은 문서의 주요 문장(key sentence)에 매핑하는 방법.
  31. 제23항에 있어서,
    키워드들을, 상기 키워드들을 포함하는 문서들의 문장에 매핑하는 키워드 인덱스를 생성하는 단계를 더 포함하고,
    상기 비교하는 단계는 상기 키워드 인덱스를 이용하여, 상기 수신된 아웃고잉 통신의 키워드들을 포함하는 문장들을 찾아내는 단계를 포함하는 방법.
  32. 제31항에 있어서,
    찾아낸 문장이 상기 수신된 아웃고잉 통신의 문장과 유사한 경우, 상기 수신된 아웃고잉 통신은 기밀 정보를 포함하는 방법.
  33. 제23항에 있어서,
    상기 아웃고잉 통신은 전자 메일 메시지인 방법.
  34. 제23항에 있어서,
    상기 아웃고잉 통신은 전자 메일 메시지의 첨부물(attachment)인 방법.
  35. 제23항에 있어서,
    상기 아웃고잉 통신은 인스턴트 메시지인 방법.
  36. 제23항에 있어서,
    상기 아웃고잉 통신은 음성 통신인 방법.
  37. 제23항에 있어서,
    상기 아웃고잉 통신은 인터넷 포스팅인 방법.
  38. 컴퓨터 시스템에 의해 제1 문서가 타겟 문서들의 내용과 유사한 내용을 포함하는지의 여부를 식별하는 동작들을 제어하기 위한 명령어들을 포함하는 컴퓨터-판독가능 저장 매체로서, 상기 동작들은,
    상기 타겟 문서들의 복수의 단어들의 각각에 대해,
    프로세서에 의해, 상기 단어에 대한 중요성의 값을 결정하고, 상기 결정된 중요성의 값을 임계값과 비교하고, 상기 결정된 중요성의 값이 상기 임계값을 초과하는 경우, 상기 단어를 키워드로서 지정하는 동작;
    상기 타겟 문서들의 키워드들과 상기 제1 문서의 키워드들 간의 유사성에 기초하여, 상기 타겟 문서들로부터 후보 문서들을 선택하는 동작; 및
    상기 제1 문서가 후보 문서와 유사한 내용을 포함하는지의 여부를 판정하기 위해 상기 후보 문서들을 상기 제1 문서와 비교하는 동작
    을 포함하는 컴퓨터-판독가능 저장 매체.
  39. 제38항에 있어서,
    상기 선택하는 동작은,
    상기 타겟 문서들의 키워드들을, 상기 키워드들을 포함하는 상기 타겟 문서들에 매핑하는 키워드 인덱스를 생성하고;
    상기 제1 문서의 키워드들을 식별하고; 및
    상기 생성된 키워드 인덱스를 이용하여 상기 제1 문서의 상기 키워드들에 유사한 키워드들을 포함하는 타겟 문서들로서 후보 문서들을 식별하는 것
    을 포함하는 컴퓨터-판독가능 저장 매체.
  40. 제38항에 있어서,
    상기 키워드들은 역 문서 빈도 메트릭에 의한 용어 빈도에 기초하여 식별되는 컴퓨터-판독가능 저장 매체.
  41. 제38항에 있어서,
    상기 동작들은,
    문장들로부터 유도된 해시 코드들을, 상기 문장들을 포함하는 상기 타겟 문서들에 매핑하는 문장 해시 테이블을 생성하는 것을 더 포함하고, 상기 비교하는 동작은 상기 문장 해시 테이블을 이용하여, 상기 제1 문서의 문장들을 매칭시키는 문장들을 포함하는 후보 문서들을 찾아내는 것을 포함하고, 상기 문장 해시 테이블은 상기 제1 문서의 문장들을 식별하기 전에 생성되는 컴퓨터-판독가능 저장 매체.
  42. 제41항에 있어서,
    상기 문장 해시 테이블은 타겟 문서들의 주요 문장들에 매핑하는 컴퓨터-판독가능 저장 매체.
  43. 제38항에 있어서,
    상기 동작들은,
    키워드들을, 상기 키워드들을 포함하는 타겟 문서들의 문장들에 매핑하는 키워드 인덱스를 생성하는 것을 포함하고, 상기 비교하는 동작은 상기 키워드 인덱스를 이용하여 문서의 키워드들을 포함하는 후보 문서들의 문장들을 찾아내는 것을 포함하는 컴퓨터-판독가능 저장 매체.
  44. 제38항에 있어서,
    상기 타겟 문서들은 기밀 정보를 포함하는 컴퓨터-판독가능 저장 매체.
  45. 제38항에 있어서,
    상기 제1 문서가 기밀 정보를 포함하는 아웃고잉 통신인 경우, 상기 아웃고잉 통신의 송신을 금지하는 컴퓨터-판독가능 저장 매체.
  46. 제38항에 있어서,
    상기 문서들은 전자 메일 메시지들이며, 상기 비교하는 명령어는 관련된 전자 메일 메시지들을 발견하는 컴퓨터-판독가능 저장 매체.
  47. 제38항에 있어서,
    상기 동작들은,
    문장들로부터 유도된 해시 코드들을, 상기 문장들을 포함하는 상기 타겟 문서들에 매핑하는 문장 해시 테이블을 생성하고,
    키워드들을, 상기 키워드들을 포함하는 타겟 문서들의 문장들에 매핑하는 키워드 인덱스를 생성하는 것을 더 포함하고,
    상기 비교하는 동작은, 상기 문장 해시 테이블을 이용하여 상기 제1 문서의 문장들을 매칭시키는 문장들을 포함하는 후보 문서들을 찾아내는 것을 포함하는 컴퓨터-판독가능 저장 매체.
  48. 컴퓨터 시스템에 의해 문서가 타겟 문서들의 내용과 유사한 내용을 포함하는지의 여부를 식별하는 방법을 제어하기 위한 명령어들을 포함하는 컴퓨터-판독가능 저장 매체로서, 상기 방법은,
    문장들로부터 유도된 해시 코드들을, 상기 문장들을 포함하는 상기 타겟 문서들에 매핑하는 문장 해시 테이블을 생성하는 단계;
    상기 문서의 키워드들과 유사한 키워드들을 포함하는 타겟 문서들로서 후보 문서들을 식별하는 단계; 및
    상기 문서의 문장들을 매칭시키는 문장들을 포함하는 후보 문서들을 찾아내기 위한 문장 해시 테이블을 이용하여, 상기 문서가 후보 문서와 유사한 내용을 포함하는지의 여부를 판정하기 위해 상기 후보 문서들을 상기 문서와 비교하는 단계
    를 포함하는 컴퓨터-판독가능 저장 매체.
  49. 제48항에 있어서,
    상기 타겟 문서들 및 상기 문서들은 전자 메일 메시지인 컴퓨터-판독가능 저장 매체.
  50. 제48항에 있어서,
    상기 키워드들은 역 문서 빈도 메트릭에 의한 용어 빈도에 기초하여 식별되는 컴퓨터-판독가능 저장 매체.
  51. 제48항에 있어서,
    상기 문장 해시 테이블은 타겟 문서들의 주요 문장들에 매핑하는 컴퓨터-판독가능 저장 매체.
  52. 제48항에 있어서,
    상기 방법은,
    키워드들을, 상기 키워드들을 포함하는 타겟 문서들의 문장들에 매핑하는 키워드 인덱스를 생성하는 것을 포함하고, 상기 비교하는 단계는, 상기 키워드 인덱스를 이용하여 상기 타겟 문서들의 키워드들을 포함하는 후보 문서들의 문장들을 찾아내는 것을 포함하는 컴퓨터-판독가능 저장 매체.
  53. 제48항에 있어서,
    상기 타겟 문서들은 기밀 정보를 포함하는 컴퓨터-판독가능 저장 매체.
  54. 제53항에 있어서,
    상기 문서가 기밀 정보를 포함하는 아웃고잉 통신인 경우, 상기 아웃고잉 통신의 송신을 금지하는 컴퓨터-판독가능 저장 매체.
  55. 제48항에 있어서,
    상기 문서들은 전자 메일 메시지들이며, 상기 비교하는 단계는 관련된 전자 메일 메시지들을 발견하는 컴퓨터-판독가능 저장 매체.
  56. 제1 전자 메일 메시지가 기밀 정보를 포함하는지의 여부를 판정하기 위한, 메모리 및 프로세서를 갖는 컴퓨터 시스템으로서,
    기밀 정보를 포함하는 타겟 전자 메일 메시지들을 포함하는 문서 스토어(document store);
    상기 타겟 전자 메일 메시지들의 각각에 대해,
    상기 타겟 전자 메일 메시지와 상기 제1 전자 메일 메시지 간의 공통 키워드들에 적어도 부분적으로 기초하여 상기 타겟 전자 메일 메시지에 대한 유사성 값을 계산하고,
    상기 계산된 유사성 값이 제1 임계값과 비교하고, 및
    상기 비교에 의해, 상기 계산된 유사성 값이 상기 제1 임계값보다 큰 것으로 나타나는 경우, 상기 타겟 전자 메일 메시지를 후보 전자 메일 메시지로서 지정하도록 구성된 컴포넌트; 및
    상기 전자 메일 메시지가 기밀 정보를 포함하는지 여부를 판정하기 위해, 상기 제1 전자 메일 메시지를 상기 지정된 후보 전자 메시지들과 비교하도록 구성된 컴포넌트
    를 포함하는 컴퓨터 시스템.
  57. 제56항에 있어서,
    상기 컴퓨터 시스템은 전자 메일 서버인 컴퓨터 시스템.
  58. 제56항에 있어서,
    상기 제1 전자 메일 메시지가 기밀 정보를 포함하는 것으로 판정되는 경우, 상기 제1 전자 메일 메시지를 의도된 수신자에게 전달하는 것을 금지하도록 구성되는 컴포넌트를 더 포함하는 컴퓨터 시스템.
  59. 컴퓨터 시스템에 의해 통신이 타겟 정보를 포함하는지의 여부를 식별하는 방법을 제어하기 위한 명령어들을 포함하는 컴퓨터-판독가능 저장 매체로서, 상기 방법은,
    상기 타겟 정보를 포함하는 문서들을 제공하는 단계;
    키워드들을, 상기 키워드들을 포함하는 문서들에 매핑하는 키워드 인덱스를 생성하는 단계;
    통신을 수신하는 단계; 및
    상기 수신된 통신이 상기 타겟 정보를 포함하는지의 여부를 판정하기 위해, 상기 수신된 통신을 상기 제공된 문서들과 비교하는 단계 - 상기 비교하는 단계는 상기 생성된 키워드 인덱스를 이용하여, 상기 수신된 통신의 키워드들에 기초하여 후보 문서들을 찾아내는 것을 포함함 -
    를 포함하는 컴퓨터-판독가능 저장 매체.
  60. 제59항에 있어서,
    상기 제공된 문서들 및 상기 수신된 통신은 전자 메일 메시지들이며, 상기 타겟 정보는 기밀인 컴퓨터-판독가능 저장 매체.
  61. 제59항에 있어서,
    상기 방법은, 상기 수신된 통신이 타겟 정보를 포함하는 것으로 판정된 경우, 상기 수신된 통신을 의도된 수신자에게 전달하는 것을 금지하는 것을 포함하는 컴퓨터-판독가능 저장 매체.
  62. 제59항에 있어서,
    상기 방법은,
    문장들로부터 유도된 해시 코드들을, 상기 문장들을 포함하는 상기 문서들에 매핑하는 문장 해시 테이블을 생성하는 것을 더 포함하고, 상기 비교하는 단계는 상기 문장 해시 테이블을 이용하여, 상기 수신된 통신의 문장들을 매칭시키는 문장들을 포함하는 문서들을 찾아내는 것을 포함하는 컴퓨터-판독가능 저장 매체.
  63. 제62항에 있어서,
    상기 문장 해시 테이블은 문서의 주요 문장에 매핑하는 컴퓨터-판독가능 저장 매체.
  64. 제59항에 있어서,
    상기 방법은,
    키워드들을, 상기 키워드들을 포함하는 문서들의 문장들에 매핑하는 키워드 인덱스를 생성하는 것을 포함하고, 상기 비교하는 단계는 상기 키워드 인덱스를 이용하여 상기 수신된 통신의 키워드들을 포함하는 문장들을 찾아내는 것을 포함하는 컴퓨터-판독가능 저장 매체.
  65. 제59항에 있어서,
    상기 수신된 통신은 전자 메일 메시지인 컴퓨터-판독가능 저장 매체.
  66. 제59항에 있어서,
    상기 수신된 통신은 웹 페이지인 컴퓨터-판독가능 저장 매체.
  67. 제66항에 있어서,
    상기 제공된 문서들은 웹 페이지들인 컴퓨터-판독가능 저장 매체.
  68. 제59항에 있어서,
    상기 통신은 전자 메일 메시지의 첨부물인 컴퓨터-판독가능 저장 매체.
  69. 제59항에 있어서,
    상기 통신은 인스턴트 메시지인 컴퓨터-판독가능 저장 매체.
  70. 제59항에 있어서,
    상기 통신은 음성 통신인 컴퓨터-판독가능 저장 매체.
  71. 제59항에 있어서,
    상기 통신은 인터넷 포스팅인 컴퓨터-판독가능 저장 매체.
  72. 제56항에 있어서,
    상기 타겟 전자 메일 메시지들 내의 각각의 단어에 대해,
    상기 단어에 대한 중요성의 값을 결정하고, 및
    상기 단어에 대해 결정된 상기 중요성의 값이 제2 임계값을 초과하는 경우, 상기 단어를 키워드로서 지정하도록 구성된 컴포넌트를 더 포함하고,
    상기 제1 전자 메일 메시지가 기밀 정보를 포함하는지의 여부에 대한 판정은 상기 지정된 키워드들에 적어도 부분적으로 기초하는 컴퓨터-판독가능 저장 매체.
  73. 제56항에 있어서,
    상기 타겟 전자 메일 메시지들 중 적어도 하나는 후보 전자 메일 메시지로서 지정되지 않는 컴퓨터-판독가능 저장 매체.
KR1020050056896A 2004-06-30 2005-06-29 아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하기위한 방법 및 시스템 KR101150070B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/881,867 US7594277B2 (en) 2004-06-30 2004-06-30 Method and system for detecting when an outgoing communication contains certain content
US10/881,867 2004-06-30

Publications (2)

Publication Number Publication Date
KR20060048686A KR20060048686A (ko) 2006-05-18
KR101150070B1 true KR101150070B1 (ko) 2012-07-02

Family

ID=35115997

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050056896A KR101150070B1 (ko) 2004-06-30 2005-06-29 아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하기위한 방법 및 시스템

Country Status (5)

Country Link
US (2) US7594277B2 (ko)
EP (1) EP1613020B1 (ko)
JP (1) JP4824352B2 (ko)
KR (1) KR101150070B1 (ko)
CN (1) CN1716294B (ko)

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7886359B2 (en) * 2002-09-18 2011-02-08 Symantec Corporation Method and apparatus to report policy violations in messages
US8041719B2 (en) * 2003-05-06 2011-10-18 Symantec Corporation Personal computing device-based mechanism to detect preselected data
US7472114B1 (en) * 2002-09-18 2008-12-30 Symantec Corporation Method and apparatus to define the scope of a search for information from a tabular data source
US7673344B1 (en) * 2002-09-18 2010-03-02 Symantec Corporation Mechanism to search information content for preselected data
US8661498B2 (en) 2002-09-18 2014-02-25 Symantec Corporation Secure and scalable detection of preselected data embedded in electronically transmitted messages
US8225371B2 (en) * 2002-09-18 2012-07-17 Symantec Corporation Method and apparatus for creating an information security policy based on a pre-configured template
US7814327B2 (en) 2003-12-10 2010-10-12 Mcafee, Inc. Document registration
US8548170B2 (en) * 2003-12-10 2013-10-01 Mcafee, Inc. Document de-registration
US7984175B2 (en) 2003-12-10 2011-07-19 Mcafee, Inc. Method and apparatus for data capture and analysis system
US8656039B2 (en) * 2003-12-10 2014-02-18 Mcafee, Inc. Rule parser
US7899828B2 (en) * 2003-12-10 2011-03-01 Mcafee, Inc. Tag data structure for maintaining relational data over captured objects
US20050131876A1 (en) * 2003-12-10 2005-06-16 Ahuja Ratinder Paul S. Graphical user interface for capture system
US7774604B2 (en) * 2003-12-10 2010-08-10 Mcafee, Inc. Verifying captured objects before presentation
US7930540B2 (en) * 2004-01-22 2011-04-19 Mcafee, Inc. Cryptographic policy enforcement
US7962591B2 (en) * 2004-06-23 2011-06-14 Mcafee, Inc. Object classification in a capture system
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US8560534B2 (en) * 2004-08-23 2013-10-15 Mcafee, Inc. Database for a capture system
US7949849B2 (en) * 2004-08-24 2011-05-24 Mcafee, Inc. File system for a capture system
US7818809B1 (en) * 2004-10-05 2010-10-19 Symantec Corporation Confidential data protection through usage scoping
US20060085504A1 (en) * 2004-10-20 2006-04-20 Juxing Yang A global electronic mail classification system
IL165416A0 (en) * 2004-11-28 2006-01-15 Objective data regarding network resources
JP4695388B2 (ja) * 2004-12-27 2011-06-08 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
US7664323B2 (en) * 2005-01-28 2010-02-16 Microsoft Corporation Scalable hash-based character recognition
US8011003B2 (en) 2005-02-14 2011-08-30 Symantec Corporation Method and apparatus for handling messages containing pre-selected data
US20060184549A1 (en) * 2005-02-14 2006-08-17 Rowney Kevin T Method and apparatus for modifying messages based on the presence of pre-selected data
JP4158927B2 (ja) * 2005-03-25 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報提示装置、情報提示方法、プログラム
US7703006B2 (en) * 2005-06-02 2010-04-20 Lsi Corporation System and method of accelerating document processing
US7907608B2 (en) * 2005-08-12 2011-03-15 Mcafee, Inc. High speed packet capture
CN1921377B (zh) * 2005-08-26 2010-09-15 鸿富锦精密工业(深圳)有限公司 数据同步系统及方法
US7818326B2 (en) * 2005-08-31 2010-10-19 Mcafee, Inc. System and method for word indexing in a capture system and querying thereof
JP4208086B2 (ja) * 2005-09-27 2009-01-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報の機密性を管理する装置、および、その方法
US7730011B1 (en) * 2005-10-19 2010-06-01 Mcafee, Inc. Attributes of captured objects in a capture system
US7657104B2 (en) * 2005-11-21 2010-02-02 Mcafee, Inc. Identifying image type in a capture system
US7735068B2 (en) * 2005-12-01 2010-06-08 Infosys Technologies Ltd. Automated relationship traceability between software design artifacts
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents
US8244745B2 (en) * 2005-12-29 2012-08-14 Nextlabs, Inc. Analyzing usage information of an information management system
US8504537B2 (en) 2006-03-24 2013-08-06 Mcafee, Inc. Signature distribution in a document registration system
US20070226504A1 (en) * 2006-03-24 2007-09-27 Reconnex Corporation Signature match processing in a document registration system
US7958227B2 (en) * 2006-05-22 2011-06-07 Mcafee, Inc. Attributes of captured objects in a capture system
US8010689B2 (en) * 2006-05-22 2011-08-30 Mcafee, Inc. Locational tagging in a capture system
US7689614B2 (en) * 2006-05-22 2010-03-30 Mcafee, Inc. Query generation for a capture system
CN101083607B (zh) * 2006-05-30 2010-12-08 倪海生 一种用于内外网络隔离的因特网访问服务器及其处理方法
JP2008109380A (ja) * 2006-10-25 2008-05-08 Media Exchange Inc 電子メール送受信システム
US7823761B2 (en) * 2007-05-16 2010-11-02 The Invention Science Fund I, Llc Maneuverable surgical stapler
US8627403B1 (en) * 2007-07-31 2014-01-07 Hewlett-Packard Development Company, L.P. Policy applicability determination
US8199965B1 (en) * 2007-08-17 2012-06-12 Mcafee, Inc. System, method, and computer program product for preventing image-related data loss
BRPI0806097B1 (pt) * 2007-10-02 2020-10-06 Panasonic intellectual property Management co., Ltd Aparelho de reprodução, sistema de proteção de direitos autorais, método de controle e circuito integrado para utilização com um aparelho de reprodução
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
US8316442B2 (en) * 2008-01-15 2012-11-20 Microsoft Corporation Preventing secure data from leaving the network perimeter
US8272051B1 (en) * 2008-03-27 2012-09-18 Trend Micro Incorporated Method and apparatus of information leakage prevention for database tables
US8065739B1 (en) 2008-03-28 2011-11-22 Symantec Corporation Detecting policy violations in information content containing data in a character-based language
US7885944B1 (en) 2008-03-28 2011-02-08 Symantec Corporation High-accuracy confidential data detection
US7996373B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for detecting policy violations in a data repository having an arbitrary data schema
US7996374B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for automatically correlating related incidents of policy violations
US9916611B2 (en) * 2008-04-01 2018-03-13 Certona Corporation System and method for collecting and targeting visitor behavior
US8205242B2 (en) * 2008-07-10 2012-06-19 Mcafee, Inc. System and method for data mining and security policy management
US8346532B2 (en) * 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
US8286171B2 (en) * 2008-07-21 2012-10-09 Workshare Technology, Inc. Methods and systems to fingerprint textual information using word runs
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
US8555080B2 (en) * 2008-09-11 2013-10-08 Workshare Technology, Inc. Methods and systems for protect agents using distributed lightweight fingerprints
WO2010030871A2 (en) * 2008-09-11 2010-03-18 Workshare Technology, Inc. Methods and systems to implement fingerprint lookups across remote agents
US8826443B1 (en) 2008-09-18 2014-09-02 Symantec Corporation Selective removal of protected content from web requests sent to an interactive website
WO2010059747A2 (en) * 2008-11-18 2010-05-27 Workshare Technology, Inc. Methods and systems for exact data match filtering
WO2010059843A2 (en) * 2008-11-19 2010-05-27 Secure Works, Inc. System and method for run-time attack prevention
US8406456B2 (en) * 2008-11-20 2013-03-26 Workshare Technology, Inc. Methods and systems for image fingerprinting
US8613040B2 (en) * 2008-12-22 2013-12-17 Symantec Corporation Adaptive data loss prevention policies
US8850591B2 (en) 2009-01-13 2014-09-30 Mcafee, Inc. System and method for concept building
US8706709B2 (en) 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
JP4763812B2 (ja) * 2009-02-24 2011-08-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書の機密度判定を支援する方法、装置及びコンピュータプログラム
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
US20100223341A1 (en) * 2009-02-27 2010-09-02 Microsoft Corporation Electronic messaging tailored to user interest
JP5458880B2 (ja) 2009-03-02 2014-04-02 富士通株式会社 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
US9141692B2 (en) * 2009-03-05 2015-09-22 International Business Machines Corporation Inferring sensitive information from tags
US8935752B1 (en) 2009-03-23 2015-01-13 Symantec Corporation System and method for identity consolidation
US8447722B1 (en) 2009-03-25 2013-05-21 Mcafee, Inc. System and method for data mining and security policy management
US8667121B2 (en) 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
KR20100107801A (ko) * 2009-03-26 2010-10-06 삼성전자주식회사 무선 통신 시스템에서 안테나 선택을 위한 장치 및 방법
US8732137B2 (en) * 2009-05-28 2014-05-20 Red Hat, Inc. Separating content from noisy context in template-based documents for search indexing
US9235563B2 (en) * 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
WO2011017084A2 (en) * 2009-07-27 2011-02-10 Workshare Technology, Inc. Methods and systems for comparing presentation slide decks
US8356357B1 (en) * 2009-07-30 2013-01-15 Symantec Corporation Detecting tainted documents by tracking transformed confidential data
US8566350B2 (en) * 2009-11-02 2013-10-22 Palo Alto Research Center Incorporated Method and apparatus for facilitating document sanitization
US8287400B2 (en) * 2009-11-19 2012-10-16 Nike, Inc. Fairway wood-type golf clubs with high moment of inertia
US20110143325A1 (en) * 2009-12-15 2011-06-16 Awad Al-Khalaf Automatic Integrity Checking of Quran Script
US8296130B2 (en) 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
US8510098B2 (en) * 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
US8661037B2 (en) * 2010-04-09 2014-02-25 International Business Machines Corporation System and method for multithreaded text indexing for next generation multi-core architectures
US9406048B2 (en) * 2010-07-07 2016-08-02 Mark Meister Email system for preventing inadvertant transmission of propriety message or documents to unintended recipient
US8806615B2 (en) 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
US9092640B2 (en) * 2010-11-09 2015-07-28 International Business Machines Corporation Access control for server applications
US10783326B2 (en) 2013-03-14 2020-09-22 Workshare, Ltd. System for tracking changes in a collaborative document editing environment
US8635295B2 (en) 2010-11-29 2014-01-21 Workshare Technology, Inc. Methods and systems for monitoring documents exchanged over email applications
US11030163B2 (en) 2011-11-29 2021-06-08 Workshare, Ltd. System for tracking and displaying changes in a set of related electronic documents
US8478740B2 (en) 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
US20120180134A1 (en) * 2011-01-07 2012-07-12 Research In Motion Limited Personal Information Guard
US20120226677A1 (en) * 2011-03-01 2012-09-06 Xbridge Systems, Inc. Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same
US8769200B2 (en) 2011-03-01 2014-07-01 Xbridge Systems, Inc. Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same
US8745053B2 (en) 2011-03-01 2014-06-03 Xbridge Systems, Inc. Method for managing mainframe overhead during detection of sensitive information, computer readable storage media and system utilizing same
US20120246719A1 (en) * 2011-03-21 2012-09-27 International Business Machines Corporation Systems and methods for automatic detection of non-compliant content in user actions
US20120304072A1 (en) * 2011-05-23 2012-11-29 Microsoft Corporation Sentiment-based content aggregation and presentation
US10574729B2 (en) 2011-06-08 2020-02-25 Workshare Ltd. System and method for cross platform document sharing
US10963584B2 (en) 2011-06-08 2021-03-30 Workshare Ltd. Method and system for collaborative editing of a remotely stored document
US9948676B2 (en) 2013-07-25 2018-04-17 Workshare, Ltd. System and method for securing documents prior to transmission
US10880359B2 (en) 2011-12-21 2020-12-29 Workshare, Ltd. System and method for cross platform document sharing
US9613340B2 (en) 2011-06-14 2017-04-04 Workshare Ltd. Method and system for shared document approval
US9170990B2 (en) 2013-03-14 2015-10-27 Workshare Limited Method and system for document retrieval with selective document comparison
US9563879B2 (en) * 2011-06-23 2017-02-07 International Business Machines Corporation Providing accurate recipient lists by correlating tagged keywords to recipient lists
JP6167485B2 (ja) * 2011-09-29 2017-07-26 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、及びプログラム
GB2497194A (en) * 2011-12-01 2013-06-05 Ibm Method for managing email
TWI484357B (zh) * 2011-12-02 2015-05-11 Inst Information Industry 量化式資料分析方法以及量化式資料分析裝置
US8700561B2 (en) 2011-12-27 2014-04-15 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US20130174029A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC d/b/a Microsystems Method and apparatus for analyzing a document
US20130174030A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC, d/b/a Microsystems Method and apparatus for analyzing abbreviations in a document
US9563669B2 (en) * 2012-06-12 2017-02-07 International Business Machines Corporation Closed itemset mining using difference update
US9171069B2 (en) 2012-07-31 2015-10-27 Freedom Solutions Group, Llc Method and apparatus for analyzing a document
US9489376B2 (en) * 2013-01-02 2016-11-08 International Business Machines Corporation Identifying confidential data in a data item by comparing the data item to similar data items from alternative sources
US11567907B2 (en) 2013-03-14 2023-01-31 Workshare, Ltd. Method and system for comparing document versions encoded in a hierarchical representation
US20140289259A1 (en) * 2013-03-20 2014-09-25 Microsoft Corporation Social Cue Based Electronic Communication Ranking
GB2520226A (en) * 2013-05-28 2015-05-20 Ibm Differentiation of messages for receivers thereof
US10911492B2 (en) 2013-07-25 2021-02-02 Workshare Ltd. System and method for securing documents prior to transmission
US9047480B2 (en) * 2013-08-01 2015-06-02 Bitglass, Inc. Secure application access system
US9552492B2 (en) * 2013-08-01 2017-01-24 Bitglass, Inc. Secure application access system
US10122714B2 (en) 2013-08-01 2018-11-06 Bitglass, Inc. Secure user credential access system
US9553867B2 (en) 2013-08-01 2017-01-24 Bitglass, Inc. Secure application access system
WO2015029129A1 (ja) * 2013-08-27 2015-03-05 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
US9251376B2 (en) 2013-11-15 2016-02-02 International Business Machines Corporation Method and system to warn the user in the event of potential confidential document security violations
JP6045533B2 (ja) * 2014-05-26 2016-12-14 京セラドキュメントソリューションズ株式会社 文書管理装置及び文書管理プログラム
JP6395540B2 (ja) * 2014-09-25 2018-09-26 株式会社東芝 連携システム、プログラム
US10459925B2 (en) * 2014-12-08 2019-10-29 Iprova Sarl Computer-enabled method of assisting to generate an innovation
US11182551B2 (en) 2014-12-29 2021-11-23 Workshare Ltd. System and method for determining document version geneology
US10133723B2 (en) 2014-12-29 2018-11-20 Workshare Ltd. System and method for determining document version geneology
JP6596848B2 (ja) * 2015-03-10 2019-10-30 富士ゼロックス株式会社 アクセス権推定装置及びアクセス権推定プログラム
JP6561529B2 (ja) 2015-03-26 2019-08-21 富士通株式会社 文書検査装置、方法、及びプログラム
US10462091B1 (en) * 2015-06-12 2019-10-29 Symantec Corporation Systems and methods for reporting the attempted transmission of sensitive information
US10518872B2 (en) 2015-06-25 2019-12-31 Simmonds Precision Products, Inc. Continuous fuel tank level control
US11763013B2 (en) 2015-08-07 2023-09-19 Workshare, Ltd. Transaction document management system and method
US10552107B2 (en) 2015-12-02 2020-02-04 Open Text Corporation Creation of component templates
US10380075B2 (en) 2017-02-14 2019-08-13 Microsoft Technology Licensing, Llc Limiting sharing of a stored file
US11741145B1 (en) * 2018-09-30 2023-08-29 Veritas Technologies Llc Method and system for classification of unstructured data items
CN109857852B (zh) * 2019-01-24 2021-02-23 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及系统
US11310209B2 (en) 2019-09-10 2022-04-19 Motorola Solutions, Inc. Method and device for protecting confidentiality of audio messages
US11222183B2 (en) * 2020-02-14 2022-01-11 Open Text Holdings, Inc. Creation of component templates based on semantically similar content
CN112765655B (zh) * 2021-01-07 2023-03-21 支付宝(杭州)信息技术有限公司 一种基于隐私数据外发的管控方法及装置
US11775357B1 (en) * 2021-01-20 2023-10-03 American Express Travel Related Services Company, Inc. Relevant notifications of third party content
US20230091581A1 (en) * 2021-09-21 2023-03-23 Bank Of America Corporation Personal Data Discovery
US20230367903A1 (en) * 2022-05-16 2023-11-16 Bank Of America Corporation System and method for detecting and obfuscating confidential information in task logs
US11843619B1 (en) * 2022-10-07 2023-12-12 Uab 360 It Stateless system to enable data breach notification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078155A1 (en) 2000-12-18 2002-06-20 Cheng-Shing Lai Method for receiving electronic messages by electronic device
US20030078730A1 (en) 2001-10-18 2003-04-24 Fuji Jukogyo Kabushiki Kaisha Monitor system of vehicle outside and method of monitoring same

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE35861E (en) * 1986-03-12 1998-07-28 Advanced Software, Inc. Apparatus and method for comparing data groups
US4807182A (en) * 1986-03-12 1989-02-21 Advanced Software, Inc. Apparatus and method for comparing data groups
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
WO1998037655A1 (en) * 1996-12-20 1998-08-27 Financial Services Technology Consortium Method and system for processing electronic documents
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US7162738B2 (en) * 1998-11-03 2007-01-09 Tumbleweed Communications Corp. E-mail firewall with stored key encryption/decryption
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US6393428B1 (en) * 1998-07-13 2002-05-21 Microsoft Corporation Natural language information retrieval system
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
US20020069198A1 (en) * 2000-08-31 2002-06-06 Infoseer, Inc. System and method for positive identification of electronic files
KR100483602B1 (ko) 2001-10-12 2005-04-15 (주)이캐빈 이메일 모니터링 방법 및 시스템
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US7519984B2 (en) * 2002-06-27 2009-04-14 International Business Machines Corporation Method and apparatus for handling files containing confidential or sensitive information
US6826493B1 (en) * 2003-09-02 2004-11-30 Tao Of Systems Integration, Inc. System and method for real time determination of unsteady aerodynamic loads
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US20060095966A1 (en) * 2004-11-03 2006-05-04 Shawn Park Method of detecting, comparing, blocking, and eliminating spam emails
US7444328B2 (en) * 2005-06-06 2008-10-28 Microsoft Corporation Keyword-driven assistance
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078155A1 (en) 2000-12-18 2002-06-20 Cheng-Shing Lai Method for receiving electronic messages by electronic device
US20030078730A1 (en) 2001-10-18 2003-04-24 Fuji Jukogyo Kabushiki Kaisha Monitor system of vehicle outside and method of monitoring same

Also Published As

Publication number Publication date
CN1716294A (zh) 2006-01-04
US20090313706A1 (en) 2009-12-17
US7594277B2 (en) 2009-09-22
CN1716294B (zh) 2013-09-11
US8782805B2 (en) 2014-07-15
JP4824352B2 (ja) 2011-11-30
US20060005247A1 (en) 2006-01-05
EP1613020A3 (en) 2012-03-07
JP2006065837A (ja) 2006-03-09
EP1613020B1 (en) 2019-12-04
KR20060048686A (ko) 2006-05-18
EP1613020A2 (en) 2006-01-04

Similar Documents

Publication Publication Date Title
KR101150070B1 (ko) 아웃고잉 통신이 특정 내용을 포함하는 경우를 검출하기위한 방법 및 시스템
US11188657B2 (en) Method and system for managing electronic documents based on sensitivity of information
US8041719B2 (en) Personal computing device-based mechanism to detect preselected data
US7886359B2 (en) Method and apparatus to report policy violations in messages
US8566305B2 (en) Method and apparatus to define the scope of a search for information from a tabular data source
US6829613B1 (en) Techniques for controlling distribution of information from a secure domain
US9760548B2 (en) System, process and method for the detection of common content in multiple documents in an electronic system
US9515998B2 (en) Secure and scalable detection of preselected data embedded in electronically transmitted messages
US8813176B2 (en) Method and apparatus for creating an information security policy based on a pre-configured template
US9444793B2 (en) System, apparatus and method for encryption and decryption of data transmitted over a network
US20080005284A1 (en) Method and Apparatus For Publishing Textual Information To A Web Page
JP2020516986A (ja) プライバシーセンシティブなユーザーコンテンツの構成可能な注釈
CA2786058C (en) System, apparatus and method for encryption and decryption of data transmitted over a network
JP4903386B2 (ja) 事前選択されたデータに関し探索可能な情報コンテンツ
Ezpeleta et al. Does sentiment analysis help in bayesian spam filtering?
Park et al. Towards text-based phishing detection
Chaski The keyboard dilemma and authorship identification
Ghafouri et al. AI in the Gray: Exploring Moderation Policies in Dialogic Large Language Models vs. Human Answers in Controversial Topics
Cooke et al. Clowns, Crowds, and Clouds: A Cross-Enterprise Approach to Detecting Information Leakage Without Leaking Information
Goyal et al. Preventing inadvertent information disclosures via automatic security policies
West Calculating and Presenting Trust in Collaborative Content
Henning Whether Corporate Spying or Just a Spoof, Imitation Is a Dangerous Game.
Christine Computers under the hack attack

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160419

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170420

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180417

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190417

Year of fee payment: 8