KR20150056878A - 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램 - Google Patents

포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램 Download PDF

Info

Publication number
KR20150056878A
KR20150056878A KR1020157012205A KR20157012205A KR20150056878A KR 20150056878 A KR20150056878 A KR 20150056878A KR 1020157012205 A KR1020157012205 A KR 1020157012205A KR 20157012205 A KR20157012205 A KR 20157012205A KR 20150056878 A KR20150056878 A KR 20150056878A
Authority
KR
South Korea
Prior art keywords
document
score
recall rate
unit
relevance
Prior art date
Application number
KR1020157012205A
Other languages
English (en)
Other versions
KR101566153B1 (ko
Inventor
마사히로 모리모토
요시카츠 시라이
히데키 타게다
카즈미 하수코
Original Assignee
가부시키가이샤 유빅
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 유빅 filed Critical 가부시키가이샤 유빅
Publication of KR20150056878A publication Critical patent/KR20150056878A/ko
Application granted granted Critical
Publication of KR101566153B1 publication Critical patent/KR101566153B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

리뷰어의 리뷰의 부하를 경감하는 것을 가능하게 한다.
디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 결과 정보 접수부와, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 요소 선정부와, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 문서 데이터의 각 문서의 스코어를 산출하는 스코어 산출부와, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 재현율 산출부를 포함한다.

Description

포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램 {FORENSIC SYSTEM, FORENSIC METHOD, AND FORENSIC PROGRAM}
본 발명은, 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램에 관한 것이며, 특히, 소송과 관련된 문서 정보를 수집하기 위한 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램에 관한 것이다.
종래, 부정 액세스나 기밀 정보 누설 등 컴퓨터에 관한 범죄나 법적 분쟁이 생겼을 때에, 원인 규명이나 수사에 필요한 기기나 데이터, 전자적 기록을 수집·분석해, 그 법적인 증거성을 분명히 하는 수단이나 기술이 제안되고 있다.
또한, 미국 민사 소송에서는, eDiscovery(전자 증거 개시) 등이 요구되고 있어 해당 소송의 원고 및 피고의 모두가, 관련하는 디지털 정보를 모두 증거로 제출할 책임을 진다. 그 때문에, 컴퓨터나 서버에 기록된 디지털 정보를 증거로 하여 제출해야 한다.
한편, IT의 급속한 발달과 보급에 따라, 오늘의 비즈니스의 세계에서는 대부분의 정보가 컴퓨터로 작성되고 있기 때문에, 동일 기업내여도 많은 디지털 정보가 범람하고 있다.
그 때문에, 법정에의 증거 자료 제출을 위한 준비작업을 실시하는 과정에 있어서, 해당 소송과 반드시 관련되어 있지 않은 기밀인 디지털 정보까지도 증거 자료로서 포함해 버리는 실수가 생기기 쉽다. 또한, 해당 소송과 관련이 없는 기밀인 문서 정보를 제출해 버리는 것이 문제가 되어 있었다.
최근, 포렌식 시스템에 있어서의 문서 정보에 관한 기술이, 특허 문헌 1 내지 특허 문헌 3에 제안되고 있다. 특허 문헌 1에는, 문서 제출 명령의 대상자 정보로 포함되는 적어도 1명 이상의 대상자로부터, 특정 사람을 지정하고, 지정된 특정 사람에 관한 액세스 이력 정보에 기초하여, 특정 사람이 액세스 한 디지털 문서 정보만을 추출하며, 추출된 디지털 문서 정보의 문서 파일 각각이, 소송과 관련된 것인지 여부를 나타내는 부대 정보를 설정하고, 부대 정보에 기초하여, 소송과 관련된 문서 파일을 출력하는 포렌식 시스템이 개시되고 있다.
또한, 특허 문헌 2에는, 기록된 디지털 정보를 표시하고, 복수의 문서 파일마다, 대상자 정보에 포함되는 대상자 중 어느 대상자에게 관련된 것인지를 나타내는 대상자 특정 정보를 설정하며, 해당 설정된 대상자 특정 정보를 기억부에 기록하도록 설정하며, 적어도 한 명 이상의 대상자를 지정하고, 지정된 대상자에게 대응하는 대상자 특정 정보가 설정된 문서 파일을 검색하며, 표시부를 통해, 검색된 문서 파일이, 소송과 관련된 것인지 여부를 나타내는 부대 정보를 설정하고, 부대 정보에 기초하여, 소송과 관련된 문서 파일을 출력하는 포렌식 시스템이 개시되고 있다.
또한, 특허 문헌 3에는, 디지털 문서 정보에 포함되는 적어도 하나 이상의 문서 파일의 지정을 접수하고, 지정된 문서 파일을 어느 언어로 번역할까의 지정을 접수하며, 지정이 접수된 문서 파일을, 지정이 접수된 언어로 번역하고, 기록부에 기록된 디지털 문서 정보로부터, 지정된 문서 파일과 동일한 내용을 나타내는 공통 문서 파일을 추출하며, 추출된 공통 문서 파일이, 번역된 문서 파일의 번역 내용을 원용하는 것에 의해 번역된 것을 나타내는 번역 관련 정보를 생성하고, 번역 관련 정보에 기초하여, 소송과 관련된 문서 파일을 출력하는 포렌식 시스템이 개시되고 있다.
일본공개특허 2011-209930호 공보 일본공개특허 2011-209931호 공보 일본공개특허 2012-32859호 공보
그렇지만, 예를 들면, 특허 문헌 1 내지 특허 문헌 3과 같은 포렌식 시스템에서는, 복수의 컴퓨터 및 서버를 이용한 대상자의 방대한 문서 정보를 수집하게 된다.
이러한 디지털화된 방대한 문서 정보를 소송의 증거 자료로서 타당한가 아닌가의 분별을 하는 작업은, 리뷰어로 불리는 이용자가 육안으로 확인하여, 해당 문서 정보를 하나 하나 분별해 나갈 필요가 있어, 많은 노력과 시간이 걸린다고 하는 문제가 있었다.
따라서, 본 발명은, 상기 사정을 고려하여, 리뷰어의 리뷰의 부하를 경감하는 것을 가능하게 하는 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램을 제공하는 것을 목적으로 하는 것이다.
본 발명의 포렌식 시스템은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 시스템에 있어서, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 결과 정보 접수부와, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 요소 선정부와, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 문서 데이터의 각 문서의 스코어를 산출하는 스코어 산출부와, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 재현율 산출부를 포함한다.
「문서」는, 1개 이상의 단어를 포함하는 정보를 말한다. 문서의 일례로서 전자 메일, 프레젠테이션 자료, 표계산 자료, 회의 자료, 계약서, 조직도, 사업 계획서 등을 들 수 있다.
「문서 데이터」는, 문서의 집합을 말한다.
「문서군」은, 문서의 집합을 말하며, 문서 데이터의 부분 집합인 것을 말한다. 문서 데이터는, 소송과의 관련성 판단이 필요한 모든 문서를 가리키며, 문서군은, 문서 데이터 중에서, 이용자가 관련성 판단을 실시하는 문서를 말할 수도 있다.
「관련성 판단」은, 문서에 대해서, 소송에의 제출의 필요의 유무를 판단하는 것을 말한다. 예를 들면, 관련성 판단은, 관련성의 정도에 따라 분별 부호를 부여하는 행위일 수 있다.
「결과 정보」는, 이용자가 문서에 대해서 실시한, 소송과의 관련성 판단의 결과를 나타내는 것을 말한다. 결과 정보는, 이용자가 문서에 부여한, 소송과의 관련성의 정도를 나타내는 분별 부호를 가리킬 수도 있다.
「결과 정보 접수부」는, 이용자가 문서에 대해서 실시한 판단 결과에 관한 결과 정보를 접수하는 것을 말한다.
「요소」는, 문서에 포함되는 단어, 기호, 도면 등의 문서의 구성요소를 말한다. 예를 들면, 요소는, 형태소와 같이 어느 언어에 대해 그 이상 분해하면 의미를 만들어내지 않게 되는 것까지 분할하여 추출된, 음소의 조합 하나하나를 가리킬 수 있다.
「요소 선정부」는, 요소의 평가치로부터 요소를 선정하는 것을 말한다. 요소 선정부는, 이용자에 의한 소송의 관련성 판단에 있어서, 동일한 판단을 받은 문서마다 공통되어 출현하는 요소를 추출하는 것이라고 할 수 있다. 또한, 요소 선정부는, 요소가 가지는, 전달 정보량을 기초로 평가치를 산출하는 것이라고 할 수 있다. 또한, 요소 선정부는, 평가치의 합에 기초하여 요소를 선정하는 것이라고 할 수도 있다. 또한, 요소 선정부는, 요소를 평가치의 내림차순으로 바꿔 나열하고 요소의 평가치의 합이 고유의 목표치에 도달할 때까지 요소를 추출하여, 해당 추출한 요소를 선정하는 것이라고 할 수도 있다.
「평가치」는, 요소의 특징을 나타내는 값을 말한다. 평가치는, 요소가 가지는 전달 정보량을 나타내는 것이라고 할 수 있다.
「전달 정보량」은, 확률론 및 정보이론에 있어서, 2개의 확률 변수의 상호의존의 척도를 나타내는 양을 말한다. 구체적으로, 전달 정보량은, 그 요소를 포함한 문서에 대한 관련성 판단 결과와 그 요소와의 의존관계를 나타내는 척도라고 할 수 있다.
「고유의 목표치」는, 목표로 하는 재현율의 값을 나타내는 것을 말한다. 고유의 목표치는, 백분율로 나타나는 것이라고 할 수 있다.
「스코어 산출부」는, 문서의 스코어를 산출하는 것을 말한다. 예를 들면, 스코어 산출부는, 문서에 포함되는 요소의 평가치의 합을 스코어로서 산출하는 것이라고 할 수 있다.
「재현율」은, 소송과의 관련성 판단에 관한 것을 말한다. 재현율은, 인간의 관련성 판단을 시스템이 자동으로 재현한 정도를 나타내는 지표라고 할 수 있다.
「재현율 산출부」는, 재현율을 산출하는 것을 말한다. 예를 들면, 재현율 산출부는, 본 발명과 관련되는 시스템이, 문서에 부여한 스코어의 값을 평가하여, 이용자의 관련성 판단과의 일치율을 산출하는 것이라고 할 수 있다.
또한, 재현율 산출부는, 스코어가 산출된 문서 가운데, 소정의 스코어 이상을 가지는 문서에, 문서군의 문서가 포함되는 비율로부터 재현율을 산출하는 것이라고 할 수 있다. 또한, 재현율 산출부는, 스코어가 산출된 문서 데이터의 각 문서를, 스코어의 내림차순으로 바꿔 나열하고 스코어의 상위로부터 소정의 비율의 문서를 추출하여, 추출된 문서에 문서군이 포함되는 비율을 재현율로서 계산하는 것이라고 할 수 있다.
또한, 본 발명과 관련되는 포렌식 시스템은, 추가로, 스코어가 소정의 임계치를 초과한 문서에 대해서 상기 소송과의 관련성에 관한 판단을 실시하는 자동 판단부를 포함할 수 있다.
「자동 판단부」는, 문서에 대해서 소송과의 관련성 판단을 자동으로 실시하는 것을 말한다. 예를 들면, 자동 판단부는, 스코어 산출부가 문서에 부여한 스코어가 소정의 임계치를 초과했을 경우에, 관련성 있음으로 판단하는 것이라고 할 수 있다.
또한, 본 발명과 관련되는 포렌식 시스템은, 추가로, 디지털 정보에 포함되는 문서 데이터로부터 소정 개수의 문서를 포함하는 문서군을 추출하는 추출부와, 추출된 문서군을 화면상에 표시하는 표시부를 포함할 수 있다.
「추출부」는, 디지털 정보중의 문서 데이터로부터 문서군을 추출하는 것을 말한다. 추출부는, 문서 데이터의 갱신 일시 등의 속성에 기초하여 추출하는 것이라고 할 수 있다. 또한, 추출부는, 문서 데이터로부터 문서군을 랜덤으로 샘플링 하여, 추출하는 기능을 갖출 수 있다.
「표시부」는, 추출한 문서군을 표시하는 것을 말한다. 표시부는, 이용자가 이용하는 클라이언트 단말 등의 표시 기기일 수 있다.
또한, 본 발명과 관련되는 포렌식 시스템은, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소의 평가치의 합과 고유의 목표치와 재현율과의 차이를 이용해 요소를 재선정하는 요소 재선정부를 포함할 수 있다.
「요소 재선정부」는, 요소 선정부에 선정된 요소를 재차 선정하는 것을 말한다.
또한, 요소 재선정부는, 재현율이 고유의 목표치를 밑돌고 있을 때에, 재현율이 고유의 목표치를 웃돌 때까지, 요소의 평가치의 합이 고유의 목표치와 재현율의 차이에 도달할 때까지 요소로부터 추출된 요소를 제외한 요소의 집합으로부터 요소를 추출하여, 선정하는 것이라고 할 수 있다.
또한, 스코어 산출부는, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소 재선정부가 선정한 요소와 해당 요소 재선정부가 재선정한 요소의 평가치를 이용해 문서 데이터의 각 문서의 제2의 스코어를 산출하고, 스코어와 상기 제2의 스코어와의 합성에 의해, 문서 데이터의 각 문서의 스코어를 재차 산출하는 것일 수 있다.
「제2의 스코어」는, 요소 재선정부가 재선정한 요소를 이용해 스코어 산출부가 재차 산출한 문서의 스코어를 말한다.
또한, 본 발명과 관련되는 포렌식 방법은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 방법에 있어서, 컴퓨터가, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 단계와, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 단계와, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 상기 문서 데이터의 각 문서의 스코어를 산출하는 단계와, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 단계를 실행한다.
또한, 본 발명과 관련되는 포렌식 프로그램은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 프로그램에 있어서, 컴퓨터에, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 기능과, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 기능과, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 문서 데이터의 각 문서의 스코어를 산출하는 기능과, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 기능을 실현시킨다.
본 발명의 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램은, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 단계와, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 단계와, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 상기 문서 데이터의 각 문서의 스코어를 산출하는 단계와, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 단계를 실행하는 것에 의해서, 시스템이 자동으로 실행된 경우에서도, 시스템의 판단이 인간의 판단에 어느 정도 합치하는지를 검증하는 것으로 판단 정확도를 향상시키는 것이 가능해진다.
또한, 본 발명과 관련되는 요소 선정부가, 평가치의 합에 기초하여 요소를 선정하는 경우에 있어서는, 시스템이 이용하는 요소의 개수를 줄일 수 있고, 이것에 의해서 노이즈(소송과 관련없는 문서에 할당되어 버리는 스코어를 말한다)를 저감하는 것이 가능해진다.
또한, 본 발명과 관련되는 요소 선정부가, 요소를 평가치의 내림차순으로 바꿔 나열하고 요소의 평가치의 합이 고유의 목표치에 도달할 때까지 요소를 추출하여, 해당 추출한 요소를 선정하는 경우에 있어서는, 시스템이 이용하는 요소의 개수를 줄일 수 있고, 이것에 의해서 노이즈를 저감하는 것이 가능해진다.
또한, 본 발명과 관련되는 재현율 산출부가, 스코어가 산출된 문서 가운데, 소정의 스코어 이상을 가지는 문서에, 문서군의 문서가 포함되는 비율로부터 재현율을 산출하는 경우에 있어서는, 문서의 스코어로부터 시스템의 관련성 판단의 경향을 평가하여, 이용자의 관련성 판단의 경향과의 일치 상태를 판정하는 것이 가능해진다.
또한, 본 발명과 관련되는 재현율 산출부가, 스코어가 산출된 문서 데이터의 각 문서를, 상기 스코어의 내림차순으로 바꿔 나열하고 스코어의 상위로부터 소정의 비율의 문서를 추출하여, 상기 추출된 문서에 상기 문서군이 포함되는 비율을 재현율로서 계산하는 경우, 문서의 스코어로부터 시스템의 관련성 판단의 경향을 평가하여, 이용자의 관련성 판단의 경향과의 일치 상태를 판정하는 것이 가능해진다.
또한, 본 발명의 포렌식 시스템은, 추가로, 스코어가 소정의 임계치를 초과한 문서에 대해서 소송과의 관련성에 관한 판단을 실시하는 자동 판단부를 포함하는 경우에 있어서는, 이용자의 관련성 판단의 경향에 기초하여, 자동으로 문서와 소송과의 관련성 판단을 하는 것이 가능해진다.
또한, 본 발명의 포렌식 시스템은, 추가로, 디지털 정보에 포함되는 문서 데이터로부터 소정 개수의 문서를 포함하는 문서군을 추출하는 추출부와, 추출된 문서군을 화면상에 표시하는 표시부를 포함하는 경우에 있어서는, 이용자가 관련성 판단을 실시하는 문서를 추출하여, 이용자의 단말상에 표시하는 것이 가능해진다.
또한, 본 발명의 포렌식 시스템은, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소의 평가치의 합과 고유의 목표치와 재현율과의 차이를 이용해 요소를 재선정하는 요소 재선정부를 포함하는 경우에 있어서는, 재현율이 목표치에 이르지 않은 경우, 스코어의 산출에 이용하는 요소를 재차 다시 선택하는 것이 가능해져, 관련성 판단 정확도를 향상시키는 것이 가능해진다.
또한, 본 발명과 관련되는 요소 재선정부가, 재현율이 고유의 목표치를 밑돌고 있을 때에, 재현율이 고유의 목표치를 웃돌 때까지, 요소의 평가치의 합이 고유의 목표치와 재현율과의 차이에 도달할 때까지 요소로부터 추출된 요소를 제외한 요소의 집합으로부터 요소를 추출하여, 선정하는 경우에 있어서는, 재현율이 목표치에 이르지 않은 경우, 스코어의 산출에 이용하는 요소를, 이전에 이용한 요소와는 다른 요소로부터 재차 다시 선택하는 것이 가능해져, 관련성 판단 정확도를 향상시키는 것이 가능해진다.
또한, 본 발명과 관련되는 스코어 산출부가, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소 재선정부가 선정한 요소와 해당 요소 재선정부가 재선정한 요소의 평가치를 이용해 문서 데이터의 각 문서의 제2의 스코어를 산출하고, 스코어와의 합성에 의해, 문서 데이터의 각 문서의 스코어를 재차 산출하는 경우에 있어서는, 이전의 스코어와 제2의 스코어의 합성 스코어를 스코어로서 이용하는 것으로, 재현율의 향상을 도모하는 것이 가능해진다.
도 1은 본 발명의 제1의 실시 형태에 있어서의 포렌식 시스템의 블럭도.
도 2는 본 발명의 제1의 실시 형태에 있어서의 리뷰 화면을 모식적으로 나타낸 도면.
도 3은 본 발명의 제1의 실시 형태의 교사 데이터 작성 처리 플로우를 나타내는 흐름도.
도 4는 본 발명의 제1의 실시 형태의 재현율 향상 처리 플로우를 나타내는 흐름도.
도 5는 본 발명의 그 외의 실시 형태에 있어서의 포렌식 시스템의 블럭도.
도 6은 본 발명의 그 외의 실시 형태에 있어서의 자동 판별부의 처리 플로우를 나타내는 흐름도
[제1의 실시 형태]
이하, 본 발명의 제1의 실시 형태를 도 1 내지 도 4를 이용해 설명한다.
본 발명의 제1의 실시 형태와 관련되는 포렌식 시스템은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 시스템에 있어서, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 결과 정보 접수부 111과, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 요소 선정부 112와, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 문서 데이터의 각 문서의 스코어를 산출하는 스코어 산출부 113과, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 재현율 산출부 114를 포함한다.
또한, 포렌식 시스템은, 추가로, 디지털 정보에 포함되는 문서 데이터로부터 소정 개수의 문서를 포함하는 문서군을 추출하는 추출부 117과, 추출된 문서군을 화면상에 표시하는 표시부 116을 포함할 수 있다.
또한, 포렌식 시스템은, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소의 평가치의 합과 고유의 목표치와 재현율과의 차이를 이용해 요소를 재선정하는 요소 재선정부 115를 포함할 수 있다.
포렌식 시스템은, 컴퓨터 또는 서버를 갖추어 각종 입력에 기초하여 CPU가 ROM에 기록된 프로그램을 실행하는 것으로, 각종 기능부로서 동작한다. 해당 프로그램은, CD-ROM 등의 기억 매체에 기억되거나 혹은 인터넷 등의 네트워크를 통해 배포되어 컴퓨터에 설치될 수 있다.
본 실시 형태에 있어서는, 리뷰어로 불리는 이용자가, 문서 데이터중에서, 소송에 제출이 필요한 문서를 추출하기 위해서, 소송과의 관련성 판단을 실시한다. 문서는, 1개 이상의 단어를 포함한 정보를 말한다. 문서의 일례로서 전자 메일, 프레젠테이션 자료, 표계산 자료, 회의 자료, 계약서, 조직도, 사업 계획서 등을 들 수 있다. 또한, 스캔 데이터를 문서로서 취급하는 것도 가능하다. 이 경우, 스캔 데이터를 텍스트 데이터로 변환할 수 있도록, 포렌식 시스템내에 OCR(Optical Character Reader) 장치를 갖출 수도 있다. OCR 장치에 의해서 텍스트 데이터로 변경하는 것으로, 스캔 데이터로부터 후술하는 요소의 해석이나 탐색이 가능하게 된다.
문서 데이터는 문서의 집합체이다. 문서 데이터는, 소송과의 관련성 판단이 필요한 모든 문서를 가리키며, 문서군은, 문서 데이터 가운데, 이용자가 관련성 판단을 실시하는 문서를 말한다. 이 시스템 또는 이용자가 소송과 관련되는지 여부를 판단하는 행위를 리뷰라고 한다. 리뷰에서는, 리뷰의 대상이 되는 문서인 문서군을, 소송 관련 정도나, 소송과의 관련 방법에 기초하여, 복수의 종류로 분류를 실시한다.
도 1은, 제1의 실시 형태에 있어서의 포렌식 시스템의 블럭도를 나타내고 있다. 본 실시 형태에 있어서, 포렌식 시스템은, 서버 장치 100과 클라이언트 단말 200을 포함하고 있다.
서버 장치 100과 클라이언트 단말 200은 통신 네트워크를 통해 접속되고 있다. 통신 네트워크는, 유선 혹은 무선의 통신회선을 말한다. 예를 들면, 전화 회선, 인터넷 회선 등이다.
클라이언트 단말 200은, 도 2에 나타내는 리뷰 화면 I1을 표시하는 화면 표시부 211을 가지고 있다. 리뷰어는, 클라이언트 단말 200을 통해, 서버 장치 100애 접속해, 리뷰 화면 I1상에서 리뷰를 실시한다.
서버 장치 100은, 결과 정보 접수부 111과, 요소 선정부 112와, 스코어 산출부 113과, 재현율 산출부 114와, 요소 재선정부 115와, 표시부 116과 추출부 117을 포함하고 있다.
본 실시 형태에 있어서, 각 구성은 서버 장치 100상에 탑재되고 있지만, 각각 별도 장치에 탑재될 수도 있다.
도 1에 기재되어 있는 각 구성에 대해 설명한다. 결과 정보 접수부 111은, 리뷰어가 문서에 대해서 실시한 리뷰의 결과를 접수한다. 리뷰 결과는, 결과 정보로서 접수할 수 있다. 결과 정보는, 각 문서의 소송과의 관련 정도를 부호에 의해서 나타낼 수도 있다.
요소 선정부 112는, 각 문서에 대한 리뷰 결과인 결과 정보마다 문서에 공통되어 출현하는 요소를 추출하여, 해당 요소의 평가치로부터 후단의 처리에 이용하는 요소를 선정한다.
요소는, 문서에 포함되는 단어, 기호, 도면 등의 문서의 구성요소를 말한다. 예를 들면, 요소는, 형태소와 같이 어느 언어에 대해 그 이상 분해하면 의미를 만들어내지 않게 되는 것까지 분할하여 추출된, 음소의 조합 하나하나를 가리킬 수 있다.
평가치는, 요소의 특징을 나타내는 값을 말한다. 평가치는, 요소가 가지는 전달 정보량을 나타내는 것이라고 할 수 있다.
또한, 요소 선정부 112는, 요소가 가지는, 전달 정보량을 기초로 평가치를 산출하는 것이라고 할 수 있다.
전달 정보량은, 확률론 및 정보이론에 있어서, 2개의 확률 변수의 상호의존의 척도를 나타내는 양을 말한다. 구체적으로, 전달 정보량은, 그 요소를 포함한 문서에 대한 관련성 판단 결과와 그 요소와의 의존관계를 나타내는 척도라고 할 수 있다. 예를 들면 요소 선정부 112는, 전달 정보량이 큰 요소를, 선정하는 것이 가능하다.
또한, 요소 선정부 112는, 평가치의 합에 기초하여 요소를 선정하는 것이라고 할 수 있다. 또한, 요소 선정부 112는, 요소를 평가치의 내림차순으로 바꿔 나열하고 요소의 평가치의 합이 고유의 목표치에 도달할 때까지 요소를 추출하여, 해당 추출한 요소를 선정하는 것이라고 할 수 있다.
고유의 목표치는, 목표로 하는 재현율의 값을 나타내는 것을 말한다. 고유의 목표치는, 백분율로 나타나는 것이라고 할 수 있다.
스코어 산출부 113은, 문서의 스코어를 산출한다. 예를 들면, 스코어 산출부 113은, 문서에 포함되는 요소의 평가치의 합을 스코어로서 산출하는 것이 가능하다.
또한, 스코어 산출부 113은, 추가로, 후술하듯이, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소 재선정부 115가 선정한 요소와 해당 요소 재선정부 115가 재선정한 요소의 평가치를 이용해 문서 데이터의 각 문서의 제2의 스코어를 산출하고, 스코어와 상기 제2의 스코어와의 합성에 의해, 문서 데이터의 각 문서의 스코어를 재차 산출하는 것일 수 있다.
제2의 스코어는, 스코어 산출부 113이 각 문서에 대해 산출한 2번째 이후의 스코어를 말한다.
재현율 산출부 114는, 스코어 산출부 113의 처리의 재현율을 산출한다. 예를 들면, 재현율 산출부 114는, 서버 장치 100이, 문서에 부여한 스코어의 값을 평가해, 리뷰어의 리뷰 결과의 재현성을 산출하는 것이라고 할 수 있다.
재현율은, 소송과의 관련성 판단에 관한 것을 말한다. 재현율은, 인간의 관련성 판단을 시스템이 자동으로 재현한 정도를 나타내는 지표라고 할 수 있다.
또한, 재현율 산출부 114는, 스코어가 산출된 문서 가운데, 소정의 스코어 이상을 가지는 문서에, 문서군의 문서가 포함되는 비율로부터 재현율을 산출하는 것이라고 할 수 있다. 또한, 재현율 산출부 114는, 스코어가 산출된 문서 데이터의 각 문서를, 스코어의 내림차순으로 바꿔 나열하고 스코어의 상위로부터 소정의 비율의 문서를 추출하여, 추출된 문서에 문서군이 포함되는 비율을 재현율로서 계산하는 것이라고 할 수 있다.
추출부 117은, 디지털 정보중의 문서 데이터로부터 문서군을 추출한다. 랜덤으로 샘플링 해 추출하는 것이라고 할 수 있다. 또한, 문서의 갱신 일시 등의 속성에 기초하여 추출하는 것이라고 할 수 있다. 또한, 추출부 117은, 문서 데이터로부터 문서군을 랜덤으로 샘플링 해, 추출하는 기능을 갖출 수 있다.
표시부 116은, 추출한 문서군을 표시한다. 이용자가 이용하는 클라이언트 단말 200상에 표시하는 것이라고 할 수 있다.
요소 재선정부 115는, 요소 선정부 112에 선정된 요소를 재차 선정한다. 또한, 요소 재선정부 115는, 재현율이 고유의 목표치를 밑돌고 있을 때에, 재현율이 고유의 목표치를 웃돌 때까지, 요소의 평가치의 합이 고유의 목표치와 재현율과의 차이에 도달할 때까지 요소로부터 추출된 요소를 제외한 요소의 집합으로부터 요소를 추출하여, 선정하는 것이라고 할 수 있다.
다음으로, 도 3 및 도 4를 이용하여, 포렌식 시스템의 처리 플로우를 설명한다.
도 3은 교사 데이터 작성 플로우에 관한 처리를 나타내는 차트이다. 포렌식 시스템은, 교사 데이터에 있어서 리뷰어가 한 리뷰 결과의 특징에 기초하여, 다른 문서 데이터의 관련성 판단의 처리를 행한다.
우선, 추출부 117이, 수집된 문서 데이터로부터 리뷰어에 제시하기 위한 문서군을 랜덤으로 샘플링 해, 추출한다(STEP111). 다음으로, 표시부 116이 추출된 문서군을 문서 표시 화면 I1에 표시하도록 클라이언트 단말 200의 화면 표시부 211에 지시를 낸다. 이 때, 표시부 116은, 날짜 순으로 문서를 나열하여 표시하도록 지시를 낸다. 지시를 받은 화면 표시부 211은, 문서 표시 화면 I1을 클라이언트 단말 200상에 표시한다(STEP112). 리뷰어는, 문서 표시 화면 I1에 표시된 문서를 보고 리뷰를 실시한다. 구체적으로는, 문서와 소송과의 관련성의 정도에 따라 분별 부호를 문서에 부여한다. 리뷰어에 의해서 부여된 분별 부호는 결과 정보로서 결과 정보 접수부 111이 접수한다(STEP113). 이와 같이, 리뷰어에 의해서 리뷰된 문서군은 교사 데이터로서 후단의 처리로 건네진다.
도 4는, 재현율 향상 플로우에 관한 처리를 나타내는 차트이다.
요소 선정부 112가 교사 데이터를 해석해, 요소를 선정하는 처리를 실시한다. 구체적으로는, 공통의 분별 부호가 부여된 문서에 공통되어 출현하는 형태소를 요소로서 N개, 추출한다(STEP120). 추출한 형태소는, 각 형태소가 가지는 전달 정보량을 기초로 평가치를 산출한다(STEP121). 예를 들면 1번째에 추출한 형태소의 평가치를 Wgt1, 2번째를 Wgt2, N번째를 Wgtn로 한다. 요소 선정부 112는 이 Wgt1 내지 Wgtn의 평가치를 이용하여, 후단의 처리를 행하기 위한 형태소를 선정한다. 구체적으로는, 형태소를 평가치의 내림차순으로 바꿔 나열하고 이하의 식(1)을 만족시키고, 그 총합이 고유의 목표치(K라고 함:K는 임의의 상수)에 도달할 때까지 평가치의 상위로부터 차례로 m개의 형태소를 선택한다.
Figure pct00001
K : 고유의 목표치
wgti : i번째의 형태소의 평가치
본 실시 형태에서, 고유의 목표치는, 목표로 하는 재현율을 가리킨다.
다음으로, 스코어 산출부 113이 선정된 m개의 형태소를 포함한 문서를, 문서 데이터로부터 추출하고(STEP130), 포함되는 형태소의 평가치에 기초하여, 각 문서의 스코어를 이하의 식(2)에 의해 산출한다(STEP131). 이 때 교사 데이터에 대해서도, 스코어 산출부 113은 스코어를 산출한다.
Figure pct00002
Si : i번째의 스코어
mi : i번째의 형태소
wgti : i번째의 형태소의 평가치
다음으로, 재현율 산출부 114가, 스코어의 내림차순으로 문서(교사 데이터를 포함한다)를 바꿔 나열하고(STEP140), 바꿔 나열된 문서의 상위 A%(A는 임의의 상수)를 추출한다(STEP141). 재현율 산출부 114는, A%에 포함되는 문서 개수 가운데, 교사 데이터가 포함되는 비율로부터 재현율 X1(Xn:재현율 산출부 114가 n번째에 산출한 재현율)를 산출한다(STEP142).
다음으로 요소 재선정부 115가, 목표치 K를 재현율 X1가 웃돌고 있는지 판정한다(STEP150). 웃돌고 있을 경우(STEP150:YES), 처리를 종료한다. 밑돌고 있을 경우(STEP150:NO), 요소 재선정부 115는 요소를 재선정한다(STEP151). 구체적으로, 요소 선정부 112가 추출한 N개의 형태소로부터, 이번 처리에 이용한 m개의 형태소를 제외한 형태소로부터, 이하의 식(3)을 만족시키고, 그 총합이 고유의 목표치에 도달할 때까지 평가치의 상위로부터 차례로 l개의 형태소를 선택한다.
Figure pct00003
K : 고유의 목표치
Wi : i번째의 형태소
Xn : n번째의 재현율
스코어 산출부 113은, 요소 재선정부 115가 재선정한 형태소를 포함한 문서를 교사 데이터를 포함한 문서로부터 추출하고(STEP130:2순회), 각 문서의 제2의 스코어 S1r를, 식(1)을 이용해 계산한다. 첫회에 계산한 스코어 S1와 제2의 스코어 S1r과의 잔차△₁(△₁=S1r-S1)을 이용하여, 이하의 식(4)으로부터 각 문서의 합성 스코어 S2를 산출한다(STEP131:2순회).
Figure pct00004
Si : i번째의 스코어
Sir : i번째의 제2의 스코어
i : i번째의 스코어 및 i번째의 제2의 스코어의 합성 스코어
합성 스코어 S2를 이용하여, 재현율 산출부 114는 재차, 재현율을 산출하고, 목표치 K를 웃돌 때까지, STEP130~STEP151의 처리를 반복한다. 이것에 의해, 목표 재현율까지, 포렌식 시스템의 리뷰 처리의 정확도를 향상시키는 것이 가능해진다.
[그 외의 실시 형태]
이하, 본 발명의 그 외의 실시 형태를 도 5 및 도 6을 이용해 설명한다.
본 발명의 그 외의 실시 형태와 관련되는 포렌식 시스템은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 시스템에 있어서, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 결과 정보 접수부 111과 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 요소 선정부 112와 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 문서 데이터의 각 문서의 스코어를 산출하는 스코어 산출부 113과 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 재현율 산출부 114를 포함한다.
또한, 본 실시 형태에 있어서의 포렌식 시스템은, 추가로, 스코어가 소정의 임계치를 초과한 문서에 대해서 상기 소송과의 관련성에 관한 판단을 실시하는 자동 판단부 118을 포함할 수 있다.
도 5는, 그 외의 실시 형태에 있어서의 포렌식 시스템의 블럭도를 나타내고 있다. 본 실시 형태에 있어서, 포렌식 시스템은, 서버 장치 100과 클라이언트 단말 200을 포함하고 있다.
클라이언트 단말 200은, 도 2에 나타내는 리뷰 화면 I1을 표시하는 화면 표시부 211을 포함하고 있다. 리뷰어는, 클라이언트 단말 200을 통해, 서버 장치 100에 접속하여, 리뷰 화면 I1상에서 리뷰를 실시한다.
서버 장치 100은, 결과 정보 접수부 111과, 요소 선정부 112와, 스코어 산출부 113과, 재현율 산출부 114와, 요소 재선정부 115와, 표시부 116과, 추출부 117과, 자동 판단부 118을 포함하고 있다.
본 실시 형태에 있어서, 각 구성은 서버 장치 100상에 탑재되고 있지만, 각각 별도 장치에 탑재될 수도 있다.
자동 판단부 118은, 문서에 대해서 소송과의 관련성 판단을 자동으로 실시한다. 예를 들면, 자동 판단부 118은, 스코어 산출부 113이 문서에 부여한 스코어가 소정의 임계치를 초과했을 경우에, 관련성 있음으로 판단하는 것이라고 할 수 있다.
도 6은 자동 판단부 118의 처리 플로우를 나타내는 차트이다. 자동 판별부의 처리는, 제1의 실시 형태에 대해 도 4로 나타낸 STEP150의 처리가 완료 후, 시작된다.
시스템 관리자가, 각 분별 부호에 대해서, 임계치를 입력한다(STEP201). 스코어 산출부 113이 산출한 스코어가 이 임계치를 초과한 문서는, 초과한 스코어에 관한 분별 부호가 부여되는 것으로 자동 판별부가 판단하게 된다.
예를 들면, 어느 문서 A에 대해서, 스코어 산출부 113이 산출한 스코어가, 임계치를 초과하고 있을 경우(STEP202:YES), 어느 문서 A에 대해서, 분별 부호를 자동 판단부 118이 부여한다(STEP203). 한편, 임계치를 초과하지 않은 경우(STEP2020:NO), 문서 A에 분별 부호는 부여되지 않는다. 문서 데이터 내에, 스코어가 초과하는지 여부의 판정이 아직 되어 있지 않은 문서가 남아 있는 경우(STEP204:YES), 자동 판단부 118은, 재차 STEP202의 처리를 실행한다. 문서 데이터 내에, 스코어가 초과하는지 여부의 판정이 아직 되어 있지 않은 문서가 남지 않은 경우(STEP204:NO), 자동 판단부 118은, 처리를 종료한다.
그 외의 구성, 기능에 대해서는 제1의 실시 형태와 같다.
포렌식 시스템은, 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 결과 정보 접수부 111과, 결과 정보마다 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 요소를 선정하는 요소 선정부 112와, 문서 데이터의 각 문서에 포함되는 선정된 요소 및 선정된 요소의 평가치로부터 상기 문서 데이터의 각 문서의 스코어를 산출하는 스코어 산출부 113과, 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 재현율 산출부 114를 실행하는 것에 의해서, 이용자가 실시하는 소송에 이용하는 문서 데이터의 관련성 판단 작업의 부담이 경감되고, 또한, 시스템이 자동으로 실행한 판단이 인간의 판단에 어느 정도 합치하는지를 검증하는 것으로 판단 정확도를 향상시키는 것이 가능해진다.
또한, 요소 선정부 112가, 평가치의 합에 기초하여 요소를 선정하는 경우에서는, 시스템이 이용하는 요소의 개수를 줄일 수 있고 이것에 의해서 노이즈를 저감하는 것이 가능해진다.
또한, 요소 선정부 112가, 요소를 평가치의 내림차순으로 바꿔 나열하고 요소의 평가치의 합이 고유의 목표치에 도달할 때까지 요소를 추출하여, 해당 추출한 요소를 선정하는 경우에서는, 시스템이 이용하는 요소의 개수를 줄일 수 있고 이것에 의해서 노이즈를 저감하는 것이 가능해진다.
또한, 재현율 산출부 114가, 스코어가 산출된 문서 가운데, 소정의 스코어 이상을 가지는 문서에, 문서군의 문서가 포함되는 비율로부터 재현율을 산출하는 경우에서는, 문서의 스코어로부터 시스템의 관련성 판단의 경향을 평가해, 이용자의 관련성 판단의 경향과의 일치 상태를 판정하는 것이 가능해진다.
또한, 재현율 산출부 114가, 스코어가 산출된 문서 데이터의 각 문서를, 상기 스코어의 내림차순으로 바꿔 나열하고 스코어의 상위로부터 소정 비율의 문서를 추출하여, 상기 추출된 문서에 상기 문서군이 포함되는 비율을 재현율로서 계산하는 경우에, 문서의 스코어로부터 시스템의 관련성 판단의 경향을 평가해, 이용자의 관련성 판단의 경향과의 일치 상태를 판정하는 것이 가능해진다.
또한, 포렌식 시스템은, 추가로, 스코어가 소정의 임계치를 초과한 문서에 대해서 소송과의 관련성에 관한 판단을 실시하는 자동 판단부 118을 포함하는 경우에는, 이용자의 관련성 판단의 경향을 기초로 하여, 자동으로 문서와 소송과의 관련성 판단을 하는 것이 가능해진다.
또한, 포렌식 시스템은, 추가로, 디지털 정보에 포함되는 문서 데이터로부터 소정 개수의 문서를 포함하는 문서군을 추출하는 추출부 117과, 추출된 문서군을 화면상에 표시하는 표시부 116을 포함하는 경우에는, 이용자가 관련성 판단을 실시하는 문서를 추출하여, 이용자의 단말상에 표시하는 것이 가능해진다.
또한, 포렌식 시스템은, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소의 평가치의 합과 고유의 목표치와 재현율과의 차이를 이용해 요소를 재선정하는 요소 재선정부 115를 포함하는 경우에서는, 재현율이 목표치에 이르지 않은 경우, 스코어의 산출에 이용하는 요소를 재차 다시 선택하는 것이 가능해져, 관련성 판단 정확도를 향상시키는 것이 가능해진다.
또한, 요소 재선정부 115가, 재현율이 고유의 목표치를 밑돌고 있을 때에, 재현율이 고유의 목표치를 웃돌 때까지, 요소의 평가치의 합이 고유의 목표치와 재현율과의 차이에 도달할 때까지 요소로부터 추출된 요소를 제외한 요소의 집합으로부터 요소를 추출하여, 선정하는 경우에서는, 재현율이 목표치에 이르지 않은 경우, 스코어의 산출에 이용하는 요소를, 이전에 이용한 요소와는 다른 요소로부터 재차 다시 선택하는 것이 가능해져, 관련성 판단 정확도를 향상시키는 것이 가능해진다.
또한, 스코어 산출부 113이, 추가로, 재현율이 고유의 목표치를 밑돌고 있을 때에, 요소 재선정부 115가 선정한 요소와 해당 요소 재선정부 115가 재선정한 요소의 평가치를 이용해 문서 데이터의 각 문서의 제2의 스코어를 산출하고, 스코어와의 합성에 의해, 문서 데이터의 각 문서의 스코어를 재차 산출하는 것일 때냄새나서는, 전회의 스코어와 제2의 스코어와의 합성 스코어를 스코어로서 이용하는 것으로, 재현율의 향상을 도모하는 것이 가능해진다.
100 서버 장치
111 결과 정보 접수부
112 요소 선정부
113 스코어 산출부
114 재현율 산출부
115 요소 재선정부
116 표시부
117 추출부
118 자동 판단부
200 클라이언트 단말
211 화면 표시부
I1 리뷰 화면

Claims (14)

  1. 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 시스템에 있어서,
    상기 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 상기 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 결과 정보 접수부와,
    상기 결과 정보마다 상기 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 상기 요소를 선정하는 요소 선정부와,
    상기 문서 데이터의 각 문서에 포함되는 상기 선정된 요소 및 상기 선정된 요소의 평가치로부터 상기 문서 데이터의 각 문서의 스코어를 산출하는 스코어 산출부와,
    상기 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 재현율 산출부를 포함하는 포렌식 시스템.
  2. 제1항에 있어서,
    상기 요소 선정부는,
    상기 평가치의 합에 기초하여 상기 요소를 선정하는 것을 특징으로 하는 포렌식 시스템.
  3. 제1항 또는 제2항에 있어서,
    상기 요소 선정부는,
    상기 요소를 평가치의 내림차순으로 바꿔 나열하고, 상기 요소의 평가치의 합이 고유의 목표치에 도달할 때까지 요소를 추출하여, 해당 추출한 요소를 선정하는 것을 특징으로 하는 포렌식 시스템.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 재현율 산출부는,
    상기 스코어가 산출된 문서 가운데, 소정의 스코어 이상을 가지는 문서에, 상기 문서군의 문서가 포함되는 비율로부터 재현율을 산출하는 것을 특징으로 하는 포렌식 시스템.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 재현율 산출부는,
    상기 스코어가 산출된 문서 데이터의 각 문서를, 상기 스코어의 내림차순으로 바꿔 나열하고, 스코어의 상위로부터 소정의 비율의 문서를 추출하여, 상기 추출된 문서에 상기 문서군이 포함되는 비율을 재현율로서 계산하는 것을 특징으로 하는 포렌식 시스템.
  6. 제1항 내지 5항 중 어느 한 항에 있어서,
    상기 요소 선정부는,
    상기 요소가 가지는, 전달 정보량을 기초로 상기 평가치를 산출하는 것을 특징으로 하는 포렌식 시스템.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 포렌식 시스템은, 추가로,
    상기 스코어가 소정의 임계치를 초과한 문서에 대해서 상기 소송과의 관련성에 관한 판단을 실시하는 자동 판단부를 포함하는 것을 특징으로 하는 포렌식 시스템.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 포렌식 시스템은, 추가로,
    상기 디지털 정보에 포함되는 문서 데이터로부터 소정 개수의 문서를 포함하는 문서군을 추출하는 추출부와,
    상기 추출된 문서군을 화면상에 표시하는 표시부를 포함하는 것을 특징으로 하는 포렌식 시스템.
  9. 제3항 내지 제8항 중 어느 한 항에 있어서,
    상기 포렌식 시스템은, 추가로,
    상기 재현율이 상기 고유의 목표치를 밑돌고 있을 때에, 상기 요소의 평가치의 합과 상기 고유의 목표치와 상기 재현율과의 차이를 이용해 상기 요소를 재선정하는 요소 재선정부를 포함하는 것을 특징으로 하는 포렌식 시스템.
  10. 제9항에 있어서,
    상기 요소 재선정부는,
    상기 재현율이 상기 고유의 목표치를 밑돌고 있을 때에, 상기 재현율이 상기 고유의 목표치를 웃돌 때까지, 상기 요소의 평가치의 합이 상기 고유의 목표치와 상기 재현율과의 차이에 도달할 때까지 상기 요소로부터 상기 추출된 요소를 제외한 요소의 집합으로부터 요소를 추출하여, 선정하는 것을 특징으로 하는 포렌식 시스템.
  11. 제9항 또는 제10항에 있어서,
    상기 스코어 산출부는, 추가로,
    상기 재현율이 상기 고유의 목표치를 밑돌고 있을 때에, 상기 요소 재선정부가 선정한 요소와 해당 요소 재선정부가 재선정한 요소의 평가치를 이용해 상기 문서 데이터의 각 문서의 제2의 스코어를 산출하고, 상기 스코어와 상기 제2의 스코어와의 합성에 의해, 상기 문서 데이터의 각 문서의 스코어를 재차 산출하는 것을 특징으로 하는 포렌식 시스템.
  12. 제8항에 있어서,
    상기 추출부는, 상기 문서 데이터로부터 문서군을 랜덤으로 샘플링 해, 추출하는 기능을 갖추는 것을 특징으로 하는 포렌식 시스템.
  13. 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 방법에 있어서,
    컴퓨터가,
    상기 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 상기 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 단계와,
    상기 결과 정보마다 상기 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 상기 요소를 선정하는 단계와,
    상기 문서 데이터의 각 문서에 포함되는 상기 선정된 요소 및 상기 선정된 요소의 평가치로부터 상기 문서 데이터의 각 문서의 스코어를 산출하는 단계와,
    상기 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 단계를 실행하는 포렌식 방법.
  14. 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 해당 취득된 디지털 정보를 소송과의 관련성에 대해 분석하는 포렌식 프로그램에 있어서,
    컴퓨터에,
    상기 디지털 정보에 포함되는 문서 데이터로부터 추출된, 소정 개수의 문서를 포함하는 문서군에 대해서 이용자가, 상기 소송과의 관련성에 대해 판단한 결과인 결과 정보를 접수하는 기능과,
    상기 결과 정보마다 상기 문서군에 공통되어 출현하는 요소의 특징으로부터 해당 요소의 평가치를 산출하고, 해당 평가치에 기초하여, 상기 요소를 선정하는 기능과,
    상기 문서 데이터의 각 문서에 포함되는 상기 선정된 요소 및 상기 선정된 요소의 평가치로부터 상기 문서 데이터의 각 문서의 스코어를 산출하는 기능과,
    상기 스코어에 기초하여, 소송과의 관련성 판단에 관한 재현율을 산출하는 기능을 실현시키는 포렌식 프로그램.
KR1020157012205A 2012-10-09 2013-10-09 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램 KR101566153B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2012-224587 2012-10-09
JP2012224587A JP5526209B2 (ja) 2012-10-09 2012-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
PCT/JP2013/077442 WO2014057964A1 (ja) 2012-10-09 2013-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Publications (2)

Publication Number Publication Date
KR20150056878A true KR20150056878A (ko) 2015-05-27
KR101566153B1 KR101566153B1 (ko) 2015-11-04

Family

ID=50477432

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157012205A KR101566153B1 (ko) 2012-10-09 2013-10-09 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램

Country Status (8)

Country Link
US (2) US9396273B2 (ko)
EP (1) EP2908283A4 (ko)
JP (1) JP5526209B2 (ko)
KR (1) KR101566153B1 (ko)
CN (1) CN104871201A (ko)
HK (1) HK1212799A1 (ko)
TW (1) TWI556128B (ko)
WO (1) WO2014057964A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015063784A1 (en) * 2013-10-31 2015-05-07 Hewlett-Packard Development Company, L.P. Classifying document using patterns
WO2016157467A1 (ja) 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
CN106302608B (zh) * 2015-06-08 2020-02-04 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN108255926A (zh) * 2017-11-14 2018-07-06 宫辉 一种基于甘特图的法律事务管理方法和系统
CN111444438B (zh) * 2020-03-24 2023-09-01 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642520A (en) * 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP4034037B2 (ja) * 1998-09-10 2008-01-16 富士通株式会社 書面審議装置および書面審議システム、並びにコンピュータを書面審議装置として動作させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6128620A (en) * 1999-02-02 2000-10-03 Lemed Inc Medical database for litigation
US7024416B1 (en) * 1999-03-31 2006-04-04 Verizon Laboratories Inc. Semi-automatic index term augmentation in document retrieval
WO2002052452A2 (en) * 2000-12-22 2002-07-04 Merchant & Gould P.C. Litigation management system and method
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US7062498B2 (en) 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US7912842B1 (en) * 2003-02-04 2011-03-22 Lexisnexis Risk Data Management Inc. Method and system for processing and linking data records
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US8612411B1 (en) * 2003-12-31 2013-12-17 Google Inc. Clustering documents using citation patterns
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置
JP2006235716A (ja) * 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
US7937579B2 (en) * 2005-03-16 2011-05-03 Dt Labs, Llc System, method and apparatus for electronically protecting data and digital content
KR20080005208A (ko) 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법
JP2007047575A (ja) * 2005-08-11 2007-02-22 Canon Inc パターンマッチング方法およびその装置、および音声情報検索システム
US20070139231A1 (en) * 2005-10-19 2007-06-21 Advanced Digital Forensic Solutions, Inc. Systems and methods for enterprise-wide data identification, sharing and management in a commercial context
US20070198594A1 (en) * 2005-11-16 2007-08-23 Lunt Tracy T Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
US7689559B2 (en) * 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP5010885B2 (ja) * 2006-09-29 2012-08-29 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
JP5235210B2 (ja) * 2007-04-13 2013-07-10 マサチューセッツ インスティテュート オブ テクノロジー 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
KR101008877B1 (ko) 2007-12-06 2011-01-17 한국전자통신연구원 디지털 포렌식에서의 검색 및 검색 결과를 제시하는 방법, 그리고 그 장치
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20100049769A1 (en) 2008-08-25 2010-02-25 Chen-Kun Chen System And Method For Monitoring And Managing Patent Events
GB0816556D0 (en) * 2008-09-10 2008-10-15 Univ Napier Improvements in or relating to digital forensics
KR101082024B1 (ko) 2008-12-08 2011-11-10 한국전자통신연구원 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
US20100205014A1 (en) * 2009-02-06 2010-08-12 Cary Sholer Method and system for providing response services
US20100205020A1 (en) * 2009-02-09 2010-08-12 Losey Ralph C System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
KR101065091B1 (ko) * 2009-02-17 2011-09-16 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
KR101481680B1 (ko) * 2009-07-22 2015-01-12 파운데이션아이피 엘엘씨 전자적 문서 집합으로부터 질의의 결과를 산출하는 방법, 시스템 및 장치
JP2011076408A (ja) * 2009-09-30 2011-04-14 Brother Industries Ltd データ管理装置、データ管理方法、およびデータ管理プログラム
EP2354971A1 (en) * 2010-01-29 2011-08-10 E-Therapeutics plc Document analysis system
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4868191B2 (ja) 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4995950B2 (ja) * 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8924395B2 (en) * 2010-10-06 2014-12-30 Planet Data Solutions System and method for indexing electronic discovery data
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9037630B2 (en) * 2012-02-21 2015-05-19 Matthew Martin Shannon Systems and methods for provisioning digital forensics services remotely over public and private networks
US9146981B2 (en) * 2012-07-06 2015-09-29 International Business Machines Corporation Automated electronic discovery collections and preservations

Also Published As

Publication number Publication date
US10073891B2 (en) 2018-09-11
EP2908283A1 (en) 2015-08-19
US20150088876A1 (en) 2015-03-26
TW201415275A (zh) 2014-04-16
TWI556128B (zh) 2016-11-01
HK1212799A1 (zh) 2016-06-17
EP2908283A4 (en) 2016-04-20
US20160246795A1 (en) 2016-08-25
WO2014057964A1 (ja) 2014-04-17
KR101566153B1 (ko) 2015-11-04
CN104871201A (zh) 2015-08-26
JP5526209B2 (ja) 2014-06-18
US9396273B2 (en) 2016-07-19
JP2014078084A (ja) 2014-05-01

Similar Documents

Publication Publication Date Title
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
CN106446071B (zh) 信息处理装置及方法
KR101566153B1 (ko) 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램
US20160292803A1 (en) Document Analysis System, Document Analysis Method, and Document Analysis Program
TW201415402A (zh) 取證系統、取證方法及取證程式
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
US9595071B2 (en) Document identification and inspection system, document identification and inspection method, and document identification and inspection program
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
WO2015118619A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
KR101458857B1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015084244A (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181011

Year of fee payment: 4