KR20150129862A

KR20150129862A - 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램

Info

Publication number: KR20150129862A
Application number: KR1020157031630A
Authority: KR
Inventors: 마사히로 모리모토; 요시카츠 시라이; 히데키 다케다
Original assignee: 가부시키가이샤 유빅
Priority date: 2012-10-10
Filing date: 2013-10-09
Publication date: 2015-11-20
Also published as: EP2908282A1; JP5823943B2; CN104885116A; KR20150056873A; TW201415264A; WO2014057963A1; EP2908282A4; US20160110826A1; CN104885116B; JP2014078109A

Abstract

리뷰어의 리뷰 관련성 판단의 부하를 경감하는 것을 가능하게 한다. 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군 중 적어도 하나 이상의 문서를 상기 이용자에 대해 표시하는 표시부와, 상기 문서군 중에서 상기 이용자가 소송에 관련되는지 여부를 판단하기 위한 문서인 대상 문서에 대해, 상기 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 식별 정보 접수부와, 상기 식별 정보를 접수한 대상 문서의 특징량과 상기 문서군 중의 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 상기 문서군 중의 문서의 스코어를 갱신하는 스코어 갱신부와, 상기 갱신된 스코어에 기초하여, 상기 표시부에 표시되는 상기 문서군의 문서의 표시 순서를 제어하는 표시 제어부를 구비한다.

Description

포렌식 시스템 및 포렌식 방법과 포렌식 프로그램{Forensic system, forensic method, and forensic program}

본 발명은 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램에 관한 것으로, 특히 소송에 관련되는 문서 정보를 수집하기 위한 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램에 관한 것이다.

종래에, 부정 액세스나 기밀정보 누설 등 컴퓨터에 관한 범죄나 법적 분쟁이 발생하였을 때에 원인 구명(究明)이나 수사에 필요한 기기나 데이터, 전자적 기록을 수집·분석하여 그 법적인 증거성(證據性)을 명확히 하는 수단이나 기술이 제안되어 있다.

또한, 미국 민사소송에서는 eDiscovery(전자 증거 개시) 등이 요구되고 있고, 해당 소송의 원고 및 피고 모두가 관련되는 디지털 정보를 모두 증거로서 제출할 책임을 진다. 그 때문에, 컴퓨터나 서버에 기록된 디지털 정보를 증거로서 제출해야 한다.

한편, IT의 급속한 발달과 보급에 따라 오늘날 비즈니스의 세계에서는 대부분의 정보가 컴퓨터로 작성되어 있기 때문에, 동일 기업 내에서도 많은 디지털 정보가 범람하고 있다.

그 때문에, 법정에의 증거 자료 제출을 위한 준비 작업을 행하는 과정에 있어서, 해당 소송에 반드시 관련되지 않는 기밀한 디지털 정보까지도 증거 자료로서 포함시키는 실수가 발생하기 쉽다. 또한, 해당 소송에 관련되지 않는 기밀한 문서 정보를 제출하는 것이 문제가 되었다.

최근에 포렌식 시스템에서의 문서 정보에 관한 기술이 특허문헌 1 내지 특허문헌 3에 제안되어 있다. 특허문헌 1에는, 문서 제출 명령의 대상자 정보에 포함되는 적어도 1명 이상의 대상자로부터 특정 사람을 지정하고, 지정된 특정 사람에 관한 액세스 이력 정보에 기초하여 특정 사람이 액세스한 디지털 문서 정보만을 추출하며, 추출된 디지털 문서 정보의 문서 파일 각각이 소송에 관련되는 것인지 여부를 나타내는 부대 정보를 설정하고, 부대 정보에 기초하여 소송에 관련되는 문서 파일을 출력하는 포렌식 시스템에 대해 개시되어 있다.

또한, 특허문헌 2에는 기록된 디지털 정보를 표시하고, 복수의 문서 파일마다 대상자 정보에 포함되는 대상자 중 어떤 대상자에 관련되는 것인지를 나타내는 대상자 특정 정보를 설정하며, 그 설정된 대상자 특정 정보를 기억부에 기록하도록 설정하고, 적어도 1명 이상의 대상자를 지정하며, 지정된 대상자에 대응하는 대상자 특정 정보가 설정된 문서 파일을 검색하고, 표시부를 통해 검색된 문서 파일이 소송에 관련되는 것인지 여부를 나타내는 부대 정보를 설정하며, 부대 정보에 기초하여 소송에 관련되는 문서 파일을 출력하는 포렌식 시스템에 대해 개시되어 있다.

또, 특허문헌 3에는 디지털 문서 정보에 포함되는 적어도 하나 이상의 문서 파일의 지정을 접수하고, 지정된 문서 파일을 어떤 언어로 번역할 지의 지정을 접수하며, 지정을 접수한 문서 파일을, 지정을 접수한 언어로 번역하여 기록부에 기록된 디지털 문서 정보로부터 지정된 문서 파일과 동일한 내용을 나타내는 공통 문서 파일을 추출하고, 추출된 공통 문서 파일이 번역된 문서 파일의 번역 내용을 원용함으로써 번역되었음을 나타내는 번역 관련 정보를 생성하며, 번역 관련 정보에 기초하여 소송에 관련되는 문서 파일을 출력하는 포렌식 시스템에 대해 개시되어 있다.

특허문헌 1: 일본공개특허 2011-209930호 공보 특허문헌 2: 일본공개특허 2011-209931호 공보 특허문헌 3: 일본공개특허 2012-32859호 공보

그러나, 예를 들어 특허문헌 1 내지 특허문헌 3과 같은 포렌식 시스템에서는 복수의 컴퓨터 및 서버를 이용한 대상자의 방대한 문서 정보를 수집하게 된다.

이러한 디지털화된 방대한 문서 정보를 소송의 증거 자료로서 타당한지 여부의 분별을 하는 작업은, 리뷰어(reviewer)라고 불리는 이용자가 육안으로 확인하여 해당 문서 정보를 하나하나 분별할 필요가 있어 많은 노력과 시간이 걸리는 문제가 있었다.

그래서, 본 발명은 상기 사정을 감안하여 리뷰어의 리뷰의 부하를 경감하는 것을 가능하게 하는 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램을 제공하는 것을 목적으로 하는 것이다.

본 발명의 포렌식 시스템은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 그 취득된 디지털 정보를 분석하는 포렌식 시스템에 있어서, 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군 중 적어도 하나 이상의 문서를 이용자에 대해 표시하는 표시부와, 문서군 중에서 이용자가 소송에 관련되는지 여부를 판단하기 위한 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 식별 정보 접수부와, 그 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 그 각 문서의 스코어를 갱신하는 스코어 갱신부와, 그 갱신된 스코어에 기초하여, 표시부에 표시되는 문서군의 문서의 표시 순서를 제어하는 표시 제어부를 구비한다.

「문서」란, 하나 이상의 단어를 포함하는 데이터를 말한다. 문서의 일례로서 전자 메일, 프레젠테이션 자료, 표 계산 자료, 협의 자료, 계약서, 조직도, 사업 계획서 등을 들 수 있다. 또한, 문서는 식별 정보마다 대응하는 스코어를 가지며, 스코어는 문서군 중의 각 문서에 대해 미리 부여되는 초기 스코어로부터 식별 정보가 관련지어진 대상 문서와 각 문서의 특징량의 비교 결과에 기초하여 산출된 값을 가점 또는 감점함으로써 산출되어 갱신되는 것이어도 된다.

「문서군」은, 복수의 문서로 구성되는 것이다.

「표시부」는, 이용자에게 문서를 제시하는 것을 말한다. 표시부에 표시된 문서는 이용자의 소송에 관련되는지 여부의 판단 대상이 된다. 이 소송에 관련되는지 여부를 판단하는 행위를 「리뷰」라고 한다. 리뷰는 리뷰의 대상이 되는 문서(여기서는 대상 문서라고 함)의 소송 관련 정도나 소송과의 관련 방법에 기초하여 복수의 종류로 분류를 하고, 종류마다 식별 정보를 부여한다.

「표시 제어부」는, 표시부에 대해 통신에 의해 지시를 보내 표시하는 문서의 순서를 제어한다. 예를 들어, 문서가 가지는 스코어의 오름차순으로 표시부에 표시시키도록 제어하는 것으로 해도 된다.

「식별 정보 접수부」는, 이용자가 리뷰에 의해 대상 문서에 부여한 식별 정보를 접수하는 것을 말한다.

「식별 정보」는 분류 대상이 되는 문서에 부여되는 것으로, 소송에의 이용이 용이해지도록 소송과의 관련성을 나타내는 것을 말한다. 식별 정보는 각 문서에 부대 정보로서 기록해도 되고, 식별 정보와 문서의 대응 관계를 데이터베이스 상에 기록하는 것으로 해도 된다. 식별 정보는 예를 들어 소송에 관련되는 것을 나타내는 「Responsive」나, 특히 소송에서 중요시되는 문서를 나타내는 「HOT」, 이번 소송과는 관계없는 문서임을 나타내는 「Non-Responsive」 등의 키워드를 가리켜도 된다.

「스코어 갱신부」는, 식별 정보 접수부가 식별 정보를 접수한 대상 문서의 특징량과 문서군 중에 포함되는 문서의 특징량을 비교하고, 그 접수한 식별 정보에 대응하는 스코어를 갱신하는 것을 말한다. 또한, 스코어 갱신부는 문서 중에 빈출(頻出)하는 각 단어의 종류, 각 단어가 가지는 평가치 및 각 단어의 출현 수로 이루어지는 경향 정보를 이용하여 특징량을 산출하는 것으로 해도 된다. 스코어 갱신부는, 예를 들어 특징량의 일치도에 따라 스코어를 가점·감점하는 것으로 해도 된다. 비교 대상이 되는 문서에는 대상 문서 자신을 포함해도 되고, 대상 문서는 제외해도 된다. 예를 들어, 대상 문서 자신을 비교 대상에 포함한 경우, 특징량은 완전히 일치하므로 상응하는 점이 스코어에 가점되어 갱신된다.

「스코어」는, 문서와 식별 정보의 결합 정도를 정량적으로 평가한 것을 말한다. 각 문서는 데이터베이스 상에 소정의 식별 정보마다 대응하는 스코어가 기록되어 있는 것으로 해도 된다. 예를 들어, 리뷰에 있어서 각 문서가 식별 정보「HOT」, 「Responsive」 또는 「Non-Responsive」의 3가지 식별 정보에 의해 분류되는 것으로 한 경우를 예로 설명한다. 이 경우, 각 문서는 데이터베이스 상에 「Hot」스코어, 「Responsive」스코어 및 「Non-Responsive」스코어의 3가지 스코어를 기록하는 영역이 확보되는 것으로 해도 된다. 그리고, 상기 3종류의 스코어 중에서 소정의 문턱값을 초과한 경우, 그 초과한 식별 정보가 부여되는 것으로 해도 된다.

각 문서는, 일정한 요건에 기초하여 초기 스코어가 부여되는 것으로 해도 된다. 예를 들어, 문서 중에 출현하는 단어와 각 단어가 가지는 평가치에 의해 초기 스코어를 산출해도 된다. 또한, 전체 문서에 공통으로 일정 값을 초기 스코어로서 부여해도 된다. 초기 스코어로부터 가점·감점 처리가 행해지고 스코어가 갱신된다.

「특징량」은, 각 문서 사이의 유사도를 측정하는 데에 이용하는 것을 말한다. 특징량은 문서 중에 빈출하는 각 단어의 종류, 각 단어가 가지는 평가치 및 각 단어의 출현 수로 이루어지는 경향 정보를 이용하여 스코어 갱신부에 의해 산출되는 것으로 해도 된다. 나아가 스코어 갱신부는 특징량을 산출할 때에 단어의 전달 정보량을 참작해도 된다.

또한, 본 발명에 관한 포렌식 시스템은, 스코어가 특정 값에 도달한 문서를 표시부에 의해 표시되는 문서의 후보로부터 제외하는 것을 판정하는 제외 판정부와, 그 판정된 문서의 수가 소정의 값을 넘을 때까지 표시부와 식별 정보 접수부와 스코어 갱신부와 표시 제어부와 제외 판정부의 처리를 반복 실행할 수 있도록 제어하는 제어부를 더 구비해도 된다.

「제외 판정부」는, 스코어의 갱신시에 갱신 후의 스코어가 특정 값에 도달한 문서를 표시부에 의해 표시되는 문서의 후보 대상으로부터 제외 판정하는 것을 말한다. 제외 판정부는, 제외 판정의 전단으로서 식별 정보마다 종료 판정을 행하는 것으로 해도 된다. 예를 들어, 리뷰에 있어서 제외 판정부는 3종류의 식별 정보를 부여하는 것인 경우, 3종류 모든 식별 정보에 대해 종료 판정한 문서를 대상 문서의 후보로부터 제외하는 것으로 해도 된다. 또한, 제외 판정부는 하나의 식별 정보에 대한 스코어만이 특정 값을 초과하여 해당 식별자에 대해 종료 판정된 경우, 그 초과한 식별 정보에 대해 종료 판정되었다는 표시를 해당 문서에 부여해도 된다. 나아가 제외 판정 및 종료 판정은 특정 값을 문턱값으로 하여 2개 가지는 것으로 해도 된다. 예를 들어, 스코어가 가점에 의해 그 2개의 문턱값 중 한쪽을 초과한 경우, 또는 스코어가 감점에 의해 다른 쪽의 문턱값을 밑도는 경우에 제외 판정 및 종료 판정하는 것도 가능하다.

「제어부」는, 표시부와 식별 정보 접수부와 스코어 갱신부와 제외 판정부의 처리를 반복 실행할 수 있도록 제어하는 것을 말한다. 이 제어는 1 처리마다 순환적으로 반복하는 것으로 해도 된다. 또한, 제어부는 배치(batch)적으로 일정량 처리한 후에 후단 처리를 실행시킨다는 단위로 반복하는 것으로 해도 된다. 제어부는, 문서군이나 대상 그룹에 포함되는 전체 문서가 제외 판정된 경우에 제어 처리를 완료한다.

또한, 본 발명에 관한 포렌식 시스템은, 문서군 중의 문서에 대해 갱신된 스코어에 기초하여 식별 정보를 부여하는 자동 부여부를 더 구비하는 것이어도 된다.

「자동 부여부」는, 각 문서에 적절한 식별 정보를 스코어에 따라 자동으로 판단하여 부여하는 것을 말한다. 자동 부여부는, 식별 정보의 종류마다 문턱값을 마련하고 그 문턱값을 초과한 문서에 대응하는 식별 정보를 부여하는 것으로 해도 된다.

또한, 본 발명에 관한 포렌식 시스템은, 문서군에 포함되는 문서에 대해 식별 정보에 대응하는 스코어를 기록하고, 스코어 갱신부가 스코어를 갱신할 때마다 식별 정보마다의 스코어를 갱신하는 데이터베이스를 더 구비하는 것으로 해도 된다. 데이터베이스에는 문서, 부여된 식별 정보, 각 식별 정보에 대응하는 스코어 및 문턱값 초과 정보 등을 기록하는 것으로 해도 된다.

또한, 본 발명에 관한 포렌식 시스템은, 문서군을 소정의 요건에 기초하여 그룹으로 분류하고, 그 그룹 중에서 처리 대상이 되는 대상 그룹을 적어도 하나 선택하는 분류부를 더 구비하며, 표시부는 분류부가 선택한 대상 그룹으로부터 이용자에게 표시하는 문서군을 추출하는 것으로 해도 된다.

「소정의 요건」은, 분류의 조건이 되는 것을 말한다. 소정의 요건은 이용자가 임의로 결정할 수 있는 것으로 해도 된다. 예를 들어 소정의 요건은 문서가 작성된 년도나 문서의 확장자, 문서의 작성자나 시큐리티 레벨 등을 들 수 있다.

「그룹」은, 문서군을 분류한 것을 말한다. 그룹은 복수의 문서를 포함하는 것으로 해도 된다. 그룹으로 분류된 경우, 제어부는 대상 그룹 중에 포함되는 전체 문서가 제외 판정되었을 때에 처리를 완료하는 것으로 해도 된다.

「대상 그룹」은, 상술한 그룹 중에서 이용자가 리뷰를 실시하는 대상이 되는 그룹을 말한다. 대상 그룹 중에서 표시부가 표시하는 문서군이 추출된다. 대상 그룹마다 표시 제어부에 의해 문서의 표시 순서의 제어가 행해지는 것으로 해도 된다. 또한, 대상 그룹 내의 전체 문서에 제어부의 처리가 완료되면, 다음 그룹이 대상 문서로서 선정되는 것으로 해도 된다.

또한, 본 발명에 관한 포렌식 시스템은, 대상 그룹에 포함되는 각 문서의 특징량과 이용자에 의한 소송에 관련되는지 여부의 판단이 완료된 그룹에 포함되는 각 문서의 특징량의 비교를 하는 그룹 비교부를 더 구비하고, 표시 제어부는 표시부에 그룹 비교부의 비교 결과를 기초로 대상 그룹으로부터 표시하는 문서군의 표시 순서를 제어하는 것으로 해도 된다.

「그룹 비교부」는, 그룹 사이에서 문서 특징의 비교 처리를 행하는 것을 말한다. 예를 들어, 그룹 비교부는 이용자에 의한 소송에 관련되는지 여부의 판단이 완료된 그룹에 포함되는 문서의 특징량을 비교 대상으로서 이용함으로써, 다음 대상 그룹에 포함되는 각 문서의 식별 정보의 치우침을 시사할 수 있다. 구체적으로 말하면, 그룹 비교부는 이용자에 의한 소송에 관련되는지 여부의 판단이 완료된 그룹(그룹 A라고 함) 중에서 하나의 식별 정보(식별 정보 A라고 함)에 대응하는 스코어가 높은 문서에 공통되는 특징량을 추출한다. 그룹 비교부는, 나아가 그 추출된 특징량과 유사한 특징량을 가지는 문서를 다음 대상 그룹(그룹 B라고 함) 중에서 검색하고, 특징량의 유사도에 따라 표시 제어부가 문서의 나열 순서를 제어한다. 그 나열 순서가 제어되어 상위에 온 문서는, 식별 정보「HOT」가 부여될 가능성이 높은 문서라고 생각된다. 그 때문에, 그룹 B에 대해 이용자가 리뷰를 하는 경우에 식별 정보「HOT」가 붙기 쉬움을 시사할 수 있고 리뷰 속도의 향상을 도모할 수 있다.

또한, 본 발명에 관한 포렌식 방법은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 그 취득된 디지털 정보를 분석하는 포렌식 방법에 있어서, 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군을 이용자에 대해 표시하는 단계와, 표시된 문서군으로부터 이용자가 소송에 관련되는지 여부를 판단하기 위한 문서인 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 단계와, 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 각 문서의 스코어를 갱신하는 단계와, 갱신된 스코어에 기초하여 표시부에 표시되는 문서군의 문서의 표시 순서를 제어하는 단계를 실행한다.

또한, 본 발명에 관한 포렌식 프로그램은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 그 취득된 디지털 정보를 분석하는 포렌식 프로그램에 있어서, 컴퓨터가 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군을 이용자에 대해 표시하는 기능과, 표시된 문서군으로부터 이용자가 소송에 관련되는지 여부를 판단하기 위한 문서인 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 기능과, 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 각 문서의 스코어를 갱신하는 기능과, 갱신된 스코어에 기초하여 표시부에 표시되는 문서군의 문서의 표시 순서를 제어하는 기능을 실행시킨다.

본 발명의 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램은, 표시된 대상 문서에 대해 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군을 이용자에 대해 표시하는 단계와, 표시된 문서군으로부터 이용자가 소송에 관련되는지 여부를 판단하기 위한 문서인 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 단계와, 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 각 문서의 스코어를 갱신하는 단계와, 갱신된 스코어에 기초하여 표시부에 표시되는 문서군의 문서의 표시 순서를 제어하는 단계를 가짐으로써, 이용자가 관련성 판단을 행하는 문서 수를 삭감함으로써 이용자의 관련성 판단의 부하를 저감하고, 관련성 판단 처리 속도의 향상을 도모하는 것이 가능하게 된다.

또한, 본 발명의 포렌식 시스템은, 문서군 중의 문서에 대해 갱신된 스코어에 기초하여 식별 정보를 부여하는 자동 부여부를 더 구비할 때에는 이용자의 판단 결과에 입각하여 자동으로 문서에 대해 식별 정보를 부여하는 것이 가능하다.

또한, 본 발명의 포렌식 시스템의 문서는 식별 정보마다 대응하는 스코어를 가지며, 스코어는 문서군 중의 각 문서에 대해 미리 부여되는 초기 스코어로부터 식별 정보가 관련지어진 대상 문서와 각 문서의 특징량의 비교 결과에 기초하여 가점 또는 감점함으로써 산출되어 갱신되는 것일 때에는, 이용자가 판단을 잘못하여 부적절한 식별 정보를 부여한 경우에서도 다른 문서에 대한 판단에 입각하여 스코어를 적절한 값으로 수렴시키는 것이 가능하다.

또한, 본 발명에 관한 포렌식 시스템은, 문서군을 소정의 요건에 기초하여 그룹으로 분류하고, 그 그룹 중에서 처리 대상이 되는 대상 그룹을 적어도 하나 선택하는 분류부를 더 구비하며, 표시부는 분류부가 선택한 대상 그룹으로부터 이용자에게 표시하는 문서군을 추출하는 것일 때에는 유사도가 높은 문서 사이에서 특징량을 비교하는 것이 가능하게 된다.

또한, 본 발명에 관한 포렌식 시스템은, 대상 그룹에 포함되는 각 문서의 특징량과 제어부에 의한 제어 처리가 완료된 그룹에 포함되는 각 문서의 특징량의 비교를 하는 그룹 비교부를 더 구비하고, 표시 제어부는 표시부에 그룹 비교부의 비교 결과를 기초로 대상 그룹으로부터 표시하는 문서군의 표시 순서를 제어하는 것일 때에는 이용자에게 대상 문서가 부여될 가능성이 높은 식별 정보를 사전에 시사하는 것이 가능하게 된다.

도 1은 본 발명의 제1 실시형태의 처리를 개념적으로 나타낸 도면
도 2는 본 발명의 제1 실시형태에서의 처리를 나타낸 흐름도
도 3은 본 발명의 제1 실시형태에 관한 포렌식 시스템의 블록도
도 4는 본 발명의 제1 실시형태에서의 표시부, 표시 제어부, 식별 정보 접수부, 스코어 갱신부 및 자동 부여부의 처리를 나타낸 흐름도
도 5는 본 발명의 실시형태에서의 분류부의 처리를 나타낸 흐름도
도 6은 본 발명의 실시형태에서의 분류부의 처리를 나타낸 모식도
도 7은 본 발명의 실시형태에서의 그룹 비교부의 처리를 나타낸 흐름도
도 8은 본 발명의 실시형태에서의 그룹 비교부의 처리를 나타낸 모식도
도 9는 본 발명의 제2 실시형태에 관한 포렌식 시스템의 블록도
도 10은 본 발명의 실시형태에서의 제외 판정부의 처리를 나타낸 흐름도
도 11은 본 발명의 제2 실시형태에서의 표시부, 표시 제어부, 식별 정보 접수부, 스코어 갱신부 및 자동 부여부의 처리를 나타낸 흐름도

[제1 실시형태]

이하, 본 발명의 제1 실시형태를 도 1 내지 도 8을 이용하여 설명한다.

본 발명의 제1 실시형태에 관한 포렌식 시스템(100)은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 그 취득된 디지털 정보를 분석하는 포렌식 시스템(100)에 있어서, 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군 중 적어도 하나 이상의 문서를 이용자에 대해 표시하는 표시부(210)와, 문서군 중에서 이용자가 소송에 관련되는지 여부를 판단하기 위한 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 식별 정보 접수부(410)와, 그 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 그 각 문서의 스코어를 갱신하는 스코어 갱신부(510)와, 그 갱신된 스코어에 기초하여 표시부(210)에 표시되는 문서군의 문서의 표시 순서를 제어하는 표시 제어부(310)를 구비한다.

또한, 제1 실시형태에 있어서, 포렌식 시스템(100)은 문서군 중의 문서에 대해 갱신된 스코어에 기초하여 식별 정보를 부여하는 자동 부여부(810)를 더 구비하는 것이어도 된다.

또한, 본 실시형태에 있어서, 포렌식 시스템(100)은 문서군에 포함되는 문서에 대해 식별 정보에 대응하는 스코어를 기록하고, 스코어 갱신부(510)가 스코어를 갱신할 때마다 식별 정보마다의 스코어를 갱신하는 데이터베이스(101)를 더 구비하는 것으로 해도 된다. 데이터베이스(101)에는 문서, 부여된 식별 정보, 각 식별 정보에 대응하는 스코어 및 문턱값 초과 정보 등을 기록하는 것으로 해도 된다.

또한, 포렌식 시스템(100)은 문서군을 소정의 요건에 기초하여 그룹으로 분류하고, 그 그룹 중에서 처리 대상이 되는 대상 그룹을 적어도 하나 선택하는 분류부(910)를 더 구비하며, 표시부(210)는 분류부(910)가 선택한 대상 그룹으로부터 이용자에게 표시하는 문서를 추출하는 것으로 해도 된다. 대상 그룹에 포함되는 각 문서의 특징량과 이용자에 의한 리뷰가 완료된 그룹에 포함되는 각 문서의 특징량의 비교를 하는 그룹 비교부(920)를 더 구비하고, 표시 제어부(310)는 그룹 비교부(920)의 비교 결과를 기초로 대상 그룹으로부터 표시하는 문서군의 표시 순서를 제어하는 것으로 해도 된다.

본 실시형태에서는, 소송에 제출이 필요한 문서에 「HOT」이라는 식별 정보를 이용하여 소송과의 관련성 판단을 행하는 경우를 예로 들어 설명한다. 이 시스템 또는 이용자가 소송에 관련되는지 여부를 판단하는 행위를 리뷰라고 한다. 리뷰에서는, 리뷰의 대상이 되는 문서(여기서는 대상 문서라고 함)를 소송 관련 정도나 소송과의 관련 방법에 기초하여 복수의 종류로 분류를 하고, 종류마다 식별 정보를 부여한다.

도 1에 도시된 도면은, 포렌식 시스템(100)을 이용한 리뷰의 모습을 개념적으로 나타내고 있다. 포렌식 시스템(100)을 이용한 경우, 이용자는 리뷰(Human Review)를 포렌식 시스템(100)이 시사한 리뷰의 예측 결과(Automatic Predictive Coding)를 참고로 하면서 실시 가능하게 된다. 구체적으로 이용자가 어떤 문서에 대해 리뷰를 행하면, 포렌식 시스템(100)은 이용자가 행한 Human Review의 리뷰 결과를 Human Review가 실시될 때마다 리뷰 대상의 문서에 반영시킨다.

이 때문에, 이용자는 다음 문서에 대해 리뷰를 행할 때에 Automatic Predictive Coding에 의해 시사된 예측 리뷰 결과를 보면서 그 예측 리뷰 결과가 적절한지 여부 등의 판단 기준으로 리뷰를 행하는 것이 가능하게 된다. 그 때문에, 이용자는 Automatic Predictive Coding에 의해 시사된 예측 리뷰 결과에 만족한 시점에서 리뷰를 종료하는 것이 가능하게 된다. 이에 따라, 이용자가 관련성 판단을 행하는 문서 수를 삭감함으로써 이용자의 관련성 판단의 부하를 저감하고, 관련성 판단 처리 속도의 향상을 도모하는 것이 가능하게 된다.

여기서, 도 2를 이용하여 제1 실시형태 전체의 처리 흐름의 개략을 설명한다. 도 2는 제1 실시형태 전체의 처리 흐름을 개념적으로 나타낸 도면이다.

포렌식 시스템(100)에서는, 처리의 개시시에 우선 문서의 집합인 문서군을 복수의 그룹으로 분류 처리(Clustering)를 행한다(STEP 1). 그리고, 분류한 그룹으로부터 포렌식 시스템(100)의 이번 처리 대상이 되는 대상 그룹을 선정한다. 대상 그룹은, 그룹 중에서 이용자가 리뷰를 실시하는 대상이 되는 그룹을 말한다.

문서는, 하나 이상의 단어를 포함하는 데이터를 말한다. 문서의 일례로서 전자 메일, 프레젠테이션 자료, 표 계산 자료, 협의 자료, 계약서, 조직도, 사업 계획서 등을 들 수 있다. 또한, 문서는 식별 정보마다 대응하는 스코어를 가지며, 스코어는 문서군 중의 각 문서에 대해 미리 부여되는 초기 스코어로부터 식별 정보가 관련지어진 대상 문서와 각 문서의 특징량의 비교 결과에 기초하여 가점 또는 감점함으로써 산출되어 갱신되는 것으로 해도 된다. 또한, 문서군은 복수의 문서로 구성되는 것이다. 그룹은 문서군을 분류한 것을 말한다.

분류 처리를 행할 때에, 분류의 조건으로서 소정의 요건을 이용자가 입력할 수 있다. 소정의 요건은 포렌식 시스템(100)에 의해 자동으로 입력되는 것으로 해도 된다. 구체적으로 소정의 요건은 문서가 작성된 년도나 문서의 확장자, 문서의 작성자나 시큐리티 레벨 등을 들 수 있다.

다음에, 그룹 사이의 비교 처리(Automatic Suggest Documents)가 행해진다(STEP 2). 이는, 소송과의 관련성 판단이 완료된 그룹에 포함되는 문서와 이번에 대상이 되어 있는 그룹을 비교함으로써, 다음 대상 그룹에 포함되는 어떤 문서의 특정 식별 정보에의 치우침을 시사하는 것을 말한다. 구체적으로 말하면, 관련성 판단이 완료된 그룹(그룹 A라고 함) 중에서 하나의 식별 정보(여기서는 「HOT」)에 대응하는 스코어가 높은 문서에 공통되는 특징량을 추출한다. 그 추출된 특징량과 유사한 특징량을 가지는 문서를 다음 대상 그룹(그룹 B라고 함) 중에서 검색하고, 특징량의 유사도에 따라 문서의 나열 순서를 제어한다. 즉, 상위에 온 문서는 식별 정보「HOT」가 부여될 가능성이 높은 문서라고 생각된다. 그 때문에, 그룹 B에 대해 이용자가 리뷰를 하는 경우에 식별 정보「HOT」가 붙기 쉬움을 시사할 수 있고, 리뷰의 정밀도 및 속도의 향상을 도모할 수 있다.

스코어는, 문서와 소정의 식별 정보의 결합 정도를 정량적으로 평가한 것을 말한다. 예를 들어 리뷰에서 소송과의 관련성이 있음을 나타내는 「Responsive」 및 소송과의 관련이 매우 강하고 중요한 문서임을 나타내는 「HOT」를 이용하고 있는 경우를 예로 설명한다. 이 경우, 각 문서는 데이터베이스 상에 「Hot」스코어 및 「Responsive」스코어를 기록하는 영역이 확보되는 것으로 해도 된다. 그리고, 상기 2종류의 스코어 중에서 소정의 문턱값을 초과한 경우, 그 초과한 식별 정보가 부여되는 것으로 해도 된다.

특징량은, 각 문서 사이의 유사도를 측정하는 데에 이용하는 것을 말한다. 특징량은 문서 중에 빈출하는 각 단어의 종류, 각 단어가 가지는 평가치 및 각 단어의 출현 수로 이루어지는 경향 정보를 이용하여 산출된다.

그 후, 이용자가 리뷰(Human Review)를 실시한다(STEP 3). 리뷰가 실시될 때마다 포렌식 시스템(100)은 그 리뷰 결과를 이용하여 각 문서의 스코어를 산출(Automatic Real-Time Create Trainning Data)한다(STEP 4). 또, 산출된 스코어의 순으로 대상 그룹 내의 문서의 재배열을 행함으로써, 이용자가 다음 문서의 리뷰를 행할 때에 그 문서의 리뷰 결과를 시사하는(Suggest Next Documents by Real-Time Automatic Predictive Coding) 것이 가능하게 된다(STEP 5). 포렌식 시스템(100)은, 이용자가 재배열된 문서로부터 리뷰의 종료를 판단할 때까지 대상 그룹에 대해 STEP 3에서부터 STEP 5에 이르기까지의 처리를 반복한다. 이는 재배열된 문서는 내림차순으로 특정의 식별 정보가 높은 것을 의미하고 있기 때문에, 어떤 문서가 이용자가 보아 확실히 소송과의 관련성은 없다고 판단할 수 있는 경우, 이보다 하위에 위치하는 문서는 모두 소송과의 관련성은 없다고 판단되기 때문이다. 그 때문에, 이용자는 전체 문서를 리뷰할 필요 없이 관련성 판단을 종료할 수 있다.

도 3은, 제1 실시형태에 관한 포렌식 시스템(100)의 블록도이다.

제1 실시형태에 있어서, 포렌식 시스템(100)은 도 3에 도시된 바와 같이 표시부(210)와 표시 제어부(310)와 식별 정보 접수부(410)와 스코어 갱신부(510)와 자동 부여부(810)와 분류부(910)와 그룹 비교부(920)와 데이터베이스(101)를 구비한다.

포렌식 시스템(100)은 컴퓨터 또는 서버로서, 각종 입력에 기초하여 CPU가 ROM에 기록된 프로그램을 실행함으로써 각종 기능부로서 동작한다. 이 프로그램은, CD-ROM 등의 기억매체에 기억되거나 혹은 인터넷 등의 네트워크를 통해 배포되어 컴퓨터에 인스톨되는 것이어도 된다. 또한, 표시부(210)는 디스플레이, 모니터, 태블릿 PC 등 표시 기능을 가지는 것으로, 이용자가 조작하여 대상 문서를 확인하고 식별 정보를 부여하는 데에 이용하는 장치이다. 제1 실시형태에 있어서, 포렌식 시스템(100)은 표시부(210)를 시스템 내에 구비하지 않았지만, 시스템 내에 포함하는 것으로서 구성해도 된다.

또한, 포렌식 시스템(100)의 각 기능부 및 표시부(210)는 유선 혹은 무선 네트워크를 통해 접속되어 있다. 클라우드 컴퓨팅의 형태로 이용하는 것도 가능하다.

표시부(210)는, 표시 제어부(310)에 의해 정렬된 대로 문서군 중 적어도 하나 이상의 문서를 이용자에 대해 표시한다.

표시 제어부(310)는, 표시부(210)가 표시하는 문서의 순서를 제어한다. 제1 실시형태에서는, 표시 제어부(310)는 문서가 가지는 스코어의 내림차순으로 표시하도록 표시부(210)에 표시 제어의 지시를 보낸다. 이 결과, 이용자는 표시 제어부(310)에 의해 스코어 순으로 재배열된 문서를 보고 리뷰의 속행이 필요한지 판단할 수 있다. 즉, 한창 리뷰를 하고 있는 대상 문서가 명확히 소송과의 관련성이 없는 경우, 그 대상 문서보다 하위에 나열되어 있는 문서는 보다 스코어가 낮기 때문에 리뷰를 할 필요도 없이 소송과의 관련성이 없다고 판단할 수 있다.

식별 정보 접수부(410)는, 이용자가 리뷰에 의해 대상 문서에 부여한 식별 정보를 접수하는 것을 말한다.

식별 정보는 분류 대상이 되는 문서에 부여되는 것으로, 소송에의 이용이 용이해지도록 소송과의 관련도를 나타내는 것을 말한다. 식별 정보는 각 문서에 부대 정보로서 기록해도 되고, 식별 정보와 문서의 대응 관계를 데이터베이스(101) 상에 기록하는 것으로 해도 된다. 식별 정보로는 소송과 대상 문서가 관련성이 있음을 나타내는 「Responsive」나, 소송과의 관련성이 매우 높고 중요한 문서임을 나타내는 「HOT」, 소송과의 관련성이 없음을 나타내는 「Non-Responsive」 등을 들 수 있다. 제1 실시형태에서는, 식별 정보로서 「HOT」태그를 부여하고, 이 태그는 문서와 대응시켜 데이터베이스(101) 상에서 관리된다.

스코어 갱신부(510)는, 식별 정보 접수부(410)가 식별 정보를 접수한 대상 문서의 특징량과 문서군 중에 포함되는 문서의 특징량을 비교하고, 그 접수한 식별 정보에 대응하는 스코어를 갱신하는 것을 말한다. 스코어 갱신부(510)는, 예를 들어 특징량의 일치도에 따라 스코어를 가점·감점하는 것으로 해도 된다. 제1 실시형태에서는, 비교 대상이 되는 문서에는 대상 문서 자신을 포함하지 않았지만, 대상 문서도 갱신 대상으로 하는 형태이어도 된다. 예를 들어, 대상 문서 자신을 비교 대상에 포함한 경우, 특징량은 완전히 일치하므로 상응하는 점이 스코어에 가점되어 갱신된다.

문서는, 일정한 요건에 기초하여 초기 스코어가 주어진다. 예를 들어, 문서 중에 출현하는 단어와 각 단어가 가지는 평가치에 의해 초기 스코어를 산출해도 된다. 제1 실시형태에서는, 초기 스코어는 소정의 요건에 기초하여 산출되어 전체 문서에 대해 일정값이 주어진다. 초기 스코어로부터 가점·감점 처리가 행해져 스코어가 갱신된다.

자동 부여부(810)는, 각 문서에 적절한 식별 정보를 스코어에 따라 자동으로 판단하여 부여하는 것을 말한다. 식별 정보의 종류마다 문턱값을 마련하고, 그 문턱값을 초과한 문서에 대응하는 식별 정보를 부여하는 것으로 해도 된다. 제1 실시형태에서는, 「HOT」스코어의 문턱값으로서 α를 가지고 있다. 즉, 자동 부여부(810)는 스코어 갱신부(510)가 각 문서의 「HOT」스코어에 대해 갱신 처리를 행한 결과, α를 초과한 문서에는 식별 정보로서 「HOT」태그를 부여한다.

그룹 비교부(920)는, 그룹 사이에서 문서 특징의 비교 처리를 행하는 것을 말한다. 이용자에 의한 리뷰가 완료된 그룹에 포함되는 문서의 특징량을 비교 대상으로서 이용함으로써, 다음 대상 그룹에 포함되는 문서의 특정 식별 정보에의 치우침을 시사할 수 있다. 구체적으로 말하면, 이용자에 의한 리뷰가 완료된 그룹(그룹 A라고 함) 중에서 하나의 식별 정보(여기서는 「HOT」)에 대응하는 스코어가 높은 문서에 공통되는 특징량을 추출한다. 그 추출된 특징량과 유사한 특징량을 가지는 문서를 다음 대상 그룹(그룹 B라고 함) 중에서 검색하고, 특징량의 유사도에 따라 표시 제어부(310)가 문서의 나열 순서를 제어한다. 그 나열 순서가 제어되어 상위에 온 문서는, 식별 정보「HOT」가 부여될 가능성이 높은 문서라고 생각된다. 그 때문에, 그룹 B에 대해 이용자가 리뷰를 하는 경우에 식별 정보「HOT」가 붙기 쉬움을 시사할 수 있고 리뷰의 정밀도 및 속도의 향상을 도모할 수 있다.

도 4를 이용하여 표시부(210), 표시 제어부(310), 식별 정보 접수부(410), 스코어 갱신부(510), 자동 부여부(810)의 처리 흐름을 설명한다. 도 4는 본 실시형태에서의 표시부(210), 표시 제어부(310), 식별 정보 접수부(410), 스코어 갱신부(510), 자동 부여부(810)의 처리를 나타내는 흐름도이다.

표시부(210)가 문서군 중에서 리뷰 대상의 문서인 문서 1을 표시한다(STEP 11). 이용자가 문서 1에 대해 리뷰를 행하여 「HOT」태그를 부여하고, 그 「HOT」태그를 식별 정보 접수부(410)가 접수한다(STEP 12).

스코어 갱신부(510)는, 「HOT」태그에 대해 각 문서의 스코어를 갱신하기 위해 문서 1과 기타 문서의 특징량을 비교한다(STEP 13). 또, 제1 실시형태에서는, 스코어 갱신부(510)는 이용자가 리뷰를 행한 문서에 대해서는 스코어 갱신 처리를 행하지 않는다.

스코어 갱신부(510)는, 비교 결과에 기초하여 기타 문서의 「HOT」태그의 스코어에 대해 가점·감점 처리를 행한다(STEP 14).

스코어 갱신 후, 자동 부여부(810)는 갱신된 스코어의 값이 α를 초과하는지 여부의 검정을 행한다(STEP 15). 스코어가 α를 초과한 문서가 있는 경우에는(STEP 15: YES), 해당 문서에 대해 자동 부여부(810)가 「HOT」태그를 부여한다(STEP 16). 스코어가 α를 초과하지 않는 문서에 대해서는(STEP 15: NO), 태그 부여는 행하지 않는다.

자동 부여 처리 후, 표시 제어부(310)가 갱신 후의 스코어의 내림차순으로 문서의 재배열 제어를 행한다(STEP 17). 이용자가 종료라고 판단한 경우(STEP 18: YES), 거기서 처리를 종료한다. 이용자가 종료라고 판단하지 않은 경우(STEP 18: NO), 표시부(210)가 표시 제어부(310)가 재배열한 문서의 상위 순으로 표시한다(STEP 19). 이 경우, 이용자는 다시 최상위에 온 문서에 대해 태그 부여를 행한다(STEP 12: 2번째). 이하, 이용자가 종료를 판정할 때까지 STEP 12 내지 STEP 19의 처리가 순환된다.

도 5는 분류부(910)의 처리 흐름을 나타내는 도면이다. 분류부(910)에서는, 이용자가 입력한 요건을 접수한다(STEP 111). 그 후, 입력된 소정의 요건에 기초하여 분류 처리를 실행한다(STEP 112). 도 6은 분류 처리의 실행 결과를 모식적으로 나타낸 도면이다.

도 6의 상단은 문서군 중의 문서를 나타내고 있다. 이용자가 예를 들어 분류 요건으로서 「년대」를 입력한 경우, 문서군 중의 문서는 도 6의 후단에 도시된 바와 같이 년대 별로 그룹 나눔이 이루어진다.

도 7은, 그룹 비교부(920)의 처리 흐름을 나타내는 도면이다.

그룹 비교부(920)에서는, 리뷰 처리가 완료된 그룹(그룹 A라고 함)과 다음 리뷰 대상이 되는 그룹(그룹 B라고 함) 사이에서의 비교를 행한다(STEP 121). 구체적으로, 그룹 A에 포함되는 문서(문서 1이라고 함)의 특징량과 그룹 B에 포함되는 문서(문서 2라고 함)의 특징량을 비교한다. 예를 들어 문서 2의 특징량이 문서 1의 특징량과 유사한 경우에는, 문서 1의 각 식별 정보의 스코어 및 유사도에 기초하여 문서 2의 각 식별 정보에 가(假) 스코어를 부여한다(STEP 122).

가 스코어란, 그룹 비교부(920)가 비교 처리를 행하기 위해 각 문서에 일시적으로 부여하는 스코어이다. 그 때문에, 자동 부여부(810)의 식별 정보 부여 처리에는 이용되지 않는다. 제1 실시형태에서는, 그룹 비교부(920)는 가 스코어를 이용하여 처리를 행하지만, 통상적인 스코어를 직접 갱신하여 처리를 행해도 된다.

그룹 처리부는, 각 식별 정보에 부여한 가 스코어의 내림차순으로 문서를 나열한다(STEP 123).

도 8은, 그룹 비교부(920) 및 표시 제어부(310)의 처리 모습을 모식적으로 나타낸 도면이다. 리뷰 실시 완료된 그룹 A의 처리 결과를 그룹 B에 반영시키고(도 8 상단), 표시 제어부(310)가 그룹 B에 포함되는 문서를 각 식별 정보에 대해 가 스코어의 내림차순으로 나열한다(도 8 하단). 이에 의해, 이용자는 「HOT」태그가 붙기 쉬운 문서로부터 순서대로 리뷰를 행할 수 있다.

[제2 실시형태]

이하, 본 발명의 실시형태를 도 9 내지 도 11을 이용하여 설명한다.

본 발명의 제2 실시형태에 관한 포렌식 시스템(100)은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 취득하고, 그 취득된 디지털 정보를 분석하는 포렌식 시스템(100)에 있어서, 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군 중 적어도 하나 이상의 문서를 이용자에 대해 표시하는 표시부(210)와, 문서군 중에서 이용자가 소송에 관련되는지 여부를 판단하기 위한 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 식별 정보 접수부(410)와, 그 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 그 각 문서의 스코어를 갱신하는 스코어 갱신부(510)와, 그 갱신된 스코어에 기초하여 표시부(210)에 표시되는 문서군의 문서의 표시 순서를 제어하는 표시 제어부(310)를 구비한다.

또한, 제2 실시형태에 있어서, 포렌식 시스템(100)은 문서군 중의 문서에 대해 갱신된 스코어에 기초하여 식별 정보를 부여하는 자동 부여부(810)를 더 구비하는 것이어도 된다.

또한, 본 실시형태에 있어서, 포렌식 시스템(100)은 문서에 대해 식별 정보에 대응하는 스코어를 기록하고, 스코어 갱신부(510)가 스코어를 갱신할 때마다 식별 정보마다의 스코어를 갱신하는 데이터베이스(101)를 더 구비하는 것으로 해도 된다. 데이터베이스(101)에는 문서, 부여된 식별 정보, 각 식별 정보에 대응하는 스코어 및 문턱값 초과 정보 등을 기록하는 것으로 해도 된다.

또한, 본 실시형태에 있어서, 포렌식 시스템(100)은 스코어가 특정 값에 도달한 문서를 표시부(210)에 의해 표시되는 문서의 후보로부터 제외하는 것을 판정하는 제외 판정부(610)와, 그 판정된 문서의 수가 소정의 값을 넘을 때까지 표시부(210)와 식별 정보 접수부(410)와 스코어 갱신부(510)와 표시 제어부(310)와 제외 판정부(610)의 처리를 반복 실행할 수 있도록 제어하는 제어부(710)를 더 구비해도 된다.

도 9는, 제2 실시형태에 관한 포렌식 시스템(100)의 블록도이다.

제2 실시형태에 있어서, 포렌식 시스템(100)은 도 9에 도시된 바와 같이 표시부(210)와 표시 제어부(310)와 식별 정보 접수부(410)와 스코어 갱신부(510)와 제외 판정부(610)와 자동 부여부(810)와 제어부(710)와 분류부(910)와 그룹 비교부(920)와 데이터베이스(101)를 구비한다.

본 실시형태에서의 리뷰 처리에서는, 식별 정보로서 「HOT」태그를 이용하여 소송과의 관련성을 판단하는 처리를 행한다.

제외 판정부(610)는, 스코어 갱신시에 갱신 후의 스코어가 특정 값에 도달한 문서를 표시부(210)에 의해 표시되는 대상 문서의 후보로부터 제외 판정하는 것을 말한다. 제외 판정부(610)는, 제외 판정의 전단으로서 식별 정보마다 종료 판정을 행하고, 모든 식별 정보에 대해 종료 판정된 문서에 대해 제외 판정을 행한다. 본 실시형태에서는, 특정 값으로서 문턱값을 β1과 β2의 2가지를 가진다(β1>β2). 제외 판정부(610)는, 스코어가 가점에 의해 β1을 초과한 경우 또는 감점에 의해 β2로 밑돈 경우에 그 식별 정보에 대해 종료 판정을 행한다. 제1 실시형태에서는, 3종류의 식별 정보를 부여하는 것이다. 이 경우, 제외 판정부(610)는 3종류 모든 식별 정보에 대해 제외 판정한 문서를 대상 문서의 후보로부터 제외한다.

또한, 하나의 식별 정보에 대한 스코어가 β1 또는 β2에 도달하여 종료 판정된 경우에는, 그 초과한 식별 정보에 대해 제외되었다는 표시를 해당 문서에 부여해도 된다.

도 10을 이용하여 제외 판정부(610)의 처리에 대해 설명한다. 도 10은, 이용자가 리뷰에 있어서 문서 1에 식별 정보로서 「HOT」태그를 부여한 경우의 제외 판정부(610)의 처리 흐름이다. 이용자는 리뷰에 있어서 식별 정보로서 「HOT」태그를 부여하는 처리를 행하였기 때문에, 제외 판정부(610)에서도 「HOT」태그에 대해 각 문서의 제외 판정을 행한다.

제외 판정부(610)에서는, 각 문서의 「HOT」스코어의 값을 검정한다(STEP 621). 여기서, α는 자동 부여부(810)가 식별 정보 부여 처리를 행하는 판단 기준이 되는 문턱값이다. 스코어가 β2보다 크고 α 미만인 문서에 대해, 제외 판정부(610)에서는 어떤 처리도 행하지 않는다(STEP 622). 한편, 스코어가 β1 이상 또는 β2 이하인 문서에는 「HOT」태그에 대해 종료 판정을 행한다(STEP 623). 이 경우, 다른 식별 정보의 스코어에 대해서도 판정하여(STEP 624) 모두 β1 이상 또는 β2 이하인 경우에는(STEP 624: YES), 해당 문서를 리뷰 대상으로부터 제외한다(STEP 625). 하나라도 β1 미만 β2보다 큰 스코어의 식별 정보가 있는 문서에 대해서는(STEP 624: NO), 제외 판정은 행하지 않고 종료한다.

제어부(710)는, 표시부(210)와 식별 정보 접수부(410)와 스코어 갱신부(510)와 표시 제어부(310)와 제외 판정부(610)의 처리를 반복 실행할 수 있도록 제어하는 것을 말한다. 이 제어는, 1 처리마다 순환적으로 반복하는 것으로 해도 된다. 또한, 배치(batch)적으로 일정량 처리한 후에 후단 처리를 실행시킨다는 단위로 반복하는 것으로 해도 된다. 제2 실시형태에서는, 표시 제어부(310)는 후술하는 그룹에 포함되는 문서 전부가 제외 판정된 경우에 제어 처리를 완료한다.

도 11은, 본 실시형태에서의 처리 전체의 개요를 나타내는 흐름도이다. 여기서는, 이용자가 문서 1에 대해 리뷰를 하고 「HOT」태그를 부여한 경우를 예로 설명한다.

우선, 문서 1을 표시부(210)가 화면에 표시한다(STEP 130). 표시부(210)에 의해 표시된 문서 1에 대해 이용자가 식별 정보로서 「HOT」태그를 부여하고(STEP 131), 그 「HOT」태그를 식별 정보 접수부(410)가 이용자가 문서 1에 부여한 식별 정보로서 접수한다.

스코어 갱신부(510)는, 「HOT」태그에 대해 각 문서의 스코어를 갱신하기 위해 문서 1과 기타 문서(여기서는 문서 2라고 함)의 특징량을 비교한다(STEP 132). 또, 제2 실시형태에서는, 스코어 갱신부(510)는 이용자가 리뷰를 행한 문서에 대해서는 스코어 갱신 처리를 행하지 않는다. 그 때문에, 문서 1은 이용자가 리뷰를 종료한 시점에서 종료 판정이 이루어진다.

스코어 갱신부(510)는, 비교 결과에 기초하여 문서 2의 「HOT」태그의 스코어에 대해 가점·감점 처리를 행한다(STEP 133).

스코어 갱신 후, 제외 판정부(610)가 문서 2의 「HOT」스코어의 값을 검정한다(STEP 134). 제외 판정부(610)는, 문서 2의 「HOT」스코어가 β1보다 크고 α 미만인 경우에는 처리를 행하지 않는다(STEP 135). 한편, α 이상 β1 미만인 경우에는 문서 2에 「HOT」태그를 부여한다(STEP 136).

문서 2의 스코어가 β1 이상인 경우에는, 제외 판정부(610)가 「HOT」에 대해서는 종료 판정을 행한다(STEP 137). 이때, 문서 2에 「HOT」태그가 부여되지 않았으면 자동 부여부(810)의 식별자 부여 처리가 실행된다.

또한, 문서 2의 스코어가 β2 이하인 경우에는, 제외 판정부(610)는 「HOT」에 대해 종료 판정을 행한다(STEP 138). STEP 137 및 STEP 138의 처리가 실시된 경우, 제외 판정부(610)는 문서 2의 다른 식별 정보의 스코어가 β1 또는 β2에 도달하였는지 검정한다(STEP 139). 검정 결과 β1 또는 β2에 도달한 경우에는(STEP 139: YES), 문서 2를 표시부(210)의 표시 후보로부터 제외한다(STEP 140). STEP 141의 처리 완료 후, 제어부(710)는 모든 문서가 제외 판정되어 있는지 검정하고(STEP 141), 제외 판정되어 있는 경우에는(STEP 141: YES) 처리를 종료한다.

STEP 135 또는 STEP 136의 처리 완료 후, 혹은 STEP 139에서 스코어가 β1 미만 β2보다 크다고 판단된 경우(STEP 139: NO), 제어부(710)에 의해 다음 처리로 이행한다. 이때, 제외 판정이 되지 않은 문서는 표시 제어부(310)에 의해 갱신된 스코어 값의 오름차순으로 재배열이 행해진다(STEP 143).

표시 제어부(310)에 의해 재배열된 후 나열 순서, 즉 스코어가 높은 순서로 표시부(210)에 의해 표시된다(STEP 144).

그 밖의 구성, 기능에 대해서는 제1 실시형태와 동일하게 한다.

포렌식 시스템(100)은, 표시된 대상 문서에 대해 디지털 정보에 포함되는 복수의 문서로 이루어지는 문서군을 이용자에 대해 표시하는 표시부(210)와, 표시된 문서군으로부터 이용자가 소송에 관련되는지 여부를 판단하기 위한 문서인 대상 문서에 대해, 이용자가 소송에 관련되는지 여부의 판단에 기초하여 부여한 식별 정보를 접수하는 식별 정보 접수부(410)와, 식별 정보를 접수한 대상 문서의 특징량과 문서군 중의 각 문서의 특징량의 비교 결과에 기초하여, 소정의 식별 정보에 대응하는 각 문서의 스코어를 갱신하는 스코어 갱신부(510)와, 갱신된 스코어에 기초하여 표시부(210)에 표시시키는 문서군의 문서의 표시 순서를 제어하는 표시 제어부(710)를 구비함으로써, 이용자가 관련성 판단을 행하는 문서 수를 삭감함으로써 이용자의 관련성 판단의 부하를 저감하고, 관련성 판단 처리 속도의 향상을 도모하는 것이 가능하게 된다.

또한, 포렌식 시스템(100)은, 문서군 중의 문서에 대해 갱신된 스코어에 기초하여 식별 정보를 부여하는 자동 부여부(810)를 더 구비할 때에는, 이용자의 판단 결과에 입각하여 자동으로 문서에 대해 식별 정보를 부여하는 것이 가능하다.

또한, 포렌식 시스템(100)의 문서는 식별 정보마다 대응하는 스코어를 가지며, 스코어는 문서군 중의 각 문서에 대해 미리 부여되는 초기 스코어로부터 식별 정보가 관련지어진 대상 문서와 각 문서의 특징량의 비교 결과에 기초하여 가점 또는 감점함으로써 산출되어 갱신되는 것일 때에는, 이용자가 판단을 잘못하여 부적절한 식별 정보를 부여한 경우에서도 다른 문서에 대한 판단에 입각하여 스코어를 적절한 값으로 수렴시키는 것이 가능하다.

또한, 포렌식 시스템(100)은 문서군을 소정의 요건에 기초하여 그룹으로 분류하고, 그 그룹 중에서 처리 대상이 되는 대상 그룹을 적어도 하나 선택하는 분류부(910)를 더 구비하며, 표시부(210)는 분류부(910)가 선택한 대상 그룹으로부터 이용자에게 표시하는 문서군을 추출하는 것일 때에는 유사도가 높은 문서 사이에서 특징량을 비교하는 것이 가능하게 된다.

또한, 포렌식 시스템(100)은 대상 그룹에 포함되는 각 문서의 특징량과 제어부(710)에 의한 제어 처리가 완료된 그룹에 포함되는 각 문서의 특징량의 비교를 하는 그룹 비교부(920)를 더 구비하고, 표시 제어부(310)는 표시부(210)에 그룹 비교부(920)의 비교 결과를 기초로 대상 그룹으로부터 표시하는 문서군의 표시 순서를 제어하는 것일 때에는 이용자에게 대상 문서가 부여될 가능성이 높은 식별 정보를 사전에 시사하는 것이 가능하게 된다.

100 포렌식 시스템
101 데이터베이스
210 표시부
310 표시 제어부
410 식별 정보 접수부
510 스코어 갱신부
610 제외 판정부
710 제어부
810 자동 부여부
910 분류부
920 그룹 비교부

Claims

이용자에 의한 문서의 리뷰를 지원하는 컴퓨터로서,
상기 컴퓨터는,
문서군에 포함되는 적어도 하나 이상의 문서를 상기 리뷰의 대상이 되는 대상 문서로서 표시부를 통해 상기 이용자에게 제시하고,
상기 컴퓨터는,
상기 이용자가 상기 리뷰에 의해 상기 대상 문서에 부여한 식별 정보를 접수하고, 상기 식별 정보는 문서를 분류하는 것이며,
상기 컴퓨터는,
상기 문서군에 포함되는 문서와 상기 식별 정보의 결부 정도를 정량적으로 평가한 스코어를 산출하고, 상기 문서군에 포함되는 각 문서에는 초기 스코어가 사전에 부여되어 있으며,
상기 컴퓨터는,
상기 이용자에 의한 상기 리뷰가 진행됨으로써 상기 식별 정보를 새로 접수할 때마다 상기 스코어를 갱신하는, 컴퓨터.
청구항 1에 있어서,
상기 컴퓨터는,
상기 갱신한 스코어에 기초하여 상기 표시부를 통해 상기 이용자에게 문서를 제시하는 순번(順番)을 제어하는 것을 특징으로 하는, 컴퓨터.
청구항 1 또는 청구항 2에 있어서,
상기 초기 스코어는, 문서 중에 출현하는 단어와 각 단어가 갖는 평가값에 의해 산출되는 것임을 특징으로 하는, 컴퓨터.
청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
상기 컴퓨터는,
상기 갱신한 스코어에 기초하여 상기 문서군에 포함되는 문서에 상기 식별 정보를 부여하는 것을 특징으로 하는, 컴퓨터.
청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
상기 컴퓨터는,
상기 식별 정보를 접수한 대상 문서의 특징량과 상기 문서군에 포함되는 문서의 특징량을 비교함으로써 상기 스코어를 갱신하는 것을 특징으로 하는, 컴퓨터.
청구항 1 내지 청구항 5 중 어느 한 항에 있어서,
상기 컴퓨터는,
상기 문서군에 포함되는 문서에 대해 상기 식별 정보에 대응하는 스코어를 기록하고,
상기 컴퓨터는,
상기 식별 정보마다의 스코어를 갱신하는 것을 특징으로 하는, 컴퓨터.
청구항 1 내지 청구항 6 중 어느 한 항에 있어서,
상기 컴퓨터는,
상기 갱신한 스코어가 제1 문턱값을 넘은 문서를 상기 표시부를 통해 상기 이용자에게 제시하는 상기 대상 문서의 후보로부터 제외하는 것을 특징으로 하는, 컴퓨터.
청구항 7에 있어서,
상기 컴퓨터는,
상기 갱신한 스코어가 상기 제1 문턱값보다 낮은 제2 문턱값 이하가 된 문서를 상기 표시부를 통해 상기 이용자에게 제시하는 상기 대상 문서의 후보로부터 제외하는 것을 특징으로 하는, 컴퓨터.
컴퓨터가 이용자에 의한 문서의 리뷰를 지원하는 리뷰 지원 방법으로서,
상기 컴퓨터가,
문서군에 포함되는 적어도 하나 이상의 문서를 상기 리뷰의 대상이 되는 대상 문서로서 표시부를 통해 상기 이용자에게 제시하고,
상기 컴퓨터가,
상기 이용자가 상기 리뷰에 의해 상기 대상 문서에 부여한 식별 정보를 접수하고, 상기 식별 정보는 문서를 분류하는 것이며,
상기 컴퓨터가,
상기 문서군에 포함되는 문서와 상기 식별 정보의 결부 정도를 정량적으로 평가한 스코어를 산출하고, 상기 문서군에 포함되는 각 문서에는 초기 스코어가 사전에 부여되어 있으며,
상기 컴퓨터가,
상기 이용자에 의한 상기 리뷰가 진행됨으로써 상기 식별 정보를 새로 접수할 때마다 상기 스코어를 갱신하는, 리뷰 지원 방법.
이용자에 의한 문서의 리뷰를 지원하는 리뷰 지원 프로그램으로서,
컴퓨터에,
문서군에 포함되는 적어도 하나 이상의 문서를 상기 리뷰의 대상이 되는 대상 문서로서 표시부를 통해 상기 이용자에게 제시하는 기능;
상기 이용자가 상기 리뷰에 의해 상기 대상 문서에 부여한 것으로, 문서를 분류하는 것인 식별 정보를 접수하는 기능;
상기 문서군에 포함되는 문서와 상기 식별 정보의 결부 정도를 정량적으로 평가한 스코어를 산출하는 기능; 및
상기 이용자에 의한 상기 리뷰가 진행됨으로써 상기 식별 정보를 새로 접수할 때마다 상기 스코어를 갱신하는 기능;을 실현시키고,
상기 문서군에 포함되는 각 문서에는 초기 스코어가 사전에 부여되어 있는, 리뷰 지원 프로그램.