KR20150142070A - 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 - Google Patents

문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 Download PDF

Info

Publication number
KR20150142070A
KR20150142070A KR1020157034318A KR20157034318A KR20150142070A KR 20150142070 A KR20150142070 A KR 20150142070A KR 1020157034318 A KR1020157034318 A KR 1020157034318A KR 20157034318 A KR20157034318 A KR 20157034318A KR 20150142070 A KR20150142070 A KR 20150142070A
Authority
KR
South Korea
Prior art keywords
document
classification code
keyword
classification
unit
Prior art date
Application number
KR1020157034318A
Other languages
English (en)
Other versions
KR101658794B1 (ko
Inventor
마사히로 모리모토
요시카츠 시라이
히데키 타케다
카즈미 하스코
Original Assignee
가부시키가이샤 유빅
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 유빅 filed Critical 가부시키가이샤 유빅
Publication of KR20150142070A publication Critical patent/KR20150142070A/ko
Application granted granted Critical
Publication of KR101658794B1 publication Critical patent/KR101658794B1/ko

Links

Images

Classifications

    • G06F17/30598
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F17/30707
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

소송에서 증거로 제출하기 위하여 수집된 디지털화된 문서 정보를 분석하고, 소송에 이용이 용이하도록 분류한다. 문서 정보로부터 복수의 문서를 샘플링하는 것에 의하여, 상기 복수의 문서를 사용자에 의한 분류 대상으로 추출하는 추출부와, 상기 추출된 복수의 문서에 대하여, 각 문서를 분류하기 위한 것으로, 상기 사용자가 부여한 분류 코드를 수신하는 분류 코드 수신부와, 상기 분류 코드가 부여된 문서로부터 공통으로 출현하는 키워드를 선정하는 선정부와, 상기 분류 코드가 부여된 문서로부터 상기 선정된 키워드와 상기 키워드의 가중치를 대응시켜 기록하는 데이터베이스와, 상기 분류 코드가 부여되지 않는 미분류문서에 포함되는 키워드와 상기 데이터베이스에서 상기 키워드에 대응시켜 부여한 가중치에 따라, 상기 미분류문서와 상기 분류 코드의 관련성을 평가한 점수를 산출하는 산출부를 포함하는 문서 분류 시스템이 제공된다.

Description

문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 {DOCUMENT CLASSIFICATION SYSTEM, DOCUMENT CLASSIFICATION METHOD, AND DOCUMENT CLASSIFICATION PROGRAM}
본 발명은, 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램에 관한 것으로서, 특히 소송에 관한 문서 정보의 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램에 관한 것이다.
종래, 부정한 액세스 또는 기밀 정보 누설 등 컴퓨터 관련 범죄나 법적 분쟁이 생겼을 때, 원인 규명이나 수사에 필요한 기기 또는 데이터, 전자적 기록을 수집·분석하고, 그 법적인 증거성을 밝히려는 수단과 기술이 제안되어 있다.
특히 미국 민사 소송에서는, 전자 증거 개시(eDiscovery) 등이 요구되고 있으며, 해당 소송의 원고 및 피고의 어느 쪽이나, 관련 디지털 정보를 모두 증거로 제출하는 책임을 진다. 따라서 컴퓨터나 서버에 기록된 디지털 정보를 증거로 제출하여야 한다.
한편, 정보기술(IT)의 급속한 발달 및 보급과 더불어, 오늘날의 비즈니스 세계는 대부분의 정보가 컴퓨터로 작성되어 있기 때문에, 동일한 기업 내에서도 다수의 디지털 정보가 범람하고 있다.
따라서 법정에 증거 자료 제출을 위한 준비 작업을 하는 과정에서, 해당 소송에 반드시 관련되지 않은 기밀이나 디지털 정보까지도 증거 자료로 포함되어 버리는 실수가 일어나기 쉽다. 또한, 해당 소송과 관련되지 않은 기밀이나 문서 정보를 제출해 버리는 문제가 있었다.
최근 포렌식 시스템(Forensic system)의 문서 정보에 관한 기술이, 특허문헌 1 내지 특허문헌 3에 제안되어 있다. 특허문헌 1에는, 이용자 정보에 포함된 적어도 한 명 이상의 이용자로부터 특정 이용자를 지정하고, 지정된 특정 이용자에 관한 액세스 이력 정보에 기초하여, 특정 이용자가 액세스한 디지털 문서 정보만을 추출하고, 추출된 디지털 문서 정보의 문서 파일 각각이, 소송에 관련된 것인지 여부를 나타내는 부대 정보를 설정하고, 부대 정보에 기초하여 소송 관련 문서 파일을 출력하는 포렌식 시스템에 대해 개시되어 있다.
또한, 특허문헌 2에는, 기록된 디지털 정보를 표시하고, 복수의 문서 파일마다 이용자 정보에 포함된 이용자 중 어느 이용자에게 관련된 것인지를 나타내는 이용자 특정 정보를 설정하고, 상기 설정된 이용자 특정 정보를 저장부에 기록하도록 설정하고, 적어도 한 명 이상의 이용자를 지정하고, 지정된 이용자에 대응하는 이용자 특정 정보가 설정된 문서 파일을 검색하고, 표시부를 통해 검색된 문서 파일이 소송에 관련된 것인지 여부를 나타내는 부대 정보를 설정하고, 부대 정보에 기초하여 소송 관련 문서 파일을 출력하는 포렌식 시스템에 대해 개시되어 있다.
또한, 특허문헌 3에는, 디지털 문서 정보에 포함된 하나 이상의 문서 파일의 지정을 수신하고, 지정된 문서 파일을 어떤 언어로 번역할 것인지의 지정을 수신하고, 수신한 지정 문서 파일을 수신한 지정 언어로 번역하고, 기록부에 기록된 디지털 문서 정보에서 지정된 문서 파일과 동일한 내용을 나타내는 공통 문서 파일을 추출하고, 추출된 공통 문서 파일이 번역된 문서 파일의 번역 내용을 원용함으로써 번역되었다는 것을 나타내는 번역 관련 정보를 생성하고, 번역 관련 정보에 따라 소송 관련 문서 파일을 출력하는 포렌식 시스템에 대해 개시되어 있다.
특개2011-209930호 공보 특개2011-209931호 공보 특개2012-32859호 공보
그러나 가령 특허문헌 1 내지 특허문헌 3과 같은 포렌식 시스템에서는, 복수의 컴퓨터 및 서버를 이용한 이용자의 방대한 문서 정보를 수집하게 된다.
이러한 디지털화된 방대한 문서 정보를 소송의 증거 자료로 타당한지 여부를 분류하는 작업은, 리뷰어(reviewer)라는 사용자가 눈으로 확인하고, 해당 문서 정보를 하나하나 분류해 나갈 필요가 있고, 상당한 노력이 소요되는 문제가 있었다.
따라서, 본 발명은, 상기 사정을 감안하여, 디지털화된 문서 정보를 수집한 후, 해당 문서 정보에 대하여, 분류 코드를 자동으로 부여함으로써 소송에 이용할 문서 정보의 분류 작업의 부담을 경감할 수 있는 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램을 제공하는 것을 목적으로 하는 것이다.
본 발명의 문서 분류 시스템은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 획득하고, 상기 획득된 디지털 정보에 포함된 문서 정보를 분석하고, 소송에 이용이 용이하도록 분류하는 문서 분류 시스템에 관한 것으로, 문서 정보로부터 소정 수의 문서를 포함하는 데이터 세트인 문서 그룹을 추출하는 추출부와, 추출된 문서 그룹을 화면 상에 표시하는 문서 표시부와, 표시된 문서 그룹에 대해 사용자가 소송과의 관련성에 기초하여 부여한 분류 코드를 수신하는 분류 코드 수신부와, 분류 코드에 기초하여 추출된 문서 그룹을 분류 코드별로 분류하고, 상기 분류된 문서 그룹에서 공통으로 출현하는 키워드를 분석하여 선정하는 선정부와, 선정된 키워드를 기록하는 데이터베이스와, 데이터베이스에 기록된 키워드를 문서 정보에서 탐색하는 탐색부와, 탐색부의 탐색 결과와 선정부의 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하는 점수 산출부와, 점수 결과에 기초하여 자동으로 분류 코드를 부여하는 자동 분류부를 포함한다.
「문서」라 함은 하나 이상의 키워드를 포함하는 데이터를 말한다. 예를 들어 이메일, 프레젠테이션 자료, 표 계산 자료, 협의 자료, 계약서, 조직도, 사업 계획서 등이 있다.
「키워드」는 한 언어에서 일정한 의미를 가진 문자열의 정리를 말한다. 예를 들어, 「문서를 분류한다」는 문장에서 키워드를 선정하면, 「문서」, 「분류」로 할 수 있다.
「분류 코드」는 문서를 분류할 때 사용하는 식별자를 말한다. 예를 들어 소송에서 문서 정보를 증거로 사용할 때에 증거의 종류에 따라 부여할 수 있다.
「점수」는 어떤 문서에서 특정 분류 코드와 결부된 강도를 정량적으로 평가한 것을 말한다. 예를 들어 점수 산출부는, 문서 그룹 중에 출현하는 키워드와, 각 키워드가 갖는 가중치에 따라 점수를 산출할 수도 있다. 한 예로서 해당 가중치는, 키워드가 갖는, 각 분류 코드의 전달 정보량을 바탕으로 결정할 수도 있다.
또한, 본 발명의 문서 분류 시스템에서, 추출부는 문서 정보에서 문서 그룹을 추출할 때에, 무작위로 샘플링을 할 수 있다.
본 발명의 문서 분류 시스템에서, 탐색부는 키워드를 분류 코드가 부여되지 않은 문서로 구성된 문서 정보에서 탐색하는 기능을 구비하고, 점수 산출부는 탐색부의 탐색 결과와 선정부의 해석 결과를 이용하여 분류 코드와 문서의 관련성을 나타내는 점수를 산출하고, 자동 분류부는 분류 코드 수신부에서 분류 코드의 부여를 수신하지 않은 문서를 추출하고 해당 문서에 대해 자동으로 분류 코드를 부여하는 기능을 구비할 수도 있다.
또한, 본 발명의 문서 분류 시스템에서, 데이터베이스는 분류 코드와 관련성이 있는 관련 용어를 추출하고 기록하는 기능을 구비하고, 탐색부는 관련 용어를 문서 정보에서 탐색하는 기능을 구비하고, 점수 산출부는 탐색부가 관련 용어를 탐색한 결과를 바탕으로 점수를 산출하는 기능을 구비하고, 또한 자동 분류부는 관련 용어를 이용하여 산출한 점수에 따라 자동으로 분류 코드를 부여하는 기능을 구비할 수도 있다.
또한, 본 발명의 문서 분류 시스템은, 문서 그룹에 포함된 문서 중, 선정부가 선정한 키워드, 관련 용어 및 분류 코드와 상관 관계가 있는 키워드를 포함하지 않는 문서를 선정하고, 자동 분류부의 분류 대상에서 선정된 문서를 배제하는 문서 배제부를 구비할 수도 있다.
본 발명의 문서 분류 시스템은, 또한, 선정부의 분석 결과 및 점수 산출부가 산출한 점수에 기초하여 선정부가 선정한 데이터베이스에 기록된 분류 코드와의 상관 관계를 갖는 키워드 및 관련 용어를 증감시키는 학습부를 구비할 수도 있다.
본 발명의 문서 분류 방법은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 획득하고, 해당 획득된 디지털 정보에 포함된 문서 정보를 분석하고, 소송에 이용이 용이하도록 분류하는 문서 분류 방법에 관한 본 발명에서, 문서 정보로부터 소정 수의 문서를 포함하는 데이터 세트인 문서 그룹을 추출하고, 추출된 문서 그룹을 화면 상에 표시하고, 표시된 문서 그룹에 대해 사용자가 소송과의 관련성에 기초하여 부여한 분류 코드를 수신하고, 분류 코드에 기초하여 추출된 문서 그룹을 분류 코드별로 분류하고, 해당 분류된 문서 그룹에서 공통으로 출현하는 키워드를 해석하여 선정하고, 선정된 키워드를 기록하고, 기록된 키워드를 문서 정보에서 탐색하고, 탐색 결과 및 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하여, 점수 결과에 기초하여 자동으로 분류 코드를 부여하는 기능을 실현하는 것이다.
본 발명의 문서 분류 프로그램은, 복수의 컴퓨터 또는 서버에 기록된 디지털 정보를 획득하고, 해당 획득된 디지털 정보에 포함된 문서 정보를 분석하고, 소송에 이용이 용이하도록 분류하는 문서 분류 프로그램에 관한 본 발명에서, 컴퓨터에, 문서 정보로부터 소정 수의 문서를 포함하는 데이터 세트인 문서 그룹을 추출하는 기능과, 추출된 문서 그룹을 화면 상에 표시하는 기능과, 표시된 문서 그룹에 대해 사용자가 소송과의 관련성에 기초하여 부여한 분류 코드를 수신하여 분류 코드에 기초하여 추출된 문서 그룹을 분류 코드별로 분류하고, 상기 분류된 문서 그룹에서 공통으로 출현하는 키워드를 해석하여 선정하는 기능과, 선정한 키워드를 기록하는 기능과, 기록된 키워드를 문서 정보에서 탐색하는 기능과, 탐색 결과와 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하는 기능과, 점수 결과에 따라 자동으로 분류 코드를 부여하는 기능을 실현하는 것이다.
본 발명에 따른 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램은, 문서 정보로부터 소정 수의 문서를 포함하는 데이터 세트인 문서 그룹을 추출하고, 추출된 문서 그룹을 화면 상에 표시하고, 표시된 문서 그룹에 대해 사용자가 소송과의 관련성에 기초하여 부여한 분류 코드를 수신하여 해당 분류 코드를 기반으로 추출된 문서 그룹을 분류 코드별로 분류하고, 상기 분류된 문서 그룹에서 공통으로 출현하는 키워드를 해석하여 선정하고, 선정된 키워드를 기록하고, 기록된 키워드를 문서 정보에서 탐색하고, 탐색 결과와 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하고, 점수 결과에 기초하여 자동으로 분류 코드를 부여함으로써, 리뷰어의 분류 작업 노력의 경감을 도모할 수 있다.
또한, 본 발명의 문서 분류 시스템에서, 탐색부는 키워드를 분류 코드가 부여되지 않은 문서로 구성된 문서 정보에서 탐색하는 기능을 구비하고, 점수 산출부는 탐색부의 탐색 결과와 선정부의 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하고, 자동 분류부는 분류 코드 수신부에서 분류 코드의 부여를 수신하지 않은 문서를 추출하고 해당 문서에 대하여 자동으로 분류 코드를 부여하는 기능을 구비할 때에, 분류 코드 수신부에서 분류 코드의 부여를 수신하지 않은 문서 정보에 대하여, 리뷰어가 분류한 규칙성을 바탕으로 자동으로 분류 코드를 부여할 수 있다.
또한, 본 발명은 선정부의 분석 결과와 점수 산출부에서 산출한 점수에 기초하여 선정부가 선정한 데이터베이스에 기록된 분류 코드와의 상관 관계를 갖는 키워드 및 관련 용어를 증감시키는 학습부를 구비한 때에는, 분류 회수를 거듭할 때마다 분류 정밀도를 향상시킬 수 있다.
또한, 본 발명은 데이터베이스가 분류 코드와 관련성이 있는 관련 용어를 추출 및 기록하고, 탐색부가 관련 용어를 문서 정보에서 탐색하고, 점수 산출부는 탐색부가 관련 용어를 탐색한 결과를 바탕으로 점수를 산출하고, 자동 분류부가 관련 용어를 이용하여 산출한 점수에 따라 자동으로 분류 코드를 부여하는 것으로, 문서 그룹에 포함된 문서 중 선정부가 선정한 키워드, 관련 용어 및 분류 코드와 상관 관계가 있는 키워드를 포함하지 않는 문서를 선정하고, 자동 분류부의 분류 대상에서 선정된 문서를 배제할 때에는, 문서 분류를 보다 효율적으로 수행할 수 있다. 이것은 수집된 디지털 정보의 소송에서의 이용을 용이하게 한다.
도 1은 본 발명의 제1실시예에 따른 문서 분류 시스템의 구성도이고,
도 2는 본 발명의 실시예에 따른 선정부에서의 해석 결과를 도시한 그래프이고,
도 3은 본 발명의 실시예에 따른 각 단계의 처리 흐름을 도시한 흐름도이고,
도 4는 본 발명의 실시예에 따른 데이터베이스의 처리 흐름을 도시한 흐름도이고,
도 5는 본 발명의 실시예에 따른 탐색부의 처리 흐름을 도시한 흐름도이고,
도 6은 본 발명의 실시예에 따른 점수 산출부의 처리 흐름을 도시한 흐름도이고,
도 7은 본 발명의 실시예에 따른 자동 분류부의 처리 흐름을 도시한 흐름도이고,
도 8은 본 발명의 실시예에 따른 추출부의 처리 흐름을 도시한 흐름도이고,
도 9는 본 발명의 실시예에 따른 문서 표시부의 처리 흐름을 도시한 흐름도이고,
도 10은 본 발명의 실시예에 따른 분류 코드 수신부의 처리 흐름을 도시한 흐름도이고,
도 11은 본 발명의 실시예에 따른 선정부의 처리 흐름을 도시한 흐름도이고,
도 12는 본 발명의 실시예에 따른 문서 배제부의 처리 흐름을 도시한 흐름도이고,
도 13은 본 발명의 실시예에 따른 학습부의 처리 흐름을 도시한 흐름도이고,
도 14는 본 발명의 실시예에 따른 문서 표시 화면이다.
[제1실시예]
아래에서, 본 발명의 실시예를 첨부한 도면에 의해 설명한다. 도 1에 제1실시예에 따른 문서 분류 시스템의 구성도를 도시한다.
제1실시예는, 특허 침해 소송에서의 문서 제출 명령에 대응할 때에, 피의 제품인 제품 A에 관한 문서를 분류 처리하는 경우의 실시예이다.
본 발명에 따른 문서 분류 시스템은, 문서 정보로부터 소정 수의 문서를 포함하는 데이터 세트인 문서 그룹을 추출하는 추출부(102)와, 추출된 문서 그룹을 화면 상에 표시하는 문서 표시부(103)와, 표시된 문서 그룹에 대해 리뷰어라는 사용자가 소송과의 관련성에 기초하여 부여한 분류 코드를 수신하는 분류 코드 수신부(104)와, 분류 코드에 기초하여 추출된 문서 그룹을 분류 코드별로 분류하고, 해당 분류된 문서 그룹에서 공통으로 출현하는 키워드를 해석하여 선정하는 선정부(105)와, 선정된 키워드를 기록하는 데이터베이스(201)와, 데이터베이스(201)에 기록된 키워드를 문서 정보에서 탐색하는 탐색부(106)와, 탐색부(106)의 탐색 결과와 선정부(105)의 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하는 점수 산출부(107)와, 점수 결과에 기초하여 자동으로 분류 코드를 부여하는 자동 분류부(108)와, 자동 분류부(108)의 분류 대상에서 선정된 문서를 배제하는 문서 배제부(109)와, 선정부(105)의 분석 결과 및 점수 산출에서 산출한 점수에 기초하여 선정부(105)가 선정한 키워드, 데이터베이스(201)에 기록된 분류 코드와의 상관 관계를 갖는 키워드 및 관련 용어를 증감시키는 학습부(110)를 포함하고 있다.
제1실시예에서, 해당 문서 분류 시스템은, 추출부(102)와 문서 표시부(103)와 분류 코드 수신부(104)와 선정부(105)와 탐색부(106)와 점수 산출부(107)와 자동 분류부(108)와 문서 배제부(109)와 학습부(110)를 포함하는 문서 분류 장치(101), 데이터베이스(201) 및 리뷰어가 이용하는 클라이언트 장치(301)로 구성된다. 클라이언트 장치(301)는 하나의 문서 분류 시스템 내에 복수 개를 포함할 수도 있다.
문서 분류 장치(101) 및 클라이언트 장치(301)는, 컴퓨터 또는 서버이며, 각종 입력에 따라 CPU가 ROM에 기록된 프로그램을 실행함으로써 각종 기능부로써 동작한다.
분류 코드는, 문서를 분류할 때 사용하는 식별자를 말한다. 소송에서 문서 정보를 증거로 이용할 때에, 증거의 종류에 따라 부여할 수도 있다. 제1실시예에서, 분류 코드로서 이번 소송에서 증거 능력이 없는 문서를 나타내는 「무관」, 증거로 제출할 필요가 있음을 나타내는 「유관」, 및 제품 A와 특히 관련이 있는 문서임을 나타내는 「중요」의 3 가지 코드를 포함하고 있으며, 이 중 「중요」 코드가 부여되는 문서를 분류하는 것이다.
여기서 말하는 문서는, 소송에서 증거로 제출하는 디지털 정보로, 하나 이상의 단어가 포함된 데이터를 말한다. 예를 들어, 이메일, 프레젠테이션 자료, 표 계산 자료, 협의 자료, 계약서, 조직도, 사업 계획서 등이 있다. 또한, 스캔 데이터를 문서로 취급할 수도 있다. 이 경우 스캔 데이터를 텍스트 데이터로 변환할 수 있도록 문서 분류 시스템 내에 OCR(Optical Character Reader) 장치를 포함할 수 있다. OCR 장치에 의해 텍스트 데이터로 변경하여 스캔 데이터에서 키워드 및 관련 용어를 해석하고 탐색할 수 있다.
예를 들어, 제1실시예에서는, 제품 A에 관한 협의에 대한 내용이 기재된 의사록이나 이메일 등에 「유관」 코드가 부여되고, 제품 A의 개발 계획서나 설계서 등에 「중요」 코드가 부여되고, 제품 A와 무관한 정례회 등의 자료에 「무관」 코드가 부여된다.
또한, 키워드는 어떤 언어에서 일정한 의미를 가진 문자열의 정리를 말한다. 예를 들어, 「문서를 분류한다」는 문장에서 키워드를 선정하면 「문서」 「분류」로 될 수 있다. 제1실시예에서는, 「침해」나 「소송」, 「특허공보○○호」라는 키워드가 중점적으로 선정된다.
데이터베이스(201)는 전자 매체에 데이터를 기록하는 기록 장치이며, 문서 분류 장치(101)의 내부에 있을 수도 있으며, 예를 들어 저장 장치로 외부에 설치할 수도 있다.
문서 분류 장치(101), 데이터베이스(201) 및 클라이언트 장치(301)는, 유선 또는 무선 네트워크를 통해 접속되어 있다. 클라우드 컴퓨팅의 형태로 이용할 수도 있다.
데이터베이스(201)는 각 분류 코드에 대한 키워드를 기록하고 있는 것이다. 또한, 과거의 분류 처리의 결과에서 제품 A와 관련성이 높은 문서 중에 포함되면 즉시 「중요」 코드를 부여한다고 판단할 수 있는 키워드를 사전(事前)에 등록할 수 있다. 예를 들어 제품 A의 주요 기능 이름이나, 「소송」, 「경고」, 「특허공보」와 같은 키워드이다. 또한, 마찬가지로 과거의 분류 처리의 결과에서 제품 A와 관련성이 높기 때문에 「중요」 코드가 부여된 문서 그룹과 관련성이 높은 일반 용어를 추출하여, 관련 용어로 등록할 수도 있다.
일단 데이터베이스(201)에 등록된 키워드 및 관련 용어는, 학습부(110)에 의한 학습 결과에 따라 증감되는 것 이외에, 수동으로도 추가 등록 및 삭제가 가능하다.
추출부(102)는 문서 정보에서 문서 그룹을 추출할 때, 무작위로 샘플링을 할 수 있다. 제1실시예에서는 전체 문서 정보 중 20%의 문서를 무작위로 추출하여 리뷰어에 의한 분류 대상으로 한다. 추출부(102)가 전체 문서 정보에서 추출할 문서의 비율은 자유롭게 설정할 수도 있다. 또한, 추출원이 될 대상을 전체 문서 정보의 일부로 할 수도 있다.
문서 표시부(103)는 클라이언트 장치(301)에 대하여, 도 14에 도시된 바와 같은 문서 표시 화면(I1)을 제시한다. 문서 표시 화면(I1)은, 도 14과 같이 중앙에 분류 대상이 되는 문서를 표시하고, 좌측에 분류 코드를 표시하도록, 화면 구조에서 한 화면 내에 분류 대상 문서와 부여할 분류 코드를 표시할 수도 있다. 문서를 표시하는 부분과 분류 코드를 표시하는 부분이 각각 다른 화면이 되는 화면 구조로 할 수도 있다.
제1실시예에서, 문서 표시 화면(I1) 내의 분류 코드 1은 「무관」 코드, 분류 코드 2는 「유관」 코드 및 분류 코드 3은 「중요」 코드를 의미한다. 또한, 「유관」 코드를 부여받은 문서 중, 소분류 1은 제품 A의 가격과 관계가 있는 문서에 대해 부여되고, 소분류 2는 제품 A의 개발 일정과 관계가 있는 문서에 대해 부여되는 것이다. 소분류는 하나의 분류 코드에 복수로 구비할 수 있으며, 구비하지 못할 수도 있다.
분류 코드 수신부(104)는 문서 표시부(103)가 표시한 문서 정보 중, 리뷰어가 눈으로 확인하고, 하나하나 분류 코드를 결정한 문서에 대해, 해당 결정에 따라 분류 코드를 부여하고, 해당 문서를 분류할 수 있다. 문서의 분류는 부여된 분류 코드에 의해 수행할 수 있다.
선정부(105)는 분류 코드 수신부(104)가 분류한 문서 정보를 해석하고, 「무관」, 「유관」 및 「중요」의 각각의 분류 코드를 부여받은 문서 정보에서, 공통으로 빈출하는 키워드를 해당 분류 코드의 키워드로 선정한다.
도 2는 선정부(105)에서 「중요」 코드가 부여된 문서를 분석한 결과를 나타낸 그래프이다.
도 2에서, 세로축(R_hot)은, 리뷰어에 의해 「중요」 코드가 부여된 모든 문서 중, 「중요」 코드에 결부된 키워드로 선정된 키워드를 포함하며 또한「중요」 코드가 부여된 문서의 비율을 나타내고 있다. 가로축은 리뷰어가 분류 처리를 실시한 모든 문서 중, 선정부(105)에 의해 선정된 키워드를 포함하는 문서의 비율을 나타내고 있다.
제1실시예에서, 선정부(105)는, 직선 R_hot = R_all 보다 상부에 나타날 수 있게 되는 키워드를 그 분류 코드의 키워드로 선정할 수 있다.
탐색부(106)는, 대상이 되는 문서 중에서 특정 키워드를 탐색하는 기능을 갖는다. 탐색부(106)는 선정부(105)에서 선정된 키워드 또는 데이터베이스(201)에서 추출된 관련 용어를 포함하는 문서를, 탐색할 때에, 분류 코드 수신부(104)에 의해 분류 코드의 부여를 수신하지 않은 문서로 구성되는 문서 그룹을 대상으로서 탐색하는 것이다.
점수 산출부(107)는, 문서 그룹 중에 출현하는 키워드와 각 키워드가 갖는 가중치에 따라 다음 식에서 점수를 산출할 수 있다. 점수는 어떤 문서에서 특정한 분류 코드와의 결부 강도를 정량적으로 평가하는 것을 말한다.
Figure pat00001
- - - (1)
Figure pat00002
: i번째 키워드 또는 관련 용어의 출현 빈도
Figure pat00003
: i번째 키워드 또는 관련 용어의 가중치
자동 분류부(108)는 산출된 점수에 기초하여 문서 정보에 자동으로 분류 코드를 부여할 때에, 분류 코드 수신부(104)에서 분류 코드의 부여를 수신하지 않은 문서를 추출하고, 해당 문서에 대하여 자동으로 분류 코드를 부여하는 기능을 가질 수도 있다.
문서 배제부(109)는 분류 대상이 되는 문서 정보 중, 데이터베이스(201)에서 사전(事前)에 등록된 키워드 및 관련 용어, 및 선정부(105)에서 선정된 키워드의 어느 것도 포함하지 않는 문서를 탐색하고, 해당 문서를 분류 대상에서 사전(事前)에 배제할 수 있다.
학습부(110)는 분류 처리의 결과를 바탕으로 각 키워드의 가중치를 학습하고, 해당 학습 결과를 토대로 데이터베이스(201)에 등록되어있는 키워드 및 관련 용어의 증감을 수행한다.
각 키워드가 갖는 가중치는, 해당 키워드가 갖는 각 분류 코드에 의한 전달 정보량을 바탕으로 결정할 수도 있다. 해당 가중치는 다음 식에서, 분류 처리를 거듭할 때마다 학습하여 정확도를 향상시킬 수 있다.
Figure pat00004
- - - (2)
Figure pat00005
: 학습 전의 i 번째 선정 키워드의 가중치 (초기값)
Figure pat00006
: L회 학습 후의 i번째 선정 키워드의 가중치
Figure pat00007
: L회 학습에서의 학습 파라미터
Figure pat00008
: 학습 효과의 임계값
또한, 학습부에서는 신경망을 이용하여 분류 결과를 가중치에 반영시키는 학습 방법을 취하는 것도 가능하다.
클라이언트 장치(301)는 리뷰어가 조작하며, 문서 정보를 확인하여 부여하는 분류 코드를 결정하는 데 사용하는 장치이다.
제1실시예에서는, 도 3에 도시한 흐름도에 따라 5개의 단계로 분류 처리를 한다.
제1단계에서는, 과거의 분류 처리의 결과를 이용하여 키워드와 관련 용어의 사전(事前) 등록을 수행한다. 이때 등록된 키워드는 제품 A의 침해 행위로 되는 기능의 명칭이나 기술의 명칭 등, 문서 내에 포함되면 즉시 「중요」 코드가 부여되는 키워드이다.
제2단계에서는, 제1단계에서 등록된 키워드를 포함하는 문서를 전체 문서 정보에서 탐색하고, 해당 문서를 발견하면 「중요」 코드를 부여한다.
제3단계에서는, 제1단계에서 등록된 관련 용어를 전체 문서 정보에서 검색하고, 해당 관련 용어를 포함하는 문서의 점수를 산출하고, 분류를 수행한다.
제4단계에서는, 리뷰어에 의한 분류 코드의 결정을 실시한 후에, 리뷰어가 분류한 규칙성을 바탕으로 자동으로 분류 코드의 부여를 수행한다.
제5단계에서는, 제1단계 내지 제4단계의 결과를 이용하여 학습을 수행한다.
<제1단계>
제1단계에서 데이터베이스(201)의 처리 흐름을, 도 4를 이용하여 상세하게 설명한다. 데이터베이스(201)에서 몇 번째 단계의 처리를 할 것인지를 판단하고, 제1단계의 처리를 선택한다(스텝 1: 제1단계). 이 단계에서는 먼저 데이터베이스(201)에서 키워드를 사전(事前) 등록한다(스텝 2). 이때 등록되는 것은, 과거의 분류 처리의 결과에서 제품 A와 관련성이 높고 문서 내에 포함되면 즉시 「중요」 코드를 부여한다고 판단할 수 있는 키워드이다. 또한, 마찬가지로 과거의 분류 처리의 결과에서 제품 A와 관련성이 높기 때문에 「중요」 코드가 부여된 문서 그룹과 관련성이 높은 일반 용어를 추출하여(스텝 3), 관련 용어로 등록한다(스텝 4).
<제2단계>
제2단계에서 데이터베이스(201), 탐색부(106) 및 자동 분류부(108)의 처리 흐름을 도 4, 도 5 및 도 7을 이용하여 상세하게 설명한다.
데이터베이스(201)에서 몇 번째 단계의 처리를 할 것인지를 판단하고, 제2단계의 처리를 선택한다(스텝 1: 제2단계). 데이터베이스(201)에서 다시 사전(事前)에 등록해 둘 필요가 있는 키워드가 있는 경우(스텝 5: 예), 추가 등록을 실시한다(스텝 6). 추가로 등록할 키워드가 없는 경우(스텝 5: 아니오) 및 스텝 6의 처리 완료 후, 탐색부(106)에서 몇 번째 단계의 처리를 할 것인지를 판단하고, 제2단계의 처리를 선택한다(스텝 11: 제2단계). 이 단계에서 탐색부(106)는 먼저 데이터베이스(201)에 제1단계 및 제2단계에서 사전(事前) 등록된 키워드가 있는지를 판정한다(스텝 12). 사전(事前)에 등록된 키워드가 존재하지 않는 경우(스텝 12: 아니오), 제2단계의 처리는 종료한다.
사전(事前)에 등록된 키워드가 존재하는 경우(스텝 12: 예), 분류 대상이 되는 문서 정보 속에 해당 키워드를 포함하는 문서가 없는지 분류 대상이 되는 전체 문서 정보에 대해 탐색을 실시한다(스텝 13). 탐색된 키워드가 포함된 문서가 존재하지 않는 경우(스텝 14: 아니오), 제2단계의 처리를 종료한다. 한편, 탐색된 키워드가 포함된 문서를 발견한 경우(스텝 14: 예), 자동 분류부(108)에 통지한다(스텝 15).
자동 분류부(108)에서는, 탐색부(106)로부터 해당 통지를 받은 경우(스텝 29: 제2단계, 스텝 30: 예), 해당 통지의 대상이 된 문서에 대하여 「중요」 코드를 부여하고, 처리를 종료한다. 탐색부(106)에서 해당 통지를 받지 않은 경우(스텝 29: 제2단계, 스텝 30: 아니오), 아무 처리도 하지 않는다.
<제3단계>
제3단계에서 데이터베이스(201), 탐색부(106), 점수 산출부(107) 및 자동 분류부(108)의 처리 흐름을, 도 4, 도 5, 도 6 및 도 7을 이용하여 상세하게 설명한다.
데이터베이스(201)에서 몇 번째 단계의 처리를 할 것인지를 판단하고, 제3단계의 처리를 선택한다(스텝 1: 제3단계). 데이터베이스(201)에서 다시 사전(事前)에 등록해 둘 필요가 있는 관련 용어가 있는 경우(스텝 7: 예) 추가 등록을 실시한다(스텝 8). 관련 용어의 추가 등록이 필요없는 경우(스텝 7: 아니오), 제3단계의 처리를 종료한다.
스텝 8의 처리 완료 후, 탐색부(106)에서 몇 번째 단계의 처리를 할 것인지를 판단하고, 제3단계의 처리를 선택한다(스텝 11: 제3단계). 이 단계에서 탐색부(106)는, 데이터베이스(201) 내에 제1단계 및 제2단계에서 등록된 관련 용어가 있는지를 판정한다(스텝 16). 사전(事前)에 등록된 키워드가 존재하지 않는 경우(스텝 16: 아니오), 제3단계의 처리는 종료한다.
관련 용어가 존재하는 경우(스텝 16: 예), 분류 대상이 되는 문서 정보 속에 해당 관련 용어를 포함하는 문서가 없는지 분류 대상이 되는 전체 문서 정보에 대해 탐색을 실시한다(스텝 17). 탐색한 키워드가 포함된 문서가 존재하지 않는 경우(스텝 18: 아니오), 제3단계의 처리를 종료한다. 한편, 탐색한 관련 용어를 포함하는 문서를 발견한 경우(스텝 18: 예), 점수 산출부(107)에 통지한다(스텝 19).
점수 산출부(107)는, 탐색부(106)로부터 해당 통지를 받은 경우(스텝 24: 제3단계, 스텝 23: 예), 위의 식 (1)을 사용하여 문서 속에서 발견한 관련 용어의 종류와 해당 관련 용어가 갖는 가중치에서 각 문서의 점수를 산출하여, 자동 분류부(108)에 통지한다(스텝 28). 탐색부(106)에서 관련 용어를 발견한 통지를 받지 않은 경우(스텝 24: 제3단계, 스텝 23: 아니오), 제3단계의 처리를 종료한다.
자동 분류부(108)는, 점수 산출부(107)로부터 점수의 통지를 받은 경우(스텝 29: 제3단계, 스텝 32: 예), 점수가 임계값을 초과했는지의 판정을 문서별로 수행하고, 점수가 임계값을 초과한 문서에는 「중요」 코드를 부여하고, 점수가 임계값을 초과한 문서가 없는 경우는 부여하지 않고 처리를 종료한다(스텝 33).
<제4단계>
제3단계에서 데이터베이스(201), 탐색부(106), 점수 산출부(107), 자동 분류부(108), 추출부(102), 문서 표시부(103), 분류 코드 수신부(104) 및 선정부(105)의 처리 흐름을 각각 도 4, 도 5, 도 6, 도 7, 도 8, 도 9, 도 10 및 도 11을 이용하여 상세하게 설명한다.
제4단계에서는, 먼저 추출부(102)에서, 분류 대상이 되는 문서 정보에서 무작위로 문서를 샘플링하여, 리뷰어가 수동으로 분류 코드를 부여하는 대상이 되는 문서 그룹을 추출한다(스텝 34). 문서 표시부(103)에서 추출된 문서 그룹을 문서 표시 화면(I1) 상에 표시한다(스텝 35).
리뷰어는 문서 표시화면(I1)에 표시된 문서 그룹에 대해, 각 문서의 내용을 읽고 나서, 제품 A와 해당 문서의 내용 사이에 관련성이 있는지 여부를 판단하고, 「중요」 코드를 부여할지 여부를 결정한다. 리뷰어가 「중요」 코드를 부여하는 문서란, 예를 들어, 제품 A의 선행 기술을 조사한 결과 보고서라든지, 제품 A의 제조는 특허침해라고 타인으로부터 경고받은 경고장 등이다.
리뷰어에 의해 부여된 분류 코드는 분류 코드 수신부(104)에 의해 수신되고(스텝 36), 부여된 분류 기호에 따라 문서가 분류된다(스텝 37).
선정부(105)는 스텝 37에서 분류된 각 문서에 대해 키워드 해석을 수행하고(스텝 38), 「중요」 코드를 부여받은 문서에 공통으로 출현 횟수가 많은 키워드를 선정한다(스텝 39).
그런 다음 데이터베이스(201)는, 스텝 39에서 선정부(105)가 선정한 키워드가 제품 A와 관계가 있음을 나타내는 「중요」 코드에 관한 키워드로 미등록인 경우(스텝 1: 제3단계, 스텝 9: 예), 해당 키워드의 등록을 실시한다. 해당 키워드가 이미 등록된 경우, 아무 처리도 수행하지 않는다(스텝 1: 제3 단계, 스텝 9: 아니오).
탐색부(106)는, 「중요」 코드에 관한 키워드가 데이터베이스(201)에 등록되어 있지 않은 경우(스텝 20: 아니요), 제4단계의 처리를 종료한다. 해당 키워드가 등록되어있는 경우(스텝 20: 예), 추출부(102)에서 추출된 리뷰어에 의해 분류된 문서를 탐색 대상에서 빼고, 나머지 각 문서를 대상으로, 해당 키워드 탐색을 실행한다(스텝 21). 해당 탐색에서 문서 중에서 키워드를 발견한 경우(스텝 22: 예), 점수 산출부(107)에 통지한다(스텝 23).
점수 산출부(107)는, 키워드 발견의 통지를 받은 경우(스텝 27: 예) 위의 식 (1)을 이용하여 각 문서에 대한 점수를 산출하고, 자동 분류부에 통지한다.
자동 분류부(108)는, 점수 산출부(107)로부터 통지를 받으면(스텝 32: 예), 문서별로 점수가 임계값을 초과했는지의 판정을 실시하고, 임계값을 초과한 문서에는 「중요」 코드를 부여하고, 초과하지 않은 문서는 부여하지 않고 처리를 종료한다 (스텝 33).
<제5단계>
제5단계에서 문서 배제부(109) 및 학습부(110)의 처리 흐름을 각각 도 12 및 도 13을 이용하여 설명한다.
문서 배제부(109)에서, 분류 대상이 되는 문서 정보 중, 제1 내지 제4 단계의 처리가 미실시인 문서 그룹에 대하여, 제1, 제2 단계에서 사전(事前)에 등록된 키워드, 제1, 제3 단계에서 등록된 관련 용어 및 제4 단계에서 등록된 키워드를 포함하는 문서가 있는지 여부를 탐색하고, 어느 것도 발견되지 않은 문서가 있는 경우(스텝 40: 예), 해당 문서를 분류 대상에서 사전(事前)에 배제한다(스텝 41).
학습부(110)는, 제1 내지 제4의 처리 결과를 바탕으로, 각 키워드의 가중치를 식 (2)에 의해 학습한다. 해당 학습 결과를 데이터베이스(201)에 반영한다(스텝 42).
[기타 실시예]
본 발명의 다른 실시예를 설명한다.
제1실시예에서는, 특히 특허 침해 소송 사건에서의 실시예를 설명하였으나, 본 발명에서 문서 분류 시스템은, 카르텔이나 독점 금지법 등, 전자 증거 개시(eDiscovery) 제도를 채택하고 있으며, 문서 제출 의무가 있는 모든 소송에서 이용할 수 있다.
또한, 제1실시예에서, 리뷰어가 분류한 규칙성을 바탕으로 자동으로 분류 코드를 부여하는 제4단계의 처리를, 제1단계 내지 제3단계의 처리 후에 실시하였지만, 제1단계 내지 제3단계의 처리를 하지 않고, 제4단계의 처리만 단독으로 수행할 수도 있다.
또한, 최초에 추출부(102)에 의해 문서 정보에서 일부 문서 그룹을 추출하고, 해당 추출한 문서 그룹에 대해 먼저 제4단계의 처리를 최초로 실시한다. 그 후, 제4단계에서 등록한 키워드를 바탕으로 제1단계 내지 제3단계의 처리를 수행하는 실시예일 수도 있다.
탐색부(106)에서, 제1실시예의 제4단계에서는, 분류 코드 수신부(104)에서, 분류 코드가 수신되지 않은 문서에 대하여 선정부(105)가 선정한 키워드 검색을 실시하였지만, 전체 문서 정보를 대상으로 해당 키워드 검색을 수행할 수 있다.
자동 분류부(108)에서 제1실시예의 제4단계에서는, 분류 코드 수신부(104)에서 분류 코드가 수신되지 않은 문서만을 분류 코드의 자동 부여의 대상으로 하였지만, 전체 문서 정보를 해당 자동 부여의 대상으로 할 수 있다.
본 발명에 따른 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램은, 문서 정보로부터 소정 수의 문서를 포함하는 데이터 세트인 문서 그룹을 추출하고, 추출된 문서 그룹을 화면 상에 표시하고, 표시된 문서 그룹에 대해 리뷰어가 소송과의 관련성에 기초하여 부여한 분류 코드를 수신하고, 해당 분류 코드에 기초하여 추출된 문서 그룹을 분류 코드별로 분류하고, 상기 분류된 문서 그룹에서 공통으로 출현하는 키워드를 해석하여 선정하고, 선정된 키워드를 기록하고, 기록된 키워드를 문서 정보에서 탐색하고, 탐색 결과와 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하고, 점수 결과에 따라 자동으로 분류 코드를 부여함으로써, 리뷰어의 분류 작업 노력의 경감을 도모할 수 있다.
또한, 본 발명의 문서 분류 시스템에서, 탐색부는 키워드를 분류 코드가 부여되지 않은 문서로 구성된 문서 정보에서 탐색하는 기능을 갖고, 점수 산출부는 탐색부의 탐색 결과와 선정부의 해석 결과를 이용하여 분류 코드와 문서와의 관련성을 나타내는 점수를 산출하고, 자동 분류부는 분류 코드 수신부에서 분류 코드의 부여를 수신하지 않은 문서를 추출하고 해당 문서에 대해 자동으로 분류 코드를 부여하는 기능을 구비할 때, 분류 코드 수신부에서 분류 코드의 부여를 수신하지 않은 문서 정보에 대해, 리뷰어가 분류한 규칙성을 바탕으로 자동으로 분류 코드를 부여할 수 있다.
또한, 본 발명은, 선정부의 분석 결과와, 점수 산출부가 산출한 점수에 기초하여 선정부가 선정한 데이터베이스에 기록된 분류 코드와의 상관 관계를 갖는 키워드 및 관련 용어를 증감시키는 학습부를 구비할 때, 분류 회수를 거듭할 때마다 분류 정밀도를 향상시킬 수 있다.
또한, 본 발명은, 데이터베이스가 분류 코드와 관련성이 있는 용어를 추출 및 기록하고, 탐색부가 관련 용어를 문서 정보에서 탐색하고, 점수 산출부는 탐색부가 관련 용어를 탐색한 결과를 바탕으로 점수를 산출하고, 자동 분류부가 관련 용어를 이용하여 산출한 점수에 기초하여 자동으로 분류 코드를 부여하는 것으로, 문서 그룹에 포함된 문서 중 선정부가 선정한 키워드, 관련 용어 및 분류 코드와 상관 관계가 있는 키워드를 포함하지 않는 문서를 선정하고, 자동 분류부의 분류 대상에서 선정된 문서를 배제할 때, 문서 분류를 보다 효율적으로 수행할 수 있다. 이것은 수집된 디지털 정보의 소송에서의 이용을 용이하게 한다.
101 문서 분류 장치 102 추출부
103 문서 표시부 104 분류 코드 수신부
105 선정부 106 탐색부
107 점수 산출부 108 자동 분류부
109 문서 배제부 110 학습부
201 데이터베이스 301 클라이언트 장치
I1 문서 표시 화면

Claims (7)

  1. 문서 정보로부터 복수의 문서를 샘플링하는 것에 의하여, 상기 복수의 문서를 사용자에 의한 분류 대상으로 추출하는 추출부와,
    상기 추출된 복수의 문서에 대하여, 각 문서를 분류하기 위한 것으로, 상기 사용자가 부여한 분류 코드를 수신하는 분류 코드 수신부와,
    상기 분류 코드가 부여된 문서로부터 공통으로 출현하는 키워드를 선정하는 선정부와,
    상기 분류 코드가 부여된 문서로부터 상기 선정된 키워드와 상기 키워드의 가중치를 대응시켜 기록하는 데이터베이스와,
    상기 분류 코드가 부여되지 않는 미분류문서에 포함되는 키워드와 상기 데이터베이스에서 상기 키워드에 대응되는 가중치에 따라, 상기 미분류문서와 상기 분류 코드의 결부된 강도를 평가한 점수를 산출하는 산출부를 포함하는 문서 분류 시스템.
  2. 제1항에 있어서,
    상기 선정부에 의해 선정된 키워드에 대한 가중치를 학습하는 학습부를 더 포함하는 것을 특징으로 하는 문서 분류 시스템.
  3. 제1항에 있어서,
    상기 산출부가 산출한 점수에 기초하여, 상기 미분류문서에 상기 분류 코드를 부여하는 자동 분류부를 더 포함하는 것을 특징으로 하는 문서 분류 시스템.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 미분류문서로부터, 상기 데이터베이스에 기록된 키워드를 탐색하는 탐색부를 더 포함하는 것을 특징으로 하는 문서 분류 시스템.
  5. 문서 정보로부터 복수의 문서를 샘플링하는 것에 의하여, 상기 복수의 문서를 사용자에 의한 분류 대상으로 추출하는 추출부와,
    상기 추출된 복수의 문서에 대하여, 각 문서를 분류하기 위한 것으로, 상기 사용자가 부여한 분류 코드를 수신하는 분류 코드 수신부와,
    상기 분류 코드가 부여된 문서로부터 선정된 키워드와 상기 키워드의 가중치를 대응시켜 기록하는 데이터베이스와,
    상기 분류 코드가 부여되지 않는 미분류문서로부터, 상기 데이터베이스에 기록된 키워드를 탐색하는 탐색부와,
    상기 미분류문서로부터 탐색된 키워드와 상기 데이터베이스에서의 상기 키워드에 대응되는 가중치에 따라, 상기 미분류문서와 상기 분류 코드의 결부된 강도를 평가한 점수를 산출하는 산출부를 포함하고,
    상기 데이터베이스는, 상기 분류 코드와 상관관계가 있는 관련용어와 상기 관련용어의 가중치를 대응시켜 기록하고,
    상기 탐색부는 상기 미분류문서로부터 상기 관련용어를 탐색하고,
    상기 산출부는, 상기 미분류문서와 상기 분류 코드의 결부된 강도를, 상기 관련용어와 상기 관련용어에 대응되는 가중치에 따라 상기 점수를 산출하는 문서 분류 시스템.
  6. 문서 정보로부터 복수의 문서를 샘플링하는 것에 의하여, 상기 복수의 문서를 사용자에 의한 분류 대상으로 추출하는 추출 단계와,
    상기 추출된 복수의 문서에 대하여, 각 문서를 분류하기 위한 것으로, 상기 사용자가 부여한 분류 코드를 수신하는 분류 코드 수신 단계와,
    상기 분류 코드가 부여된 문서로부터 공통으로 출현하는 키워드를 선정하는 선정 단계와,
    상기 분류 코드가 부여된 문서로부터 상기 선정된 키워드와 상기 키워드의 가중치를 대응시켜 기록하는 데이터베이스를 참조하여, 상기 분류 코드가 부여되지 않는 미분류문서에 포함되는 키워드와 상기 데이터베이스에서의 상기 키워드에 대응되는 가중치에 따라, 상기 미분류문서와 상기 분류 코드의 결부된 강도를 평가한 점수를 산출하는 산출 단계를 포함하는 컴퓨터가 실행하는 문서 분류 방법.
  7. 컴퓨터에,
    문서 정보로부터 복수의 문서를 샘플링하는 것에 의하여, 상기 복수의 문서를 사용자에 의한 분류 대상으로 추출하는 추출 기능과,
    상기 추출된 복수의 문서에 대하여, 각 문서를 분류하기 위한 것으로, 상기 사용자가 부여한 분류 코드를 수신하는 분류 코드 수신 기능과,
    상기 분류 코드가 부여된 문서로부터 공통으로 출현하는 키워드를 선정하는 선정 기능과,
    상기 분류 코드가 부여된 문서로부터 상기 선정된 키워드와 상기 키워드의 가중치를 대응시켜 기록하는 데이터베이스를 참조하여, 상기 분류 코드가 부여되지 않는 미분류문서에 포함되는 키워드와 상기 데이터베이스에서의 상기 키워드에 대응되는 가중치에 따라, 상기 미분류문서와 상기 분류 코드의 결부된 강도를 평가한 점수를 산출하는 산출 기능을 실현시키기 위하여 매체에 저장된 문서 분류 프로그램.
KR1020157034318A 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 KR101658794B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012044382A JP5567049B2 (ja) 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム
JPJP-P-2012-044382 2012-02-29
PCT/JP2013/055330 WO2013129548A1 (ja) 2012-02-29 2013-02-28 文書分別システム及び文書分別方法並びに文書分別プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020147026134A Division KR101582108B1 (ko) 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램

Publications (2)

Publication Number Publication Date
KR20150142070A true KR20150142070A (ko) 2015-12-21
KR101658794B1 KR101658794B1 (ko) 2016-09-22

Family

ID=49082740

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020147026134A KR101582108B1 (ko) 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
KR1020157034318A KR101658794B1 (ko) 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020147026134A KR101582108B1 (ko) 2012-02-29 2013-02-28 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램

Country Status (7)

Country Link
US (2) US9552570B2 (ko)
EP (1) EP2821927A4 (ko)
JP (1) JP5567049B2 (ko)
KR (2) KR101582108B1 (ko)
CN (2) CN104160395A (ko)
HK (1) HK1204112A1 (ko)
WO (1) WO2013129548A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201510922A (zh) * 2013-09-10 2015-03-16 Ubic Inc 數位資訊分析系統、數位資訊分析方法及數位資訊分析程式
JP5572255B1 (ja) * 2013-10-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP5876144B2 (ja) * 2014-02-04 2016-03-02 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
WO2015118619A1 (ja) * 2014-02-04 2015-08-13 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
US20170011481A1 (en) * 2014-02-04 2017-01-12 Ubic, Inc. Document analysis system, document analysis method, and document analysis program
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
JP5815911B1 (ja) * 2014-05-13 2015-11-17 株式会社Ubic 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
US10095986B2 (en) * 2014-05-14 2018-10-09 Pegasus Transtech Llc System and method of electronically classifying transportation documents
KR101656405B1 (ko) * 2014-10-06 2016-09-09 김정철 승소 가능성 평가 장치 및 방법
WO2016063403A1 (ja) * 2014-10-23 2016-04-28 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
WO2016101133A1 (en) 2014-12-23 2016-06-30 Microsoft Technology Licensing, Llc Surfacing relationships between datasets
WO2016111007A1 (ja) * 2015-01-09 2016-07-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
JPWO2016189605A1 (ja) * 2015-05-22 2018-02-15 株式会社Ubic データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
US10657186B2 (en) 2015-05-29 2020-05-19 Dell Products, L.P. System and method for automatic document classification and grouping based on document topic
JP5946949B1 (ja) * 2015-12-07 2016-07-06 株式会社Ubic データ分析システム、その制御方法、プログラム、および、記録媒体
CN106919551B (zh) * 2015-12-28 2020-08-18 株式会社理光 一种情感词极性的分析方法、装置及设备
US11010423B2 (en) 2018-08-20 2021-05-18 Accenture Global Solutions Limited Populating data fields in electronic documents
CN110096590A (zh) * 2019-03-19 2019-08-06 天津字节跳动科技有限公司 一种文档归类方法、装置、介质和电子设备
CN111814018A (zh) * 2019-04-10 2020-10-23 蓝海系统株式会社 记录管理系统和装置、文档审批和制作装置及方法、记录介质
JP6764973B1 (ja) * 2019-04-25 2020-10-07 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム
US11263249B2 (en) * 2019-05-31 2022-03-01 Kyndryl, Inc. Enhanced multi-workspace chatbot
JP2021077256A (ja) * 2019-11-13 2021-05-20 株式会社Fronteo 文書処理装置、文書レビューシステム、文書処理装置の制御方法、文書レビューサービスを提供する方法、および制御プログラム
CN111950253B (zh) * 2020-08-28 2023-12-08 鼎富智能科技有限公司 用于裁判文书的证据信息提取方法及装置
US11669704B2 (en) 2020-09-02 2023-06-06 Kyocera Document Solutions Inc. Document classification neural network and OCR-to-barcode conversion
US11809454B2 (en) 2020-11-21 2023-11-07 International Business Machines Corporation Label-based document classification using artificial intelligence
CN113449164B (zh) * 2021-05-15 2022-08-05 南方电网调峰调频发电有限公司信息通信分公司 一种移动办公用敏捷开发管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080041388A (ko) * 2006-11-07 2008-05-13 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
JP2011209931A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209930A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
JP2003016106A (ja) * 2001-06-29 2003-01-17 Fuji Xerox Co Ltd 関連度値算出装置
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US20070198594A1 (en) * 2005-11-16 2007-08-23 Lunt Tracy T Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100896702B1 (ko) * 2007-08-16 2009-05-14 한국과학기술원 신뢰도를 향상시킨 문서 구조 기반 군집 장치 및 방법
JP2009098811A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20100205020A1 (en) * 2009-02-09 2010-08-12 Losey Ralph C System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
JP5387161B2 (ja) 2009-06-23 2014-01-15 富士ゼロックス株式会社 言語解析装置及びプログラム
GB2488925A (en) * 2009-12-09 2012-09-12 Ibm Method of searching for document data files based on keywords,and computer system and computer program thereof
JP5346841B2 (ja) 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
CN101819601B (zh) * 2010-05-11 2012-02-08 同方知网(北京)技术有限公司 学术文献自动分类的方法
US8745091B2 (en) * 2010-05-18 2014-06-03 Integro, Inc. Electronic document classification
US8620918B1 (en) * 2011-02-01 2013-12-31 Google Inc. Contextual text interpretation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080041388A (ko) * 2006-11-07 2008-05-13 엔에이치엔(주) 문서 분류 시스템 및 문서 분류 방법
JP2011209931A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209930A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Also Published As

Publication number Publication date
EP2821927A1 (en) 2015-01-07
JP2013182338A (ja) 2013-09-12
US20170091321A1 (en) 2017-03-30
US9552570B2 (en) 2017-01-24
KR101582108B1 (ko) 2016-01-04
KR101658794B1 (ko) 2016-09-22
HK1204112A1 (en) 2015-11-06
US20150149372A1 (en) 2015-05-28
US10445357B2 (en) 2019-10-15
CN104160395A (zh) 2014-11-19
EP2821927A4 (en) 2015-11-04
KR20140129212A (ko) 2014-11-06
CN106447300A (zh) 2017-02-22
WO2013129548A1 (ja) 2013-09-06
JP5567049B2 (ja) 2014-08-06

Similar Documents

Publication Publication Date Title
KR101658794B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2014057963A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9542474B2 (en) Forensic system, forensic method, and forensic program
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
KR101566153B1 (ko) 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015084244A (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20190830

Year of fee payment: 4