KR20210095155A - 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체 - Google Patents

문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체 Download PDF

Info

Publication number
KR20210095155A
KR20210095155A KR1020217016842A KR20217016842A KR20210095155A KR 20210095155 A KR20210095155 A KR 20210095155A KR 1020217016842 A KR1020217016842 A KR 1020217016842A KR 20217016842 A KR20217016842 A KR 20217016842A KR 20210095155 A KR20210095155 A KR 20210095155A
Authority
KR
South Korea
Prior art keywords
sentence
search
block
retrieval
document
Prior art date
Application number
KR1020217016842A
Other languages
English (en)
Inventor
타츠야 오카노
쇼코 사이토
Original Assignee
가부시키가이샤 한도오따이 에네루기 켄큐쇼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 한도오따이 에네루기 켄큐쇼 filed Critical 가부시키가이샤 한도오따이 에네루기 켄큐쇼
Publication of KR20210095155A publication Critical patent/KR20210095155A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서의 블록마다 유사한 문서를 검색한다. 높은 정밀도로 문서를 검색한다. 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색한다. 검색용 문서의 일부인 제 1 검색용 문장 블록을 준비하고, 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 블록 각각의 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하고, 제 1 관련도의 높이에 의거하여 제 1 대상 중에서 제 2 대상을 결정하고, 제 1 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하고, 제 1 유사도를 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색한다.

Description

문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체
본 발명의 일 형태는 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체에 관한 것이다.
또한 본 발명의 일 형태는 상기 기술분야에 한정되지 않는다. 본 발명의 일 형태의 기술분야로서는, 반도체 장치, 표시 장치, 발광 장치, 축전 장치, 기억 장치, 전자 기기, 조명 장치, 입력 장치(예를 들어 터치 센서 등), 입출력 장치(예를 들어 터치 패널 등), 이들의 구동 방법, 또는 이들의 제조 방법을 일례로서 들 수 있다.
대량의 문서 중에서, 목적의 문서를 효율적으로 검색하는 문서 검색 기술이 활발히 개발되어 있다. 예를 들어, 특허문헌 1에는, 유사 문서 검색 방법이 개시(開示)되어 있다.
유사 문서는, 목적의 문서에 대하여 전체적으로 유사한 경우도 있고, 어떤 부분에서 유사성이 극단적으로 높고, 다른 부분에서는 유사성이 매우 낮은 경우도 있다.
특허문헌 1에서는, 목적의 문서에 대하여 유사 문서가 전체적으로 유사한지, 일부만 유사한지를 판단하기 위한 지표로서, 상세도를 산출하였다.
일본 공개특허공보 특개2004-295712호
특허 출원 업무에 있어서, 새로운 명세서(후출원의 명세서)를 작성할 때, 자신의 회사에서 과거에 작성된 명세서(선출원의 명세서)의 기재를 참고하거나, 또는 인용하는 경우가 있다. 여기서, 선출원의 명세서의 번역문이 이미 작성되어 있으면, 후출원의 명세서의 번역문을 작성할 때, 선출원의 명세서의 번역문을 참고하거나, 또는 인용할 수 있어, 후출원의 명세서의 번역에 걸리는 시간을 단축할 수 있다.
유사 문서의 검색 방법에 따라서는, 목적의 문서에 대하여 유사도가 높게 산출되는 문서 중에, 실제로는 유사하지 않지만 전체적으로 어느 정도의 유사도를 가지기 때문에, 문서 전체의 유사도가 높게 산출되는 문서가 포함되는 경우가 있다. 한편, 나머지 부분의 유사성이 매우 낮아도, 유사성이 극단적으로 높은 부분을 가지는(예를 들어, 완전 일치의 문장을 포함하는) 문서는, 문서 전체의 유사도가 낮게 산출되는 경우가 있다. 예를 들어, 번역문을 참고하거나, 또는 인용하기 위해서는, 전자의 문서보다, 후자의 문서가 더 바람직하다.
또한, 문서에서 한 문장씩 검색함으로써, 완전 일치의 문장을 발견할 수도 있지만, 문장의 흐름이 끊어지거나, 명세서에 따라 번역이 통일되지 않는 경우가 있다. 따라서, 장마다 등, 복수의 문장을 포함하는 단위로, 유사한 부분을 파악할 수 있는 것이 바람직하다.
또한, 새로운 명세서를 작성할 때 참고하는 명세서는, 하나에 한정되지 않는다. 따라서, 어느 명세서를 참고하여 새로운 명세서를 작성하였는지뿐만 아니라, 어느 명세서의 어느 부분을 참고하여 새로운 명세서의 어느 부분을 작성하였는지를 용이하게 파악할 수 있는 것이 바람직하다. 그리고, 이는 명세서에 한정되지 않고, 모든 문서에 공통되는 것이다. 그러나, 새로운 문서를 작성할 때, 어느 문서의 어느 부분을 참고하였는지를 자세히 기록하는 것은 시간이 오래 걸리며 번거로운 작업이다.
본 발명의 일 형태는 문서의 블록마다 유사한 문서를 검색할 수 있는 문서 검색 방법을 제공하는 것을 과제의 하나로 한다. 또는, 본 발명의 일 형태는 문서의 블록마다 유사한 문서를 검색할 수 있는 문서 검색 시스템을 제공하는 것을 과제의 하나로 한다. 또는, 본 발명의 일 형태는 간편한 입력 방법으로 문서의 블록마다 유사한 문서를 검색할 수 있는 문서 검색 방법을 제공하는 것을 과제의 하나로 한다.
본 발명의 일 형태는 높은 정밀도로 문서를 검색할 수 있는 문서 검색 방법을 제공하는 것을 과제의 하나로 한다. 또는, 본 발명의 일 형태는 높은 정밀도로 문서를 검색할 수 있는 문서 검색 시스템을 제공하는 것을 과제의 하나로 한다. 또는, 본 발명의 일 형태는 간편한 입력 방법으로 정밀도가 높은 문서 검색, 특히 지식 재산에 관한 문서의 검색을 실현하는 것을 과제 중 하나로 한다.
또한 이들 과제의 기재는 다른 과제의 존재를 방해하는 것이 아니다. 본 발명의 일 형태는 반드시 이들 과제 모두를 해결할 필요는 없는 것으로 한다. 명세서, 도면, 청구항의 기재에서 이들 외의 과제를 추출할 수 있다.
본 발명의 일 형태는 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 방법으로서, 검색용 문서의 일부인 제 1 검색용 문장 블록을 준비하고, 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 블록 각각의 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하고, 제 1 관련도의 높이에 의거하여 제 1 대상 중에서 제 2 대상을 결정하고, 제 1 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하고, 제 1 유사도를 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법이다.
검색용 문서를 분할함으로써, 복수의 검색용 문장 블록을 작성하는 것이 바람직하다. 이때, 제 1 검색용 문장 블록은 복수의 검색용 문장 블록 중 하나인 것이 바람직하다.
또한, 검색용 문서의 다른 일부인 제 2 검색용 문장 블록을 준비하고, 복수의 문장 블록 중 적어도 일부를 제 3 대상으로 하고 제 2 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 3 대상에 포함되는 문장 블록 각각의 제 2 검색용 문장 블록에 대한 제 2 관련도를 산출하고, 제 2 관련도의 높이에 의거하여 제 3 대상 중에서 제 4 대상을 결정하고, 제 2 검색용 문장 블록에 포함되는 문장마다 제 4 대상에 포함되는 문장 각각과의 제 2 유사도를 산출하고, 제 2 유사도를 사용하여 제 2 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 것이 바람직하다. 이때, 제 1 대상과 제 3 대상은 동일하여도 좋고, 서로 상이하여도 좋다.
제 1 유사도 중 문턱값 이상의 값을 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 것이 바람직하다.
본 발명의 일 형태는 복수의 검색용 문장 블록의 각각에 대하여 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 유사한 문장 블록을 검색하는 문서 검색 방법으로서, 검색용 문서를 분할함으로써, 복수의 검색용 문장 블록을 작성하고, 복수의 검색용 문장 블록의 각각에 대하여 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 블록 각각의 검색용 문장 블록에 대한 관련도를 산출하는 단계와, 관련도의 높이에 의거하여 제 1 대상 중에서 제 2 대상을 결정하는 단계와, 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 유사도를 산출하는 단계와, 유사도를 사용하여 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 단계를 수행하는, 문서 검색 방법이다.
본 발명의 일 형태는 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 방법으로서, 검색용 문서의 일부인 제 1 검색용 문장 블록을 준비하고, 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 제 1 검색용 문장 블록에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 각각의 제 1 검색용 문장 블록에 포함되는 각 문장에 대한 제 1 관련도를 산출하고, 제 1 검색용 문장 블록에 포함되는 문장마다 제 1 관련도의 높이에 의거하여 제 1 대상에 포함되는 문장 중에서 제 2 대상을 결정하고, 제 1 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하고, 제 1 유사도를 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법이다.
검색용 문서를 분할함으로써, 복수의 검색용 문장 블록을 작성하는 것이 바람직하다. 이때, 제 1 검색용 문장 블록은 복수의 검색용 문장 블록 중 하나인 것이 바람직하다.
또한, 검색용 문서의 다른 일부인 제 2 검색용 문장 블록을 준비하고, 복수의 문장 블록 중 적어도 일부를 제 3 대상으로 하고 제 2 검색용 문장 블록에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 3 대상에 포함되는 문장 각각의 제 2 검색용 문장 블록에 포함되는 각 문장에 대한 제 2 관련도를 산출하고, 제 2 검색용 문장 블록에 포함되는 문장마다 제 2 관련도의 높이에 의거하여 제 3 대상에 포함되는 문장 중에서 제 4 대상을 결정하고, 제 2 검색용 문장 블록에 포함되는 문장마다 제 4 대상에 포함되는 문장 각각과의 제 2 유사도를 산출하고, 제 2 유사도를 사용하여 제 2 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 것이 바람직하다. 이때, 제 1 대상과 제 3 대상은 동일하여도 좋고, 서로 상이하여도 좋다.
제 1 유사도 중 문턱값 이상의 값을 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 것이 바람직하다.
본 발명의 일 형태는 복수의 검색용 문장 블록의 각각에 대하여 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 유사한 문장 블록을 검색하는 문서 검색 방법으로서, 검색용 문서를 분할함으로써, 복수의 검색용 문장 블록을 작성하고, 복수의 검색용 문장 블록의 각각에 대하여 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 검색용 문장 블록에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 각각의 검색용 문장 블록에 포함되는 각 문장에 대한 관련도를 산출하는 단계와, 검색용 문장 블록에 포함되는 문장마다 관련도의 높이에 의거하여 제 1 대상에 포함되는 문장 중에서 제 2 대상을 결정하는 단계와, 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 유사도를 산출하는 단계와, 유사도를 사용하여 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 단계를 수행하는, 문서 검색 방법이다.
본 발명의 일 형태는 상기 문서 검색 방법 중 어느 것을 수행하는 기능을 가지는 문서 검색 시스템이다.
본 발명의 일 형태는 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 시스템으로서, 처리부를 가지고, 처리부는 검색용 문서를 분할함으로써 작성된 복수의 검색용 문장 블록 중 하나인 제 1 검색용 문장 블록을 준비하는 기능과, 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 블록 각각의 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하는 기능과, 제 1 관련도의 높이에 의거하여 제 1 대상 중에서 제 2 대상을 결정하는 기능과, 제 1 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하는 기능과, 제 1 유사도를 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 기능을 가지는, 문서 검색 시스템이다.
본 발명의 일 형태는 상기 문서 검색 방법 중 어느 것을 프로세서에 실행시키는 기능을 가지는 프로그램이다. 본 발명의 일 형태는 상기 프로그램이 기억된 비일시적 컴퓨터 가독 기억 매체이다.
프로그램은 다양한 유형의 일시적인 컴퓨터 가독 기억 매체에 의하여 컴퓨터에 공급되어도 좋다. 일시적인 컴퓨터 가독 기억 매체로서는 전기 신호, 광 신호, 및 전자기파를 포함한다. 일시적인 컴퓨터 가독 기억 매체는 전선 및 광섬유 등의 유선 통신로, 또는 무선 통신로를 통하여 프로그램을 컴퓨터에 공급할 수 있다.
본 발명의 일 형태는 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 프로그램으로서, 검색용 문서를 분할함으로써 작성된 복수의 검색용 문장 블록 중 하나인 제 1 검색용 문장 블록을 준비하는 단계와, 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 블록 각각의 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하는 단계와, 제 1 관련도의 높이에 의거하여 제 1 대상 중에서 제 2 대상을 결정하는 단계와, 제 1 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하는 단계와, 제 1 유사도를 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 단계를, 프로세서에 실행시키는 프로그램이다. 본 발명의 일 형태는 상기 프로그램이 기억된 비일시적 컴퓨터 가독 기억 매체이다.
비일시적 컴퓨터 가독 기억 매체로서는 다양한 유형의 실체를 자기는 기억 매체를 사용할 수 있다. 비일시적 컴퓨터 가독 기억 매체로서는, 예를 들어 RAM(Random Access Memory) 등의 휘발성 메모리, ROM(Read Only Memory) 등의 비휘발성 메모리를 들 수 있다. 그 외에, 하드 디스크 드라이브(Hard Disc Drive: HDD) 및 소리드 스테이트 드라이브(Solid State Drive: SSD) 등의 기록 미디어 드라이브, 광 자기 디스크, CD-ROM, CD-R 등을 들 수 있다.
본 발명의 일 형태에 의하여, 문서의 블록마다 유사한 문서를 검색할 수 있는 문서 검색 방법을 제공할 수 있다. 본 발명의 일 형태에 의하여, 문서의 블록마다 유사한 문서를 검색할 수 있는 문서 검색 시스템을 제공할 수 있다. 본 발명의 일 형태에 의하여, 간편한 입력 방법으로 문서의 블록마다 유사한 문서를 검색할 수 있는 문서 검색 방법을 제공할 수 있다.
본 발명의 일 형태에 의하여, 높은 정밀도로 문서를 검색할 수 있는 문서 검색 방법을 제공할 수 있다. 본 발명의 일 형태에 의하여, 높은 정밀도로 문서를 검색할 수 있는 문서 검색 시스템을 제공할 수 있다. 본 발명의 일 형태에 의하여, 간편한 입력 방법으로 정밀도가 높은 문서 검색, 특히 지식 재산에 관련된 문서의 검색을 실현할 수 있다.
또한, 이들 효과의 기재는 다른 효과의 존재를 방해하는 것이 아니다. 본 발명의 일 형태는 반드시 이들 효과 모두를 가질 필요는 없다. 명세서, 도면, 청구항의 기재로부터 이들 이외의 효과를 추출할 수 있다.
도 1은 문서 검색 방법의 일례를 나타낸 흐름도이다.
도 2는 검색을 수행하기 전 단계의 처리의 일례를 나타낸 도면이다.
도 3의 (A), (B), (C)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 4의 (A), (B), (C)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 5의 (A), (B)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 6의 (A), (B), (C)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 7의 (A), (B), (C)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 8의 (A), (B), (C)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 9의 (A), (B)는 문서 검색 방법의 일례를 나타낸 도면이다.
도 10은 문서 검색 방법의 일례를 나타낸 흐름도이다.
도 11은 문서 검색 방법의 일례를 나타낸 흐름도이다.
도 12는 문서 검색 방법의 일례를 나타낸 도면이다.
도 13은 문서 검색 시스템의 일례를 나타낸 블록도이다.
도 14는 문서 검색 시스템의 일례를 나타낸 블록도이다.
실시형태에 대하여 도면을 사용하여 자세히 설명한다. 다만 본 발명은 이하의 설명에 한정되지 않고, 본 발명의 취지 및 그 범위에서 벗어남이 없이 그 형태 및 자세한 사항을 다양하게 변경할 수 있는 것은 통상의 기술자라면 용이하게 이해할 수 있다. 따라서 본 발명은 이하의 실시형태의 기재 내용에 한정하여 해석되는 것은 아니다.
또한 이하에서 설명하는 발명의 구성에서, 동일한 부분 또는 같은 기능을 가지는 부분에는 동일한 부호를 상이한 도면 사이에서 공통적으로 사용하고, 이의 반복적인 설명은 생략한다. 또한 같은 기능을 가지는 부분을 가리키는 경우에는, 해치 패턴을 동일하게 하고, 특별히 부호를 붙이지 않는 경우가 있다.
또한, 도면에서 도시한 각 구성의 위치, 크기, 범위 등은, 이해를 쉽게 하기 위하여 실제의 위치, 크기, 범위 등을 나타내지 않는 경우가 있다. 그러므로, 개시된 발명은 반드시 도면에 개시된 위치, 크기, 범위 등에 한정되지 않는다.
(실시형태 1)
본 실시형태에서는, 본 발명의 일 형태의 문서 검색 방법에 대하여 도 1 내지 도 12를 사용하여 설명한다. 또한, 데이터의 모식도는 일례이며, 이에 한정되지 않는다.
본 발명의 일 형태는 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 방법이다.
우선, 검색용 문서의 일부인 제 1 검색용 문장 블록을 준비한다.
예를 들어, 제 1 검색용 문장 블록은 검색용 문서의 일부를 추출함으로써 작성할 수 있다. 또는, 제 1 검색용 문장 블록은 검색용 문서를 분할함으로써 작성된 복수의 검색용 문장 블록 중 하나이어도 좋다.
본 발명의 일 형태의 문서 검색 방법에서는, 복수의 검색 대상 문서로부터 복수의 문장 블록을 미리 작성하고, 또한 검색 시에는 검색용 문서로부터 검색용 문장 블록을 작성한다. 이로써, 검색용 문장 블록과 유사한 문장 블록을 검색할 수 있다. 따라서, 검색용 문서 전체를 검색 조건으로 사용하는 경우나, 검색 대상이 문서 전체인 경우에 비하여, 유사한 부분의 대응 관계를 파악하기 쉬워진다.
다음으로, 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상에 포함되는 문장 블록 각각의 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출한다.
검색 대상 문서의 수가 많을수록, 문장 블록의 수도 많아진다. 본 발명의 일 형태에서는, 검색용 문장 블록마다 검색의 대상이 되는 문장 블록(제 1 대상)을 좁힐 수 있기 때문에, 처리량을 삭감하여 검색 속도를 높일 수 있다.
다음으로, 제 1 관련도의 높이에 의거하여 제 1 대상 중에서 제 2 대상을 결정한다.
문서 전체 검색에서는, 문장이나 단어의 순서는 고려되지 않기 때문에, 산출되는 관련도는 유사도와 다르다. 한편, 검색용 문장 블록과 공통되는 단어를 가지는 문장 블록은 관련도의 값이 높아지고, 유사성이 낮은 문장 블록은 관련도의 값도 낮아지기 때문에, 유사도를 산출해야 할 대상을 높은 정밀도로 좁힐 수 있다.
다음으로, 제 1 검색용 문장 블록에 포함되는 문장마다 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출한다.
문서 전체 검색에 비하여, 유사도를 산출하는 처리는 소요 시간이 길어지기 쉽다. 본 발명의 일 형태에서는 제 1 대상 중에서 제 2 대상을 결정하고, 대상을 좁힌 후에 유사도를 산출하기 때문에, 문서 검색에 걸리는 시간을 단축할 수 있다.
유사도는, 문장끼리의 표기상의 일치도에 의거하여 산출할 수 있다. 문서 전체 검색과 달리, 유사도의 산출에서는, 문장 중의 단어의 순서가 고려된다. 따라서, 제 1 검색용 문장 블록이 가지는 문장과 공통되는 단어를 가져도 단어의 순서가 상이한 문장은 유사도가 낮아진다.
그리고, 제 1 유사도를 사용하여 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색한다.
이상과 같이, 본 발명의 일 형태의 문서 검색 방법을 사용함으로써, 검색용 문서의 특정의 부분에 유사한, 다른 문서의 기재 부분을 용이하게 파악할 수 있다.
또한, 본 발명의 일 형태의 문서 검색 방법은 검색용 문서를 입력하면 좋고, 검색에 사용하는 키워드의 선정이 불필요하기 때문에 사용자의 부담이 적고, 능력에 따른 검색 결과의 차이가 생기기 어렵다는 이점이 있다.
또한, 검색 대상이 되는 문장 블록을 제 1 대상, 제 2 대상의 순서로 좁힌 후에 유사도의 산출을 수행하기 때문에, 문서 검색에 걸리는 시간을 단축할 수 있다.
또한, 문서 전체 검색은 제 1 검색용 문장 블록에 포함되는 문장을 하나씩 검색 조건으로 사용하여 수행하여도 좋다. 이 경우, 제 1 대상에 포함되는 문장 각각의 제 1 검색용 문장 블록에 포함되는 각 문장에 대한 제 1 관련도를 산출한다. 그리고, 제 1 검색용 문장 블록에 포함되는 문장마다 제 1 관련도의 높이에 의거하여 제 1 대상에 포함되는 문장 중에서 제 2 대상을 결정한다.
문장 블록에는 복수의 문장이 포함된다. 문장 블록에 포함되는 문장 중, 제 1 검색용 문장 블록에 포함되는 문장과 유사한 문장이 대부분이 아닐 수 있다. 그러므로, 유사도가 높은 문장 블록을 높은 정밀도로 검색하기 위해서는, 많은 문장 블록에 대하여 유사도의 산출을 수행할 필요가 있으므로, 유사도를 산출하는 시간이 길어지는 경우가 있다. 또한, 유사도의 산출에 필요한 시간을 단축하기 위하여, 제 2 대상인 문장 블록의 수를 적게 한 경우, 유사도가 높은 문장이 포함되는 문장 블록을 제외하게 될 우려가 있다.
그러므로, 문장 블록 단위가 아니라, 문장 단위로, 제 1 대상으로부터 제 2 대상을 좁히는 것이 바람직하다. 구체적으로는, 제 1 검색용 문장 블록에 포함되는 문장마다 관련도가 높은 문장을 검색하고, 문장 단위로 유사도를 산출하는 대상을 좁히는 것이 바람직하다. 문장 단위로 대상을 좁힘으로써, 문장 블록 단위로 대상을 좁히는 경우에 비하여, 유사도가 높은 문장(및 문장 블록)이 제외되는 것을 억제하면서, 유사도의 산출에 필요한 시간을 단축할 수 있다.
<문서 검색 방법의 예 1>
도 1에 문서 검색 방법의 흐름도를 나타내었다. 도 1에 도시된 바와 같이, 본 발명의 일 형태의 문서 검색 방법은 단계 A1 내지 단계 A6의 6개의 단계를 가진다.
또한, 특별히 설명이 없는 한, 요소(문서, 문장 블록, 또는 문장 등)를 복수로 가지는 구성을 설명하는 경우에도, 각각의 요소에 공통되는 사항을 설명하는 경우에는, 변수 및 알파벳을 생략하여 설명한다. 예를 들어, 검색 대상 문서(TD1), 검색 대상 문서(TD2), 및 검색 대상 문서(TDn) 등에 공통되는 사항을 설명하는 경우에, 검색 대상 문서(TD)라고 기재하는 경우가 있다.
[전처리]
우선, 도 2를 사용하여 검색을 수행하기 전 단계의 처리에 대하여 설명한다.
전처리에서는, 복수의 검색 대상 문서(TD)를 분할하고, 복수의 문장 블록(TB)을 작성한다.
본 실시형태의 문서 검색 방법에서는, 미리 준비된 복수의 문서를 블록으로 나눈다. 그리고, 검색 시에는, 입력된 검색용 문서도 블록으로 나눈다. 이로써, 검색용 문서의 각 블록과 유사한 문장 블록을 검색할 수 있다.
도 2에서는, n개(n은 2 이상의 정수)의 검색 대상 문서(TD)를 준비하는 예를 나타내었다.
검색 대상 문서(TD)로서는, 특별한 한정은 없고, 다양한 문서를 사용할 수 있다.
검색 대상 문서(TD)로서는, 예를 들어 지식 재산에 관련된 문서를 들 수 있다. 지식 재산에 관련된 문서로서는, 구체적으로는 특허 출원에 사용한 명세서, 청구범위, 및 요약서 등을 들 수 있다. 또한, 지식 재산에 관련된 문서로서는, 특허문헌(공개 특허 공보, 특허 공보 등), 실용 신안 공보, 의장 공보, 및 논문 등의 간행물을 들 수 있다. 국내에서 발행된 간행물에 한정되지 않고, 세계 각국에서 발행된 간행물을, 지식 재산에 관련된 문서로서 사용할 수 있다.
그 외에, 검색 대상 문서(TD)로서, 서적, 논문, 리포트, 칼럼, 또는 그 외의 문장을 포함하는 각종 저작물을 사용하여도 좋다. 또한, 검색 대상 문서(TD)로서, 진료 문서 등을 사용하여도 좋다.
또한, 문서의 언어에 대해서도 특별한 한정은 없고, 예를 들어 일본어, 영어, 중국어, 한국어 등의 문서를 사용할 수 있다.
도 2에 도시된 검색 대상 문서(TD1)는, x개(x는 2 이상의 정수)의 문장 블록(문장 블록(TB1(1))으로부터 문장 블록(TB1(x))으로 분할된다.
또한, 검색 대상 문서(TD2)는, y개(y는 2 이상의 정수)의 문장 블록(문장 블록(TB2(1))으로부터 문장 블록(TB2(y))으로 분할된다.
또한, 검색 대상 문서(TDn)는, z개(z는 2 이상의 정수)의 문장 블록(문장 블록(TBn(1))으로부터 문장 블록(TBn(z))으로 분할된다.
예를 들어, 검색 대상 문서가 복수의 장으로 이루어지는 문서인 경우, 장마다 분할함으로써, 복수의 문장 블록을 작성하여도 좋다.
구체적으로는, 특허 명세서의 경우, '배경, 과제, 수단, 및 효과', '실시형태 1', '실시형태 2' 등으로 분할할 수 있다.
또한, 논문의 경우, '서론', '연구 수단', '결과', '고찰', '결론' 등으로 분할할 수 있다.
또한, 검색 대상 문서의 모든 문장을 사용하여 복수의 문장 블록을 작성하여도 좋고, 검색 대상 문서 중 필요한 부분만을 사용하여 복수의 문장 블록을 작성하여도 좋다.
예를 들어, 검색 대상 문서가 특허 명세서인 경우, '부호의 설명'을 사용하지 않고, 복수의 문장 블록을 작성하여도 좋다.
전처리는 문서 검색을 수행하기 전(단계 A1을 수행하기 전)에 적어도 한 번 실시한다. 전처리는 용도에 따라 복수회 실시하여도 좋다. 예를 들어, 정기적으로 전처리를 수행하여, 검색 대상 문서의 추가, 갱신, 또는 삭제를 수행함으로써, 검색 정밀도 및 편의성을 높일 수 있다.
또한, 복수의 문장 블록(TB)을 사용하여, 문서 전체 검색에 사용하기 위한 인덱스 파일을 작성하는 것이 바람직하다. 이로써, 문서 전체 검색을 단시간에 수행할 수 있다. 인덱스 파일의 구성은 특별히 한정되지 않고, 예를 들어 문자 열, 문서명, 문장 블록명, 출현 빈도 등의 정보를 가질 수 있다.
또한, 예를 들어 인덱스 파일은 검색 대상 문서(TD)(또는 문장 블록(TB))의 각 언어의 번역문이 존재하는지 여부의 정보를 가져도 좋다. 이로써, 검색 시에 '영어의 번역문이 존재함', '중국어의 번역문이 존재함' 등의 조건을 지정할 수 있다.
다음으로, 도 3 내지 도 5를 사용하여, 도 1에 나타낸 6개의 단계의 자세한 내용에 대하여 설명한다.
[단계 A1: 복수의 검색용 문장 블록(STB)의 작성]
우선, 검색용 문서(STD)를 분할함으로써, 복수의 검색용 문장 블록(STB)을 작성한다(도 3의 (A)).
도 3의 (A)에 도시된 바와 같이, 검색용 문서(STD)는, w개(w는 2 이상의 정수)의 검색용 문장 블록(검색용 문장 블록(STB(1))으로부터 검색용 문장 블록(STB(w))으로 분할된다.
본 실시형태의 문서 검색 방법에서는, 입력된 검색용 문서(STD)를 복수의 검색용 문장 블록(STB)으로 나누기 때문에, 검색용 문장 블록(STB)마다 유사한 문서(문장 블록(TB))를 검색할 수 있다.
검색용 문서(STD)로서는, 특별한 한정은 없고, 다양한 문서를 사용할 수 있다.
검색용 문서(STD)로서는, 예를 들어 번역하기 전의 지식 재산에 관련된 문서를 들 수 있다. 이로써, 검색 대상 문서(TD) 중에서, 번역이 완료된 유사한 문서를 검색할 수 있어, 번역문을 참고하거나, 또는 인용할 수 있다.
또한, 검색용 문서(STD)로서, 서적, 논문, 리포트, 칼럼, 또는 문장을 포함하는 각종 저작물을 사용할 수 있다. 이로써, 검색 대상 문서(TD) 중에서, 유사한 문서를 검색할 수 있어, 검색용 문서(STD)에 도용 또는 표절의 의혹이 없는지 확인할 수 있다.
또한, 검색용 문서(STD)로서, 진료 문서를 사용할 수 있다. 치료의 중간 경과가 기재된 진료 문서를 사용하여 유사한 증상예의 진료 문서를 검색함으로써, 진료의 참고로 하거나, 환자가 이후 어떤 경과를 거칠지 검토할 수 있다.
[단계 A2: 검색용 문장 블록(STB(i))의 선택]
다음으로, w개의 검색용 문장 블록(STB) 중에서, 검색을 수행하는 검색용 문장 블록(STB(i))(i는 1 이상 w 이하의 정수)을 선택한다.
또한, 하나의 검색용 문장 블록(STB)에만 검색을 수행하는 경우에는, 단계 A1에서 검색용 문서(STD) 중에서 필요한 부분을 추출함으로써, 검색용 문장 블록(STB)을 작성하여도 좋다.
또한, 복수의 검색용 문장 블록(STB)에 대하여 각각 검색을 수행하는 경우에는, 하나씩 축차 검색하여도 좋고(문서 검색 방법의 예 3 참조), 복수를 병렬로 검색하여도 좋고(문서 검색 방법의 예 4 참조), 축차 처리와 병렬 처리를 조합하여 검색하여도 좋다.
본 실시형태의 문서 검색 방법에서는, 검색용 문장 블록(STB)마다, 유사한 문장 블록(TB)을 검색할 수 있기 때문에, 검색용 문서(STD)의 특정의 부분과 유사한, 검색 대상 문서(TD)의 기재 부분을 높은 정밀도로, 간편하게 파악할 수 있다.
[단계 A3: 검색용 문장 블록(STB(i))에 대한 관련도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 관련도를 산출한다.
구체적으로는, 검색용 문장 블록(STB(i))을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 검색 대상이 되는 문장 블록(TB) 각각의 검색용 문장 블록(STB(i))에 대한 관련도를 산출한다.
여기서, 모든 문장 블록(TB)에 대하여 검색용 문장 블록(STB(i))에 대한 관련도를 산출하여도 좋고, 일부의 문장 블록(TB)에 대하여 검색용 문장 블록(STB(i))에 대한 관련도를 산출하여도 좋다.
예를 들어, 특허 명세서의 경우, '배경, 과제, 수단, 및 효과'에 대하여 유사 문서를 찾으려고 할 때는, 검색 대상 문서의 '배경, 과제, 수단, 및 효과'만을 검색 대상으로 하면 좋고, '실시형태 1' 등은 검색의 대상 외로 할 수 있다.
또한, '실시형태 1'에 대하여 유사 문서를 찾으려고 하는 경우, 검색 대상 문서의 각 실시형태를 검색 대상으로 하고, '배경, 과제, 수단, 및 효과'는, 검색의 대상 외로 할 수 있다. 또한, '영어의 번역문이 존재하는' 유사 문서를 찾으려고 하는 경우, '영어의 번역문이 존재하는' 검색 대상 문서의 각 실시형태를 검색 대상으로 할 수 있다.
문서 전체 검색에 있어서, 관련도를 산출하는 문장 블록(TB)은, 예를 들어 인덱스 파일에 포함되는 정보에 의거하여 자동적으로 선택된다. 또는, 검색용 문서(STD)를 입력할 때, 관련도를 산출하는 문장 블록(TB)을 지정하여도 좋다.
이와 같이, 검색용 문장 블록(STB(i))에 따라, 검색 대상이 되는 문장 블록을 변경함으로써, 처리량을 삭감하여 문서 검색에 걸리는 시간을 단축할 수 있다.
문서 검색 방법의 예 1에서는, 검색용 문장 블록(STB(i))을 문서 전체 검색의 하나의 검색 조건으로서 사용하는 경우를 나타낸다. 또한, 후술하지만, 검색용 문장 블록(STB(i))에 포함되는 각 문장을 문서 전체 검색의 검색 조건으로서 사용하여도 좋다(문서 검색 방법의 예 2 참조). 즉, 검색 조건의 수가 검색용 문장 블록(STB(i))에 포함되는 문장의 수만큼 있어도 좋다.
문서 전체 검색 방법에 특별한 한정은 없고, 축차 검색, 인덱스 검색 등을 사용할 수 있다.
특히, 인덱스 검색은 검색 대상인 문장 블록(TB)이 많은 경우에도 검색 속도가 저하하기 어렵기 때문에 바람직하다.
인덱스 검색에서는 검색 대상이 되는 문장 블록(TB)을 미리 주사하고, 고속 검색이 가능하게 되도록 인덱스 파일을 준비한다.
인덱스 파일을 구성하는 문자 열을 추출하는 방법에 특별한 한정은 없고, 띄어쓰기(단어를 공백으로 나누는 것), 형태소 해석, N-gram(N 문자 인덱스법, N 그램법 등이라고도 함) 등을 사용할 수 있다.
특히, N-gram은, 형태소 해석에 비하여, 완전 일치의 검색에 유리하고, 전문 용어, 신조어, 준말 등이 문제가 되기 어렵기 때문에 바람직하다.
관련도의 산출에는, 예를 들어 TF-IDF(Term Frequency-Inverse Document Frequency)를 사용하는 것이 바람직하다. TF값은 어떤 문장 블록 내에서의 각 단어의 출현 빈도를 나타내고, IDF값은 단어가 일부의 문장 블록에 집중하여 출현할 정도를 나타낸다. 하나의 문장 블록에서 어떤 단어의 출현이 많을수록 상기 단어의 상기 문장 블록에서의 TF값은 높다. 많은 문장 블록에 출현하는 단어의 IDF값은 작고, 일부의 문장 블록에만 출현하는 단어의 IDF값은 높다. 각 단어의 TF값과 IDF값의 곱을 구함으로써, 상기 단어가 문장 블록을 특징을 나타내는 단어인지의 스코어를 산출할 수 있다.
또한, 관련도의 산출은 TF-IDF를 사용한 방법에 한정되지 않는다.
예를 들어, 오픈 소스의 검색 엔진 라이브러리인 아파치 루신(Apache Lucene)을 사용하여, 문서 전체 검색을 수행할 수 있다.
도 3의 (B)에서는, 검색용 문장 블록(STB(1))에 대한 관련도를 산출하는 예를 나타내었다. 또한, 검색 대상인 제 1 대상(110(1))이 각 검색 대상 문서(TD)가 가지는 첫 번째의 문장 블록(TB(1))인 예를 나타내었다.
[단계 A4: 제 1 대상(110(i)) 중에서의 제 2 대상(120(i))의 결정]
다음으로, 관련도의 높이에 의거하여 제 1 대상(110(i)) 중에서 제 2 대상(120(i))을 결정한다.
제 2 대상(120(i))에 포함되는 문장 블록(TB)의 수는 특별히 한정되지 않는다. 제 2 대상(120(i))은 다음 단계에서 유사도를 산출하는 대상이 된다. 문서 전체 검색에 비하여, 유사도를 산출하는 처리는 소요 시간이 길어지기 쉽다. 제 1 대상(110(i)) 중에서 제 2 대상(120(i))을 결정하고, 대상을 좁힌 후에 유사도를 산출함으로써, 문서 검색에 걸리는 시간을 단축할 수 있다.
예를 들어, 단계 A3에서의 문서 전체 검색의 결과를 관련도가 높은 순서대로 정렬함으로써, 검색용 문장 블록(STB(i))에 대한 관련도가 높은 문장 블록(TB)을 파악할 수 있다.
도 3의 (C)에서는, 검색용 문장 블록(STB(1))에 대한 관련도가 높은, 상위 10개의 문장 블록(TB)을 제 2 대상(120(1))으로서 사용하는 예를 나타내었다. 도 3의 (C)에서는, 일례로서 문장 블록(TB4(1))이 1위(Rank 1), 문장 블록(TB1(1))이 2위(Rank 2), 그리고 문장 블록(TB9(1))이 10위(Rank 10)인 경우를 나타내었다.
[단계 A5: 검색용 문장 블록(STB(i))에 대한 유사도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 유사도를 산출한다. 구체적으로는, 검색용 문장 블록(STB(i))에 포함되는 문장마다 제 2 대상(120(i))에 포함되는 문장 각각과의 유사도를 산출한다.
본 발명의 일 형태의 문서 검색 방법에서는, 문장과 문장 간의 유사도를 구한다. 구체적으로는, 문장끼리의 표기상의 일치도에 의거하여, 유사도를 산출하는 것이 바람직하다.
예를 들어, 문서의 차분을 구하는 알고리듬인 diff를 사용하여, 유사도를 산출할 수 있다.
우선, 도 4의 (A)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)과, 제 2 대상(120(1))에 포함되는 문장 각각과의 유사도를 산출한다.
다음으로, 도 4의 (B)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 두 번째의 문장(STS2)과, 제 2 대상(120(1))에 포함되는 문장 각각과의 유사도를 산출한다. 마찬가지로, 검색용 문장 블록(STB(1))의 각 문장과, 제 2 대상(120(1))에 포함되는 문장 각각과의 유사도를 산출한다.
그리고, 도 4의 (C)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 마지막의 문장(STSp)(p는 1 이상의 정수)까지 유사도의 산출을 수행함으로써, 검색용 문장 블록(STB(1))에 포함되는 모든 문장에 대하여, 제 2 대상(120(1))에 포함되는 문장 각각과의 유사도를 산출한다. 또한, 도 4의 (C)에서는, p가 3 이상의 정수인 예를 나타내었다.
또한, 검색용 문장 블록(STB(1))의 복수의 문장에 대한 유사도의 산출을 병렬로 수행하여도 좋다. 예를 들어, 도 4의 (A)에 도시된 처리와, 도 4의 (B)에 도시된 처리와, 도 4의 (C)에 도시된 처리는 모두 병렬로 수행되어도 좋다.
산출한 유사도를 사용함으로써, 검색용 문장 블록(STB(1))과 유사한 문장 블록(TB)을 구할 수 있다.
예를 들어, 각 문장 블록(TB)에 있어서, 검색용 문장 블록(STB(1))의 각 문장에 대한 유사도가 가장 높은 문장의 유사도의 합을 산출하고, 상기 합을 검색용 문장 블록(STB(1))의 문장의 수로 나눔으로써, 상기 문장 블록(TB)의 검색용 문장 블록(STB(1))에 대한 정규화 유사도를 구할 수 있다.
도 5의 (A)에서는, 문장 블록(TB4(1))에서 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)에 대한 유사도가 가장 높은 문장은 첫 번째의 문장(S1)(유사도는 1)이고, 두 번째의 문장(STS2)에 대한 유사도가 가장 높은 문장은 두 번째의 문장(S2)(유사도는 0.9)이고, 마지막의 문장(STSp)에 대한 유사도가 가장 높은 문장은 세 번째의 문장(S3)(유사도는 0.5)이다. 이들 p개의 유사도를 합하고, 문장의 수 p로 나눔으로써, 문장 블록(TB4(1))의 검색용 문장 블록(STB(1))에 대한 정규화 유사도를 구할 수 있다.
또한, 문장끼리의 유사도 중 문턱값 이상의 값을 사용하면, 검색의 정밀도를 높일 수 있기 때문에 바람직하다. 예를 들어, 문턱값이 0.8인 경우, 도 5의 (A)에 도시된 문장 블록(TB4(1))에서 마지막의 문장(STSp)에 대한 유사도가 가장 높은 문장(S3)의 유사도는 0.5이기 때문에 유사도의 합을 산출할 때 사용되지 않는다(0으로 간주한다).
[단계 A6: 결과의 출력]
그리고, 검색용 문장 블록(STB(i))에 대한 정규화 유사도가 높은 문장 블록(TB)을 출력한다.
도 5의 (B)는 정규화 유사도가 높은 순서대로 문장 블록(TB(Block))을 정렬한 예이다. 또한, Score로서 정규화 유사도를 백분율로 나타낸 예를 나타내었다.
단계 A3에서 수행한 문서 전체 검색에서는, 문장이나 단어의 순서는 고려되지 않기 때문에, 산출되는 관련도는 유사도와 상이하다. 단계 A5에서 유사도를 산출함으로써, 단계 A4(도 3의 (C))에서 제 2 대상(120(1))으로서 결정한 10개의 문장 블록(TB)을 검색용 문장 블록(STB(1))에 대한 유사성이 높은 순서대로 정렬할 수 있다(도 5의 (B)).
이상과 같이, 검색용 문서(STD)를 검색용 문장 블록(STB)으로 분할하고, 유사한 문장 블록을 검색함으로써, 검색용 문장 블록(STB)에 대하여, 유사한 문서(문장 블록(TB))를 검색할 수 있다. 이로써, 검색용 문서(STD) 전체를 검색 조건으로 사용하는 경우나, 검색 대상이 문서 전체인 경우에 비하여, 유사한 부분의 대응 관계를 파악하기 쉬워진다.
또한, 검색 대상이 되는 문장 블록을 제 1 대상, 제 2 대상의 순서로 좁힌 후에 유사도의 산출을 수행하기 때문에, 문서 검색에 걸리는 시간을 단축할 수 있다.
<문서 검색 방법의 예 2>
다음으로, 도 6 내지 도 9를 사용하여 단계 A3 이후의 변형예를 설명한다. 구체적으로는, 검색용 문장 블록(STB(i))에 포함되는 각 문장을, 문서 전체 검색의 검색 조건으로서 사용하는 경우에 대하여 설명한다.
[단계 A3: 검색용 문장 블록(STB(i))에 대한 관련도의 산출]
문서 검색 방법의 예 2에서의 단계 A3에서는, 검색용 문장 블록(STB(i))에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행한다. 이로써, 검색 대상에 포함되는 문장 각각의 검색용 문장 블록(STB(i))에 포함되는 각 문장에 대한 관련도를 산출한다.
여기서, 모든 문장 블록(TB)에 대하여, 검색용 문장 블록(STB(i))에 포함되는 각 문장에 대한 관련도를 산출하여도 좋고, 일부의 문장 블록(TB)에 대하여, 검색용 문장 블록(STB(i))에 포함되는 각 문장에 대한 관련도를 산출하여도 좋다.
검색용 문장 블록(STB(i))에 따라, 검색 대상이 되는 문장 블록을 변경함으로써, 처리량을 삭감하여, 문서 검색에 걸리는 시간을 단축할 수 있다.
문서 전체 검색 방법 및 관련도의 산출의 방법에는 문서 검색 방법의 예 1과 같은 방법을 사용할 수 있다.
우선, 도 6의 (A)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상(110(1))에 포함되는 각 문장의 첫 번째의 문장(STS1)에 대한 관련도를 산출한다. 또한, 제 1 대상(110(1))에 포함되는 문장이란, 제 1 대상(110(1))에 포함되는 복수의 문장 블록(TB)을 구성하는 문장을 가리킨다.
다음으로, 도 6의 (B)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 두 번째의 문장(STS2)을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 제 1 대상(110(1))에 포함되는 각 문장의 두 번째의 문장(STS2)에 대한 관련도를 산출한다. 마찬가지로, 검색용 문장 블록(STB(1))의 각 문장에 대한 관련도를 산출한다.
그리고, 도 6의 (C)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 마지막의 문장(STSp)(p는 2 이상의 정수)까지 관련도의 산출을 수행함으로써, 제 1 대상(110(1))에 포함되는 문장의 검색용 문장 블록(STB(1))에 포함되는 각 문장에 대한 관련도를 산출한다. 또한, 도 6의 (C)에서는, p가 3 이상의 정수인 예를 나타내었다.
또한, 검색용 문장 블록(STB(1))의 각 문장을 검색 조건으로 사용한 문서 전체 검색을 병렬로 수행하여도 좋다. 예를 들어, 도 6의 (A)에 도시된 처리와, 도 6의 (B)에 도시된 처리와, 도 6의 (C)에 도시된 처리는 모두 병렬로 수행되어도 좋다.
[단계 A4: 제 1 대상(110(i)) 중에서의 제 2 대상(120(i))의 결정]
다음으로, 검색용 문장 블록(STB(i))에 포함되는 문장마다 관련도의 높이에 의거하여 제 1 대상(110(i))에 포함되는 문장 중에서 제 2 대상(120(i))을 결정한다.
제 2 대상(120(i))에 포함되는 문장의 수는 특별히 한정되지 않는다. 제 2 대상(120(i))은 다음 단계에서 유사도를 산출하는 대상이 된다. 문서 전체 검색에 비하여, 유사도를 산출하는 처리는 소요 시간이 길어지기 쉽다. 제 1 대상(110(i)) 중에서 제 2 대상(120(i))을 결정하고, 대상을 좁힌 후에 유사도를 산출함으로써, 문서 검색에 걸리는 시간을 단축할 수 있다.
예를 들어, 단계 A3에서의 문서 전체 검색의 결과를 관련도가 높은 순서대로 정렬함으로써, 검색용 문장 블록(STB(i))에 포함되는 각 문장에 대한 관련도가 높은 문장을 파악할 수 있다.
도 7의 (A)에서는, 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)에 대한 관련도가 높은 상위 300개의 문장을 제 2 대상(120(1))(STS1)으로서 사용하는 예를 나타내었다. 도 7의 (A)에서는, 일례로서, 문장 블록(TB4(1))의 첫 번째의 문장(TB4(1)_S1)이 1위(Rank 1), 문장 블록(TB3(1))의 첫 번째의 문장(TB3(1)_S1)이 2위(Rank 2), 그리고, 문장 블록(TB6(1))의 6 번째의 문장(TB6(1)_S6)이 300위(Rank 300)인 경우를 나타내었다.
도 7의 (B)에서는, 검색용 문장 블록(STB(1))의 두 번째의 문장(STS2)에 대한 관련도가 높은 상위 300개의 문장을 제 2 대상(120(1))(STS2)으로서 사용하는 예를 나타내었다. 도 7의 (B)에서는, 일례로서, 문장 블록(TB1(1))의 두 번째의 문장(TB1(1)_S2)이 1위(Rank 1), 문장 블록(TB3(1))의 두 번째의 문장(TB3(1)_S2)이 2위(Rank 2), 그리고, 문장 블록(TB62(1))의 8 번째의 문장(TB62(1)_S8)이 300위(Rank 300)인 경우를 나타내었다.
그리고, 도 7의 (C)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 마지막의 문장(STSp)에 대한 관련도가 높은 상위 300개의 문장으로서, 제 2 대상(120(1))(STSp)을 결정한다. 도 7의 (C)에서는, 일례로서, 문장 블록(TB2(1))의 9 번째의 문장(TB2(1)_S9)이 1위(Rank 1), 문장 블록(TB6(1))의 8 번째의 문장(TB6(1)_S8)이 2위(Rank 2), 그리고, 문장 블록(TB7(1))의 12 번째의 문장(TB7(1)_S12)이 300위(Rank 300)인 경우를 나타내었다. 이상과 같이, 검색용 문장 블록(STB(1))에 포함되는 모든 문장에 대하여, 각각 제 2 대상(120(1))을 결정한다. 마찬가지로, 검색용 문장 블록(STB(i))에 포함되는 모든 문장에 대하여, 각각 관련도의 높이에 의거하여 제 1 대상(110(i))에 포함되는 문장 중에서 제 2 대상(120(i))을 결정한다.
[단계 A5: 검색용 문장 블록(STB(i))에 대한 유사도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 유사도를 산출한다. 구체적으로는, 검색용 문장 블록(STB(i))에 포함되는 문장마다 제 2 대상(120(i))에 포함되는 문장 각각과의 유사도를 산출한다.
유사도의 산출 방법은 문서 검색 방법의 예 1과 같은 방법을 사용할 수 있다.
우선, 도 8의 (A)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)과, 제 2 대상(120(1))(STS1)에 포함되는 문장 각각과의 유사도를 산출한다.
다음으로, 도 8의 (B)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 두 번째의 문장(STS2)과, 제 2 대상(120(1))(STS2)에 포함되는 문장 각각과의 유사도를 산출한다. 마찬가지로, 검색용 문장 블록(STB(1))의 각 문장과, 제 2 대상(120(1))에 포함되는 문장 각각과의 유사도를 산출한다.
그리고, 도 8의 (C)에 도시된 바와 같이, 검색용 문장 블록(STB(1))의 마지막의 문장(STSp)까지 유사도의 산출을 수행함으로써, 검색용 문장 블록(STB(1))에 포함되는 모든 문장에 대하여, 제 2 대상(120(1))에 포함되는 문장 각각과의 유사도를 산출한다.
또한, 검색용 문장 블록(STB(1))의 복수의 문장에 대한 유사도의 산출을 병렬로 수행하여도 좋다. 예를 들어, 도 8의 (A)에 도시된 처리와, 도 8의 (B)에 도시된 처리와, 도 8의 (C)에 도시된 처리는 모두 병렬로 수행되어도 좋다.
산출한 유사도를 사용함으로써, 검색용 문장 블록(STB(1))과 유사한 문장 블록(TB)을 구할 수 있다.
예를 들어, 각 문장 블록(TB)에 있어서, 검색용 문장 블록(STB(1))의 각 문장에 대한 유사도가 가장 높은 문장의 유사도의 합을 산출하고, 상기 합을 검색용 문장 블록(STB(1))의 문장의 수로 나눔으로써, 상기 문장 블록(TB)의 검색용 문장 블록(STB(1))에 대한 정규화 유사도를 구할 수 있다.
도 9의 (A)에서는, 문장 블록(TB4(1))에서 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)에 대한 유사도가 가장 높은 문장은 첫 번째의 문장(S1)(유사도는 1)이고, 두 번째의 문장(STS2)에 대한 유사도가 가장 높은 문장은 두 번째의 문장(S2)(유사도는 0.90)이다. 이와 같이, p개의 각 문장에 대한 가장 높은 유사도를 더하고, 문장의 수 p로 나눔으로써, 문장 블록(TB4(1))의 검색용 문장 블록(STB(1))에 대한 정규화 유사도를 구할 수 있다. 또한, 문장 블록(TB4(1))에서, 26 번째의 문장(S26)도 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)에 대한 유사도가 높지만(유사도 0.80), 첫 번째의 문장(S1)보다 낮기 때문에 S26의 유사도의 값은 사용하지 않는다.
또한, 문장끼리의 유사도 중 문턱값 이상의 값을 사용하면, 검색의 정밀도를 높일 수 있기 때문에 바람직하다. 도 9의 (A)에 도시된 문장 블록(TB9(1))에서, 검색용 문장 블록(STB(1))의 첫 번째의 문장(STS1)에 대한 유사도가 가장 높은 문장은 두 번째의 문장(S2)(유사도는 0.70)이고, 두 번째의 문장(STS2)에 대한 유사도가 가장 높은 문장은 첫 번째의 문장(S1)(유사도는 0.60)이고, 마지막의 문장(STSp)에 대한 유사도가 가장 높은 문장은 세 번째의 문장(S3)(유사도는 0.60)이다. 문턱값을 사용하지 않는 경우, p개의 각 문장에 대한 가장 높은 유사도의 합의 산출에 이들 3개의 문장의 유사도의 값이 사용된다. 한편, 예를 들어 문턱값이 0.8인 경우, 이들 3개의 문장의 유사도의 값은 문턱값 미만이기 때문에 유사도의 합을 산출할 때 사용하지 않는다(0으로 간주한다).
[단계 A6: 결과의 출력]
그리고, 검색용 문장 블록(STB(i))에 대한 정규화 유사도가 높은 문장 블록(TB)을 출력한다.
도 9의 (B)는 정규화 유사도가 높은 순서대로 문장 블록(TB)을 정렬한 예이다. 또한, Score로서, 정규화 유사도를 백분율로 나타낸 예를 나타내었다.
문서 검색 방법의 예 2에서는, 검색용 문장 블록(STB(i))에 포함되는 문장마다 제 1 대상(110(i)) 중에서 제 2 대상(120(i))이 되는 문장을 결정한다. 따라서, 문장 블록(TB)에 포함되는 문장 중, 검색용 문장 블록(STB(i))에 포함되는 문장과의 관련성이 높은 문장만, 상기 검색용 문장 블록(STB(i))에 포함되는 문장과의 유사도를 산출할 수 있다. 문장 단위로 대상을 좁힘으로써, 문장 블록 단위로 대상을 좁히는 경우에 비하여, 유사도가 높은 문장(및 문장 블록)이 제외되는 것을 억제하면서, 유사도의 산출에 필요한 시간을 단축할 수 있다. 또한, 실제로는 유사하지 않은 문장 블록(TB)의 유사도가 높아지는 것을 방지할 수 있다.
예를 들어, 문서 검색 방법의 예 2를 사용함으로써, 문서 검색 방법의 예 1(도 5의 (B))에서는 상위 10위에 들어가지 않았던 문장 블록(TB7(1), TB3(1), TB6(1))이 상위 10위에 들어갈 수도 있다(도 9의 (B)).
문서 검색 방법의 예 2는, 문서 검색 방법의 예 1에 비하여 나머지 부분의 유사성이 매우 낮아도, 유사성이 극단적으로 높은 부분을 가지는(예를 들어, 완전 일치의 문장을 포함하는) 문장 블록의 유사도를 높게 산출할 수 있다.
<문서 검색 방법의 예 3>
다음으로, 복수의 검색용 문장 블록(STB)에 대하여, 유사한 문장 블록을 축차 검색하는 방법에 대하여 설명한다. 또한, 문서 검색 방법의 예 3에서는, 모든 검색용 문장 블록(STB)에 대하여 유사한 문장 블록을 검색하는 예를 나타내지만, 이에 한정되지 않고 일부의 검색용 문장 블록(STB)에 대하여 유사한 문장 블록을 검색하여도 좋다. 도 10에 문서 검색 방법의 흐름도를 나타내었다.
또한, 검색을 수행하기 전 단계의 처리에 대해서는, 문서 검색 방법의 예 1과 같기 때문에 설명을 생략한다.
[단계 B1: 복수의 검색용 문장 블록(STB(1) 내지 STB(w))의 작성]
우선, 검색용 문서(STD)를 분할함으로써, 복수의 검색용 문장 블록(STB)을 작성한다. 여기서는, w개(w는 2 이상의 정수)의 검색용 문장 블록(검색용 문장 블록(STB(1))으로부터 검색용 문장 블록(STB(w))으로 분할하는 예를 나타낸다. 단계 B1은 도 3의 (A)에 도시된 단계 A1과 마찬가지로 수행할 수 있다.
[단계 B2: 검색용 문장 블록(STB(i))의 선택(i=1)]
다음으로, w개의 검색용 문장 블록(STB) 중에서, 검색을 수행하는 검색용 문장 블록(STB(i))(i는 1 이상 w 이하의 정수)을 선택한다.
또한, 일부 또는 전부의 검색용 문장 블록(STB)에 대하여 유사한 문장 블록을 검색하는 순서는 특별히 한정되지 않는다.
문서 검색 방법의 예 3에서는, 검색용 문장 블록(STB(1))으로부터 순차적으로 검색을 수행하는 예를 나타낸다. 그러므로, 단계 B2에서는 i=1을 선택한다.
[단계 B3: 검색용 문장 블록(STB(i))에 대한 관련도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 관련도를 산출한다.
단계 B2에서 i=1을 선택하였기 때문에, 첫 번째의 단계 B3에서는 검색용 문장 블록(STB(1))에 대한 관련도를 산출한다. 첫 번째의 단계 B3은 도 3의 (B)에 도시된 단계 A3과 마찬가지로 수행할 수 있다.
[단계 B4: 제 1 대상(110(i)) 중에서의 제 2 대상(120(i))의 결정]
다음으로, 관련도의 높이에 의거하여 제 1 대상(110(i)) 중에서 제 2 대상(120(i))을 결정한다.
단계 B2에서 i=1을 선택하였기 때문에, 첫 번째의 단계 B4에서는 관련도의 높이에 의거하여 제 1 대상(110(1)) 중에서 제 2 대상(120(1))을 결정한다. 첫 번째의 단계 B4는 도 3의 (C)에 도시된 단계 A4와 마찬가지로 수행할 수 있다.
[단계 B5: 검색용 문장 블록(STB(i))에 대한 유사도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 유사도를 산출한다. 구체적으로는, 검색용 문장 블록(STB(i))에 포함되는 문장마다 제 2 대상(120(i))에 포함되는 문장 각각과의 유사도를 산출한다.
단계 B2에서 i=1을 선택하였기 때문에, 첫 번째의 단계 B5에서는, 검색용 문장 블록(STB(1))에 대한 유사도를 산출한다. 첫 번째의 단계 B5는, 도 4의 (A) 내지 (C) 및 도 5의 (A)에 도시된 단계 A5와 마찬가지로 수행할 수 있다.
[단계 B6: 모든 검색용 문장 블록(STB)에 대하여 유사도를 산출하였는가(i=w?)]
이상의 단계 B3으로부터 단계 B5까지의 처리를 모든 검색용 문장 블록(STB)에 대하여 순차적으로 수행한다. 유사도를 산출하지 않은 검색용 문장 블록(STB)이 있는 경우에는, 단계 B7을 경유하여 단계 B3으로 돌아간다. 그리고, 모든 검색용 문장 블록(STB)에 대하여 유사도를 산출한 경우에는 단계 B8로 진행된다.
[단계 B7: i에 1을 더한다(i=i+1)]
단계 B6으로부터 단계 B3으로 돌아갈 때, 단계 B7로서 i에 1을 더한다. 즉, 두 번째의 단계 B3 내지 B5는 검색용 문장 블록(STB(2))에 대하여 수행한다. 이와 같이, 검색용 문장 블록(STB(w))에 대하여 유사도를 산출할 때까지 단계 B3 내지 B5를 반복적으로 수행한다.
[단계 B8: 결과의 출력]
그리고, 각 검색용 문장 블록(STB)에 대한 정규화 유사도가 높은 문장 블록(TB)을 출력한다.
도 12는 검색용 문장 블록(STB)별로, 정규화 유사도가 높은 순서대로 문장 블록(TB)을 정렬한 예이다. 또한, 도 5의 (B)에 도시된 Score와 같이, 유사도의 높이를 나타내는 값을 출력하여도 좋다.
이상과 같이, 검색용 문장 블록(STB)마다 유사한 문장 블록을 순차적으로 검색한 후, 모든 결과를 출력함으로써, 검색용 문서(STD)의 각 검색용 문장 블록(STB)에 대하여 유사한 문서(문장 블록(TB))를 검색할 수 있다.
<문서 검색 방법의 예 4>
다음으로, 복수의 검색용 문장 블록(STB)에 대하여, 유사한 문장 블록을 병렬로 검색하는 방법에 대하여 설명한다. 또한, 문서 검색 방법의 예 4에서는, 모든 검색용 문장 블록(STB)에 대하여 유사한 문장 블록을 검색하는 예를 나타내지만, 이에 한정되지 않고 일부의 검색용 문장 블록(STB)에 대하여 유사한 문장 블록을 검색하여도 좋다. 도 11에 문서 검색 방법의 흐름도를 나타내었다.
또한, 검색을 수행하기 전 단계의 처리에 대해서는, 문서 검색 방법의 예 1과 같기 때문에 설명을 생략한다.
[단계 C1: 복수의 검색용 문장 블록(STB)의 작성]
우선, 검색용 문서(STD)를 분할함으로써, 복수의 검색용 문장 블록(STB)을 작성한다. 여기서는, w개(w는 2 이상의 정수)의 검색용 문장 블록(검색용 문장 블록(STB(1))으로부터 검색용 문장 블록(STB(w))으로 분할하는 예를 나타낸다. 단계 C1은 도 3의 (A)에 도시된 단계 A1과 마찬가지로 수행할 수 있다.
이후의 단계 C2 내지 C5의 처리는 2개 이상의 검색용 문장 블록(STB)에 대하여 병렬로 수행할 수 있다. 문장 검색 방법의 예 4에서는, w개의 검색용 문장 블록(STB)에 대하여 병렬로 수행하는 예를 나타내었다.
[단계 C2(i): 검색용 문장 블록(STB(i))의 선택]
다음으로, w개의 검색용 문장 블록(STB) 중에서, 검색을 수행하는 검색용 문장 블록(STB(i))(i는 1 이상 w 이하의 정수)을 선택한다.
도 11에 도시된 단계 C2(1)에서는, i=1을 선택한다. 단계 C2(1)와 병행하여 수행되는 단계 C2(2)에서는 i=2를 선택하고, 단계 C2(w)에서는 i=w를 선택한다.
[단계 C3(i): 검색용 문장 블록(STB(i))에 대한 관련도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 관련도를 산출한다.
도 11에 도시된 단계 C3(1)에서는, 검색용 문장 블록(STB(1))에 대한 관련도를 산출한다. 단계 C3(1)은 도 3의 (B)에 도시된 단계 A3과 마찬가지로 수행할 수 있다.
단계 C3(1)과 병행하여 수행되는 단계 C3(2)에서는 검색용 문장 블록(STB(2))에 대한 관련도를 산출하고, 단계 C3(w)에서는 검색용 문장 블록(STB(w))에 대한 관련도를 산출한다.
[단계 C4(i): 제 1 대상(110(i)) 중에서의 제 2 대상(120(i))의 결정]
다음으로, 관련도의 높이에 의거하여 제 1 대상(110(i)) 중에서 제 2 대상(120(i))을 결정한다.
도 11에 도시된 단계 C4(1)에서는, 관련도의 높이에 의거하여 제 1 대상(110(1)) 중에서 제 2 대상(120(1))을 결정한다. 단계 C4(1)는 도 3의 (C)에 도시된 단계 A4와 마찬가지로 수행할 수 있다.
단계 C4(1)와 병행하여 수행되는 단계 C4(2)에서는 관련도의 높이에 의거하여 제 1 대상(110(2)) 중에서 제 2 대상(120(2))을 결정하고, 단계 C4(w)에서는 관련도의 높이에 의거하여 제 1 대상(110(w)) 중에서 제 2 대상(120(w))을 결정한다.
[단계 C5: 검색용 문장 블록(STB(i))에 대한 유사도의 산출]
다음으로, 검색용 문장 블록(STB(i))에 대한 유사도를 산출한다. 구체적으로는, 검색용 문장 블록(STB(i))에 포함되는 문장마다 제 2 대상(120(i))에 포함되는 문장 각각과의 유사도를 산출한다.
도 11에 도시된 단계 C5(1)에서는 검색용 문장 블록(STB(1))에 대한 유사도를 산출한다. 단계 C5(1)는 도 4의 (A) 내지 (C) 및 도 5의 (A)에 도시된 단계 A5와 마찬가지로 수행할 수 있다.
단계 C5(1)와 병행하여 수행되는 단계 C5(2)에서는 검색용 문장 블록(STB(2))에 대한 유사도를 산출하고, 단계 C4(w)에서는 검색용 문장 블록(STB(w))에 대한 유사도를 산출한다.
[단계 C6: 결과의 출력]
그리고, 각 검색용 문장 블록(STB)에 대한 정규화 유사도가 높은 문장 블록(TB)을 출력한다.
도 12는 검색용 문장 블록(STB)별로, 정규화 유사도가 높은 순서대로 문장 블록(TB)을 정렬한 예이다. 또한, 도 5의 (B)에 도시된 Score와 같이, 유사도의 높이를 나타내는 값을 출력하여도 좋다.
이상과 같이, 각 검색용 문장 블록(STB)과 유사한 문장 블록을 병렬로 검색한 후, 모든 결과를 출력함으로써, 검색용 문서(STD)의 각 검색용 문장 블록(STB)에 대하여, 유사한 문서(문장 블록(TB))를 검색할 수 있다.
이상과 같이, 본 실시형태의 문서 검색 방법에서는, 검색용 문장 블록과 유사한 문장 블록을 검색함으로써, 검색용 문서의 특정의 부분과 유사한 검색 대상 문서의 기재 부분을 좋은 정밀도로 검색할 수 있다. 이로써, 검색용 문서 전체를 검색 조건으로 사용하는 경우나, 검색 대상이 문서 전체인 경우에 비하여, 유사한 부분의 대응 관계를 파악하기 쉬워진다.
또한, 본 실시형태의 문서 검색 방법에서는, 문서 전체 검색 결과를 사용하여 검색용 문장 블록에 대한 유사도를 산출하는 대상을 좁힌다. 이로써, 문서 검색에 따른 시간을 단축할 수 있다.
본 실시형태는 다른 실시형태와 적절히 조합할 수 있다. 또한, 본 명세서에서, 하나의 실시형태 중에 복수의 구성예가 나타내어지는 경우에는, 구성예를 적절히 조합할 수 있다.
(실시형태 2)
본 실시형태에서는, 본 발명의 일 형태의 문서 검색 시스템에 대하여 도 13 및 도 14를 사용하여 설명한다.
본 실시형태의 문서 검색 시스템은 실시형태 1에 나타낸 문서 검색 방법을 사용하여 문서를 검색할 수 있다. 구체적으로는, 미리 준비된 문장 블록을 검색의 대상으로 하여, 입력된 검색용 문서(의 검색용 문장 블록)와 유사한 문서(문장 블록)를 검색할 수 있다.
<문서 검색 시스템의 구성예 1>
도 13에 문서 검색 시스템(100)의 블록도를 나타내었다. 또한, 본 명세서에 첨부된 도면에서는 구성 요소를 기능마다 분류하여 서로 독립된 블록으로서 블록도를 도시하였지만, 실제의 구성 요소들을 기능마다 완전히 나누는 것이 어려우며 하나의 구성 요소가 복수의 기능에 관련될 수도 있다. 또한, 하나의 기능이 복수의 구성 요소와 관련될 수도 있고, 예를 들어 처리부(103)에서 수행되는 처리는 처리에 따라 상이한 서버에서 실행되는 경우가 있다.
문서 검색 시스템(100)은 적어도 처리부(103)를 가진다. 도 13에 도시된 문서 검색 시스템(100)은 입력부(101), 전송로(傳送路)(102), 기억부(105), 데이터베이스(107), 및 출력부(109)를 더 가진다.
[입력부(101)]
입력부(101)에는 문서 검색 시스템(100)의 외부로부터 검색용 문서(STD)가 공급된다. 입력부(101)에 공급된 검색용 문서(STD)는 전송로(102)를 통하여 처리부(103), 기억부(105), 또는 데이터베이스(107)에 공급된다.
[전송로(102)]
전송로(102)는 각종 데이터를 전달하는 기능을 가진다. 입력부(101), 처리부(103), 기억부(105), 데이터베이스(107), 및 출력부(109) 간의 데이터의 송수신은 전송로(102)를 통하여 수행할 수 있다. 예를 들어, 검색용 문서(STD), 검색용 문장 블록(STB), 검색 대상 문서(TD), 및 문장 블록(TB) 등의 데이터가 전송로(102)를 통하여 송수신된다.
[처리부(103)]
처리부(103)는 입력부(101), 기억부(105), 데이터베이스(107) 등으로부터 공급된 데이터를 사용하여 연산을 수행하는 기능을 가진다. 처리부(103)는 연산 결과를 기억부(105), 데이터베이스(107), 출력부(109) 등에 공급할 수 있다.
처리부(103)에는 채널 형성 영역에 금속 산화물을 가지는 트랜지스터를 사용하는 것이 바람직하다. 상기 트랜지스터는 오프 전류가 매우 낮기 때문에, 상기 트랜지스터를 기억 소자로서 기능하는 용량 소자에 유입한 전하(데이터)를 유지하기 위한 스위치로서 사용함으로써, 데이터의 유지 기간을 장기간에 걸쳐 확보할 수 있다. 이 특성을 처리부(103)가 가지는 레지스터 및 캐시 메모리 중 적어도 한쪽에 사용함으로써, 필요할 때에만 처리부(103)를 동작시키고, 그렇지 않을 경우에는 직전의 처리의 정보를 상기 기억 소자에 대피시킴으로써 처리부(103)를 오프로 할 수 있다. 즉, 노멀리 오프 컴퓨팅이 가능하게 되고, 문서 검색 시스템의 저소비 전력화를 도모할 수 있다.
또한, 본 명세서 등에 있어서, 채널 형성 영역에 산화물 반도체 또는 금속 산화물을 사용한 트랜지스터를 Oxide Semiconductor 트랜지스터 또는 OS 트랜지스터라고 부른다. OS 트랜지스터의 채널 형성 영역은 금속 산화물을 가지는 것이 바람직하다.
본 명세서 등에서 금속 산화물(metal oxide)이란, 넓은 의미로의 금속의 산화물이다. 금속 산화물은 산화물 절연체, 산화물 도전체(투명 산화물 도전체를 포함함), 산화물 반도체(Oxide Semiconductor 또는 단순히 OS라고도 함) 등으로 분류된다. 예를 들어, 트랜지스터의 반도체층에 금속 산화물을 사용한 경우, 상기 금속 산화물을 산화물 반도체라고 부르는 경우가 있다. 즉, 금속 산화물이 증폭 작용, 정류 작용, 및 스위칭 작용 중 적어도 하나를 가지는 경우, 이 금속 산화물을 금속 산화물 반도체(metal oxide semiconductor), 줄여서 OS라고 부를 수 있다.
채널 형성 영역이 가지는 금속 산화물은 인듐(In)을 포함하는 것이 바람직하다. 채널 형성 영역이 가지는 금속 산화물이 인듐을 포함하는 금속 산화물인 경우, OS 트랜지스터의 캐리어 이동도(전자 이동도)가 높아진다. 또한, 채널 형성 영역이 가지는 금속 산화물은 원소 M을 포함하는 산화물 반도체인 것이 바람직하다. 원소 M은 알루미늄(Al), 갈륨(Ga), 또는 주석(Sn)인 것이 바람직하다. 원소 M에 적용할 수 있는 다른 원소로서는, 붕소(B), 실리콘(Si), 타이타늄(Ti), 철(Fe), 니켈(Ni), 저마늄(Ge), 이트륨(Y), 지르코늄(Zr), 몰리브데넘(Mo), 란타넘(La), 세륨(Ce), 네오디뮴(Nd), 하프늄(Hf), 탄탈럼(Ta), 텅스텐(W) 등이 있다. 다만 원소 M으로서 상술한 원소를 복수 조합하여도 되는 경우가 있다. 원소 M은 예를 들어, 산소와의 결합 에너지가 높은 원소이다. 예를 들어, 산소와의 결합 에너지가 인듐보다 높은 원소이다. 또한, 채널 형성 영역이 가지는 금속 산화물은 아연(Zn)을 포함하는 것이 바람직하다. 아연을 포함한 금속 산화물은 결정화되기 쉬운 경우가 있다.
채널 형성 영역이 가지는 금속 산화물은 인듐을 포함하는 금속 산화물에 한정되지 않는다. 반도체층은 예를 들어, 아연 주석 산화물, 갈륨 주석 산화물 등, 인듐을 포함하지 않고 아연을 포함하는 금속 산화물, 갈륨을 포함하는 금속 산화물, 주석을 포함하는 금속 산화물 등이어도 된다.
또한, 처리부(103)에는 채널 형성 영역에 실리콘을 포함하는 트랜지스터를 사용하여도 좋다.
또한, 처리부(103)에는 채널 형성 영역에 산화물 반도체를 포함하는 트랜지스터와, 채널 형성 영역에 실리콘을 포함하는 트랜지스터를 조합하여 사용하는 것이 바람직하다.
처리부(103)는 예를 들어, 연산 회로 또는 중앙 연산 장치(CPU: Central Processing Unit) 등을 가진다.
처리부(103)는, DSP(Digital Signal Processor), GPU(Graphics Processing Unit) 등의 마이크로프로세서를 가져도 좋다. 마이크로프로세서는 FPGA(Field Programmable Gate Array), FPAA(Field Programmable Analog Array) 등의 PLD(Programmable Logic Device)에 의하여 실현된 구성이어도 좋다. 처리부(103)는 프로세서에 의하여 다양한 프로그램으로부터의 명령을 해석하고 실행함으로써, 각종 데이터 처리 및 프로그램 제어를 수행할 수 있다. 프로세서에 의하여 실행할 수 있는 프로그램은 프로세서가 가지는 메모리 영역 및 기억부(105) 중 적어도 한쪽에 저장된다.
처리부(103)는 메인 메모리를 가져도 좋다. 메인 메모리는 RAM 등의 휘발성 메모리 및 ROM 등의 비휘발성 메모리 중 적어도 한쪽을 가진다.
RAM으로서는, 예를 들어 DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory) 등이 사용되고, 처리부(103)의 작업 공간으로서 가상적으로 메모리 공간이 할당되어 이용된다. 기억부(105)에 저장된 운영 체계, 애플리케이션 프로그램, 프로그램 모듈, 프로그램 데이터, 및 룩업 테이블 등은 실행을 위하여 RAM에 로드된다. RAM에 로드된 이들 데이터, 프로그램, 및 프로그램 모듈은 각각 처리부(103)에 직접 액세스되고 조작된다.
ROM에는 재기록을 필요로 하지 않는 BIOS(Basic Input/Output System) 및 펌웨어 등을 저장할 수 있다. ROM으로서는, 마스크 ROM, OTPROM(One Time Programmable Read Only Memory), EPROM(Erasable Programmable Read Only Memory) 등을 들 수 있다. EPROM으로서는, 자외선 조사에 의하여 기억 데이터의 소거를 가능하게 하는 UV-EPROM(Ultra-Violet Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read Only Memory), 플래시 메모리 등을 들 수 있다.
[기억부(105)]
기억부(105)는 처리부(103)가 실행하는 프로그램을 기억하는 기능을 가진다. 또한, 기억부(105)는 처리부(103)가 생성한 연산 결과 및 입력부(101)에 입력된 데이터 등을 기억하는 기능을 가져도 좋다.
기억부(105)는 휘발성 메모리 및 비휘발성 메모리 중 적어도 한쪽을 가진다. 기억부(105)는 예를 들어, DRAM, SRAM 등의 휘발성 메모리를 가져도 좋다. 기억부(105)는, 예를 들어 ReRAM(Resistive Random Access Memory, 저항 변화형 메모리라고도 함), PRAM(Phase change Random Access Memory), FeRAM(Ferroelectric Random Access Memory), MRAM(Magnetoresistive Random Access Memory, 자기(磁氣) 저항형 메모리라고도 함), 또는 플래시 메모리 등의 비휘발성 메모리를 가져도 좋다. 또한, 기억부(105)는 하드 디스크 드라이브(Hard Disc Drive: HDD) 및 솔리드 스테이트 드라이브(Solid State Drive: SSD) 등의 기록 미디어 드라이브를 가져도 좋다.
[데이터베이스(107)]
데이터베이스(107)는 적어도 검색 대상 문서(TD) 및 문장 블록(TB) 등의 데이터를 기억하는 기능을 가진다. 또한, 데이터베이스(107)는 처리부(103)가 생성한 연산 결과 및 입력부(101)에 입력된 데이터 등을 기억하는 기능을 가져도 좋다. 또한, 기억부(105) 및 데이터베이스(107)는 서로 분리되어 있지 않아도 된다. 예를 들어, 문서 검색 시스템은 기억부(105) 및 데이터베이스(107)의 양쪽의 기능을 가지는 기억 유닛을 가져도 좋다.
또한, 처리부(103), 기억부(105), 및 데이터베이스(107)가 가지는 메모리는 각각, 비일시적 컴퓨터 가독 기억 매체의 일례라고 할 수 있다.
[출력부(109)]
출력부(109)는 문서 검색 시스템(100)의 외부에 데이터를 공급하는 기능을 가진다. 예를 들어, 처리부(103)에서의 연산 결과를 외부에 공급할 수 있다.
<문서 검색 시스템의 구성예 2>
도 14에 문서 검색 시스템(150)의 블록도를 나타내었다. 문서 검색 시스템(150)은 서버(151)와 단말(152)(퍼스널 컴퓨터 등)을 가진다.
서버(151)는 통신부(161a), 전송로(162), 처리부(163a), 및 데이터베이스(167)를 가진다. 도 14에서는 도시하지 않았지만, 서버(151)는 기억부, 입출력부 등을 더 가져도 좋다.
단말(152)은 통신부(161b), 전송로(168), 처리부(163b), 기억부(165), 및 입출력부(169)를 가진다. 도 14에서는 도시하지 않았지만, 단말(152)은 데이터베이스 등을 더 가져도 좋다.
문서 검색 시스템(150)의 사용자는 검색용 문서(STD)를 단말(152)로부터 서버(151)에 입력한다. 검색용 문서(STD)는 통신부(161b)로부터 통신부(161a)로 송신된다.
통신부(161a)가 수신한 검색용 문서(STD)는 전송로(162)를 통하여 데이터베이스(167) 또는 기억부(도시하지 않았음)에 저장된다. 또는, 검색용 문서(STD)는 통신부(161a)로부터 처리부(163a)에 직접 공급되어도 좋다.
실시형태 1에서 설명한 검색용 문장 블록(STB)의 작성, 관련도의 산출, 및 유사도의 산출에는 각각, 높은 처리 능력이 요구된다. 서버(151)가 가지는 처리부(163a)는 단말(152)이 가지는 처리부(163b)에 비하여 처리 능력이 높다. 따라서, 이들 처리는 각각, 처리부(163a)에서 수행되는 것이 바람직하다.
그리고, 처리부(163a)에 의하여 검색 결과가 생성된다. 검색 결과는 전송로(162)를 통하여 데이터베이스(167) 또는 기억부(도시하지 않았음)에 저장된다. 또는, 검색 결과는 처리부(163a)로부터 통신부(161a)에 직접 공급되어도 좋다. 그 후, 검색 결과가 서버(151)로부터 단말(152)에 출력된다. 검색 결과는 통신부(161a)로부터 통신부(161b)로 송신된다.
[입출력부(169)]
입출력부(169)에는 문서 검색 시스템(150)의 외부로부터 데이터가 공급된다. 입출력부(169)는 문서 검색 시스템(150)의 외부에 데이터를 공급하는 기능을 가진다. 또한, 문서 검색 시스템(100)과 같이, 입력부와 출력부가 분리되어도 좋다.
[전송로(162) 및 전송로(168)]
전송로(162) 및 전송로(168)는 데이터를 전달하는 기능을 가진다. 통신부(161a), 처리부(163a), 및 데이터베이스(167) 간의 데이터의 송수신은 전송로(162)를 통하여 수행할 수 있다. 통신부(161b), 처리부(163b), 기억부(165), 및 입출력부(169) 간의 데이터의 송수신은 전송로(168)를 통하여 수행할 수 있다.
[처리부(163a) 및 처리부(163b)]
처리부(163a)는 통신부(161a) 및 데이터베이스(167) 등으로부터 공급된 데이터를 사용하여 연산을 수행하는 기능을 가진다. 처리부(163b)는 통신부(161b), 기억부(165), 및 입출력부(169) 등으로부터 공급된 데이터를 사용하여 연산을 수행하는 기능을 가진다. 처리부(163a) 및 처리부(163b)는 처리부(103)의 설명을 참조할 수 있다. 처리부(163a)는 처리부(163b)에 비하여 처리 능력이 높은 것이 바람직하다.
[기억부(165)]
기억부(165)는 처리부(163b)가 실행하는 프로그램을 기억하는 기능을 가진다. 또한, 기억부(165)는 처리부(163b)가 생성한 연산 결과, 통신부(161b)에 입력된 데이터, 및 입출력부(169)에 입력된 데이터 등을 기억하는 기능을 가진다.
[데이터베이스(167)]
데이터베이스(167)는 검색 대상 문서(TD) 및 문장 블록(TB)을 기억하는 기능을 가진다. 또한, 데이터베이스(167)는 처리부(163a)가 생성한 연산 결과, 및 통신부(161a)에 입력된 데이터 등을 기억하는 기능을 가져도 좋다. 또는, 서버(151)는 데이터베이스(167)와 별도로 기억부를 가지고, 상기 기억부가 처리부(163a)가 생성한 연산 결과, 및 통신부(161a)에 입력된 데이터 등을 기억하는 기능을 가져도 좋다.
[통신부(161a) 및 통신부(161b)]
통신부(161a) 및 통신부(161b)를 사용하여, 서버(151)와 단말(152) 간에서 데이터의 송수신을 수행할 수 있다. 통신부(161a) 및 통신부(161b)로서는, 허브, 라우터, 모뎀 등을 사용할 수 있다. 데이터의 송수신에는 유선을 사용하여도 무선(예를 들어, 전파, 적외선 등)을 사용하여도 좋다.
본 실시형태는 다른 실시형태와 적절히 조합할 수 있다.
S1: 문장, S2: 문장, S3: 문장, S26: 문장, STB: 검색용 문장 블록, STD: 검색용 문서, STS1: 문장, STS2: 문장, STSp: 문장, TB: 문장 블록, TB1: 문장 블록, TB2: 문장 블록, TB3: 문장 블록, TB4: 문장 블록, TB6: 문장 블록, TB7: 문장 블록, TB9: 문장 블록, TB62: 문장 블록, TD: 검색 대상 문서, TD1: 검색 대상 문서, TD2: 검색 대상 문서, TDn: 검색 대상 문서, 100: 문서 검색 시스템, 101: 입력부, 102: 전송로, 103: 처리부, 105: 기억부, 107: 데이터베이스, 109: 출력부, 110: 제 1 대상, 110(i): 제 1 대상, 120: 제 2 대상, 120(i): 제 2 대상, 150: 문서 검색 시스템, 151: 서버, 152: 단말, 161a: 통신부, 161b: 통신부, 162: 전송로, 163a: 처리부, 163b: 처리부, 165: 기억부, 167: 데이터베이스, 168: 전송로, 169: 입출력부

Claims (15)

  1. 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 방법으로서,
    검색용 문서의 일부인 제 1 검색용 문장 블록을 준비하고,
    상기 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 상기 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 1 대상에 포함되는 문장 블록 각각의 상기 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하고,
    상기 제 1 관련도의 높이에 의거하여 상기 제 1 대상 중에서 제 2 대상을 결정하고,
    상기 제 1 검색용 문장 블록에 포함되는 문장마다 상기 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하고,
    상기 제 1 유사도를 사용하여 상기 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법.
  2. 제 1 항에 있어서,
    상기 검색용 문서를 분할함으로써 복수의 검색용 문장 블록을 작성하고,
    상기 제 1 검색용 문장 블록은 상기 복수의 검색용 문장 블록 중 하나인 문서 검색 방법.
  3. 제 1 항에 있어서,
    상기 검색용 문서의 다른 일부인 제 2 검색용 문장 블록을 준비하고,
    상기 복수의 문장 블록 중 적어도 일부를 제 3 대상으로 하고 상기 제 2 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 3 대상에 포함되는 문장 블록 각각의 상기 제 2 검색용 문장 블록에 대한 제 2 관련도를 산출하고,
    상기 제 2 관련도의 높이에 의거하여 상기 제 3 대상 중에서 제 4 대상을 결정하고,
    상기 제 2 검색용 문장 블록에 포함되는 문장마다 상기 제 4 대상에 포함되는 문장 각각과의 제 2 유사도를 산출하고,
    상기 제 2 유사도를 사용하여 상기 제 2 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법.
  4. 제 3 항에 있어서,
    상기 제 1 대상과 상기 제 3 대상이 동일한, 문서 검색 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제 1 유사도 중 문턱값 이상의 값을 사용하여 상기 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법.
  6. 복수의 검색용 문장 블록의 각각에 대하여 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 유사한 문장 블록을 검색하는 문서 검색 방법으로서,
    검색용 문서를 분할함으로써 상기 복수의 검색용 문장 블록을 작성하고,
    상기 복수의 검색용 문장 블록의 각각에 대하여,
    상기 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 상기 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 1 대상에 포함되는 문장 블록 각각의 상기 검색용 문장 블록에 대한 관련도를 산출하는 단계와,
    상기 관련도의 높이에 의거하여 상기 제 1 대상 중에서 제 2 대상을 결정하는 단계와,
    상기 검색용 문장 블록에 포함되는 문장마다 상기 제 2 대상에 포함되는 문장 각각과의 유사도를 산출하는 단계와,
    상기 유사도를 사용하여 상기 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 단계를 수행하는, 문서 검색 방법.
  7. 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 방법으로서,
    검색용 문서의 일부인 제 1 검색용 문장 블록을 준비하고,
    상기 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 상기 제 1 검색용 문장 블록에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 1 대상에 포함되는 문장 각각의 상기 제 1 검색용 문장 블록에 포함되는 각 문장에 대한 제 1 관련도를 산출하고,
    상기 제 1 검색용 문장 블록에 포함되는 문장마다 상기 제 1 관련도의 높이에 의거하여 상기 제 1 대상에 포함되는 문장 중에서 제 2 대상을 결정하고,
    상기 제 1 검색용 문장 블록에 포함되는 문장마다 상기 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하고,
    상기 제 1 유사도를 사용하여 상기 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법.
  8. 제 7 항에 있어서,
    상기 검색용 문서를 분할함으로써 복수의 검색용 문장 블록을 작성하고,
    상기 제 1 검색용 문장 블록은 상기 복수의 검색용 문장 블록 중 하나인, 문서 검색 방법.
  9. 제 7 항에 있어서,
    상기 검색용 문서의 다른 일부인 제 2 검색용 문장 블록을 준비하고,
    상기 복수의 문장 블록 중 적어도 일부를 제 3 대상으로 하고 상기 제 2 검색용 문장 블록에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 3 대상에 포함되는 문장 각각의 상기 제 2 검색용 문장 블록에 포함되는 각 문장에 대한 제 2 관련도를 산출하고,
    상기 제 2 검색용 문장 블록에 포함되는 문장마다 상기 제 2 관련도의 높이에 의거하여 상기 제 3 대상에 포함되는 문장 중에서 제 4 대상을 결정하고,
    상기 제 2 검색용 문장 블록에 포함되는 문장마다 상기 제 4 대상에 포함되는 문장 각각과의 제 2 유사도를 산출하고,
    상기 제 2 유사도를 사용하여 상기 제 2 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법.
  10. 제 9 항에 있어서,
    상기 제 1 대상과 상기 제 3 대상이 동일한, 문서 검색 방법.
  11. 제 7 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 제 1 유사도 중 문턱값 이상의 값을 사용하여 상기 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는, 문서 검색 방법.
  12. 복수의 검색용 문장 블록의 각각에 대하여 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 유사한 문장 블록을 검색하는 문서 검색 방법으로서,
    검색용 문서를 분할함으로써 상기 복수의 검색용 문장 블록을 작성하고,
    상기 복수의 검색용 문장 블록의 각각에 대하여,
    상기 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 상기 검색용 문장 블록에 포함되는 각 문장을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 1 대상에 포함되는 문장 각각의 상기 검색용 문장 블록에 포함되는 각 문장에 대한 관련도를 산출하는 단계와,
    상기 검색용 문장 블록에 포함되는 문장마다 상기 관련도의 높이에 의거하여 상기 제 1 대상에 포함되는 문장 중에서 제 2 대상을 결정하는 단계와,
    상기 검색용 문장 블록에 포함되는 문장마다 상기 제 2 대상에 포함되는 문장 각각과의 유사도를 산출하는 단계와,
    상기 유사도를 사용하여 상기 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 단계를 수행하는, 문서 검색 방법.
  13. 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 문서 검색 시스템으로서,
    처리부를 가지고,
    상기 처리부는,
    검색용 문서를 분할함으로써 작성된 복수의 검색용 문장 블록 중 하나인 제 1 검색용 문장 블록을 준비하는 기능과,
    상기 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 상기 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 1 대상에 포함되는 문장 블록 각각의 상기 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하는 기능과,
    상기 제 1 관련도의 높이에 의거하여 상기 제 1 대상 중에서 제 2 대상을 결정하는 기능과,
    상기 제 1 검색용 문장 블록에 포함되는 문장마다 상기 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하는 기능과,
    상기 제 1 유사도를 사용하여 상기 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 기능을 가지는, 문서 검색 시스템.
  14. 복수의 검색 대상 문서를 각각 분할함으로써 작성된 복수의 문장 블록 중에서 특정의 문장 블록을 검색하는 프로그램으로서,
    검색용 문서를 분할함으로써 작성된 복수의 검색용 문장 블록 중 하나인 제 1 검색용 문장 블록을 준비하는 단계와,
    상기 복수의 문장 블록 중 적어도 일부를 제 1 대상으로 하고 상기 제 1 검색용 문장 블록을 검색 조건으로 사용하여 문서 전체 검색을 수행함으로써 상기 제 1 대상에 포함되는 문장 블록 각각의 상기 제 1 검색용 문장 블록에 대한 제 1 관련도를 산출하는 단계와,
    상기 제 1 관련도의 높이에 의거하여 상기 제 1 대상 중에서 제 2 대상을 결정하는 단계와,
    상기 제 1 검색용 문장 블록에 포함되는 문장마다 상기 제 2 대상에 포함되는 문장 각각과의 제 1 유사도를 산출하는 단계와,
    상기 제 1 유사도를 사용하여 상기 제 1 검색용 문장 블록과 유사한 문장 블록을 적어도 하나 검색하는 단계를 프로세서에 실행시키는, 프로그램.
  15. 비일시적 컴퓨터 가독 기억 매체로서,
    제 14 항에 기재된 프로그램이 기억된, 비일시적 컴퓨터 가독 기억 매체.
KR1020217016842A 2018-11-30 2019-11-19 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체 KR20210095155A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018224825 2018-11-30
JPJP-P-2018-224825 2018-11-30
PCT/IB2019/059907 WO2020109921A1 (ja) 2018-11-30 2019-11-19 文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体

Publications (1)

Publication Number Publication Date
KR20210095155A true KR20210095155A (ko) 2021-07-30

Family

ID=70851931

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217016842A KR20210095155A (ko) 2018-11-30 2019-11-19 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체

Country Status (5)

Country Link
US (1) US20220004570A1 (ko)
KR (1) KR20210095155A (ko)
CN (1) CN113168415A (ko)
DE (1) DE112019005976T5 (ko)
WO (1) WO2020109921A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102540939B1 (ko) * 2022-10-05 2023-06-08 (주)유알피 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005433A1 (ja) * 2019-07-05 2021-01-14 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法
WO2021014256A1 (ja) 2019-07-19 2021-01-28 株式会社半導体エネルギー研究所 オブジェクトをテキストに変換する方法およびシステム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295712A (ja) 2003-03-28 2004-10-21 Hitachi Ltd 類似文書検索方法および類似文書検索装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112011106041T5 (de) * 2011-12-27 2014-10-02 Mitsubishi Electric Corp. Suchvorrichtung
US10430445B2 (en) * 2014-09-12 2019-10-01 Nuance Communications, Inc. Text indexing and passage retrieval
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295712A (ja) 2003-03-28 2004-10-21 Hitachi Ltd 類似文書検索方法および類似文書検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102540939B1 (ko) * 2022-10-05 2023-06-08 (주)유알피 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Also Published As

Publication number Publication date
JPWO2020109921A1 (ko) 2020-06-04
WO2020109921A1 (ja) 2020-06-04
CN113168415A (zh) 2021-07-23
DE112019005976T5 (de) 2021-08-19
US20220004570A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
KR20210095155A (ko) 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체
KR101938953B1 (ko) 빅 데이터 질의 엔진을 위한 플래시 최적화된 열 데이터 배치 및 데이터 액세스 처리 알고리즘
KR20200015444A (ko) 위험 주소 식별 방법, 장치 및 전자 디바이스
US11789953B2 (en) Document search system, document search method, program, and non-transitory computer readable storage medium
US20210011956A1 (en) Information search system, intellectual property information search system, information search method, and intellectual property information search method
US20220207070A1 (en) Document search system and document search method
KR20180073644A (ko) 이동 사용자 인터페이스
US20210358570A1 (en) Method and system for claim scope labeling, retrieval and information labeling of gene sequence
US20100114560A1 (en) Systems and methods for evaluating a sequence of characters
CN107391667A (zh) 一种词条处理方法及移动终端
US10656837B2 (en) Index management in a flash memory
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
US9047363B2 (en) Text indexing for updateable tokenized text
JP2024008989A (ja) 画像検索システム及び画像検索方法
US11507760B2 (en) Machine translation method, machine translation system, program, and non-transitory computer-readable storage medium
JP2022088350A (ja) コンピュータ実装方法、コンピュータ・プログラム、およびコンピュータ・システム(ドキュメント・コンポーネント・レイアウトに基づくドキュメント・アクセス制御)
US20210256002A1 (en) Integrated system for entity deduplication
Hoseini et al. A new trust region method for nonsmooth nonconvex optimization
US20230074788A1 (en) Machine-learning of document portion layout
US20230334097A1 (en) Information Retrieval System And Information Retrieval Method
US20230026321A1 (en) Document retrieval system
WO2023073500A1 (ja) 文書検索結果の出力方法、文書検索システム
US20230350949A1 (en) Document Retrieval System and Method For Retrieving Document
US20220245181A1 (en) Reading comprehension support system and reading comprehension support method
US20240004936A1 (en) Document search system and method for outputting document search result