KR20220073850A - 정보 처리 장치, 정보 처리 방법, 및 기록 매체 - Google Patents

정보 처리 장치, 정보 처리 방법, 및 기록 매체 Download PDF

Info

Publication number
KR20220073850A
KR20220073850A KR1020227016332A KR20227016332A KR20220073850A KR 20220073850 A KR20220073850 A KR 20220073850A KR 1020227016332 A KR1020227016332 A KR 1020227016332A KR 20227016332 A KR20227016332 A KR 20227016332A KR 20220073850 A KR20220073850 A KR 20220073850A
Authority
KR
South Korea
Prior art keywords
search target
processing unit
search
query
information processing
Prior art date
Application number
KR1020227016332A
Other languages
English (en)
Other versions
KR102452777B1 (ko
Inventor
하야토 우치데
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20220073850A publication Critical patent/KR20220073850A/ko
Application granted granted Critical
Publication of KR102452777B1 publication Critical patent/KR102452777B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

정보 처리 장치(100)는, 정답 데이터를 작성하는 장치이다. 정보 처리 장치(100)는, 취득부(140)와, 처리부(120)를 가진다. 취득부(140)는, 복수의 검색 대상 문서를 취득한다. 처리부(120)는, 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고, 문자열에 근거하여 쿼리를 작성하고, 복수의 검색 대상 문서 중에서 쿼리의 검색 대상을 검색하고, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리를 포함하는 정답 데이터를 작성한다.

Description

정보 처리 장치, 정보 처리 방법, 및 정보 처리 프로그램
본 발명은, 정보 처리 장치, 정보 처리 방법, 및 정보 처리 프로그램에 관한 것이다.
근년, 컴퓨터가 액세스 가능한 데이터 량이 증가하고 있다. 대량의 데이터 중에서, 소망하는 데이터를 효율적으로 검색하기 위한 기술이 요구되고 있다.
검색 방법 중 하나로서 개념 검색이 알려져 있다. 여기서, 문서 개념 검색 장치가 제안되고 있다(특허 문헌 1을 참조). 예를 들면, 문서 개념 검색 장치는, 정답 정보를 접수한다. 정답 정보는, 검색 쿼리와, 검색 쿼리에 개념적으로 적합한 검색 대상 문서인 정답 문서의 집합의 세트의 집합이다.
[특허 문헌 ] 일본 특개 2018-10482호 공보
[비특허 문헌 1 「Efficient Estimation of Word Representations in Vector Space」, 2013, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean [비특허 문헌 2] 「Neural Ranking Models with Weak Supervision」, 2017, Mostafa Dehghani, Hamed Zamani, Aliaksei Severyn, Jaap Kamps, W. Bruce Croft [비특허 문헌 3] 「TextRank:Bringing Order into Texts」, 2004, Rada Mihalcea, Paul Tarau [비특허 문헌 4] 「Get To The Point:Summarization with Pointer-Generator Networks」2017, Abigail See, Peter J. Liu, Christopher D. Manning
상기의 정답 정보는, 미리 작성할 필요가 있다. 예를 들면, 정답 정보는, 유저의 컴퓨터 조작에 의해, 작성된다. 상술한 바와 같이, 데이터량이 증가하고 있다. 예를 들면, 검색 대상 문서의 수는, 증가하고 있다. 데이터량이 증가하는 것은, 정답 정보를 작성하는 유저의 부담을 크게 한다.
본 발명의 목적은, 유저의 부담을 경감하는 것이다.
본 발명의 일 태양에 따른 정보 처리 장치가 제공된다. 정보 처리 장치는, 복수의 검색 대상 문서를 취득하는 취득부와, 상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고, 상기 문자열에 근거하여 쿼리를 작성하고, 상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고, 검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는 처리부를 가진다.
본 발명에 의하면, 유저의 부담을 경감할 수가 있다.
도 1은 실시의 형태 1의 정보 처리 장치가 갖는 기능 블럭도이다.
도 2는 실시의 형태 1의 정보 처리 장치가 갖는 하드웨어의 구성을 나타내는 도면이다.
도 3은 실시의 형태 1의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다.
도 4는 실시의 형태 1의 학습 처리의 예를 나타내는 흐름도이다.
도 5는 실시의 형태 1의 학습 모델의 예를 나타내는 도면이다.
도 6은 실시의 형태 1의 갱신 처리의 예를 나타내는 흐름도이다.
도 7은 실시의 형태 2의 정보 처리 장치가 갖는 기능 블럭도이다.
도 8은 실시의 형태 2의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다.
도 9는 실시의 형태 3의 정보 처리 장치가 갖는 기능 블럭도이다.
도 10은 실시의 형태 3의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다.
이하, 도면을 참조하면서 실시의 형태를 설명한다. 이하의 실시의 형태는, 예에 지나지 않고, 본 발명의 범위 내에서 여러 가지의 변경이 가능하다.
실시의 형태 1.
도 1은, 실시의 형태 1의 정보 처리 장치가 갖는 기능 블럭도이다. 정보 처리 장치(100)는, 정보 처리 방법을 실행하는 장치이다. 정보 처리 장치(100)는, 기억부(110), 처리부(120), 학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)를 가진다.
여기서, 정보 처리 장치(100)가 갖는 하드웨어에 대해 설명한다.
도 2는, 실시의 형태 1의 정보 처리 장치가 갖는 하드웨어의 구성을 나타내는 도면이다. 정보 처리 장치(100)는, 프로세서(101), 휘발성 기억 장치(102), 및 불휘발성 기억 장치(103)를 가진다.
프로세서(101)는, 정보 처리 장치(100) 전체를 제어한다. 예를 들면, 프로세서(101)는, CPU(Central Processing Unit), FPGA(Field Programmable Gate Array) 등이다. 프로세서(101)는, 멀티 프로세서라도 좋다. 정보 처리 장치(100)는, 처리 회로에 의해 실현되어도 좋고, 또는, 소프트웨어, 펌웨어 혹은 그들의 조합에 의해 실현되어도 좋다. 또한, 처리 회로는, 단일 회로 또는 복합 회로라도 좋다.
휘발성 기억 장치(102)는, 정보 처리 장치(100)의 주 기억 장치이다. 예를 들면, 휘발성 기억 장치(102)는, RAM(Random Access Memory)이다. 불휘발성 기억 장치(103)는, 정보 처리 장치(100)의 보조 기억 장치이다. 예를 들면, 불휘발성 기억 장치(103)는, HDD(Hard Disk Drive) 또는 SSD(Solid State Drive)이다.
또, 정보 처리 장치(100)에는, 입력 장치(11)와 표시 장치(12)가 접속된다. 예를 들면, 입력 장치(11)는, 마우스, 키보드 등이다. 예를 들면, 표시 장치(12)는, 디스플레이이다.
도 1로 돌아와, 정보 처리 장치(100)가 갖는 기능 블록을 설명한다.
기억부(110)는, 휘발성 기억 장치(102) 또는 불휘발성 기억 장치(103)에 확보한 기억 영역으로서 실현된다.
처리부(120), 학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)의 일부 또는 전부는, 프로세서(101)에 의해 실현되어도 좋다. 처리부(120), 학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)의 일부 또는 전부는, 프로세서(101)가 실행하는 프로그램의 모듈로서 실현되어도 좋다. 예를 들면, 프로세서(101)가 실행하는 프로그램은, 정보 처리 프로그램이라고도 한다. 예를 들면, 정보 처리 프로그램은, 기록 매체에 기록되어 있다.
기억부(110)는, 검색 대상 문서군(111), 정답 데이터 기억부(112), 및 학습 모델 기억부(113)를 포함한다. 검색 대상 문서군(111)은, 복수의 검색 대상 문서이다. 정답 데이터 기억부(112)는, 처리부(120)에 의해 작성된 정답 데이터를 기억한다. 여기서, 정답 데이터는, 정답 정보라고 생각해도 좋다. 학습 모델 기억부(113)에 저장되는 정보에 대해서는, 다음에 설명한다.
여기서, 기억부(110)에 저장되어 있는 정보는, 외부 장치에 저장되어도 좋다. 예를 들면, 외부 장치는, 클라우드 서버이다.
취득부(140)는, 복수의 검색 대상 문서(즉, 검색 대상 문서군(111))를 취득한다. 예를 들면, 취득부(140)는, 복수의 검색 대상 문서를 기억부(110)로부터 취득한다. 또, 예를 들면, 취득부(140)는, 복수의 검색 대상 문서를 외부 장치로부터 취득한다.
처리부(120)는, 복수의 검색 대상 문서 중 하나의 검색 대상 문서 중에서 문자열을 추출한다. 또한, 1개의 검색 대상 문서는, 제 1 검색 대상 문서라고도 한다. 처리부(120)는, 문자열에 근거하여 쿼리를 작성한다. 처리부(120)는, 쿼리를 이용하여, 복수의 검색 대상 문서 중에서 쿼리의 검색 대상을 검색한다. 처리부(120)는, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리를 포함하는 정답 데이터를 작성한다. 상세하게는, 처리부(120)는, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리와 1 이상의 검색 대상 문서에 대응하는 번호를 포함하는 정답 데이터를 작성한다. 이하, 해당 번호는, 순위라고 표현하는 경우가 있다.
학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)에 대해서는, 다음에 설명한다.
다음에, 정보 처리 장치(100)가 실행하는 처리에 대해, 흐름도를 이용하여 설명한다.
도 3은, 실시의 형태 1의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다. 예를 들면, 도 3의 처리는, 유저의 입력 조작에 의해 개시한다. 또, 예를 들면, 도 3의 처리는, 미리 설정된 시각에 개시한다.
(스텝 S11) 처리부(120)는, 검색 대상 문서군(111) 중에서 1개의 검색 대상 문서를 선택한다. 예를 들면, 선택된 검색 대상 문서는, 제 1 검색 대상 문서라고 생각해도 좋다.
(스텝 S12) 처리부(120)는, 선택된 검색 대상 문서 중에서 문자열을 추출한다. 예를 들면, 처리부(120)는, 선택된 검색 대상 문서 중의 문장 또는 단어를 문자열로서 추출한다. 또, 예를 들면, 처리부(120)는, 미리 설정된 문자열 길이로 띄어쓰기가 행해진다고 하는 룰에 근거하여, 선택된 검색 대상 문서 중에서 문자열을 추출한다.
(스텝 S13) 처리부(120)는, 문자열에 근거하여, 쿼리를 작성한다.
(스텝 S14) 처리부(120)는, 쿼리를 이용하여, 검색 대상 문서군(111) 중에서 쿼리의 검색 대상을 검색한다. 검색 방법은, 키워드 검색, TF-IDF 또는 Okapi BM25의 단어의 중요도에 근거하는 텍스트 검색, 쿼리의 문자열과 검색 대상 문서 중의 문자열의 유사도를 이용하는 유사도 검색 등이다.
또한, 유사도는, 문자의 길이의 차이, 편집 거리, 형태소 해석한 단어열의 중복 정도, 의존 구조 분석(dependecy parsing) 해석한 문절 단위의 중복 정도, 의존 구조 분석 관계의 중복 정도, 비특허 문헌 1에 기재된 방식에 의한 다차원 벡터의 유클리드(euclid) 거리, 코사인 유사도의 벡터 간의 거리 등이 이용되어 산출되어도 좋다. 또, 유사도는, 기계 학습 모델을 이용하여 산출되어도 좋다.
또, 검색 대상은, 추출된 문자열이 삭제된 상태의 복수의 문서인 복수의 검색 대상 문서라도 좋다.
(스텝 S15) 처리부(120)는, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리와 1 이상의 검색 대상 문서에 대응하는 순위를 포함하는 정답 데이터를 작성한다. 여기서, 순위는, 해당 중요도 또는 해당 유사도라도 좋다. 또, 순위는, 검색된 순서라도 좋다. 또한, 순위는, 선택된 검색 대상 문서가 1번이라도 좋다.
(스텝 S16) 처리부(120)는, 정답 데이터를 정답 데이터 기억부(112)에 저장한다.
(스텝 S17) 처리부(120)는, 검색 대상 문서군(111)의 모든 검색 대상 문서를 선택했는지 여부를 판정한다. 모든 검색 대상 문서가 선택된 경우, 처리는, 종료한다. 검색 대상 문서군(111) 중에 선택되지 않은 검색 대상 문서가 존재하는 경우, 처리부(120)는, 처리를 스텝 S11로 진행한다.
도 4는, 실시의 형태 1의 학습 처리의 예를 나타내는 흐름도이다. 예를 들면, 도 4의 처리는, 정답 데이터의 작성 처리가 종료한 후, 개시한다.
(스텝 S21) 학습 처리부(130)는, 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에서 사용되는 가중치를 산출하는 학습 처리를 실행한다. 이 문장은, 다음과 같이 표현해도 좋다. 학습 처리부(130)는, 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에 포함되는 노드의 가중치를 산출하는 학습 처리를 실행한다. 또는, 학습 처리부(130)는, 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에 포함되는 노드의 가중치를 변경하는 학습 처리를 실행한다.
학습 처리에는, 비특허 문헌 2에 기재된 학습 알고리즘, 또는 SVM(Support Vector Machine), 결정 트리(decision tree) 등의 학습 알고리즘이 이용되어도 좋다.
구체적으로 학습 처리를 설명한다. 학습 처리에서는, 학습 모델이 이용된다. 예를 들면, 학습 모델에는, 정답 데이터의 쿼리와 2개의 검색 대상 문서가 입력된다. 그리고, 2개의 검색 대상 문서 중, 어느 쪽의 검색 대상 문서가 상위의 검색 결과인지를 나타내는 정보가 출력된다.
상세하게 학습 처리를 설명한다. 여기서, 정답 데이터의 쿼리는, 쿼리 Q로 한다. 쿼리 Q에는, 정답 데이터에 포함되는 검색 대상 문서 A, B, C가 대응되어 있다. 검색 대상 문서 A의 순위는, 1위로 한다. 검색 대상 문서 B의 순위는, 2위로 한다. 검색 대상 문서 C의 순위는, 3위로 한다. 여기서, 학습 모델을 나타낸다.
도 5는, 실시의 형태 1의 학습 모델의 예를 나타내는 도면이다. 도 5는, 2개의 뉴럴 네트워크(NN:Neural Network)를 나타내고 있다. 이하, 2개의 뉴럴 네트워크는, NN1과 NN2라고 표현한다.
예를 들면, 학습 데이터는, 쿼리 Q와 검색 대상 문서 A의 조합과, 쿼리 Q와 검색 대상 문서 B의 조합이다. NN1에는, 쿼리 Q와 검색 대상 문서 A의 조합이 입력된다. NN2에는, 쿼리 Q와 검색 대상 문서 B의 조합이 입력된다. 해당 학습 데이터는, 학습 데이터 1이라고 부른다.
또, 예를 들면, 학습 데이터는, 쿼리 Q와 검색 대상 문서 C의 조합과, 쿼리 Q와 검색 대상 문서 B의 조합이다. NN1에는, 쿼리 Q와 검색 대상 문서 C의 조합이 입력된다. NN2에는, 쿼리 Q와 검색 대상 문서 B의 조합이 입력된다. 해당 학습 데이터는, 학습 데이터 2라고 부른다.
학습 모델에서는, 스코어 1과 스코어 2가 비교된다. 비교에서는, 스코어 1과 스코어 2의 차분이 식(1)을 이용하여 산출된다. 또한, 산출의 결과는, 차분 스코어라고 부른다. 또, 예를 들면, 스코어 1에서 스코어 2를 빼는 것이 결정되어 있다.
[수 1]
차분 스코어=스코어 1-스코어 2…(1)
차분 스코어는, 시그모이드 함수에 입력된다. 시그모이드 함수는, 식(2)로 정의된다.
[수 2]
Figure pct00001
차분 스코어가 시그모이드 함수에 입력됨으로써, 판정 결과가 출력된다.
여기서, 학습 데이터 1의 경우, 검색 대상 문서 A가 검색 대상 문서 B보다 상위인 것이 기대된다. 학습 데이터 2의 경우, 검색 대상 문서 B가 검색 대상 문서 C보다 상위인 것이 기대된다.
학습 처리부(130)는, 오차역전파법(백 프로퍼게이션)을 이용하여, 상기의 기대와 판정 결과의 오차를 최소화하도록, NN1에 포함되는 노드의 가중치와 NN2에 포함되는 노드의 가중치를 산출한다.
(스텝 S22) 학습 처리부(130)는, 학습 후의 학습 모델을 학습 모델 기억부(113)에 저장한다. 또, 학습 처리부(130)는, NN1에 포함되는 노드의 가중치와 NN2에 포함되는 노드의 가중치를 학습 모델 기억부(113)에 저장해도 좋다.
도 6은, 실시의 형태 1의 갱신 처리의 예를 나타내는 흐름도이다.
(스텝 S31) 취득부(140)는, 정보 처리 장치(100)에 입력된 신규 쿼리를 취득한다. 또, 신규 쿼리는, 제 1 쿼리라고도 한다.
(스텝 S32) 검색부(150)는, 신규 쿼리를 이용하여, 검색 대상 문서군(111) 중에서 신규 쿼리의 검색 대상을 검색한다. 예를 들면, 검색 방법은, 키워드 검색이다.
여기서, 검색부(150)가 키워드 검색을 이용하는 경우, 검색부(150)는, 신규 쿼리와 검색 대상 문서군(111)의 각 검색 대상 문서에 포함되는 키워드를 이용하여, 스코어를 산출한다. 예를 들면, 신규 쿼리에 포함되는 키워드가 많이 포함되어 있는 검색 대상 문서의 스코어는, 높아진다. 검색부(150)는, 스코어에 근거하여, 검색 대상 문서에 순위를 붙인다.
이와 같이, 신규 쿼리에는, 검색된 1 이상의 검색 대상 문서와 순위가 대응된다.
(스텝 S33) 갱신 처리부(160)는, 검색부(150)에 의한 검색의 결과이며, 순위가 대응되어 있는 1 이상의 검색 대상 문서 중, 상위 N개의 검색 대상 문서를 선택한다. 또한, N은, 1 이상의 정수이며, 미리 결정된 수이다. 이와 같이, 갱신 처리부(160)는, 상위의 미리 결정된 건수의 검색 대상 문서를 선택한다.
갱신 처리부(160)는, 신규 쿼리와, 상위 N개의 검색 대상 문서와, 가중치를 이용하는 NN1을 이용하여, 스코어 1을 산출한다. 바꾸어 말하면, 갱신 처리부(160)는, 신규 쿼리와, 상위 N개의 검색 대상 문서와, 가중치가 부가되어 있는 NN1을 이용하여, 스코어 1을 산출한다. 예를 들면, 갱신 처리부(160)는, 신규 쿼리와, 상위 N개의 검색 대상 문서 중 하나의 검색 대상 문서를 NN1에 입력한다. 이것에 의해, 스코어 1이 산출된다. 갱신 처리부(160)는, 산출된 스코어 1을 새로운 순위로서 갱신한다. 마찬가지로 갱신 처리부(160)는, N개의 검색 대상 문서의 각각의 스코어 1을 산출하고, 순위를 갱신한다. 이와 같이, 갱신 처리부(160)는, N개의 검색 대상 문서의 각각의 순위를, 새로운 순위로 갱신한다.
또, 갱신 처리부(160)는, 검색 대상 문서의 원래의 순위와 스코어 1의 평균치를, 새로운 순위로 해도 좋다.
또한, 상기에서는, NN1을 이용하는 경우를 나타냈다. NN1과 NN2는, 등가인 모델이다. 그 때문에, NN2가 이용되어도 좋다.
(스텝 S34) 출력부(170)는, 새로운 순위의 조합을 출력한다. 예를 들면, 출력부(170)는, 신규 쿼리와, N개의 검색 대상 문서와, 갱신된 새로운 순위의 조합을 출력한다. 또, 예를 들면, 출력부(170)는, 해당 조합을 표시 장치(12)에 출력한다. 이것에 의해, 표시 장치(12)에는, N개의 검색 대상 문서가 랭킹 형식으로 표시된다.
예를 들면, 유저는, 표시 장치(12)를 본다. 유저는, N개의 검색 대상 문서 중에서 신규 쿼리에 개념적으로 적합한 검색 대상 문서를 선택할 수가 있다. 유저가 신규 쿼리에 개념적으로 적합한 검색 대상 문서를 선택하는 경우, 유저는, 정보 처리 장치(100)에 대해서 선택 조작을 행한다.
(스텝 S35) 취득부(140)는, 선택 조작에 의해, 신규 쿼리에 개념적으로 적합한 검색 대상 문서를 취득했는지 여부를 판정한다. 바꾸어 말하면, 취득부(140)는, 선택 조작이 행해졌는지 여부를 판정한다.
선택 조작이 행해진 경우, 취득부(140)는, 처리를 스텝 S36으로 진행한다. 선택 조작이 행해지지 않은 경우, 취득부(140)는, 처리를 종료한다.
(스텝 S36) 취득부(140)는, 신규 쿼리와, 신규 쿼리에 개념적으로 적합한 검색 대상 문서의 조합을 정답 데이터로서, 정답 데이터 기억부(112)에 저장한다.
실시의 형태 1에 의하면, 정보 처리 장치(100)는, 정답 데이터를 작성한다. 따라서, 유저는, 정답 데이터를 작성하지 않아도 좋다. 따라서, 정보 처리 장치(100)는, 유저의 부담을 경감할 수가 있다.
또, 정보 처리 장치(100)는, NN1을 이용하여, 검색 대상 문서의 순위를 갱신한다. 이것에 의해, 정보 처리 장치(100)는, 검색부(150)의 검색 결과만으로는 알 수 없는, 검색 대상 문서의 순위를 유저에게 제공할 수가 있다. 또, 정보 처리 장치(100)는, 검색부(150)에 의해 검색된 검색 대상 문서 중 N개의 순위를 갱신한다. 정보 처리 장치(100)는, 검색부(150)에 의해 검색된 모든 검색 대상 문서의 순위를 갱신하지 않는다. 이와 같이, 정보 처리 장치(100)는, 검색 대상 문서의 건수를 줄이는(narrow down) 것으로, 정보 처리 장치(100)의 처리 부하를 경감할 수 있다.
실시의 형태 2.
다음에, 실시의 형태 2를 설명한다. 실시의 형태 2에서는, 실시의 형태 1과 상위한 사항을 주로 설명한다. 그리고, 실시의 형태 2에서는, 실시의 형태 1과 공통되는 사항의 설명을 생략한다. 실시의 형태 2의 설명에서는, 도 1~6을 참조한다.
도 7은, 실시의 형태 2의 정보 처리 장치가 갖는 기능 블럭도이다. 도 1에 나타나는 구성과 같은 도 7의 구성은, 도 1에 나타나는 부호와 같은 부호를 부여하고 있다.
정보 처리 장치(100a)는, 처리부(120a)를 가진다. 처리부(120a)에 대해서는, 다음에 설명한다.
도 8은, 실시의 형태 2의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다. 도 8의 처리에서는, 스텝 S12가 실행되지 않는다. 또, 도 8의 처리에서는, 스텝 S13a가 실행되는 점이, 도 3의 처리와 다르다. 그 때문에, 도 8에서는, 스텝 S13a를 설명한다. 도 8에 있어서의 다른 스텝에 대해서는, 도 3의 스텝 번호와 같은 번호를 부여하는 것에 의해, 처리의 설명을 생략한다. 또, 도 8의 각 스텝은, 처리부(120a)가 실행한다.
(스텝 S13a) 처리부(120a)는, 스텝 S11에서 선택된 검색 대상 문서의 요약문에 근거하여, 쿼리를 작성한다. 상세하게는, 처리부(120a)는, 요약문을 쿼리로서 작성한다. 또, 처리부(120a)는, 요약문 중에서 문자열을 추출하고, 해당 문자열에 근거하여, 쿼리를 작성해도 좋다.
요약문은, 미리 기억부(110) 또는 외부 장치에 저장되어 있다. 요약문은, 취득부(140)에 의해, 취득된다. 또한, 요약문은, 비특허 문헌 3에 기재된 방법으로 작성되어도 좋다.
실시의 형태 2에 의하면, 정보 처리 장치(100a)는, 정답 데이터를 작성한다. 따라서, 유저는, 정답 데이터를 작성하지 않아도 좋다. 따라서, 정보 처리 장치(100a)는, 유저의 부담을 경감할 수가 있다.
실시의 형태 3.
다음에, 실시의 형태 3을 설명한다. 실시의 형태 3에서는, 실시의 형태 1과 상위한 사항을 주로 설명한다. 그리고, 실시의 형태 3에서는, 실시의 형태 1과 공통되는 사항의 설명을 생략한다. 실시의 형태 3의 설명에서는, 도 1~6을 참조한다.
도 9는, 실시의 형태 3의 정보 처리 장치가 갖는 기능 블럭도이다. 도 1에 나타나는 구성과 같은 도 9의 구성은, 도 1에 나타나는 부호와 같은 부호를 부여하고 있다.
정보 처리 장치(100b)는, 처리부(120b)를 가진다. 처리부(120b)에 대해서는, 다음에 설명한다.
도 10은, 실시의 형태 3의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다. 도 10의 처리에서는, 스텝 S12가 실행되지 않는다. 또, 도 10의 처리에서는, 스텝 S13b가 실행되는 점이, 도 3의 처리와 다르다. 그 때문에, 도 10에서는, 스텝 S13b를 설명한다. 도 10에 있어서의 다른 스텝에 대해서는, 도 3의 스텝 번호와 같은 번호를 부여하는 것에 의해, 처리의 설명을 생략한다. 또, 도 10의 각 스텝은, 처리부(120b)가 실행한다.
(스텝 S13b) 처리부(120b)는, 스텝 S11에서 선택된 검색 대상 문서의 패러프레이즈드문(paraphrased text)에 근거하여, 쿼리를 작성한다. 상세하게는, 처리부(120b)는, 패러프레이즈드문을 쿼리로서 작성한다. 또, 처리부(120a)는, 해당 패러프레이즈드문 중에서 문자열을 추출하고, 해당 문자열에 근거하여, 쿼리를 작성해도 좋다.
또, 처리부(120b)는, 스텝 S11에서 선택된 검색 대상 문서의 요약문의 패러프레이즈드문에 근거하여, 쿼리를 작성해도 좋다. 또한, 처리부(120b)는, 해당 요약문의 패러프레이즈드문 중에서 문자열을 추출하고, 해당 문자열에 근거하여, 쿼리를 작성해도 좋다.
검색 대상 문서의 패러프레이즈드문, 또는 검색 대상 문서의 요약문의 패러프레이즈드문은, 미리 기억부(110) 또는 외부 장치에 저장되어 있다. 검색 대상 문서의 패러프레이즈드문, 또는 검색 대상 문서의 요약문의 패러프레이즈드문은, 취득부(140)에 의해, 취득된다. 또한, 패러프레이즈드문은, 동의어 사전을 이용한 단어의 치환에 의한 방법에 의해 작성되어도 좋다. 또, 패러프레이즈드문은, 비특허 문헌 4에 기재된 방법으로 작성해도 좋다.
실시의 형태 3에 의하면, 정보 처리 장치(100b)는, 정답 데이터를 작성한다. 따라서, 유저는, 정답 데이터를 작성하지 않아도 좋다. 따라서, 정보 처리 장치(100b)는, 유저의 부담을 경감할 수가 있다.
이상으로 설명한 각 실시의 형태에 있어서의 특징은, 서로 적의 조합할 수 있다.
11 입력 장치, 12 표시 장치, 100, 100a, 100b 정보 처리 장치, 101 프로세서, 102 휘발성 기억 장치, 103 불휘발성 기억 장치, 110 기억부, 111 검색 대상 문서군, 112 정답 데이터 기억부, 113 학습 모델 기억부, 120, 120a, 120b 처리부, 130 학습 처리부, 140 취득부, 150 검색부, 160 갱신 처리부, 170 출력부.

Claims (10)

  1. 복수의 검색 대상 문서를 취득하는 취득부와,
    상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고, 상기 문자열에 근거하여 쿼리를 작성하고, 상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고, 검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는 처리부
    를 갖는 정보 처리 장치.
  2. 제 1 항에 있어서,
    상기 취득부는, 상기 제 1 검색 대상 문서의 요약문을 취득하고,
    상기 처리부는, 상기 요약문에 근거하여 쿼리를 작성하는
    정보 처리 장치.
  3. 제 2 항에 있어서,
    상기 처리부는, 상기 요약문 중에서 문자열을 추출하고, 추출된 문자열에 근거하여 쿼리를 작성하는
    정보 처리 장치.
  4. 제 2 항에 있어서,
    상기 취득부는, 상기 요약문의 패러프레이즈드문(paraphrased text)을 취득하고,
    상기 처리부는, 상기 패러프레이즈드문에 근거하여 쿼리를 작성하는
    정보 처리 장치.
  5. 제 4 항에 있어서,
    상기 처리부는, 상기 패러프레이즈드문 중에서 문자열을 추출하고, 추출된 문자열에 근거하여 쿼리를 작성하는
    정보 처리 장치.
  6. 제 1 항에 있어서,
    상기 취득부는, 상기 제 1 검색 대상 문서의 패러프레이즈드문을 취득하고,
    상기 처리부는, 상기 패러프레이즈드문에 근거하여 쿼리를 작성하는
    정보 처리 장치.
  7. 제 6 항에 있어서,
    상기 처리부는, 상기 패러프레이즈드문 중에서 문자열을 추출하고, 추출된 문자열에 근거하여 쿼리를 작성하는
    정보 처리 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    학습 처리부와,
    검색부와,
    갱신 처리부와,
    출력부
    를 더 갖고,
    상기 처리부는, 검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리와 상기 1 이상의 검색 대상 문서에 대응하는 번호를 포함하는 정답 데이터를 작성하고,
    상기 학습 처리부는, 상기 처리부가 작성한 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에서 사용되는 가중치를 산출하는 학습 처리를 실행하고,
    상기 취득부는, 제 1 쿼리를 취득하고,
    상기 검색부는, 상기 복수의 검색 대상 문서 중에서 상기 제 1 쿼리의 검색 대상을 검색하고,
    상기 갱신 처리부는, 상기 검색부에 의한 검색의 결과이며, 순위가 대응되어 있는 1 이상의 검색 대상 문서 중, 상위의 미리 정해진 건수의 검색 대상 문서를 선택하고, 상기 제 1 쿼리와 선택된 1 이상의 검색 대상 문서와 상기 가중치를 이용하는 상기 뉴럴 네트워크를 이용하여, 선택된 1 이상의 검색 대상 문서의 순위를 갱신하고,
    상기 출력부는, 선택된 1 이상의 검색 대상 문서와 갱신된 순위를 출력하는
    정보 처리 장치.
  9. 정보 처리 장치가,
    복수의 검색 대상 문서를 취득하고,
    상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고,
    상기 문자열에 근거하여 쿼리를 작성하고,
    상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고,
    검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는
    정보 처리 방법.
  10. 정보 처리 장치로 하여금,
    복수의 검색 대상 문서를 취득하고,
    상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고,
    상기 문자열에 근거하여 쿼리를 작성하고,
    상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고,
    검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는
    처리를 실행하게 하는 정보 처리 프로그램.
KR1020227016332A 2019-11-28 2019-11-28 정보 처리 장치, 정보 처리 방법, 및 기록 매체 KR102452777B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/046557 WO2021106141A1 (ja) 2019-11-28 2019-11-28 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
KR20220073850A true KR20220073850A (ko) 2022-06-03
KR102452777B1 KR102452777B1 (ko) 2022-10-07

Family

ID=74845349

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227016332A KR102452777B1 (ko) 2019-11-28 2019-11-28 정보 처리 장치, 정보 처리 방법, 및 기록 매체

Country Status (5)

Country Link
JP (1) JP6840293B1 (ko)
KR (1) KR102452777B1 (ko)
CN (1) CN114730318A (ko)
DE (1) DE112019007834T5 (ko)
WO (1) WO2021106141A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013510343A (ja) * 2008-09-10 2013-03-21 マイクロソフト コーポレーション 検索結果のランク付けのための静的な関連性の特性としてのドキュメント長
KR20160088503A (ko) * 2015-01-15 2016-07-26 주식회사 카카오 검색 방법 및 검색 서버
JP2018010482A (ja) 2016-07-13 2018-01-18 日本電信電話株式会社 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
US20190034792A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic similarity for machine learned job posting result ranking model
KR20190038310A (ko) * 2017-09-29 2019-04-08 인하대학교 산학협력단 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법
JP2019125124A (ja) * 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011891A (ja) * 2005-07-01 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4711761B2 (ja) * 2005-07-08 2011-06-29 株式会社ジャストシステム データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US11675795B2 (en) * 2015-05-15 2023-06-13 Yahoo Assets Llc Method and system for ranking search content
WO2016187705A1 (en) * 2015-05-22 2016-12-01 Coveo Solutions Inc. System and method for ranking search results
US20180232434A1 (en) * 2017-02-16 2018-08-16 Microsoft Technology Licensing, Llc Proactive and retrospective joint weight attribution in a streaming environment
JP6985181B2 (ja) * 2018-02-28 2021-12-22 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019200449A (ja) * 2018-05-14 2019-11-21 株式会社日立製作所 案件振分支援システム、案件振分支援装置、及び案件振分支援方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013510343A (ja) * 2008-09-10 2013-03-21 マイクロソフト コーポレーション 検索結果のランク付けのための静的な関連性の特性としてのドキュメント長
KR20160088503A (ko) * 2015-01-15 2016-07-26 주식회사 카카오 검색 방법 및 검색 서버
JP2018010482A (ja) 2016-07-13 2018-01-18 日本電信電話株式会社 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
US20190034792A1 (en) * 2017-07-25 2019-01-31 Linkedin Corporation Semantic similarity for machine learned job posting result ranking model
KR20190038310A (ko) * 2017-09-29 2019-04-08 인하대학교 산학협력단 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법
JP2019125124A (ja) * 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Efficient Estimation of Word Representations in Vector Space」, 2013, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
Get To The Point:Summarization with Pointer-Generator Networks」2017, Abigail See, Peter J. Liu, Christopher D. Manning
Neural Ranking Models with Weak Supervision」, 2017, Mostafa Dehghani, Hamed Zamani, Aliaksei Severyn, Jaap Kamps, W. Bruce Croft
Sanghee Shim, Sujeong Lee, Recherche efficace de documents Web en fonction du niveau de compréhension des utilisateurs, Journal de l'Association coréenne des sciences de l'information : La pratique de l'informatique et des lettres Vol. 15, n° 1, 2009.1. *
TextRank:Bringing Order into Texts」, 2004, Rada Mihalcea, Paul Tarau

Also Published As

Publication number Publication date
JPWO2021106141A1 (ja) 2021-12-09
DE112019007834T5 (de) 2022-07-14
JP6840293B1 (ja) 2021-03-10
CN114730318A (zh) 2022-07-08
KR102452777B1 (ko) 2022-10-07
WO2021106141A1 (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
Lin et al. Choosing transfer languages for cross-lingual learning
US9317569B2 (en) Displaying search results with edges/entity relationships in regions/quadrants on a display device
US20140229476A1 (en) System for Information Discovery &amp; Organization
Culpepper et al. Dynamic cutoff prediction in multi-stage retrieval systems
US10360219B2 (en) Applying level of permanence to statements to influence confidence ranking
US8812504B2 (en) Keyword presentation apparatus and method
CN110717038B (zh) 对象分类方法及装置
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN112464100B (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
Tonellotto et al. Query embedding pruning for dense retrieval
JP7116309B2 (ja) コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
WO2020161505A1 (en) Improved method and system for text based searching
JP7389330B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Zhang et al. Semantic table retrieval using keyword and table queries
KR102452777B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기록 매체
JP2017134675A (ja) 情報検索装置及びプログラム
US8745078B2 (en) Control computer and file search method using the same
Xie et al. Joint entity linking for web tables with hybrid semantic matching
JP5379812B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
KR102062139B1 (ko) 지능형 자료구조 기반의 데이터 처리 방법 및 그를 위한 장치
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Cai et al. Term-level semantic similarity helps time-aware term popularity based query completion
CN114930316A (zh) 透明迭代多概念语义搜索
Nedelec et al. Content2vec: Specializing joint representations of product images and text for the task of product recommendation
Sabetghadam et al. Reachability analysis of graph modelled collections

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant