KR20220073850A

KR20220073850A - 정보 처리 장치, 정보 처리 방법, 및 기록 매체

Info

Publication number: KR20220073850A
Application number: KR1020227016332A
Authority: KR
Inventors: 하야토 우치데
Original assignee: 미쓰비시덴키 가부시키가이샤
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-06-03
Also published as: JPWO2021106141A1; DE112019007834T5; JP6840293B1; CN114730318A; KR102452777B1; WO2021106141A1

Abstract

정보 처리 장치(100)는, 정답 데이터를 작성하는 장치이다. 정보 처리 장치(100)는, 취득부(140)와, 처리부(120)를 가진다. 취득부(140)는, 복수의 검색 대상 문서를 취득한다. 처리부(120)는, 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고, 문자열에 근거하여 쿼리를 작성하고, 복수의 검색 대상 문서 중에서 쿼리의 검색 대상을 검색하고, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리를 포함하는 정답 데이터를 작성한다.

Description

정보 처리 장치, 정보 처리 방법, 및 정보 처리 프로그램

본 발명은, 정보 처리 장치, 정보 처리 방법, 및 정보 처리 프로그램에 관한 것이다.

근년, 컴퓨터가 액세스 가능한 데이터 량이 증가하고 있다. 대량의 데이터 중에서, 소망하는 데이터를 효율적으로 검색하기 위한 기술이 요구되고 있다.

검색 방법 중 하나로서 개념 검색이 알려져 있다. 여기서, 문서 개념 검색 장치가 제안되고 있다(특허 문헌 1을 참조). 예를 들면, 문서 개념 검색 장치는, 정답 정보를 접수한다. 정답 정보는, 검색 쿼리와, 검색 쿼리에 개념적으로 적합한 검색 대상 문서인 정답 문서의 집합의 세트의 집합이다.

[특허 문헌 ] 일본 특개 2018－10482호 공보

[비특허 문헌 1 「Efficient　Estimation　of　Word　Representations　in　Vector　Space」, 2013, Tomas　Mikolov, Kai　Chen, Greg　Corrado, Jeffrey　Dean [비특허 문헌 2] 「Neural　Ranking　Models　with　Weak　Supervision」, 2017, Mostafa　Dehghani, Hamed　Zamani, Aliaksei　Severyn, Jaap　Kamps, W.　Bruce　Croft [비특허 문헌 3] 「TextRank：Bringing　Order　into　Texts」, 2004, Rada　Mihalcea, Paul　Tarau [비특허 문헌 4] 「Get　To　The　Point：Summarization　with　Pointer-Generator　Networks」2017, Abigail　See, Peter　J. Liu, Christopher　D. Manning

상기의 정답 정보는, 미리 작성할 필요가 있다. 예를 들면, 정답 정보는, 유저의 컴퓨터 조작에 의해, 작성된다. 상술한 바와 같이, 데이터량이 증가하고 있다. 예를 들면, 검색 대상 문서의 수는, 증가하고 있다. 데이터량이 증가하는 것은, 정답 정보를 작성하는 유저의 부담을 크게 한다.

본 발명의 목적은, 유저의 부담을 경감하는 것이다.

본 발명의 일 태양에 따른 정보 처리 장치가 제공된다. 정보 처리 장치는, 복수의 검색 대상 문서를 취득하는 취득부와, 상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고, 상기 문자열에 근거하여 쿼리를 작성하고, 상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고, 검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는 처리부를 가진다.

본 발명에 의하면, 유저의 부담을 경감할 수가 있다.

도 1은 실시의 형태 1의 정보 처리 장치가 갖는 기능 블럭도이다.
도 2는 실시의 형태 1의 정보 처리 장치가 갖는 하드웨어의 구성을 나타내는 도면이다.
도 3은 실시의 형태 1의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다.
도 4는 실시의 형태 1의 학습 처리의 예를 나타내는 흐름도이다.
도 5는 실시의 형태 1의 학습 모델의 예를 나타내는 도면이다.
도 6은 실시의 형태 1의 갱신 처리의 예를 나타내는 흐름도이다.
도 7은 실시의 형태 2의 정보 처리 장치가 갖는 기능 블럭도이다.
도 8은 실시의 형태 2의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다.
도 9는 실시의 형태 3의 정보 처리 장치가 갖는 기능 블럭도이다.
도 10은 실시의 형태 3의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다.

이하, 도면을 참조하면서 실시의 형태를 설명한다. 이하의 실시의 형태는, 예에 지나지 않고, 본 발명의 범위 내에서 여러 가지의 변경이 가능하다.

실시의 형태 1.

도 1은, 실시의 형태 1의 정보 처리 장치가 갖는 기능 블럭도이다. 정보 처리 장치(100)는, 정보 처리 방법을 실행하는 장치이다. 정보 처리 장치(100)는, 기억부(110), 처리부(120), 학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)를 가진다.

여기서, 정보 처리 장치(100)가 갖는 하드웨어에 대해 설명한다.

도 2는, 실시의 형태 1의 정보 처리 장치가 갖는 하드웨어의 구성을 나타내는 도면이다. 정보 처리 장치(100)는, 프로세서(101), 휘발성 기억 장치(102), 및 불휘발성 기억 장치(103)를 가진다.

프로세서(101)는, 정보 처리 장치(100) 전체를 제어한다. 예를 들면, 프로세서(101)는, CPU(Central　Processing　Unit), FPGA(Field　Programmable　Gate　Array) 등이다. 프로세서(101)는, 멀티 프로세서라도 좋다. 정보 처리 장치(100)는, 처리 회로에 의해 실현되어도 좋고, 또는, 소프트웨어, 펌웨어 혹은 그들의 조합에 의해 실현되어도 좋다. 또한, 처리 회로는, 단일 회로 또는 복합 회로라도 좋다.

휘발성 기억 장치(102)는, 정보 처리 장치(100)의 주 기억 장치이다. 예를 들면, 휘발성 기억 장치(102)는, RAM(Random　Access　Memory)이다. 불휘발성 기억 장치(103)는, 정보 처리 장치(100)의 보조 기억 장치이다. 예를 들면, 불휘발성 기억 장치(103)는, HDD(Hard　Disk　Drive) 또는 SSD(Solid　State　Drive)이다.

또, 정보 처리 장치(100)에는, 입력 장치(11)와 표시 장치(12)가 접속된다. 예를 들면, 입력 장치(11)는, 마우스, 키보드 등이다. 예를 들면, 표시 장치(12)는, 디스플레이이다.

도 1로 돌아와, 정보 처리 장치(100)가 갖는 기능 블록을 설명한다.

기억부(110)는, 휘발성 기억 장치(102) 또는 불휘발성 기억 장치(103)에 확보한 기억 영역으로서 실현된다.

처리부(120), 학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)의 일부 또는 전부는, 프로세서(101)에 의해 실현되어도 좋다. 처리부(120), 학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)의 일부 또는 전부는, 프로세서(101)가 실행하는 프로그램의 모듈로서 실현되어도 좋다. 예를 들면, 프로세서(101)가 실행하는 프로그램은, 정보 처리 프로그램이라고도 한다. 예를 들면, 정보 처리 프로그램은, 기록 매체에 기록되어 있다.

기억부(110)는, 검색 대상 문서군(111), 정답 데이터 기억부(112), 및 학습 모델 기억부(113)를 포함한다. 검색 대상 문서군(111)은, 복수의 검색 대상 문서이다. 정답 데이터 기억부(112)는, 처리부(120)에 의해 작성된 정답 데이터를 기억한다. 여기서, 정답 데이터는, 정답 정보라고 생각해도 좋다. 학습 모델 기억부(113)에 저장되는 정보에 대해서는, 다음에 설명한다.

여기서, 기억부(110)에 저장되어 있는 정보는, 외부 장치에 저장되어도 좋다. 예를 들면, 외부 장치는, 클라우드 서버이다.

취득부(140)는, 복수의 검색 대상 문서(즉, 검색 대상 문서군(111))를 취득한다. 예를 들면, 취득부(140)는, 복수의 검색 대상 문서를 기억부(110)로부터 취득한다. 또, 예를 들면, 취득부(140)는, 복수의 검색 대상 문서를 외부 장치로부터 취득한다.

처리부(120)는, 복수의 검색 대상 문서 중 하나의 검색 대상 문서 중에서 문자열을 추출한다. 또한, 1개의 검색 대상 문서는, 제 1 검색 대상 문서라고도 한다. 처리부(120)는, 문자열에 근거하여 쿼리를 작성한다. 처리부(120)는, 쿼리를 이용하여, 복수의 검색 대상 문서 중에서 쿼리의 검색 대상을 검색한다. 처리부(120)는, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리를 포함하는 정답 데이터를 작성한다. 상세하게는, 처리부(120)는, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리와 1 이상의 검색 대상 문서에 대응하는 번호를 포함하는 정답 데이터를 작성한다. 이하, 해당 번호는, 순위라고 표현하는 경우가 있다.

학습 처리부(130), 취득부(140), 검색부(150), 갱신 처리부(160), 및 출력부(170)에 대해서는, 다음에 설명한다.

다음에, 정보 처리 장치(100)가 실행하는 처리에 대해, 흐름도를 이용하여 설명한다.

도 3은, 실시의 형태 1의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다. 예를 들면, 도 3의 처리는, 유저의 입력 조작에 의해 개시한다. 또, 예를 들면, 도 3의 처리는, 미리 설정된 시각에 개시한다.

(스텝 S11) 처리부(120)는, 검색 대상 문서군(111) 중에서 1개의 검색 대상 문서를 선택한다. 예를 들면, 선택된 검색 대상 문서는, 제 1 검색 대상 문서라고 생각해도 좋다.

(스텝 S12) 처리부(120)는, 선택된 검색 대상 문서 중에서 문자열을 추출한다. 예를 들면, 처리부(120)는, 선택된 검색 대상 문서 중의 문장 또는 단어를 문자열로서 추출한다. 또, 예를 들면, 처리부(120)는, 미리 설정된 문자열 길이로 띄어쓰기가 행해진다고 하는 룰에 근거하여, 선택된 검색 대상 문서 중에서 문자열을 추출한다.

(스텝 S13) 처리부(120)는, 문자열에 근거하여, 쿼리를 작성한다.

(스텝 S14) 처리부(120)는, 쿼리를 이용하여, 검색 대상 문서군(111) 중에서 쿼리의 검색 대상을 검색한다. 검색 방법은, 키워드 검색, TF-IDF 또는 Okapi　BM25의 단어의 중요도에 근거하는 텍스트 검색, 쿼리의 문자열과 검색 대상 문서 중의 문자열의 유사도를 이용하는 유사도 검색 등이다.

또한, 유사도는, 문자의 길이의 차이, 편집 거리, 형태소 해석한 단어열의 중복 정도, 의존 구조 분석(dependecy parsing) 해석한 문절 단위의 중복 정도, 의존 구조 분석 관계의 중복 정도, 비특허 문헌 1에 기재된 방식에 의한 다차원 벡터의 유클리드(euclid) 거리, 코사인 유사도의 벡터 간의 거리 등이 이용되어 산출되어도 좋다. 또, 유사도는, 기계 학습 모델을 이용하여 산출되어도 좋다.

또, 검색 대상은, 추출된 문자열이 삭제된 상태의 복수의 문서인 복수의 검색 대상 문서라도 좋다.

(스텝 S15) 처리부(120)는, 검색의 결과인 1 이상의 검색 대상 문서와 쿼리와 1 이상의 검색 대상 문서에 대응하는 순위를 포함하는 정답 데이터를 작성한다. 여기서, 순위는, 해당 중요도 또는 해당 유사도라도 좋다. 또, 순위는, 검색된 순서라도 좋다. 또한, 순위는, 선택된 검색 대상 문서가 1번이라도 좋다.

(스텝 S16) 처리부(120)는, 정답 데이터를 정답 데이터 기억부(112)에 저장한다.

(스텝 S17) 처리부(120)는, 검색 대상 문서군(111)의 모든 검색 대상 문서를 선택했는지 여부를 판정한다. 모든 검색 대상 문서가 선택된 경우, 처리는, 종료한다. 검색 대상 문서군(111) 중에 선택되지 않은 검색 대상 문서가 존재하는 경우, 처리부(120)는, 처리를 스텝 S11로 진행한다.

도 4는, 실시의 형태 1의 학습 처리의 예를 나타내는 흐름도이다. 예를 들면, 도 4의 처리는, 정답 데이터의 작성 처리가 종료한 후, 개시한다.

(스텝 S21) 학습 처리부(130)는, 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에서 사용되는 가중치를 산출하는 학습 처리를 실행한다. 이 문장은, 다음과 같이 표현해도 좋다. 학습 처리부(130)는, 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에 포함되는 노드의 가중치를 산출하는 학습 처리를 실행한다. 또는, 학습 처리부(130)는, 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에 포함되는 노드의 가중치를 변경하는 학습 처리를 실행한다.

학습 처리에는, 비특허 문헌 2에 기재된 학습 알고리즘, 또는 SVM(Support　Vector　Machine), 결정 트리(decision tree) 등의 학습 알고리즘이 이용되어도 좋다.

구체적으로 학습 처리를 설명한다. 학습 처리에서는, 학습 모델이 이용된다. 예를 들면, 학습 모델에는, 정답 데이터의 쿼리와 2개의 검색 대상 문서가 입력된다. 그리고, 2개의 검색 대상 문서 중, 어느 쪽의 검색 대상 문서가 상위의 검색 결과인지를 나타내는 정보가 출력된다.

상세하게 학습 처리를 설명한다. 여기서, 정답 데이터의 쿼리는, 쿼리 Q로 한다. 쿼리 Q에는, 정답 데이터에 포함되는 검색 대상 문서 A, B, C가 대응되어 있다. 검색 대상 문서 A의 순위는, 1위로 한다. 검색 대상 문서 B의 순위는, 2위로 한다. 검색 대상 문서 C의 순위는, 3위로 한다. 여기서, 학습 모델을 나타낸다.

도 5는, 실시의 형태 1의 학습 모델의 예를 나타내는 도면이다. 도 5는, 2개의 뉴럴 네트워크(NN：Neural　Network)를 나타내고 있다. 이하, 2개의 뉴럴 네트워크는, NN1과 NN2라고 표현한다.

예를 들면, 학습 데이터는, 쿼리 Q와 검색 대상 문서 A의 조합과, 쿼리 Q와 검색 대상 문서 B의 조합이다. NN1에는, 쿼리 Q와 검색 대상 문서 A의 조합이 입력된다. NN2에는, 쿼리 Q와 검색 대상 문서 B의 조합이 입력된다. 해당 학습 데이터는, 학습 데이터 1이라고 부른다.

또, 예를 들면, 학습 데이터는, 쿼리 Q와 검색 대상 문서 C의 조합과, 쿼리 Q와 검색 대상 문서 B의 조합이다. NN1에는, 쿼리 Q와 검색 대상 문서 C의 조합이 입력된다. NN2에는, 쿼리 Q와 검색 대상 문서 B의 조합이 입력된다. 해당 학습 데이터는, 학습 데이터 2라고 부른다.

학습 모델에서는, 스코어 1과 스코어 2가 비교된다. 비교에서는, 스코어 1과 스코어 2의 차분이 식(1)을 이용하여 산출된다. 또한, 산출의 결과는, 차분 스코어라고 부른다. 또, 예를 들면, 스코어 1에서 스코어 2를 빼는 것이 결정되어 있다.

[수 1]

차분 스코어=스코어 1-스코어 2…(1)

차분 스코어는, 시그모이드 함수에 입력된다. 시그모이드 함수는, 식(2)로 정의된다.

[수 2]

차분 스코어가 시그모이드 함수에 입력됨으로써, 판정 결과가 출력된다.

여기서, 학습 데이터 1의 경우, 검색 대상 문서 A가 검색 대상 문서 B보다 상위인 것이 기대된다. 학습 데이터 2의 경우, 검색 대상 문서 B가 검색 대상 문서 C보다 상위인 것이 기대된다.

학습 처리부(130)는, 오차역전파법(백 프로퍼게이션)을 이용하여, 상기의 기대와 판정 결과의 오차를 최소화하도록, NN1에 포함되는 노드의 가중치와 NN2에 포함되는 노드의 가중치를 산출한다.

(스텝 S22) 학습 처리부(130)는, 학습 후의 학습 모델을 학습 모델 기억부(113)에 저장한다. 또, 학습 처리부(130)는, NN1에 포함되는 노드의 가중치와 NN2에 포함되는 노드의 가중치를 학습 모델 기억부(113)에 저장해도 좋다.

도 6은, 실시의 형태 1의 갱신 처리의 예를 나타내는 흐름도이다.

(스텝 S31) 취득부(140)는, 정보 처리 장치(100)에 입력된 신규 쿼리를 취득한다. 또, 신규 쿼리는, 제 1 쿼리라고도 한다.

(스텝 S32) 검색부(150)는, 신규 쿼리를 이용하여, 검색 대상 문서군(111) 중에서 신규 쿼리의 검색 대상을 검색한다. 예를 들면, 검색 방법은, 키워드 검색이다.

여기서, 검색부(150)가 키워드 검색을 이용하는 경우, 검색부(150)는, 신규 쿼리와 검색 대상 문서군(111)의 각 검색 대상 문서에 포함되는 키워드를 이용하여, 스코어를 산출한다. 예를 들면, 신규 쿼리에 포함되는 키워드가 많이 포함되어 있는 검색 대상 문서의 스코어는, 높아진다. 검색부(150)는, 스코어에 근거하여, 검색 대상 문서에 순위를 붙인다.

이와 같이, 신규 쿼리에는, 검색된 1 이상의 검색 대상 문서와 순위가 대응된다.

(스텝 S33) 갱신 처리부(160)는, 검색부(150)에 의한 검색의 결과이며, 순위가 대응되어 있는 1 이상의 검색 대상 문서 중, 상위 N개의 검색 대상 문서를 선택한다. 또한, N은, 1 이상의 정수이며, 미리 결정된 수이다. 이와 같이, 갱신 처리부(160)는, 상위의 미리 결정된 건수의 검색 대상 문서를 선택한다.

갱신 처리부(160)는, 신규 쿼리와, 상위 N개의 검색 대상 문서와, 가중치를 이용하는 NN1을 이용하여, 스코어 1을 산출한다. 바꾸어 말하면, 갱신 처리부(160)는, 신규 쿼리와, 상위 N개의 검색 대상 문서와, 가중치가 부가되어 있는 NN1을 이용하여, 스코어 1을 산출한다. 예를 들면, 갱신 처리부(160)는, 신규 쿼리와, 상위 N개의 검색 대상 문서 중 하나의 검색 대상 문서를 NN1에 입력한다. 이것에 의해, 스코어 1이 산출된다. 갱신 처리부(160)는, 산출된 스코어 1을 새로운 순위로서 갱신한다. 마찬가지로 갱신 처리부(160)는, N개의 검색 대상 문서의 각각의 스코어 1을 산출하고, 순위를 갱신한다. 이와 같이, 갱신 처리부(160)는, N개의 검색 대상 문서의 각각의 순위를, 새로운 순위로 갱신한다.

또, 갱신 처리부(160)는, 검색 대상 문서의 원래의 순위와 스코어 1의 평균치를, 새로운 순위로 해도 좋다.

또한, 상기에서는, NN1을 이용하는 경우를 나타냈다. NN1과 NN2는, 등가인 모델이다. 그 때문에, NN2가 이용되어도 좋다.

(스텝 S34) 출력부(170)는, 새로운 순위의 조합을 출력한다. 예를 들면, 출력부(170)는, 신규 쿼리와, N개의 검색 대상 문서와, 갱신된 새로운 순위의 조합을 출력한다. 또, 예를 들면, 출력부(170)는, 해당 조합을 표시 장치(12)에 출력한다. 이것에 의해, 표시 장치(12)에는, N개의 검색 대상 문서가 랭킹 형식으로 표시된다.

예를 들면, 유저는, 표시 장치(12)를 본다. 유저는, N개의 검색 대상 문서 중에서 신규 쿼리에 개념적으로 적합한 검색 대상 문서를 선택할 수가 있다. 유저가 신규 쿼리에 개념적으로 적합한 검색 대상 문서를 선택하는 경우, 유저는, 정보 처리 장치(100)에 대해서 선택 조작을 행한다.

(스텝 S35) 취득부(140)는, 선택 조작에 의해, 신규 쿼리에 개념적으로 적합한 검색 대상 문서를 취득했는지 여부를 판정한다. 바꾸어 말하면, 취득부(140)는, 선택 조작이 행해졌는지 여부를 판정한다.

선택 조작이 행해진 경우, 취득부(140)는, 처리를 스텝 S36으로 진행한다. 선택 조작이 행해지지 않은 경우, 취득부(140)는, 처리를 종료한다.

(스텝 S36) 취득부(140)는, 신규 쿼리와, 신규 쿼리에 개념적으로 적합한 검색 대상 문서의 조합을 정답 데이터로서, 정답 데이터 기억부(112)에 저장한다.

실시의 형태 1에 의하면, 정보 처리 장치(100)는, 정답 데이터를 작성한다. 따라서, 유저는, 정답 데이터를 작성하지 않아도 좋다. 따라서, 정보 처리 장치(100)는, 유저의 부담을 경감할 수가 있다.

또, 정보 처리 장치(100)는, NN1을 이용하여, 검색 대상 문서의 순위를 갱신한다. 이것에 의해, 정보 처리 장치(100)는, 검색부(150)의 검색 결과만으로는 알 수 없는, 검색 대상 문서의 순위를 유저에게 제공할 수가 있다. 또, 정보 처리 장치(100)는, 검색부(150)에 의해 검색된 검색 대상 문서 중 N개의 순위를 갱신한다. 정보 처리 장치(100)는, 검색부(150)에 의해 검색된 모든 검색 대상 문서의 순위를 갱신하지 않는다. 이와 같이, 정보 처리 장치(100)는, 검색 대상 문서의 건수를 줄이는(narrow down) 것으로, 정보 처리 장치(100)의 처리 부하를 경감할 수 있다.

실시의 형태 2.

다음에, 실시의 형태 2를 설명한다. 실시의 형태 2에서는, 실시의 형태 1과 상위한 사항을 주로 설명한다. 그리고, 실시의 형태 2에서는, 실시의 형태 1과 공통되는 사항의 설명을 생략한다. 실시의 형태 2의 설명에서는, 도 1~6을 참조한다.

도 7은, 실시의 형태 2의 정보 처리 장치가 갖는 기능 블럭도이다. 도 1에 나타나는 구성과 같은 도 7의 구성은, 도 1에 나타나는 부호와 같은 부호를 부여하고 있다.

정보 처리 장치(100a)는, 처리부(120a)를 가진다. 처리부(120a)에 대해서는, 다음에 설명한다.

도 8은, 실시의 형태 2의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다. 도 8의 처리에서는, 스텝 S12가 실행되지 않는다. 또, 도 8의 처리에서는, 스텝 S13a가 실행되는 점이, 도 3의 처리와 다르다. 그 때문에, 도 8에서는, 스텝 S13a를 설명한다. 도 8에 있어서의 다른 스텝에 대해서는, 도 3의 스텝 번호와 같은 번호를 부여하는 것에 의해, 처리의 설명을 생략한다. 또, 도 8의 각 스텝은, 처리부(120a)가 실행한다.

(스텝 S13a) 처리부(120a)는, 스텝 S11에서 선택된 검색 대상 문서의 요약문에 근거하여, 쿼리를 작성한다. 상세하게는, 처리부(120a)는, 요약문을 쿼리로서 작성한다. 또, 처리부(120a)는, 요약문 중에서 문자열을 추출하고, 해당 문자열에 근거하여, 쿼리를 작성해도 좋다.

요약문은, 미리 기억부(110) 또는 외부 장치에 저장되어 있다. 요약문은, 취득부(140)에 의해, 취득된다. 또한, 요약문은, 비특허 문헌 3에 기재된 방법으로 작성되어도 좋다.

실시의 형태 2에 의하면, 정보 처리 장치(100a)는, 정답 데이터를 작성한다. 따라서, 유저는, 정답 데이터를 작성하지 않아도 좋다. 따라서, 정보 처리 장치(100a)는, 유저의 부담을 경감할 수가 있다.

실시의 형태 3.

다음에, 실시의 형태 3을 설명한다. 실시의 형태 3에서는, 실시의 형태 1과 상위한 사항을 주로 설명한다. 그리고, 실시의 형태 3에서는, 실시의 형태 1과 공통되는 사항의 설명을 생략한다. 실시의 형태 3의 설명에서는, 도 1~6을 참조한다.

도 9는, 실시의 형태 3의 정보 처리 장치가 갖는 기능 블럭도이다. 도 1에 나타나는 구성과 같은 도 9의 구성은, 도 1에 나타나는 부호와 같은 부호를 부여하고 있다.

정보 처리 장치(100b)는, 처리부(120b)를 가진다. 처리부(120b)에 대해서는, 다음에 설명한다.

도 10은, 실시의 형태 3의 정답 데이터의 작성 처리의 예를 나타내는 흐름도이다. 도 10의 처리에서는, 스텝 S12가 실행되지 않는다. 또, 도 10의 처리에서는, 스텝 S13b가 실행되는 점이, 도 3의 처리와 다르다. 그 때문에, 도 10에서는, 스텝 S13b를 설명한다. 도 10에 있어서의 다른 스텝에 대해서는, 도 3의 스텝 번호와 같은 번호를 부여하는 것에 의해, 처리의 설명을 생략한다. 또, 도 10의 각 스텝은, 처리부(120b)가 실행한다.

(스텝 S13b) 처리부(120b)는, 스텝 S11에서 선택된 검색 대상 문서의 패러프레이즈드문(paraphrased text)에 근거하여, 쿼리를 작성한다. 상세하게는, 처리부(120b)는, 패러프레이즈드문을 쿼리로서 작성한다. 또, 처리부(120a)는, 해당 패러프레이즈드문 중에서 문자열을 추출하고, 해당 문자열에 근거하여, 쿼리를 작성해도 좋다.

또, 처리부(120b)는, 스텝 S11에서 선택된 검색 대상 문서의 요약문의 패러프레이즈드문에 근거하여, 쿼리를 작성해도 좋다. 또한, 처리부(120b)는, 해당 요약문의 패러프레이즈드문 중에서 문자열을 추출하고, 해당 문자열에 근거하여, 쿼리를 작성해도 좋다.

검색 대상 문서의 패러프레이즈드문, 또는 검색 대상 문서의 요약문의 패러프레이즈드문은, 미리 기억부(110) 또는 외부 장치에 저장되어 있다. 검색 대상 문서의 패러프레이즈드문, 또는 검색 대상 문서의 요약문의 패러프레이즈드문은, 취득부(140)에 의해, 취득된다. 또한, 패러프레이즈드문은, 동의어 사전을 이용한 단어의 치환에 의한 방법에 의해 작성되어도 좋다. 또, 패러프레이즈드문은, 비특허 문헌 4에 기재된 방법으로 작성해도 좋다.

실시의 형태 3에 의하면, 정보 처리 장치(100b)는, 정답 데이터를 작성한다. 따라서, 유저는, 정답 데이터를 작성하지 않아도 좋다. 따라서, 정보 처리 장치(100b)는, 유저의 부담을 경감할 수가 있다.

이상으로 설명한 각 실시의 형태에 있어서의 특징은, 서로 적의 조합할 수 있다.

11　입력 장치,　12　표시 장치,　100, 100a, 100b　정보 처리 장치,　101　프로세서,　102　휘발성 기억 장치,　103　불휘발성 기억 장치,　110　기억부,　111　검색 대상 문서군,　112　정답 데이터 기억부,　113　학습 모델 기억부,　120, 120a, 120b　처리부,　130　학습 처리부,　140　취득부,　150　검색부,　160 갱신 처리부,　170　출력부.

Claims

복수의 검색 대상 문서를 취득하는 취득부와,
상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고, 상기 문자열에 근거하여 쿼리를 작성하고, 상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고, 검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는 처리부
를 갖는 정보 처리 장치.
제 1 항에 있어서,
상기 취득부는, 상기 제 1 검색 대상 문서의 요약문을 취득하고,
상기 처리부는, 상기 요약문에 근거하여 쿼리를 작성하는
정보 처리 장치.
제 2 항에 있어서,
상기 처리부는, 상기 요약문 중에서 문자열을 추출하고, 추출된 문자열에 근거하여 쿼리를 작성하는
정보 처리 장치.
제 2 항에 있어서,
상기 취득부는, 상기 요약문의 패러프레이즈드문(paraphrased text)을 취득하고,
상기 처리부는, 상기 패러프레이즈드문에 근거하여 쿼리를 작성하는
정보 처리 장치.
제 4 항에 있어서,
상기 처리부는, 상기 패러프레이즈드문 중에서 문자열을 추출하고, 추출된 문자열에 근거하여 쿼리를 작성하는
정보 처리 장치.
제 1 항에 있어서,
상기 취득부는, 상기 제 1 검색 대상 문서의 패러프레이즈드문을 취득하고,
상기 처리부는, 상기 패러프레이즈드문에 근거하여 쿼리를 작성하는
정보 처리 장치.
제 6 항에 있어서,
상기 처리부는, 상기 패러프레이즈드문 중에서 문자열을 추출하고, 추출된 문자열에 근거하여 쿼리를 작성하는
정보 처리 장치.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
학습 처리부와,
검색부와,
갱신 처리부와,
출력부
를 더 갖고,
상기 처리부는, 검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리와 상기 1 이상의 검색 대상 문서에 대응하는 번호를 포함하는 정답 데이터를 작성하고,
상기 학습 처리부는, 상기 처리부가 작성한 정답 데이터를 이용하여, 학습 모델의 뉴럴 네트워크에서 사용되는 가중치를 산출하는 학습 처리를 실행하고,
상기 취득부는, 제 1 쿼리를 취득하고,
상기 검색부는, 상기 복수의 검색 대상 문서 중에서 상기 제 1 쿼리의 검색 대상을 검색하고,
상기 갱신 처리부는, 상기 검색부에 의한 검색의 결과이며, 순위가 대응되어 있는 1 이상의 검색 대상 문서 중, 상위의 미리 정해진 건수의 검색 대상 문서를 선택하고, 상기 제 1 쿼리와 선택된 1 이상의 검색 대상 문서와 상기 가중치를 이용하는 상기 뉴럴 네트워크를 이용하여, 선택된 1 이상의 검색 대상 문서의 순위를 갱신하고,
상기 출력부는, 선택된 1 이상의 검색 대상 문서와 갱신된 순위를 출력하는
정보 처리 장치.
정보 처리 장치가,
복수의 검색 대상 문서를 취득하고,
상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고,
상기 문자열에 근거하여 쿼리를 작성하고,
상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고,
검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는
정보 처리 방법.
정보 처리 장치로 하여금,
복수의 검색 대상 문서를 취득하고,
상기 복수의 검색 대상 문서 중 제 1 검색 대상 문서 중에서 문자열을 추출하고,
상기 문자열에 근거하여 쿼리를 작성하고,
상기 복수의 검색 대상 문서 중에서 상기 쿼리의 검색 대상을 검색하고,
검색의 결과인 1 이상의 검색 대상 문서와 상기 쿼리를 포함하는 정답 데이터를 작성하는
처리를 실행하게 하는 정보 처리 프로그램.