WO2020004186A1 - 情報検索装置、方法、及びプログラム - Google Patents

情報検索装置、方法、及びプログラム Download PDF

Info

Publication number
WO2020004186A1
WO2020004186A1 PCT/JP2019/024336 JP2019024336W WO2020004186A1 WO 2020004186 A1 WO2020004186 A1 WO 2020004186A1 JP 2019024336 W JP2019024336 W JP 2019024336W WO 2020004186 A1 WO2020004186 A1 WO 2020004186A1
Authority
WO
WIPO (PCT)
Prior art keywords
answer
text
segment
date
unit
Prior art date
Application number
PCT/JP2019/024336
Other languages
English (en)
French (fr)
Inventor
済央 野本
久子 浅野
準二 富田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2020004186A1 publication Critical patent/WO2020004186A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Definitions

  • the present invention relates to an information retrieval apparatus, method, and program, and more particularly, to an information retrieval apparatus, method, and program for retrieving information from a text group recorded in chronological order.
  • AI Artificial Intelligence
  • the task management tool manages tasks in units of pages called "tickets" when cooperating in a team to carry out work.
  • tickets In the ticket, the progress of the task, the task, the solution, and the like are described by the ticket participant.
  • the ticket ends its role and is "closed".
  • team work such as development is performed
  • the use of a task management tool makes it possible to eliminate omission of a task and to quickly share an issue within a team.
  • a collection of these tickets can also be regarded as a knowledge base, and there is a growing need for a task management tool to actually search for past tickets, progress until problem solving, and the like.
  • the exchange of information in the ticket can be regarded as a kind of conversation data.
  • the information in the ticket is updated in a format that is newly added to the contents described so far.
  • a word serving as a key to a search and a word serving as an answer are separated as text.
  • the present invention has been made to solve the above problems, and provides an information search device, a method, and a program capable of searching for an answer to a question in consideration of inaccuracy of information. With the goal.
  • an information retrieval device is a text group including texts with date and time information indicating date and time recorded in a time series, and separated in advance by a part of the time series.
  • a text search unit for searching for an answer part, which is a partial character string for an input question, included in the text for each segment, based on the text group divided for each segment which is a subgroup of the obtained text group With respect to the segment in which the answer part is searched, another answer candidate for the searched answer part is extracted from each of the texts, and an answer candidate estimating unit that estimates each of the answer candidates; and From each of the answer candidates estimated for the searched segment, an answer identification unit for identifying an answer to the question according to the date and time information, Nde is configured.
  • the answer identification unit identifies, as an answer to the question, the answer candidate in which the date and time information is extracted from the latest text among the answer candidates. You may do so.
  • the text search unit calculates a score representing the likelihood as the answer portion for each segment, searches the answer portion, and searches the answer candidate estimating unit. For each of the segments for which the answer part with the higher score has been searched, other answer candidates for the searched answer part are extracted from each of the texts, and each of the answer candidates is estimated.
  • the identification unit may identify an answer to the question according to the date and time information from each of the answer candidates estimated for each of the segments from which the answer part with the higher score has been searched.
  • a text group consisting of a text with time and date information recorded in time series is input, and the text group is divided into segments according to the topic of the text.
  • the text search unit further includes a search unit configured to search, for each segment, an answer part that is a partial character string corresponding to the input question, included in the text, based on a result of the division performed by the text segmentation unit. May be.
  • An information search method is characterized in that the text search unit is a text group consisting of texts with date and time information indicating date and time recorded in time series, Searching for an answer part, which is a partial character string for the input question, included in the text for each segment, based on the text group divided for each segment that is a subgroup of the group; A step of extracting, from each of the texts, another answer candidate for the searched answer location for the segment in which the answer location has been searched, and estimating each of the answer candidates; and A step of identifying an answer to the question according to the date and time information from each of the answer candidates estimated for the segment from which the answer location was searched. And executes includes a flop, a.
  • a program according to a third invention is a program for causing a computer to function as each section of the information search device according to the first invention.
  • a text group consisting of texts with date and time information indicating date and time recorded in time series, and previously separated by a part of the time series
  • search for an answer part that is a substring of the input question contained in the text, and for the segment for which the answer part was found
  • Extracting other answer candidates for the searched answer portion from each of the texts estimating each of the answer candidates, and asking a question according to the date and time information from each of the answer candidates estimated for the segment from which the answer portion was searched.
  • FIG. 1 is a block diagram illustrating a configuration of an information search device according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an example of a text group described in ticket units. It is a figure showing an example which divided a text group into segments. It is a figure showing an example which extracted the answer part to a question in a segment. It is a figure showing an example which estimated each of answer candidates in a segment. It is a figure which shows an example which identified the answer from each of the answer candidates in a segment.
  • 5 is a flowchart illustrating an information search processing routine in the information search device according to the embodiment of the present invention.
  • the method of this embodiment focuses on the flow of information update specific to the task management tool. For example, assume a case where incorrect information is described for a certain matter at the beginning. In this case, next, focus on the information update flow in which a description that corrects the incorrect information is added to the incorrect information, and the final answer is derived after multiple exchanges of those information. . Focusing on the flow of information updating, it is possible to search for text that contains information that is erroneously divided and described, taking into account the inaccuracy of the information, and to search for the correct information. Become.
  • an information search device 100 includes a CPU, a RAM, and a ROM that stores a program for executing an information search processing routine described later and various data. It can be configured with a computer.
  • the information retrieval device 100 functionally includes an input unit 10, a calculation unit 20, and an output unit 50 as shown in FIG.
  • the input unit 10 receives a text group described in a ticket unit of the task management tool.
  • the text group is composed of texts recorded in chronological order, and each text is provided with date and time information indicating the recorded date and time.
  • FIG. 2 shows an example of a text group.
  • the input unit 10 also receives a search request for a question. It is assumed that the search request specifies a ticket to be searched.
  • the calculation unit 20 includes a search text storage unit 22, a text segmentation unit 24, a segmented search text storage unit 26, a text search unit 30, an answer candidate estimation unit 32, and an answer identification unit 34. ing.
  • the search text storage unit 22 stores a text group to be searched, which is received by the input unit 10.
  • the text group is stored as a pair with information on the date and time when the text was recorded. Note that a plurality of text groups may be stored.
  • the text segmentation unit 24 receives as input a text group consisting of texts with date and time information recorded in chronological order in the search text storage unit 22, and divides the text group into segments according to topics of the text.
  • a segment is a unit of a subgroup of a text group delimited by a part of a predetermined time series. Further, in the present embodiment, it is assumed that the division is divided according to the topic of the content of the text group.
  • the unit of division may be a sentence or a paragraph. Like Redmine, it may be divided in units of information update called “note”.
  • the technique of Non-Patent Document 2 may be used.
  • Non-Patent Document 2 Katsuhito Bessho, "Text segmentation using concept vectors of words", Transactions of Information Processing Society of Japan, Nov. 2001.
  • the segmented search text storage unit 26 stores a text group divided for each segment by the text segmentation unit 24.
  • FIG. 3 shows an example of a text group divided for each segment. In the example of FIG. 3, the text group is divided into a segment 1 and a segment 2. Note that a plurality of text groups are stored, the input unit 10 accepts the specification of a ticket, and the text group corresponding to the ticket is extracted and searched.
  • the text search unit 30 searches, for each segment, an answer part that is a partial character string for the input question, included in the text, based on the text group divided for each segment in the segmented search text storage unit 26. .
  • a score representing the likelihood of a partial character string as an answer location is calculated, and a partial character string having a high score is searched for as an answer location.
  • the technique of Non-Patent Document 3 may be used as a search method.
  • Non-Patent Document 3 Kyosuke Nishida, Atsumi Saito, Atsushi Otsuka, Hisako Asano, Junji Tomita, "Large-scale machine reading by multitask learning with information retrieval", Proc. Of the 24th Annual Conference of the Linguistic Processing Society of Japan (NLP2018) , 2018.
  • the processes of the answer candidate estimating unit 32 and the answer identifying unit 34 are performed on the N segments from which the answer points are searched and the answer points with the higher scores are searched.
  • the set value of the N-best solution is determined in advance, and is set according to the search result of the text group for each segment of the text search unit 30. If the number of segments for which the answer location has been searched is equal to or greater than the set value, the set value is set to the value of N. If the number is less than the set value, the number of segments for which the answer location is searched is set to the value of N.
  • the following processes of the answer candidate estimating unit 32 and the answer identifying unit 34 may be performed on one segment in which a search point with the highest score is searched. Note that processing may be performed on a segment in which all answer locations have been searched without setting N.
  • N 2 or more.
  • the answer candidate estimating unit 32 extracts, for each of the N segments, another answer candidate for the answer location retrieved from the segment from each of the texts of the segment, and estimates each of the answer candidates.
  • another “date” in the same segment is extracted as an answer candidate.
  • the identification of “date” may be performed using a named entity extraction technique, for example, using the technique disclosed in Patent Document 1.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2013-246795
  • the answer identification unit 34 identifies an answer to the question from each of the answer candidates estimated for the N segments in accordance with the date and time information, for each of the N segments. For example, among each of the answer candidates of the segment, an answer candidate whose date and time information is extracted from the latest text is identified as an answer to the question. In the example of FIG. 6, when focusing on one segment, "10:00 next Wednesday" is identified as the latest answer, and the answer "the meeting is” 10:00 next Wednesday "" is output.
  • an answer in which the plurality of answer candidates are put together is output. For example, if the text is "Would you like to start next Wednesday at 10:00 or next Thursday at 11:00?", The output of the answer would be "Meeting is” Next Wednesday at 10:00 "or” Next Thursday at 11:00 "” I do.
  • N 2 or more, for example, the latest answer identified for the segment in which the answer portion with the highest score was searched is set as the first candidate, and the answer of another segment with the next highest score is set as the second candidate, As a third candidate, an answer is identified in each segment.
  • the output unit 50 outputs a final answer in which the answers identified by the identified answer identification unit 34 for each segment are put together. For example, when there are a plurality of N and answers are obtained from each of the plurality of segments, N answers are output in order from the first candidate.
  • the information search device 100 executes an information search processing routine shown in FIG.
  • step S100 a text group including texts with date and time information recorded in chronological order is input, and the text group is divided into segments according to the topic of the text.
  • step S102 based on the text group divided for each segment, search for an answer part, which is a partial character string for the input question, included in the text for each segment.
  • search for an answer part which is a partial character string for the input question, included in the text for each segment.
  • a score representing the likelihood of a partial character string as an answer location is calculated, and a partial character string having a high score is searched for as an answer location.
  • N which is the number of target segments, is set based on the segment for which the answer location has been searched and the set value of the N-best solution.
  • the initial value of N is set to the value of N if the number of segments for which the answer location has been searched is equal to or greater than a predetermined set value, and the number of segments for which the answer location has been searched for if the number is less than the set value. N.
  • step S106 a target segment is selected.
  • the segments are 1, 2,. . . , N.
  • step S108 for the target segment, other answer candidates for the searched answer location are extracted from each of the texts, and each of the answer candidates is estimated.
  • step S110 for each target segment, an answer to the question is identified according to the date and time information from each of the estimated answer candidates. For example, among each of the answer candidates, the answer candidate whose date and time information is extracted from the latest text is identified as the answer to the question.
  • step S112 it is determined whether the processing has been completed for all N segments. If the processing has been completed, the process proceeds to step S114. If not, the process returns to step S106 to select the next segment and repeat the processing. .
  • step S114 the final answer obtained by summarizing the answers identified for each segment in step S110 is output to the output unit 50, and the process ends.
  • a text group consisting of texts with date and time information indicating date and time recorded in chronological order
  • search for the answer part that is included in the text and is a substring to the input question included in the text and For the searched segment, extract other answer candidates for the searched answer portion from each of the texts, estimate each of the answer candidates, and from each of the answer candidates estimated for the segment from which the answer portion was searched,
  • Reference Signs List 10 Input unit 20 Operation unit 22 Search text storage unit 24 Text segmentation unit 26 Search text storage unit 30 Text search unit 32 Answer candidate estimation unit 34 Answer identification unit 50 Output unit 100 Information search device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報の不正確性を考慮して、質問に対する回答を検索することができる。 時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、セグメントごとに、テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索する。回答箇所が検索されたセグメントについて、検索された回答箇所に対する他の回答候補をテキストの各々から抽出し、回答候補の各々を推定する。回答箇所が検索されたセグメントについて推定された回答候補の各々から、日時情報に応じて質問に対する回答を同定する。

Description

情報検索装置、方法、及びプログラム
 本発明は、情報検索装置、方法、及びプログラムに係り、特に、時系列に記録されたテキスト群から情報を検索するための情報検索装置、方法、及びプログラムに関する。
 近年のAI(Artificial Intelligence)技術の隆盛に伴い、AI技術を使ったオフィス内の業務の効率化が注目されている。AI技術を用いて社内に蓄積されたノウハウやマニュアルといった知識源へのアクセスビリティを向上させることで、社内問い合わせを効率化し、自動化したり、過去のノウハウが埋没してしまうのを防ぐ事が期待されている。
 一方で、Redmineに代表されるタスク管理ツールの利用が近年盛んである。タスク管理ツールはチーム内で連携して業務を進めるにあたり、タスクを「チケット」と呼ばれるページ単位で管理する。通常、1タスクを1チケットとして管理する。チケット内において、タスクの進捗状況や課題、その解決方法等がチケット参加者によって記載される。最終的に、タスクが修了するとチケットは役目を終え「クローズ」される。開発のようなチーム業務を行うような場合は、タスク管理ツールを利用することで、タスクの漏れを無くしたり、課題をチーム内に素早く共有したりすることが可能となる。これらチケットの集まりは、ナレッジベースとしてみなすこともでき、実際にタスク管理ツールに対して過去のチケットや課題解決までの経過等を検索したいというニーズが高まっている。
 チケット内での情報のやり取りは一種の対話データとみなすことが可能である。
Seo, M.; Kembhavi, A.; Farhadi, A.; and Hajishirzi, H. 2017. Bidirectional attention flow for machine comprehension. In ICLR.
 もっとも、マニュアルやFAQのような「間違いのない情報」からなるテキストとは異なり、Redmineのようなタスク管理ツールに記載される情報には誤りも多く含まれる。そのような不正確性を伴うテキストに対して従来技術を適用して回答を抽出しようとしても、誤った情報を返してしまうリスクがある。このため、不正確性を考慮した新しい検索アルゴリズムを考える必要がある。
 チケットにおける情報は、これまでの記載内容に新たに追加する形式で更新されていく。そのような場合において、検索の手掛かりとなるワードと回答となるワードとが、テキストとして離れて存在してしまうケースが多く存在する。その場合、質問文に対して正しく回答箇所を抽出することが難しくなってしまう、という問題があった。
 本発明は、上記問題点を解決するために成されたものであり、情報の不正確性を考慮して、質問に対する回答を検索することができる情報検索装置、方法、及びプログラムを提供することを目的とする。
 上記目的を達成するために、第1の発明に係る情報検索装置は、時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、前記セグメントごとに、前記テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索するテキスト検索部と、前記回答箇所が検索された前記セグメントについて、検索された前記回答箇所に対する他の回答候補を前記テキストの各々から抽出し、回答候補の各々を推定する回答候補推定部と、前記回答箇所が検索された前記セグメントについて推定された回答候補の各々から、前記日時情報に応じて前記質問に対する回答を同定する回答同定部と、を含んで構成されている。
 また、第1の発明に係る情報検索装置において、前記回答同定部は、前記回答候補の各々のうち、前記日時情報が最新の前記テキストから抽出された前記回答候補を前記質問に対する回答として同定するようにしてもよい。
 また、第1の発明に係る情報検索装置において、前記テキスト検索部は、前記セグメントごとに、前記回答箇所としての尤もらしさを表すスコアを算出して前記回答箇所を検索し、前記回答候補推定部は、前記スコアが上位の前記回答箇所が検索された前記セグメントの各々について、検索された前記回答箇所に対する他の回答候補を前記テキストの各々から抽出し、回答候補の各々を推定し、前記回答同定部は、前記スコアが上位の前記回答箇所が検索された前記セグメントの各々について推定された回答候補の各々から、前記日時情報に応じて前記質問に対する回答を同定するようにしてもよい。
 また、第1の発明に係る情報検索装置において、時系列に記録された前記日時情報付きのテキストからなるテキスト群を入力とし、テキストの話題に応じて、前記テキスト群をセグメントに分割するテキストセグメンテーション部を更に含み、前記テキスト検索部は、前記テキストセグメンテーション部による分割結果に基づいて、前記セグメントごとに、前記テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索するようにしてもよい。
 第2の発明に係る情報検索方法は、テキスト検索部が、時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、前記セグメントごとに、前記テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索するステップと、回答候補推定部が、前記回答箇所が検索された前記セグメントについて、検索された前記回答箇所に対する他の回答候補を前記テキストの各々から抽出し、回答候補の各々を推定するステップと、回答同定部が、前記回答箇所が検索された前記セグメントについて推定された回答候補の各々から、前記日時情報に応じて前記質問に対する回答を同定するステップと、を含んで実行することを特徴とする。
 第3の発明に係るプログラムは、コンピュータを、第1の発明に記載の情報検索装置の各部として機能させるためのプログラムである。
 本発明の情報検索装置、方法、及びプログラムによれば、時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、セグメントごとに、テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索し、回答箇所が検索されたセグメントについて、検索された回答箇所に対する他の回答候補をテキストの各々から抽出し、回答候補の各々を推定し、回答箇所が検索されたセグメントについて推定された回答候補の各々から、日時情報に応じて質問に対する回答を同定することにより、情報の不正確性を考慮して、質問に対する回答を検索することができる、という効果が得られる。
本発明の実施の形態に係る情報検索装置の構成を示すブロック図である。 チケットの単位で記載されたテキスト群の一例を示す図である。 テキスト群をセグメントに分割した一例を示す図である。 セグメントで、質問に対する回答箇所を抜き出した一例を示す図である。 セグメントで、回答候補の各々を推定した一例を示す図である。 セグメントで、回答候補の各々から、回答を同定した一例を示す図である。 本発明の実施の形態に係る情報検索装置における情報検索処理ルーチンを示すフローチャートである。
 以下、図面を参照して本発明の実施の形態を詳細に説明する。
 本実施の形態の手法は、タスク管理ツールに特有の情報更新の流れに着目したものである。例えば、最初にある事項に関して誤った情報が記載されたような場合を想定する。この場合、次に、誤った情報に対し、誤った情報を正すような記載が追記され、それらのやり取りが複数続いた後に最終的な回答が導きだされる、という情報更新の流れに着目する。情報更新の流れに着目することで、誤りを含んだ情報が分断されて記述されているテキストに対しても、情報の不正確性を考慮した検索を可能にし、正しい情報への検索が可能になる。
<本発明の実施の形態に係る情報検索装置の構成>
 次に、本発明の実施の形態に係る情報検索装置の構成について説明する。図1に示すように、本発明の実施の形態に係る情報検索装置100は、CPUと、RAMと、後述する情報検索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この情報検索装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
 入力部10は、タスク管理ツールのチケットの単位で記載されたテキスト群を受け付ける。テキスト群は時系列に記録されたテキストからなり、各テキストには記録された日時を示す日時情報が付与されている。図2にテキスト群の一例を示す。また、入力部10は、質問の検索リクエストを受け付ける。検索リクエストは、検索対象のチケットの指定がされているものとする。
 演算部20は、検索テキスト格納部22と、テキストセグメンテーション部24と、セグメント済み検索テキスト格納部26と、テキスト検索部30と、回答候補推定部32と、回答同定部34とを含んで構成されている。
 検索テキスト格納部22には、入力部10で受け付けた、検索対象とするテキスト群が格納される。テキスト群は、テキストが記録された日時の情報とのペアで格納される。なお、複数のテキスト群を格納するようにしても良い。
 テキストセグメンテーション部24は、検索テキスト格納部22の時系列に記録された日時情報付きのテキストからなるテキスト群を入力とし、テキストの話題に応じて、テキスト群をセグメントに分割する。セグメントは、事前に決められた時系列の一部で区切られたテキスト群の部分群を単位とする。また、本実施の形態では、分割の区切りはテキスト群の内容の話題で区切られるものとする。分割する単位の区切りは、文でも良いし、段落単位でも良い。Redmineのように、noteと呼ばれる情報更新の単位で分割しても良い。分割手法は、例えば非特許文献2の技術を用いれば良い。
[非特許文献2]別所克人, "単語の概念ベクトルを用いたテキストセグメンテーション", 情報処理学会論文誌, Nov. 2001.
 セグメント済み検索テキスト格納部26には、テキストセグメンテーション部24で、セグメントごとに分割されたテキスト群が格納される。図3にセグメントごとに分割されたテキスト群の一例を示す。図3の例では、テキスト群を、セグメント1、及びセグメント2に分割している。なお、複数のテキスト群を格納するようにし、入力部10でチケットの指定を受け付けるようにし、チケットに対応するテキスト群を取り出して検索が行われる。
 テキスト検索部30は、セグメント済み検索テキスト格納部26のセグメントごとに分割されたテキスト群に基づいて、セグメントごとに、テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索する。ここでは、セグメントごとに、部分文字列について回答箇所としての尤もらしさを表すスコアを算出して、スコアが高い部分文字列を回答箇所として検索する。検索手法は例えば、非特許文献3の技術を用いれば良い。
[非特許文献3]西田京介, 斉藤いつみ, 大塚淳史, 浅野久子, 富田準二, "情報検索とのマルチタスク学習による大規模機械読解", 言語処理学会第24回年次大会論文集 (NLP2018), 2018.
 図4に示すように、質問に対する回答箇所を部分文字列の単位で「来週火曜日14:00」と抜き出す。
 以下、回答候補推定部32、及び回答同定部34の処理は、回答箇所が検索されたセグメントであって、スコアが上位の回答箇所が検索されたN個のセグメントについて行う。Nの個数については、N-best解の設定値を予め定めておくものとし、テキスト検索部30のセグメントごとのテキスト群の検索結果に応じて設定する。回答箇所が検索されたセグメントの数が設定値以上であれば設定値をNの値とし、設定値未満であれば回答箇所が検索されたセグメントの数をNの値とする。また、設定値が1である場合には、以下の回答候補推定部32、及び回答同定部34の処理は、スコアが最も高い検索箇所が検索された一つのセグメントについて行うようにすれば良い。なお、Nを設定せずに全ての回答箇所が検索されたセグメントについて処理を行うようにしてもよい。
 以下の説明では、Nが2以上となる場合を想定して説明する。
 回答候補推定部32は、N個のセグメントの各々について、当該セグメントから検索された回答箇所に対する他の回答候補を、当該セグメントのテキストの各々から抽出し、回答候補の各々を推定する。テキスト検索部の回答箇所の出力として、例えば「日付」が抽出された場合は、同一セグメント内の他の「日付」を回答候補として抽出する。「日付」であることの同定は、固有表現抽出技術を用いればよく、例えば特許文献1の技術を用いる。
[特許文献1]特開2013-246795号公報
 図5に示すように、セグメント2について、「日付」に対応する「水曜日10:00」や「来週水曜10時」が抽出され、「来週火曜日14:00」、「水曜日10:00」、及び「来週水曜10時」を回答候補として推定する。
 回答同定部34は、N個のセグメントの各々について、当該セグメントで推定された回答候補の各々から、日時情報に応じて質問に対する回答を同定する。例えば、当該セグメントの回答候補の各々のうち、日時情報が最新のテキストから抽出された回答候補を質問に対する回答として同定する。図6の例では、一つのセグメントに着目すると、「来週水曜日10時」を最新の回答であると同定し、「打合せは「来週水曜日10時」です」という回答を出力する。
 また、同一時刻のテキストに異なる複数の回答候補がある場合には、複数の回答候補をまとめた回答を出力する。例えば「それでは来週水曜10時から、又は来週木曜11時からお願い致します。」というテキストであれば、「打合せは「来週水曜日10時」又は「来週木曜11時」です」などを回答の出力とする。
 Nが2以上である場合には、例えば、スコアが最も高い回答箇所が検索されたセグメントについて同定された最新の回答を第一候補とし、次にスコアが高い別セグメントの回答を第二候補、第三候補として、それぞれのセグメントで回答を同定する。
 出力部50は、同定された回答同定部34でセグメントごとに同定された回答をまとめた最終的な回答を出力する。例えば、Nが複数であり、複数のセグメントの各々から回答が得られた場合には、第一候補から順にN個の回答を出力する。
<本発明の実施の形態に係る情報検索装置の作用>
 次に、本発明の実施の形態に係る情報検索装置100の作用について説明する。情報検索装置100は、図7に示す情報検索処理ルーチンを実行する。
 まず、ステップS100では、時系列に記録された日時情報付きのテキストからなるテキスト群を入力とし、テキストの話題に応じて、テキスト群をセグメントに分割する。
 次に、ステップS102では、セグメントごとに分割されたテキスト群に基づいて、セグメントごとに、テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索する。ここでは、セグメントごとに、部分文字列について回答箇所としての尤もらしさを表すスコアを算出して、スコアが高い部分文字列を回答箇所として検索する。
 ステップS104では、回答箇所が検索されたセグメント、及びN-best解の設定値に基づいて、対象とするセグメントの個数であるNを設定する。Nの初期値は、回答箇所が検索されたセグメントの数が予め定められた設定値以上であれば設定値をNの値とし、設定値未満であれば回答箇所が検索されたセグメントの数をNの値とする。
 ステップS106では、対象とするセグメントを選択する。セグメントは、回答箇所のスコアが高いものから順に1,2,...,Nと選択するものとする。
 ステップS108では、対象のセグメントについて、検索された回答箇所に対する他の回答候補をテキストの各々から抽出し、回答候補の各々を推定する。
 ステップS110では、対象のセグメントについて、推定された回答候補の各々から、日時情報に応じて質問に対する回答を同定する。例えば、回答候補の各々のうち、日時情報が最新のテキストから抽出された回答候補を質問に対する回答として同定する。
 ステップS112では、N個全てのセグメントについて処理を終了したかを判定し、終了していればステップS114へ移行し、終了していなければステップS106に戻って次のセグメントを選択して処理を繰り返す。
 ステップS114では、ステップS110でセグメントごとに同定された回答をまとめた最終的な回答を出力部50に出力して処理を終了する。
 以上説明したように、本発明の実施の形態に係る情報検索装置によれば、時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、セグメントごとに、テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索し、回答箇所が検索されたセグメントについて、検索された回答箇所に対する他の回答候補をテキストの各々から抽出し、回答候補の各々を推定し、回答箇所が検索されたセグメントについて推定された回答候補の各々から、日時情報に応じて質問に対する回答を同定することにより、情報の不正確性を考慮して、質問に対する回答を検索することができる。
 なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
 例えば、上述した実施の形態では、テキストセグメンテーション部24を設けてテキスト群をセグメントに分割する場合を例に説明したが、これに限定されるものではなく、別装置等により予めテキスト群をセグメントに分割しておくようにしてもよい。
10 入力部
20 演算部
22 検索テキスト格納部
24 テキストセグメンテーション部
26 検索テキスト格納部
30 テキスト検索部
32 回答候補推定部
34 回答同定部
50 出力部
100 情報検索装置

Claims (6)

  1.  時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、前記セグメントごとに、前記テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索するテキスト検索部と、
     前記回答箇所が検索された前記セグメントについて、検索された前記回答箇所に対する他の回答候補を前記テキストの各々から抽出し、回答候補の各々を推定する回答候補推定部と、
     前記回答箇所が検索された前記セグメントについて推定された回答候補の各々から、前記日時情報に応じて前記質問に対する回答を同定する回答同定部と、
     を含む情報検索装置。
  2.  前記回答同定部は、前記回答候補の各々のうち、前記日時情報が最新の前記テキストから抽出された前記回答候補を前記質問に対する回答として同定する請求項1に記載の情報検索装置。
  3.  前記テキスト検索部は、前記セグメントごとに、前記回答箇所としての尤もらしさを表すスコアを算出して前記回答箇所を検索し、
     前記回答候補推定部は、前記スコアが上位の前記回答箇所が検索された前記セグメントの各々について、検索された前記回答箇所に対する他の回答候補を前記テキストの各々から抽出し、回答候補の各々を推定し、
     前記回答同定部は、前記スコアが上位の前記回答箇所が検索された前記セグメントの各々について推定された回答候補の各々から、前記日時情報に応じて前記質問に対する回答を同定する請求項1又は請求項2に記載の情報検索装置。
  4.  時系列に記録された前記日時情報付きのテキストからなるテキスト群を入力とし、テキストの話題に応じて、前記テキスト群をセグメントに分割するテキストセグメンテーション部を更に含み、
     前記テキスト検索部は、前記テキストセグメンテーション部による分割結果に基づいて、前記セグメントごとに、前記テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索する請求項1~請求項3の何れか1項に記載の情報検索装置。
  5.  テキスト検索部が、時系列に記録された、日時を示す日時情報付きのテキストからなるテキスト群であって、予め時系列の一部で区切られたテキスト群の部分群であるセグメントごとに分割されたテキスト群に基づいて、前記セグメントごとに、前記テキストに含まれる、入力された質問に対する部分文字列である回答箇所を検索するステップと、
     回答候補推定部が、前記回答箇所が検索された前記セグメントについて、検索された前記回答箇所に対する他の回答候補を前記テキストの各々から抽出し、回答候補の各々を推定するステップと、
     回答同定部が、前記回答箇所が検索された前記セグメントについて推定された回答候補の各々から、前記日時情報に応じて前記質問に対する回答を同定するステップと、
     を含む情報検索方法。
  6.  コンピュータを、請求項1~請求項4のいずれか1項に記載の情報検索装置の各部として機能させるためのプログラム。
PCT/JP2019/024336 2018-06-25 2019-06-19 情報検索装置、方法、及びプログラム WO2020004186A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-120293 2018-06-25
JP2018120293A JP2020003889A (ja) 2018-06-25 2018-06-25 情報検索装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2020004186A1 true WO2020004186A1 (ja) 2020-01-02

Family

ID=68985011

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024336 WO2020004186A1 (ja) 2018-06-25 2019-06-19 情報検索装置、方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2020003889A (ja)
WO (1) WO2020004186A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007468A (ja) * 2000-06-20 2002-01-11 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2006019778A (ja) * 2004-06-30 2006-01-19 Toshiba Corp マルチメディアデータ再生装置およびマルチメディアデータ再生方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007468A (ja) * 2000-06-20 2002-01-11 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2006019778A (ja) * 2004-06-30 2006-01-19 Toshiba Corp マルチメディアデータ再生装置およびマルチメディアデータ再生方法

Also Published As

Publication number Publication date
JP2020003889A (ja) 2020-01-09

Similar Documents

Publication Publication Date Title
CN105718586B (zh) 分词的方法及装置
CN106649783B (zh) 一种同义词挖掘方法和装置
CN110209790B (zh) 问答匹配方法和装置
Kaur et al. A survey of named entity recognition in English and other Indian languages
CN111241230A (zh) 一种基于文本挖掘识别串标风险的方法及系统
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN110969517B (zh) 一种招投标生命周期关联方法、系统、存储介质及计算机设备
CN103823857A (zh) 基于自然语言处理的空间信息检索方法
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
CN113220864B (zh) 智能问答数据处理系统
CN112231451B (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN111597400A (zh) 基于寻路算法的计算机检索系统及方法
WO2020004186A1 (ja) 情報検索装置、方法、及びプログラム
CN116450664A (zh) 数据处理方法、装置、设备和存储介质
JP7256357B2 (ja) 情報処理装置、制御方法、プログラム
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN111178062B (zh) 一种面向人机交互多轮对话语料的加速标注方法及装置
CN112364169B (zh) 基于nlp的wifi识别方法、电子设备和介质
JP2018190030A (ja) 情報処理サーバ、その制御方法、及びプログラム、並びに、情報処理システム、その制御方法、及びプログラム
CN113836378A (zh) 一种数据处理方法及装置
Daudert et al. Nuig at the finsbd task: sentence boundary detection for noisy financial pdfs in english and french
CN113836296A (zh) 一种佛学问答摘要的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19826071

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19826071

Country of ref document: EP

Kind code of ref document: A1