JPWO2009020092A1 - Related information search system and related information search method - Google Patents

Related information search system and related information search method Download PDF

Info

Publication number
JPWO2009020092A1
JPWO2009020092A1 JP2009526445A JP2009526445A JPWO2009020092A1 JP WO2009020092 A1 JPWO2009020092 A1 JP WO2009020092A1 JP 2009526445 A JP2009526445 A JP 2009526445A JP 2009526445 A JP2009526445 A JP 2009526445A JP WO2009020092 A1 JPWO2009020092 A1 JP WO2009020092A1
Authority
JP
Japan
Prior art keywords
unknown word
related information
searched
category
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009526445A
Other languages
Japanese (ja)
Other versions
JP5218409B2 (en
Inventor
享 赤峯
享 赤峯
俊夫 竹田
俊夫 竹田
淑子 松川
淑子 松川
聡 中澤
聡 中澤
剛巨 河合
剛巨 河合
土井 伸一
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009526445A priority Critical patent/JP5218409B2/en
Publication of JPWO2009020092A1 publication Critical patent/JPWO2009020092A1/en
Application granted granted Critical
Publication of JP5218409B2 publication Critical patent/JP5218409B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データ処理装置(1)は、ユーザにとって意味が分からない不明語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力する入力部(11)と、入力されたテキストデータに基づいて不明語を分類する不明語分類部(12)と、不明語の分類結果に基づいて不明語に関連する関連情報を検索する関連情報検索部(13)と、検索された関連情報を提示する関連情報提示部(14)とを備える。これにより、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。The data processing apparatus (1) includes an input unit (11) for inputting text data in which at least one of an unknown word whose meaning is unknown to the user and a known word known to the user are all specified, and the input text data An unknown word classification unit (12) that classifies unknown words based on the information, a related information search unit (13) that searches related information related to unknown words based on the classification result of the unknown words, and the retrieved related information And a related information presentation unit (14). This makes it possible to switch the search target and change the method for presenting the related information of the search result according to the type of unknown word without incurring costs.

Description

本発明は、関連情報検索システム及び関連情報検索方法に関し、特に、テキストデータに含まれるユーザにとって未知である未知語に対して、未知語に関連する関連情報を検索する関連情報検索システム及び関連情報検索方法に関する。   The present invention relates to a related information search system and a related information search method, and more particularly, to a related information search system and related information for searching related information related to an unknown word for an unknown word that is unknown to a user included in text data. It relates to the search method.

会議の際に、発言中や資料中に意味が分からない単語や表現が含まれるため、何について発言しているのかや、資料に何が書かれているのかが正確に理解できないことがある。その場合、意味が分からない単語や表現を、辞書、過去の会議の資料、又はインターネット上の情報から検索して関連情報を提示することができれば、会議内容の理解に大きな助けとなる。   During a meeting, words or expressions that do not make sense are included in statements or materials, so it may not be possible to understand exactly what is being said or what is written in the material. In that case, if words and expressions whose meanings are not known can be searched from a dictionary, past conference materials, or information on the Internet and related information can be presented, it will greatly help understanding of the content of the conference.

しかしながら、関連情報を提示するためには、意味が分からない語である不明語(未知語)を抽出し、辞書や過去の会議資料、インターネット上の情報等の複数の検索対象に対して検索を行い、検索結果から必要な関連情報を選び出す必要がある。この不明語に対する関連情報検索のための一連の作業は作業コストが高いので、意味が分からない不明語の関連情報を検索せずに分からないままにしておくことが多い。また、コストをかけて会議中に関連情報の検索を行おうとすると、会議に集中できず、会議の話題についていけない等の問題も生じる。   However, in order to present related information, an unknown word (unknown word) that is a word whose meaning is unknown is extracted, and a search is performed on a plurality of search objects such as a dictionary, past conference materials, and information on the Internet. It is necessary to select necessary related information from search results. Since a series of operations for searching related information for the unknown word is expensive, it is often left unrecognized without searching for related information of an unknown word whose meaning is unknown. In addition, when searching for related information during a conference at a high cost, problems such as being unable to concentrate on the conference and keeping up with the topic of the conference also arise.

この不明語に対する関連情報検索のための作業コストを低減するための関連する情報検索手段の一例が、特開2004−157897号(文献1)に記載されている。この文献1に記載された情報検索手段は、インターネット上に最近出現した新語を不明語とみなすことで、不明語の抽出を自動化している。また、自動抽出した不明語に対して関連情報を検索することで、作業コストを低減している。つまり、文献1に記載された方法では、インターネット上の検索語を既知語と未知語との2値で区別し、新語のみを未知語として自動抽出する。そして、その自動抽出した未知語を検索することで作業コストを低減している。   An example of related information search means for reducing the work cost for searching related information for this unknown word is described in Japanese Patent Application Laid-Open No. 2004-157897 (Document 1). The information search means described in this document 1 automates the extraction of unknown words by regarding new words that have recently appeared on the Internet as unknown words. In addition, the operation cost is reduced by searching related information for the automatically extracted unknown word. That is, in the method described in Document 1, search words on the Internet are distinguished by binary values of known words and unknown words, and only new words are automatically extracted as unknown words. And the operation cost is reduced by searching for the automatically extracted unknown words.

また、特開平9−204418号(文献2)では、用語に対する利用者の理解度を履歴として蓄積し知識管理手段を用いて管理することで、利用者に対して用語の理解度に応じた関連情報を提供している。また、この文献2に記載された知識管理手段では、用語毎に理解度を履歴として記録しつづけ、関連情報を提供する毎に理解度を変化させることで、利用者の知識状態を管理している。   Also, in Japanese Patent Laid-Open No. 9-204418 (Document 2), the user's understanding level for terms is stored as a history and managed using knowledge management means, so that the user can be related according to the level of understanding terms. Information is provided. In addition, the knowledge management means described in this document 2 keeps recording the degree of understanding for each term as a history, and changes the degree of understanding each time related information is provided, thereby managing the knowledge state of the user. Yes.

文献1に記載された関連技術の問題点は、不明語を入力するコストを低減することができるものの、不明語入力後の関連情報検索や情報提示の精度を向上させることができないことである。その理由は、文献1に記載された関連技術では、新語ならば不明語であり、新語でなければ不明語でないという2値によって判定しているにすぎない。そのため、不明語の種類によって、検索対象や検索結果を絞り込んだり、検索結果のランク付けを行ったりすることができず、提示情報を変更することができないためである。   The problem with the related technology described in Document 1 is that although the cost of inputting an unknown word can be reduced, the accuracy of related information search and information presentation after the unknown word is input cannot be improved. The reason is that, in the related technology described in Document 1, it is determined only by a binary value that a new word is an unknown word and a new word is not an unknown word. Therefore, depending on the type of unknown word, the search target and the search result cannot be narrowed down or the search result cannot be ranked, and the presentation information cannot be changed.

例えば、特に、会議等で出てくる不明語の場合、単にユーザにとって新語であるため不明語である場合に限らず、過去に参照したことがあるにもかかわらずユーザが忘れてしまったために不明語となったような単語も多く含まれる。その場合、インターネット上の汎用的な情報を提示するのではなく、ユーザの記憶に近い、過去にアクセスした文書を提示できるようにすることが有効である。しかし、文献1に記載された関連技術では、ユーザが過去にアクセスした文書を提示することについては考慮されていない。   For example, in particular, in the case of an unknown word that appears in a meeting or the like, it is unknown because it is a new word for the user and is not limited to the unknown word, but has been forgotten by the user even though it has been referred to in the past. Many words that have become words are also included. In that case, it is effective not to present general-purpose information on the Internet but to present documents accessed in the past that are close to the user's memory. However, in the related technique described in Document 1, it is not considered that a user presents a document accessed in the past.

一方、不明語入力後の関連情報検索や情報提示の精度を向上できるようにする関連技術が、例えば、文献2に記載されている。文献2に記載された関連技術では、履歴として蓄積する利用者の理解度を利用して検索対象や検索結果を絞り込んだり、検索結果のランク付けを行ったりする。そのため、文献2に記載された関連技術を用いれば、不明語入力後の関連情報検索や情報提示の精度をある程度向上させることができる。しかし、文献2に記載された関連技術を用いる場合、利用者の理解度を求めるため、過去の利用者の理解度を蓄積して管理しなければならない。例えば、利用者に適切な関連情報を提供するために、システムは、過去の利用者の理解度を記憶する記憶装置を備えなければならず、利用者の理解度を履歴として管理するためのコストがかかる。また、理解度の蓄積が行われていないユーザに対しては、適切な関連情報を提供することはできない。   On the other hand, a related technique for improving the accuracy of related information search and information presentation after an unknown word is input is described in Document 2, for example. In the related technique described in Document 2, the search target and the search result are narrowed down or the search result is ranked using the user's understanding level accumulated as a history. Therefore, if the related technique described in Document 2 is used, the accuracy of related information search and information presentation after an unknown word is input can be improved to some extent. However, when the related technology described in Document 2 is used, in order to obtain the user's understanding level, the past user's understanding level must be accumulated and managed. For example, in order to provide relevant information appropriate for the user, the system must include a storage device that stores the degree of understanding of past users, and the cost for managing the degree of understanding of users as a history. It takes. In addition, appropriate related information cannot be provided to a user who has not accumulated the degree of understanding.

そこで、本発明は、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる関連情報検索システム及び関連情報検索方法を提供することを目的とする。   Therefore, the present invention provides a related information search system and a related information search method capable of switching a search target according to the type of unknown word and changing a method for presenting related information of a search result without incurring costs. With the goal.

本発明による関連情報検索システムは、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段と、テキスト入力手段により入力されたテキストデータに基づいて、未知語を分類する分類手段と、分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段と、検索手段により検索された関連情報を提示する提示手段とを備える。   A related information search system according to the present invention includes text input means for inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified, and text input by the text input means Classifying means for classifying unknown words based on data, search means for searching related information related to unknown words based on the result of classification of unknown words by the classifying means, and related information searched by the searching means are presented Presenting means.

本発明による関連情報検索方法は、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、入力されたテキストデータに基づいて、未知語を分類するステップと、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、検索された関連情報を提示するステップとを備える。   The related information search method according to the present invention includes a step of inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified, and the unknown data based on the input text data. The method includes a step of classifying words, a step of searching related information related to the unknown word based on the classification result of the unknown word, and a step of presenting the searched related information.

本発明によれば、未知語及び既知語の少なくとも一方が全て指定されたテキストデータに基づいて未知語を分類し、未知語の分類結果に基づいて未知語に関連する関連情報を検索するように構成されているので、未知語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。   According to the present invention, the unknown word is classified based on the text data in which at least one of the unknown word and the known word is all specified, and related information related to the unknown word is searched based on the classification result of the unknown word. Since it is comprised, the search object can be switched and the presentation method of the relevant information of a search result can be changed according to the kind of unknown word.

図1は、本発明による関連情報検索システムの構成の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of the configuration of a related information search system according to the present invention. 図2は、関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理の一例を示す流れ図である。FIG. 2 is a flowchart showing an example of processing in which the related information search system inputs text data and searches for related information related to an unknown word. 図3は、第2の実施形態における関連情報検索システムの構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration example of a related information search system according to the second embodiment. 図4は、第2の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。FIG. 4 is a flowchart showing a processing example in which the related information search system in the second embodiment inputs text data and searches for related information related to an unknown word. 図5は、第3の実施形態における関連情報検索システムの構成例を示すブロック図である。FIG. 5 is a block diagram illustrating a configuration example of a related information search system according to the third embodiment. 図6は、第3の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。FIG. 6 is a flowchart showing a processing example in which the related information search system in the third embodiment inputs text data and searches for related information related to an unknown word. 図7A−図7Cは、関連資料の優先度を加算した不明語に対する関連情報の検索結果のランキングの例を示す説明図である。7A to 7C are explanatory diagrams illustrating an example of a ranking of search results of related information with respect to an unknown word to which the priority of related materials is added.

実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による関連情報検索システムの構成の一例を示すブロック図である。本実施形態では、関連情報検索システムは、会議や講演の発言や資料等に含まれる、聞き手若しくは読み手にとって不明な単語や表現に関連する情報を検索する。
Embodiment 1. FIG.
Next, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of a related information search system according to the present invention. In the present embodiment, the related information search system searches for information related to words or expressions unknown to the listener or reader, which are included in the speech or material of a conference or lecture.

なお、本実施形態において、関連情報検索システムは、不明語からその意味や関連情報を検索する情報検索装置や、情報検索装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。また、関連情報検索システムは、関連情報を検索する機能をテレビ会議やWeb会議等を行う場合に応用した会議支援装置や、会議支援装置をコンピュータを用いて実現するためのプログラムといった用途にも適用できる。また、関連情報検索システムは、関連情報を検索する機能を各種学習情報を検索する場合に応用した学習支援装置の用途や、学習支援装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。また、関連情報検索システムは、関連情報を検索する機能を各種文章読解や外国語の翻訳を行なう場合に応用した読解支援装置の用途や、読解支援装置をコンピュータを用いて実現するためのプログラムといった用途に適用できる。   In the present embodiment, the related information search system can be applied to uses such as an information search device that searches the meaning and related information from unknown words, and a program for realizing the information search device using a computer. The related information search system is also applied to applications such as a conference support apparatus that applies a function for searching for related information when a video conference or a Web conference is performed, and a program for realizing the conference support apparatus using a computer. it can. In addition, the related information search system can be applied to a use of a learning support apparatus in which the function of searching for related information is applied when searching various learning information, or a program for realizing the learning support apparatus using a computer. . In addition, the related information search system includes a use of a reading support device that applies a function of searching related information when reading various texts and translating foreign languages, and a program for realizing the reading support device using a computer. Applicable to usage.

図1に示すように、関連情報検索システムは、プログラム制御により動作するパーソナルコンピュータ等のデータ処理装置1によって実現される。また、データ処理装置1は、入力部11と、不明語分類部12と、関連情報検索部13と、関連情報提示部14とを含む。これらの機能部は、それぞれ概略以下に示すように動作する。   As shown in FIG. 1, the related information retrieval system is realized by a data processing device 1 such as a personal computer that operates by program control. Further, the data processing device 1 includes an input unit 11, an unknown word classification unit 12, a related information search unit 13, and a related information presentation unit 14. Each of these functional units operates as outlined below.

入力部11は、具体的には、プログラムに従って動作するデータ処理装置1のCPU、及びキーボードやマウス等の入力装置によって実現される。入力部11は、ユーザの操作に従って、ユーザにとって未知である未知語(以下、不明語ともいう)、又はユーザにとって既知である既知語が全て指定されたテキストデータを入力する機能を備える。入力部11は、不明語と既知語の両方が全て指定されたテキストデータを入力する機能を備えていてもよい。また、入力部11は、ユーザの操作に従って、不明語の検索指示を入力する機能を備える。   Specifically, the input unit 11 is realized by a CPU of the data processing device 1 that operates according to a program and an input device such as a keyboard and a mouse. The input unit 11 has a function of inputting text data in which all unknown words unknown to the user (hereinafter also referred to as unknown words) or known words known to the user are designated in accordance with the user's operation. The input unit 11 may have a function of inputting text data in which both unknown words and known words are designated. The input unit 11 also has a function of inputting an unknown word search instruction in accordance with a user operation.

本実施形態では、例えば、不明語の種類として、ユーザが全く理解できない分野の単語、ユーザの既知の分野であるがユーザにとって未知である未知語、正式名では理解できるが略語では理解できない語等がある。また、検索対象の不明語に対する関連情報として検索される情報には、略語の正式名称への言い換え辞書の辞書情報、単語の意味を記した辞書の辞書情報、過去に使われた関連資料、インターネット上の情報等がある。   In this embodiment, for example, as a type of unknown word, a word in a field that the user cannot understand at all, an unknown word that is a user's known field but unknown to the user, a word that can be understood by a formal name but cannot be understood by an abbreviation, etc. There is. In addition, information to be searched as related information for unknown words to be searched includes dictionary information of the paraphrase dictionary to the formal name of the abbreviation, dictionary information of the dictionary describing the meaning of the word, related materials used in the past, Internet There is information above.

また、テキストデータとは、例えば、会議資料の文書全体や、文書に含まれるページ、章、節、段落、文、一定の文字数の文字列である。また、テキストデータとは、例えば、ディスプレイ装置等に表示された表示画面内の文章、ユーザが指定した文書中や表示画面中の領域等の一定の範囲のテキストである。なお、テキストデータは、例えば、会議の発言の音声を音声認識したテキストであってよい。この場合、会議における発言全体の音声を音声認識したテキストであってもよく、特定の話者の発言の音声を音声認識したテキストであってもよい。また、一定時間内の発言の音声を音声認識したテキストであってもよい。   The text data is, for example, the entire document of the conference material, pages, chapters, sections, paragraphs, sentences, and a character string with a certain number of characters included in the document. The text data is, for example, text in a certain range such as a sentence in a display screen displayed on a display device or the like, a document specified by a user, or an area in the display screen. Note that the text data may be, for example, text obtained by voice recognition of speech of a conference. In this case, it may be a text obtained by voice recognition of the voice of the entire utterance in the conference, or a text obtained by voice recognition of the voice of a specific speaker. Moreover, the text which recognized the voice of the speech within the fixed time by voice recognition may be sufficient.

本実施形態では、入力対象のテキストデータは、ユーザの操作に従って、そのテキストデータに含まれる全ての語について、未知語又は既知語が予め指定されているものとする。なお、テキストデータは、会議資料等の文書全体又は一部について未知語又は既知語が指定されていてもよいし、複数の文書にまたがって含まれる文字や文字列を1つのテキストデータとみなして未知語又は既知語が指定されていてもよい。   In the present embodiment, it is assumed that, for the text data to be input, unknown words or known words are designated in advance for all words included in the text data in accordance with a user operation. The text data may be specified as unknown words or known words for all or part of the document such as the meeting material, or the character or character string included in a plurality of documents is regarded as one text data. An unknown word or a known word may be designated.

なお、テキストデータは、少なくとも、テキストデータに含まれている全ての語についてユーザによって予めチェックされていれば、未知語及び既知語の両方が予め指定されていてもよく、未知語又は既知語のいずれかが予め指定されていてよい。例えば、テキストデータにおいて未知語のみが指定されている場合、関連情報検索システムは、未知語と指定されている語以外の語を既知語とみなして処理を実行すればよい。また、例えば、テキストデータにおいて既知語のみが指定されている場合、関連情報検索システムは、既知語と指定されている語以外の語を未知語とみなして処理を実行すればよい。   In addition, as long as the text data is checked in advance by the user for at least all the words included in the text data, both unknown words and known words may be designated in advance. Either of them may be designated in advance. For example, when only an unknown word is specified in the text data, the related information search system may perform processing by regarding a word other than the word specified as an unknown word as a known word. Further, for example, when only a known word is specified in text data, the related information search system may perform processing by regarding a word other than a word specified as a known word as an unknown word.

また、入力部11は、文書中又は文書群中のユーザによって指定された範囲を1つのテキストデータとして入力してもよいし、文書又は文書群を所定区間毎に(例えば、1ページ毎に、1文書毎に)自動的に抽出して1つのテキストデータとしてもよい。   Further, the input unit 11 may input a range designated by the user in the document or the document group as one text data, or the document or the document group every predetermined section (for example, every page, It may be extracted automatically (for each document) as one text data.

不明語分類部12は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。不明語分類部12は、入力部11から不明語の検索指示及びテキストデータを入力すると、入力したテキストデータに基づいてユーザの知識を推定する機能を備える。また、不明語分類部12は、そのユーザの知識の推定結果に基づいて不明語を複数の種類に分類する機能を備える。   Specifically, the unknown word classification unit 12 is realized by the CPU of the data processing device 1 that operates according to a program. When an unknown word search instruction and text data are input from the input unit 11, the unknown word classification unit 12 has a function of estimating the user's knowledge based on the input text data. Moreover, the unknown word classification | category part 12 is provided with the function which classifies an unknown word into a some kind based on the estimation result of the user's knowledge.

なお、不明語分類部12は、例えば、テキストデータ中に含まれる不明語の密度を示す不明語密度に基づいて、ユーザの知識を推定し不明語を分類する。また、不明語分類部12は、例えば、テキストデータ中に含まれるある不明語に対して、言い換え語が存在するか否かを判定し、その言い換え語も不明語であるか否かを判定することによって、ユーザの知識を推定し不明語を分類する。   The unknown word classifying unit 12 estimates the user's knowledge and classifies the unknown words based on the unknown word density indicating the density of unknown words included in the text data, for example. For example, the unknown word classification unit 12 determines whether there is a paraphrase word for a certain unknown word included in the text data, and determines whether the paraphrase word is also an unknown word. Thus, the user's knowledge is estimated and unknown words are classified.

関連情報検索部13は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。関連情報検索部13は、不明語分類部12による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する機能を備える。この場合、関連情報検索部13は、不明語分類部12が求めた不明語の分類結果を用いて、不明語に対する検索対象の関連情報を選択する。そして、関連情報検索部13は、選択した関連情報の検索を行う。この場合、例えば、関連情報検索部13は、不明語の分類結果に基づいて、検索対象の関連情報を変更し、関連情報の検索を行う。なお、関連情報検索部13は、不明語に対して1つの関連情報を検索してもよいし、複数の関連情報を検索してもよい。   Specifically, the related information search unit 13 is realized by the CPU of the data processing device 1 that operates according to a program. The related information search unit 13 has a function of searching related information related to the unknown word based on the unknown word classification result by the unknown word classification unit 12. In this case, the related information search unit 13 uses the unknown word classification result obtained by the unknown word classification unit 12 to select related information to be searched for the unknown word. Then, the related information search unit 13 searches for the selected related information. In this case, for example, the related information search unit 13 changes the related information to be searched based on the unknown word classification result, and searches for related information. Note that the related information search unit 13 may search for one related information or a plurality of related information for an unknown word.

関連情報検索部13は、検索対象の関連情報として、例えば、予め蓄積する文書ファイルや辞書ファイル、インターネット上のWebサイトの情報等を検索する。また、関連情報検索部13は、検索対象の関連情報として、不明語の説明の詳細度を用いて、説明が詳細である文書ファイル、又は説明が簡単である文書ファイルを区別して検索してもよい。説明の詳細度として、関連情報検索部13は、例えば、不明語が文書の題名や章、節のタイトルに含まれる場合には、文章全体を詳細な説明として検索することができる。また、不明語に対して括弧書きで説明が含まれる場合や、不明語が1行で定義されている場合等には、その文書を簡単な説明として検索することができる。 また、関連情報検索部13は、例えば、辞書等の定義文の長さにより区別して、関連情報を検索してもよい。   The related information search unit 13 searches, for example, document files and dictionary files stored in advance, information on Web sites on the Internet, and the like as related information to be searched. Further, the related information search unit 13 may use the detail level of the explanation of the unknown word as the related information to be searched to distinguish and search for a document file with a detailed explanation or a document file with a simple explanation. Good. For example, when the unknown word is included in the title, chapter, or section title of the document, the related information search unit 13 can search the entire sentence as a detailed description as the detailed level of explanation. In addition, when an unknown word includes a description in parentheses, or when the unknown word is defined in one line, the document can be searched as a simple explanation. In addition, the related information search unit 13 may search for related information by distinguishing the length of definition sentences such as a dictionary, for example.

また、関連情報検索部13は、不明語の分類結果の組み合わせに対して検索対象を設定する所定のルールによって、検索対象の関連情報を設定してもよい。この場合、関連情報検索部13は、検索対象の関連情報を、ルールで指定した適切な検索対象の関連情報に決定することができる。   Further, the related information search unit 13 may set related information to be searched according to a predetermined rule for setting a search target for a combination of unknown word classification results. In this case, the related information search unit 13 can determine the related information to be searched as the related information to be searched appropriately specified by the rule.

関連情報提示部14は、具体的には、プログラムに従って動作するデータ処理装置1のCPU、及びディスプレイ装置等の出力装置によって実現される。関連情報提示部14は、検索結果の関連情報を提示する機能を備える。この場合、例えば、関連情報提示部14は、関連情報検索部13が検索した関連情報を、ディスプレイ装置等の表示装置に表示する。なお、関連情報提示部14は、関連情報検索部13が検索した関連情報が複数ある場合には、所定のルールに従って、関連情報をランキングして表示してもよい。   Specifically, the related information presentation unit 14 is realized by the CPU of the data processing device 1 that operates according to a program and an output device such as a display device. The related information presentation unit 14 has a function of presenting related information of search results. In this case, for example, the related information presentation unit 14 displays the related information searched by the related information search unit 13 on a display device such as a display device. In addition, the related information presentation part 14 may rank and display related information according to a predetermined rule, when there are multiple pieces of related information searched by the related information search part 13.

なお、関連情報提示部14は、例えば、関連情報検索部13が検索した関連情報を、プリンタ等の印刷装置に出力するようにしてもよい。また、関連情報提示部14は、例えば、関連情報検索部13が検索した関連情報を電子データとして出力するようにしてもよい。   The related information presentation unit 14 may output the related information searched by the related information search unit 13 to a printing apparatus such as a printer. In addition, the related information presentation unit 14 may output the related information searched by the related information search unit 13 as electronic data, for example.

また、本実施形態において、データ処理装置1の記憶装置(図示せず)は、テキストデータに含まれる不明語(未知語)に関連する関連情報を検索するための各種プログラムを記憶している。例えば、データ処理装置1の記憶装置は、コンピュータに、未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、入力したテキストデータに基づいて、未知語に対するユーザの知識及び未知語の関連分野に対するユーザの知識を推定することによって、未知語を分類するステップと、未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、検索した関連情報を提示するステップとを実行させるための関連情報検索用プログラムを記憶している。この関連情報検索用プログラムは、磁気ディスクや光ディスクなどの、機械読み取り可能な記録媒体に記録された状態で提供することができる。インターネットなどの電気通信回線を通じて提供することもできる。   In the present embodiment, the storage device (not shown) of the data processing device 1 stores various programs for searching related information related to unknown words (unknown words) included in the text data. For example, the storage device of the data processing device 1 inputs the text data in which at least one of the unknown word and the known word known to the user is specified to the computer, and the unknown word based on the input text data. Classifying the unknown word by estimating the user's knowledge and the related field of the unknown word, and retrieving related information related to the unknown word based on the classification result of the unknown word; A related information search program for executing the step of presenting the searched related information is stored. The related information retrieval program can be provided in a state of being recorded on a machine-readable recording medium such as a magnetic disk or an optical disk. It can also be provided through a telecommunication line such as the Internet.

次に、動作について説明する。図2は、関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理の一例を示す流れ図である。図2に示すように、関連情報検索システムの入力部11は、まず、ユーザの操作に従って、未知語(不明語)又は既知語が全て指定されたテキストデータを入力する(ステップS10)。   Next, the operation will be described. FIG. 2 is a flowchart showing an example of processing in which the related information search system inputs text data and searches for related information related to an unknown word. As shown in FIG. 2, the input unit 11 of the related information search system first inputs text data in which all unknown words (unknown words) or known words are designated in accordance with a user operation (step S10).

次に、不明語分類部12は、入力したテキストデータに基づいて、ユーザの知識を推定する。そして、不明語分類部12は、そのユーザの知識の推定結果に基づいて不明語を分類する(ステップS11)。   Next, the unknown word classification | category part 12 estimates a user's knowledge based on the input text data. And the unknown word classification | category part 12 classifies an unknown word based on the estimation result of the user's knowledge (step S11).

次に、関連情報検索部13は、不明語の分類結果に従って、検索対象の関連情報を決定し関連情報を検索する(ステップS12)。そして、関連情報提示部14は、検索した関連情報をディスプレイ装置等の表示装置に表示する(ステップS13)。   Next, the related information search unit 13 determines related information to be searched according to the unknown word classification result, and searches for related information (step S12). Then, the related information presentation unit 14 displays the searched related information on a display device such as a display device (step S13).

以上のように、本実施形態によれば、関連情報検索システムは、入力したテキストデータに基づいて不明語を分類する。そして、分類した不明語の種別に従って、検索対象の関連情報を変更したり、ランキングして表示したりする。そのため、不明語の分類に従って自動的に検索対象の不明語に対する関連情報を選択し、検索する関連情報をランキングすることができる。従って、ユーザに不明語に対する関連情報を提示するためのユーザの作業コストを削減することができる。   As described above, according to the present embodiment, the related information search system classifies unknown words based on the input text data. Then, the related information to be searched is changed or ranked and displayed according to the classified unknown word type. Therefore, it is possible to automatically select related information for the unknown word to be searched according to the classification of the unknown word, and rank related information to be searched. Therefore, it is possible to reduce the user's work cost for presenting relevant information for unknown words to the user.

また、本実施形態によれば、予めユーザの知識の履歴情報を蓄積しなくても、入力したテキストデータに基づいてユーザの知識を推定して関連情報を検索できるので、コストをかけることなく、関連情報を提供することができる。従って、コストをかけることなく、不明語の種類によって、検索対象を切り替え、検索結果の関連情報の提示方法を変更することができる。   Moreover, according to the present embodiment, it is possible to estimate the user's knowledge based on the input text data and search related information without accumulating the user's knowledge history information in advance. Related information can be provided. Therefore, the search target can be switched and the method for presenting the related information of the search result can be changed depending on the type of the unknown word without incurring costs.

例えば、特開平9−204418号公報に記載された関連技術では、関連情報検索や情報提示の精度を向上させるために、過去のユーザの理解度(知識)を示す履歴情報をデータベース等に蓄積しなければならず、履歴情報を管理するためのコストや管理負担が大きい。これに対し、本実施形態によれば、過去のユーザの知識の履歴情報を蓄積する必要をなくすることができるので、コストをかけることなく、関連情報を提供することができる。   For example, in the related technique described in Japanese Patent Laid-Open No. 9-204418, historical information indicating the degree of understanding (knowledge) of past users is accumulated in a database or the like in order to improve the accuracy of related information search and information presentation. The cost and management burden for managing history information must be large. On the other hand, according to the present embodiment, it is possible to eliminate the need to accumulate past user knowledge history information, and thus it is possible to provide related information without incurring costs.

また、本実施形態によれば、過去の履歴情報によることなく、未知語又は既知語が指定されたテキストデータに基づいて関連情報を検索するので、未知語に限らず、ユーザが現在の段階で知りたい語に対しても関連情報を検索して提示することができる。例えば、現在の段階で知りたい語を未知語としてテキストデータ上で指定すれば、未知語に対する関連情報だけでなく、意味を再確認したい語等の現在の段階で知りたい語に対しても関連情報を検索して提示することができる。   In addition, according to the present embodiment, the related information is searched based on text data in which an unknown word or a known word is designated without using past history information. You can search and present related information for the words you want to know. For example, if the word you want to know at the current stage is specified on the text data as an unknown word, not only the related information for the unknown word but also the word you want to know at the current stage, such as the word whose meaning you want to reconfirm Information can be retrieved and presented.

実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。なお、本実施形態では、第1の実施形態で示した関連情報検索システムのうち、不明語の分類の方法として、不明語密度に基づいて、ユーザの知識を推定し不明語を分類する場合を説明する。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. In the present embodiment, in the related information retrieval system shown in the first embodiment, as a method of classifying unknown words, a case where the user's knowledge is estimated and unknown words are classified based on the unknown word density. explain.

図3は、第2の実施形態における関連情報検索システムの構成例を示すブロック図である。図3に示すように、本実施形態では、関連情報検索システムにおいて、不明語分類部12Aが不明語密度解析部121及びカテゴリ分類部122を含む点で、第1の実施形態と異なる。   FIG. 3 is a block diagram illustrating a configuration example of a related information search system according to the second embodiment. As shown in FIG. 3, the present embodiment is different from the first embodiment in that the unknown word classification unit 12A includes an unknown word density analysis unit 121 and a category classification unit 122 in the related information search system.

不明語密度解析部121及びカテゴリ分類部122は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。不明語密度解析部121は、入力部11が入力したテキストデータに基づいて、テキストデータ中の不明語の数から、テキストデータ中に含まれる不明語の密度を示す不明語密度を計算する機能を備える。   Specifically, the unknown word density analysis unit 121 and the category classification unit 122 are realized by the CPU of the data processing device 1 that operates according to a program. The unknown word density analysis unit 121 has a function of calculating an unknown word density indicating the density of unknown words included in the text data from the number of unknown words in the text data based on the text data input by the input unit 11. Prepare.

カテゴリ分類部122は、不明語密度解析部121が求めたテキストデータ中の不明語密度に基づいて、不明語を複数のカテゴリに分類する機能を備える。本実施形態では、不明語を不明語密度に基づいて、不明語密度が高いカテゴリ(第1のカテゴリ)と不明語密度が低いカテゴリ(第2のカテゴリ)とに分類する。不明語密度の高低は、例えば、不明語密度が所定の閾値より大きいか否かで区分できる。   The category classification unit 122 has a function of classifying unknown words into a plurality of categories based on the unknown word density in the text data obtained by the unknown word density analysis unit 121. In this embodiment, unknown words are classified into a category with a high unknown word density (first category) and a category with a low unknown word density (second category) based on the unknown word density. The level of unknown word density can be classified, for example, by whether or not the unknown word density is greater than a predetermined threshold.

本実施形態では、不明語密度による分類結果に基づいて検索対象の関連情報を選択することで、読み手(ユーザ)に不明語についての適切な説明を提供することができる。例えば、不明語分類部12Aは、不明語密度解析部121が求めた不明語密度が高ければ、テキストデータに含まれる文書の内容が、読み手(ユーザ)が詳しくない分野の内容であると判断できる。この場合、不明語分類部12Aは、不明語に対して詳細な説明を含む文章や、詳細な説明が書かれた専門用語辞書を、優先度を上げて検索対象の関連情報として選択する。そのようにすることで、読み手に詳しい説明を提供することができる。   In the present embodiment, by selecting relevant information to be searched based on the classification result based on the unknown word density, it is possible to provide the reader (user) with an appropriate explanation about the unknown word. For example, if the unknown word density obtained by the unknown word density analysis unit 121 is high, the unknown word classification unit 12A can determine that the content of the document included in the text data is the content of a field that the reader (user) is not familiar with. . In this case, the unknown word classification unit 12A selects a sentence including a detailed description for the unknown word or a technical term dictionary in which the detailed description is written as priority related information to be searched. Doing so can provide a detailed explanation to the reader.

また、不明語分類部12Aは、不明語密度解析部121が求めた不明語密度が低ければ、テキストデータに含まれる文書の内容が、読み手にとってある程度理解できる分野の内容であると判断できる。そのため、不明語分類部12Aは、不明語に対して簡単な説明を含む文章や、文書中の簡単な説明部分だけを、検索対象の関連情報として選択する。また、不明語分類部12Aは、略語辞書等の簡単な説明を、検索対象の関連情報として選択する。ここでいう「簡単な説明」は、上記の「詳細な説明」を所定量の説明とすると、その所定量よりも簡潔な説明と捉えることができる。   Further, if the unknown word density obtained by the unknown word density analysis unit 121 is low, the unknown word classification unit 12A can determine that the content of the document included in the text data is in a field that can be understood to some extent by the reader. For this reason, the unknown word classification unit 12A selects, as the related information to be searched, only a sentence including a simple explanation for the unknown word or a simple explanation part in the document. Further, the unknown word classification unit 12A selects a simple description such as an abbreviation dictionary as related information to be searched. The “simple description” here can be regarded as a simpler description than the predetermined amount when the above-mentioned “detailed description” is a predetermined amount of description.

なお、不明語密度解析部121は、不明語密度として、不明語の数を文章中の全単語数で除算した値を求めてもよい。また、不明語密度解析部121は、テキストデータ中の不明語の数をそのまま不明語密度として利用してもよい。   The unknown word density analysis unit 121 may obtain a value obtained by dividing the number of unknown words by the total number of words in the sentence as the unknown word density. Further, the unknown word density analysis unit 121 may use the number of unknown words in the text data as it is as the unknown word density.

次に、動作について図面を参照して説明する。図4は、第2の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。図4において、ステップS10の処理は、第1の実施形態で示した処理と同様である。   Next, the operation will be described with reference to the drawings. FIG. 4 is a flowchart showing a processing example in which the related information search system in the second embodiment inputs text data and searches for related information related to an unknown word. In FIG. 4, the process of step S10 is the same as the process shown in the first embodiment.

次に、不明語分類部12Aの不明語密度解析部121は、入力したテキストデータに基づいて、テキストデータの文字列中の不明語密度を計算する(ステップS111A)。次に、不明語分類部12Aのカテゴリ分類部122は、不明語密度解析部121が求めた不明語密度に基づいて、不明語を分類する(ステップS112A)。この場合、例えば、カテゴリ分類部122は、不明語密度解析部121が求めた不明語密度が所定の閾値より大きいか否かを判定する。   Next, the unknown word density analysis unit 121 of the unknown word classification unit 12A calculates the unknown word density in the character string of the text data based on the input text data (step S111A). Next, the category classification unit 122 of the unknown word classification unit 12A classifies the unknown words based on the unknown word density obtained by the unknown word density analysis unit 121 (step S112A). In this case, for example, the category classification unit 122 determines whether or not the unknown word density obtained by the unknown word density analysis unit 121 is greater than a predetermined threshold.

不明語密度が高いと判断した場合には、関連情報検索部13は、不明語に対して詳細な説明を含む関連情報を検索する(ステップS121A)。また、不明語密度が低いと判断した場合には、関連情報検索部13は、不明語に対して簡潔な説明を含む関連情報を検索する(ステップS122A)。   When it is determined that the unknown word density is high, the related information search unit 13 searches for related information including a detailed description for the unknown word (step S121A). If it is determined that the unknown word density is low, the related information search unit 13 searches for related information including a brief explanation for the unknown word (step S122A).

なお、図4において、ステップS13の処理は、第1の実施形態で示した処理と同様である。   In FIG. 4, the process of step S13 is the same as the process shown in the first embodiment.

以上のように、本実施形態によれば、テキストデータ中の不明語密度に基づいて不明語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。   As described above, according to the present embodiment, unknown words are classified based on the unknown word density in the text data. Therefore, it is determined whether or not the contents of the text data are contents that can be understood by the user. Can do. Therefore, appropriate related information can be selected and presented depending on whether the content of the text data is in a field that can be understood by the user.

実施形態3.
次に、本発明の第3の実施形態について図面を参照して説明する。なお、本実施形態では、第1の実施形態で示した関連情報検索システムのうち、不明語の分類の方法として、ある不明語に対する言い換え語もユーザにとって不明語であるか否かに基づいて、ユーザの知識を推定し不明語を分類する場合を説明する。
Embodiment 3. FIG.
Next, a third embodiment of the present invention will be described with reference to the drawings. In this embodiment, as a method of classification of unknown words in the related information search system shown in the first embodiment, based on whether a paraphrase for a certain unknown word is also an unknown word for the user, A case where the user's knowledge is estimated and unknown words are classified will be described.

図5は、第3の実施形態における関連情報検索システムの構成例を示すブロック図である。図5に示すように、本実施形態では、関連情報検索システムにおいて、不明語分類部12Bが言い換え表現既知判定部123及びカテゴリ分類部124を含む点で、第1の実施形態と異なる。また、関連情報検索システムが、略語辞書等の言い換え用辞書3を含む点で、第1の実施形態と異なる。   FIG. 5 is a block diagram illustrating a configuration example of a related information search system according to the third embodiment. As shown in FIG. 5, the present embodiment is different from the first embodiment in that the unknown word classification unit 12B includes a paraphrase expression known determination unit 123 and a category classification unit 124 in the related information search system. Further, the related information retrieval system is different from the first embodiment in that it includes a paraphrase dictionary 3 such as an abbreviation dictionary.

言い換え辞書3は、例えば、略語辞書やカタカナ語辞書等である。言い換え辞書3は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置に記憶される。また、例えば、言い換え辞書3は、データ処理装置1が内蔵するハードディスク装置に記憶されていてもよい。   The paraphrase dictionary 3 is, for example, an abbreviation dictionary or a katakana dictionary. Specifically, the paraphrase dictionary 3 is stored in a storage device such as a magnetic disk device or an optical disk device. Further, for example, the paraphrase dictionary 3 may be stored in a hard disk device built in the data processing device 1.

言い換え表現既知判定部123及びカテゴリ分類部124は、具体的には、プログラムに従って動作するデータ処理装置1のCPUによって実現される。言い換え表現既知判定部123は、記憶装置に記憶する言い換え辞書3に基づいて、不明語の言い換え語を抽出する機能を備える。   Specifically, the paraphrase expression known determination unit 123 and the category classification unit 124 are realized by the CPU of the data processing device 1 that operates according to a program. The paraphrased expression known determination unit 123 has a function of extracting an unknown word paraphrase based on the paraphrase dictionary 3 stored in the storage device.

言い換え表現既知判定部123は、例えば、テキストデータ中に含まれる語の中に、言い換え辞書3に含まれる語に合致するものがあるか否かを判断し、テキストデータ中に含まれる言い換え語を特定する。この場合、言い換え表現既知判定部123は、テキストデータ中に不明語として指定されている語のうち、言い換え語が存在するものを特定する。また、言い換え表現既知判定部123は、その不明語に対する言い換え語がテキストデータ中に含まれているか否かを判断する。その不明語に対する言い換え語が含まれていれば、言い換え表現既知判定部123は、その言い換え語についても不明語として指定されているか否かを判定する。そのようにすることによって、言い換え表現既知判定部123は、言い換え語がユーザにとって理解できる単語か、言い換え語も不明語であるかを判定することができる。   For example, the paraphrased expression known determination unit 123 determines whether there is a word that matches the word included in the paraphrase dictionary 3 among the words included in the text data, and determines the paraphrase word included in the text data. Identify. In this case, the paraphrased expression known determination unit 123 identifies words having a paraphrase word among the words specified as unknown words in the text data. Further, the paraphrase expression known determination unit 123 determines whether or not a paraphrase word for the unknown word is included in the text data. If the paraphrase word for the unknown word is included, the paraphrase expression known determination unit 123 determines whether the paraphrase word is also designated as an unknown word. By doing so, the paraphrase expression known determination unit 123 can determine whether the paraphrase word can be understood by the user or whether the paraphrase word is also an unknown word.

カテゴリ分類部124は、言い換え表現既知判定部123による言い換え語が不明語であるか否かの判定結果に基づいて、不明語が言い換え語に置き換えることにより理解できる単語であるか、言い換えても不明な単語であるかを分類する機能を備える。すなわち、カテゴリ分類部124は、言い換え語が不明語であるか否かの判定結果に基づいて、不明語を、言い換え表現に置き換えることにより理解できる語のカテゴリ(第3のカテゴリ)と、言い換え表現に置き換えても理解できない語のカテゴリ(第4のカテゴリ)とに分類する。   The category classification unit 124 determines whether the unknown word is a word that can be understood by replacing it with the paraphrase word based on the determination result of the paraphrase expression known determination unit 123 as to whether it is an unknown word, or it is unknown even if it is paraphrased. It has a function to classify whether it is a simple word. That is, the category classification unit 124, based on the determination result of whether or not the paraphrase word is an unknown word, a category of word (third category) that can be understood by replacing the unknown word with the paraphrase expression, and the paraphrase expression. Is classified into a category of words (fourth category) that cannot be understood even if replaced with.

関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語が言い換え語に置き換えることにより理解できる単語である場合には、不明語に代えて言い換え語の提示を行うことを優先する制御を行なう。そのように、言い換え語に置き換えて提示することによって、読み手が不明語について理解することができる。この場合、ユーザは用語の内容について理解しているにもかかわらず、不明語の表記に仕方によって既知の内容に直ちに結びつけられないだけだからである。   When the unknown word is a word that can be understood by replacing the unknown word with the paraphrase word based on the classification result of the unknown word classification unit 12B, the related information search unit 13B presents the paraphrase word instead of the unknown word. Give priority control. As such, the reader can understand the unknown word by replacing it with the paraphrase word. In this case, even though the user understands the contents of the terms, the notation of the unknown word is not immediately linked to the known contents depending on the way.

また、関連情報検索部13Bは、不明語を言い換え語に言い換えても不明な単語である場合には、言い換え語に変換して表示するだけではなく、詳細な説明を含む関連情報を優先して表示する。そのようにすることによって、読み手が不明語について理解することができる。この場合、ユーザは単に語の表記がわからないのではなく用語の内容についてまったくわからない場合であるため、詳細な説明を含む関連情報を読んで始めて理解できる場合だからである。   In addition, the related information search unit 13B gives priority to the related information including the detailed description as well as displaying it after converting the unknown word into the paraphrase and converting it into the paraphrase. indicate. By doing so, the reader can understand the unknown word. In this case, the user is not simply unaware of the notation of the word but is unaware of the contents of the term at all. Therefore, the user can understand only after reading the related information including the detailed explanation.

次に、動作について図面を参照して説明する。図6は、第3の実施形態における関連情報検索システムがテキストデータを入力し不明語に関連する関連情報を検索する処理例を示す流れ図である。図6において、ステップS10の処理は、第1の実施形態で示した処理と同様である。   Next, the operation will be described with reference to the drawings. FIG. 6 is a flowchart showing a processing example in which the related information search system in the third embodiment inputs text data and searches for related information related to an unknown word. In FIG. 6, the process of step S10 is the same as the process shown in the first embodiment.

次に、言い換え表現既知判定部123は、記憶装置に記憶する不明語の言い換え語を辞書から取得(抽出)する(ステップS111B)。また、言い換え表現既知判定部123は、取得した言い換え語に基づいて、テキストデータ中に含まれるある不明語に対する言い換え語が、そのテキストデータ中の文書や単語に含まれているか否か確認(判定)する(S112B)。テキストデータ中に言い換え語が含まれていると判断した場合には、言い換え表現既知判定部123は、さらに、その言い換え語も不明語であるか否かを判断する(ステップS113B)。   Next, the paraphrased expression known determination unit 123 acquires (extracts) an unknown word paraphrase stored in the storage device from the dictionary (step S111B). The paraphrase expression known determination unit 123 checks whether or not a paraphrase word for an unknown word included in the text data is included in the document or word in the text data based on the acquired paraphrase word (determination). (S112B). When it is determined that the paraphrase word is included in the text data, the paraphrase expression known determination unit 123 further determines whether the paraphrase word is also an unknown word (step S113B).

不明語の言い換え語も不明語であると判定すると、カテゴリ分類部124は、その判定結果に基づいて、テキストデータ中に含まれる不明語を言い換え語に置き換えても、ユーザに理解できない単語であると分類する。そして、関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語に対する詳細な説明を含む関連情報を検索する(ステップS121B)。   If it is determined that the paraphrase word of the unknown word is also an unknown word, the category classification unit 124 is a word that cannot be understood by the user even if the unknown word included in the text data is replaced with the paraphrase word based on the determination result. Classify as Then, the related information search unit 13B searches for related information including a detailed description for the unknown word based on the classification result of the unknown word classification unit 12B (step S121B).

置き換え語が不明語ではないと判定すると、カテゴリ分類部124は、その判定結果に基づいて、テキストデータ中に含まれる不明語を言い換え語に置き換えることにより、ユーザに理解できる単語であると分類する。そして、関連情報検索部13Bは、不明語分類部12Bの分類結果に基づいて、不明語対する簡潔な説明を含む関連情報を検索する(ステップS122B)。   If it is determined that the replacement word is not an unknown word, the category classification unit 124 classifies the unknown word included in the text data as a word that can be understood by the user by replacing the unknown word included in the text data with a paraphrase based on the determination result. . Then, the related information search unit 13B searches for related information including a brief explanation for the unknown word based on the classification result of the unknown word classification unit 12B (step S122B).

なお、ステップS112Bでテキストデータ中に言い換え語が含まれていないと判断した場合には、ステップS123Bに移行し、関連情報検索部13Bは、第1の実施形態で示したステップS12と同様の処理に従って、関連情報を検索する(ステップS123B)。   If it is determined in step S112B that the paraphrase is not included in the text data, the process proceeds to step S123B, and the related information search unit 13B performs the same process as step S12 described in the first embodiment. The related information is searched according to (step S123B).

なお、図6において、ステップS13の処理は、第1の実施形態で示した処理と同様である。ただし、関連情報提示部14は、ステップS113Bで言い換え語が不明語でないと判断した場合には、簡潔な説明を含む関連情報とともに、関連情報として言い換え情報そのものを表示してもよい。   In FIG. 6, the process in step S13 is the same as the process shown in the first embodiment. However, if the related information presenting unit 14 determines in step S113B that the paraphrase word is not an unknown word, the related information presentation unit 14 may display the paraphrase information itself as the related information together with the related information including a brief description.

以上のように、本実施形態によれば、不明語に対する言い換え語があるか否かを判断し、その言い換え語も不明語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。   As described above, according to the present embodiment, it is determined whether there is a paraphrase for the unknown word, and the unknown word is classified based on whether the paraphrase is also an unknown word. Appropriate related information can be selected and presented depending on whether there is a possible paraphrase.

次に、本発明の第1の実施例を図面を参照して説明する。なお、本実施例で示す関連情報検索システムは、第2の実施形態で示した関連情報検索システムに相当する。また、本実施例では、関連情報検索システムは、データ処理装置1としてパーソナル・コンピュータを用いて実現される。また、データ処理装置1は、出力装置としてディスプレイ装置を備えている。   Next, a first embodiment of the present invention will be described with reference to the drawings. The related information search system shown in this example corresponds to the related information search system shown in the second embodiment. In the present embodiment, the related information retrieval system is realized using a personal computer as the data processing apparatus 1. The data processing device 1 includes a display device as an output device.

関連情報検索システムは、ユーザの操作に従って、未知語(不明語)又は既知語が予め指定されたテキストデータを入力する。例えば、ユーザが、ディプレイ装置に表示される文書上でマウスクリック等の操作を行って不明語を指定することによって、関連情報検索システムは、その不明語を検索する。   The related information search system inputs text data in which an unknown word (unknown word) or a known word is designated in advance according to a user operation. For example, when the user designates an unknown word by performing an operation such as a mouse click on a document displayed on the display device, the related information search system searches for the unknown word.

テキストデータは、会議資料文書中の文字列や、会議の発言の音声認識結果の文字列である。ここで、テキストデータが会議資料文書中の文字列である場合には、文書全体や、文書に含まれるページ、章、節、段落、文、一定の文字数の文字列である。また、テキストデータは、ディスプレイ装置等に表示された表示画面内の文章、ユーザが指定した文書中や表示画面中の領域等の一定の範囲の文字列でもよい。   The text data is a character string in the conference material document or a character string of the speech recognition result of the conference speech. Here, when the text data is a character string in the conference material document, it is a character string of the entire document, a page, a chapter, a section, a paragraph, a sentence, or a certain number of characters included in the document. The text data may be a text string in a certain range such as a sentence in a display screen displayed on a display device or the like, a document specified by a user, or an area in the display screen.

また、対象文書が音声認識結果の文字列である場合には、会議全体の音声を音声認識した文字列であってもよく、特定の話者の発言の区間の音声を音声認識した文字列であってもよい。また、一定時間内の音声を音声認識した文字列であってもよく、会議の特定のスライドが表示されている期間等一定の範囲の音声認識結果の文字列でもよい。   In addition, when the target document is a character string of a speech recognition result, it may be a character string obtained by speech recognition of the speech of the entire conference, or a character string obtained by speech recognition of speech of a specific speaker's speech section. There may be. Further, it may be a character string obtained by voice recognition of a voice within a certain time, or may be a character string of a voice recognition result within a certain range such as a period during which a specific slide of a conference is displayed.

本実施例では、関連情報検索システムは、以下に示す例文1をテキストデータとして入力する。   In this embodiment, the related information retrieval system inputs the following example sentence 1 as text data.

例文1「本システムは、業務ごとに異なるアプリケーションのマスタデータを統合する機能に加え、在庫回転率や納期遵守率、リードタイム誤差等のKPI(Key Performance Indicator )と呼ばれる経営指標を監視することで、ビジネスプロセスの遂行状況を的確に把握する機能を有しています。これにより、ビジネスプロセスにおける問題点の早期発見と迅速な対策、計画系システムへの素早いフィードバック、KPIを通した他社とのベンチマーキングとベスト・プラクティスに基づいた最適なビジネスプロセスのスムーズな導入・定着を実現いたします。」   Example 1 “This system monitors the management index called Key Performance Indicator (KPI) such as inventory turnover rate, delivery time compliance rate, lead time error, etc. in addition to the function to integrate master data of different applications for each business. Has a function to accurately grasp the execution status of business processes, thereby enabling early detection of problems in business processes and quick countermeasures, quick feedback to planning systems, and benches with other companies through KPI. We will ensure the smooth introduction and establishment of optimal business processes based on marking and best practices. "

例文1を読んだユーザは、例えば、テキストデータ中に登場する順に、「KPI」、「Key Performance Indicator 」、「ビジネスプロセス」、「KPI」、「ビジネスプロセス」、「ベンチマーキング」、「ベストプラクティス」、及び「ビジネスプロセス」の語を理解できなかったものとする。   The user who reads the example sentence 1 is, for example, “KPI”, “Key Performance Indicator”, “Business Process”, “KPI”, “Business Process”, “Benchmarking”, “Best Practice” in the order of appearance in the text data. ”And“ business process ”.

ユーザは、理解できなかった語を不明語として、システムに対して指定操作を行う。すると、関連情報検索システムは、ユーザの操作に従って、「KPI」、「ビジネスプロセス」、「KPI」、「ビジネスプロセス」、「ベンチマーキング」、「ベストプラクティス」、及び「ビジネスプロセス」が不明語であることが指定された例文1の文章をテキストデータとして入力する。   The user performs a designation operation on the system with the word that could not be understood as an unknown word. Then, in the related information search system, “KPI”, “Business Process”, “KPI”, “Business Process”, “Benchmarking”, “Best Practice”, and “Business Process” are unknown words according to the user's operation. The sentence of the example sentence 1 designated to be present is input as text data.

ここで、ユーザは、不明語「KPI」に対する関連情報を参照したい場合、「KPI」に対する関連情報を、システムに対して要求操作を行う。関連情報検索システムの入力部11は、ユーザの操作に従って、不明語「KPI」に対する関連情報の要求を受け付ける。すると、不明語分類部12Aは、入力したテキストデータに基づいて、不明語の分類を行う。   Here, when the user wants to refer to related information for the unknown word “KPI”, the user performs a request operation for related information for “KPI” to the system. The input unit 11 of the related information search system accepts a request for related information for the unknown word “KPI” in accordance with a user operation. Then, the unknown word classification | category part 12A classifies an unknown word based on the input text data.

まず、不明語密度解析部121は、入力したテキストデータに基づいて、不明語密度を計算する。例えば、不明語密度解析部121は、入力したテキストデータに対して形態素解析を行う。そして、不明語密度解析部121は、例えば、形態素解析によって抽出した文章中の単語(名詞句)が32語あり、そのうち不明語が8語であるとすると、不明語の数を全ての単語の数で除算して、不明語密度を8/32=0.25と計算する。   First, the unknown word density analysis unit 121 calculates the unknown word density based on the input text data. For example, the unknown word density analysis unit 121 performs morphological analysis on the input text data. Then, for example, if there are 32 words (noun phrases) in the sentence extracted by morphological analysis, and the number of unknown words is 8 words, the unknown word density analysis unit 121 calculates the number of unknown words for all words. Divide by number to calculate unknown word density as 8/32 = 0.25.

なお、不明語密度解析部121は、不明語密度の計算を行う場合、単語の数をカウントする処理で、テキストデータ中に同じ単語が複数指定されているときには、同じ単語を1つと数えてカウントしてもよい。例えば、不明語密度解析部121は、語「KPI」及び「ビジネスプロセス」については複数回指定されているのでまとめて、不明語の数を4語としてカウントし、文章中の全単語数を28語としてカウントする。そして、不明語密度解析部121は、不明語密度を5/23=0.178と計算してもよい。   The unknown word density analysis unit 121 counts the number of words when calculating the unknown word density. When a plurality of the same words are designated in the text data, the unknown word density is counted as one. May be. For example, since the word “KPI” and the “business process” are designated a plurality of times, the unknown word density analysis unit 121 counts the number of unknown words as four words and counts the total number of words in the sentence as 28. Count as a word. Then, the unknown word density analysis unit 121 may calculate the unknown word density as 5/23 = 0.178.

また、不明語密度解析部121は、単語ではなく、テキストデータ中の理解ができない文の数と、テキストデータ中の全ての文の数とを利用して、不明語密度を計算してもよい。また、不明語密度解析部121は、テキストデータ中の内容が理解できない範囲の長さと文章の長さとに基づいて不明語密度を計算してもよい。なお、この場合、複合語や定型句の単語への分け方によって計算した不明語密度が変わることはない。   Further, the unknown word density analysis unit 121 may calculate the unknown word density by using the number of sentences that are not words and cannot be understood in the text data and the number of all sentences in the text data. . Further, the unknown word density analysis unit 121 may calculate the unknown word density based on the length of the range in which the contents in the text data cannot be understood and the length of the sentence. In this case, the unknown word density calculated does not change depending on how compound words or fixed phrases are divided into words.

また、不明語密度解析部121は、不明語密度の計算区間を、テキストデータ全体ではなく、ページや章、節、段落、文、一定の文字数、表示画面内の文章、ユーザが指定した領域等の一定の範囲に制限して、不明語密度を求めてもよい。また、不明語密度解析部121は、処理対象が話者の発言の音声を音声認識した結果であった場合には、不明語密度の計算区間を、特定の話者の発言の音声の区間や、一定時間内、会議の特定のスライドが表示されている期間等の一定の範囲に制限して、不明語密度を求めてもよい。   In addition, the unknown word density analysis unit 121 does not calculate the unknown word density calculation section, not the entire text data, but pages, chapters, sections, paragraphs, sentences, a certain number of characters, text on the display screen, user-specified area, etc. The unknown word density may be obtained by limiting to a certain range. In addition, when the processing target is the result of speech recognition of the speech of the speaker, the unknown word density analysis unit 121 sets the calculation interval of the unknown word density as the speech interval of the specific speaker or The unknown word density may be obtained by limiting to a certain range such as a period during which a specific slide of the conference is displayed within a certain time.

また、不明語密度解析部121は、テキストデータに含まれる全ての語をカウントして不明語密度を求めるのではなく、所定の品詞の語のみをカウントして不明語密度を求めるようにしてもよい。例えば、不明語密度解析部121は、テキストデータ中の名詞や動詞のみを抽出してカウントし不明語密度を求める等、品詞を考慮した不明語密度算出を行ってもよい。   Further, the unknown word density analysis unit 121 does not count all the words included in the text data and obtain the unknown word density, but counts only words of a predetermined part of speech to obtain the unknown word density. Good. For example, the unknown word density analysis unit 121 may perform unknown word density calculation in consideration of the part of speech, such as extracting and counting only nouns and verbs in the text data and obtaining the unknown word density.

次に、カテゴリ分類部122は、不明語密度解析部121が計算した不明語密度に基づいて、不明語を分類する。例えば、カテゴリ分類部122は、不明語密度が所定の閾値より大きいか否かを判定する。この場合、カテゴリ分類部122は、不明語密度が事前に設定された閾値を超えたか否かを判定することで、不明語密度が高い不明語、不明語密度が低い不明語に分けることができる。例えば、カテゴリ分類部122は、不明語密度が所定の閾値より大きければ、不明語密度が高い不明語であると分類する。また、カテゴリ分類部122は、不明語密度が所定の閾値より大きくなければ、不明語密度が低い不明度であると分類する。   Next, the category classification unit 122 classifies unknown words based on the unknown word density calculated by the unknown word density analysis unit 121. For example, the category classification unit 122 determines whether the unknown word density is greater than a predetermined threshold. In this case, the category classification unit 122 can determine whether the unknown word density has exceeded a preset threshold value, thereby classifying the unknown word density into an unknown word with a high unknown word density and an unknown word with a low unknown word density. . For example, if the unknown word density is greater than a predetermined threshold, the category classification unit 122 classifies the unknown word with a high unknown word density. Moreover, the category classification | category part 122 will classify | categorize as an unknown degree with low unknown word density, if unknown word density is not larger than a predetermined threshold value.

また、カテゴリ分類部122は、不明語密度が高い及び低いの2つのカテゴリに不明語を分類するのではなく、3つ以上のカテゴリに分類してもよい。例えば、3つのカテゴリに分類する場合には、カテゴリ分類部122は、予め定められた2つの閾値を用いて、不明語を3つのカテゴリに分類する。例えば、カテゴリ分類部122は、不明語密度が第1の閾値より大きければ、不明語密度が高い不明語であると分類する。また、カテゴリ分類部122は、不明語密度が第1の閾値より大きくないが第2の閾値より大きければ、不明語密度が中レベルの不明語であると分類する。さらに、カテゴリ分類部122は、不明語密度が第2の閾値より大きくなければ、不明語密度が低い不明語であると分類する。   The category classification unit 122 may classify unknown words into three or more categories instead of classifying unknown words into two categories of high and low unknown word density. For example, when classifying into three categories, the category classification unit 122 classifies unknown words into three categories using two predetermined thresholds. For example, if the unknown word density is higher than the first threshold, the category classification unit 122 classifies the unknown word with a high unknown word density. Further, the category classification unit 122 classifies the unknown word density as an unknown word having a medium level if the unknown word density is not higher than the first threshold but higher than the second threshold. Furthermore, if the unknown word density is not greater than the second threshold, the category classification unit 122 classifies the unknown word with a low unknown word density.

次に、関連文書検索部13は、不明語分類部12Aによる不明語分類の結果に基づいて、検索対象の不明語の関連情報に優先度をつけて情報検索を行う。例えば、関連情報検索部13は、予め各種文書ファイルや辞書ファイルを蓄積するデータベースを備える場合には、検索対象の不明語を含む関連情報をデータベースから抽出する。また、例えば、関連情報検索部13は、インターネット等の通信ネットワークを介して、各種Webサイト上で公開されている関連情報を要求し、各Webサイトを運営するサーバから受信する。   Next, the related document search unit 13 performs an information search based on the result of the unknown word classification performed by the unknown word classification unit 12A by giving priority to the related information of the unknown word to be searched. For example, when the related information search unit 13 includes a database that stores various document files and dictionary files in advance, the related information search unit 13 extracts related information including an unknown word to be searched from the database. In addition, for example, the related information search unit 13 requests related information published on various websites via a communication network such as the Internet, and receives the information from a server that operates each website.

ここで、関連情報検索部13は、例えば、検索対象の不明語に対する関連資料文書(関連情報)として、次のような文書を検索し取得(抽出、受信)したものとする。   Here, for example, it is assumed that the related information search unit 13 searches and acquires (extracts and receives) the following document as a related document document (related information) for an unknown word to be searched.

(1)関連情報検索部13は、記述「KPI(重要業績評価指標)を比較すると...」を含む文書Aを取得したものとする。(2)関連情報検索部13は、記述「KPIとは」を含む章の見出しと、記述「本システムでは業績評価手法の1つであるKPIを指標として設定できます。KPIとは〜」を含む章の本文を有する文書Bを取得したものとする。 (1) It is assumed that the related information search unit 13 has acquired the document A including the description “when comparing KPI (Key Performance Evaluation Index)”. (2) The related information search unit 13 sets the headline of the chapter including the description “What is KPI” and the description “KPI, which is one of the performance evaluation methods in this system, as an index. What is KPI?” It is assumed that a document B having a body text including a chapter is acquired.

ここで、(1)の文書Aを取得した場合、不明語「KPI」に対して、直後に括弧で囲まれた名詞句が文書中に含まれる。この場合、この括弧内に含まれる語(本例では名詞句)で直前の不明語を説明していると考えられるため、関連情報検索部13は、この括弧内に含まれる名詞句を簡潔な説明とすることができる。   Here, when the document A of (1) is acquired, a noun phrase enclosed in parentheses immediately after the unknown word “KPI” is included in the document. In this case, it is considered that the immediately preceding unknown word is explained by the word contained in the parenthesis (in this example, a noun phrase), so the related information search unit 13 concisely describes the noun phrase contained in the parenthesis. Can be an explanation.

また、(2)の文書Bを取得した場合、文書の見出しに不明語「KPI」が含まれるため、見出し語に続く節で不明語についての説明が含まれていると考えられる。そのため、関連情報検索部13は、文書Bに含まれる章全体を詳細な説明とすることができる。   Further, when the document B of (2) is acquired, the unknown word “KPI” is included in the headline of the document. Therefore, it is considered that an explanation of the unknown word is included in a section following the headword. Therefore, the related information search unit 13 can make the entire chapter included in the document B a detailed description.

例文1に示すテキストデータを入力した場合であって、不明語分類部12が不明語密度が低いと判定した場合には、ユーザが不明語については知らなかったが、同じテキストデータ中に含まれるその他の単語についてはよく知っていると考えることができる。よって、ユーザは、そのテキストデータに記載されている内容の分野について知識があると考えられる。そのため、関連情報検索部13は、検索して抽出した関連情報のうち、不明語について簡潔な説明が含まれるものを提示することが適切であると判断し、(1)の文書Aを優先して検索結果とする。   When the text data shown in the example sentence 1 is input and the unknown word classification unit 12 determines that the unknown word density is low, the user did not know about the unknown word but is included in the same text data. You can think that you are familiar with other words. Therefore, it is considered that the user has knowledge about the field of contents described in the text data. For this reason, the related information search unit 13 determines that it is appropriate to present information including a brief explanation of the unknown word among the related information extracted by searching, and gives priority to the document A in (1). Search results.

一方、不明語分類部12が不明語密度が高いと判定した場合には、ユーザがテキストデータ中の文章の各単語を全体的にあまり知らないため、ユーザがテキストデータに記載されている内容の分野について知識が少ないと考えられる。そのため、関連情報検索部13は、検索して抽出した関連情報のうち、不明語について詳細な説明が含まれるものを提示することが必要だと判断し、(2)の文書Bを優先して検索結果とする。   On the other hand, if the unknown word classification unit 12 determines that the unknown word density is high, the user does not know the entire words of the text in the text data as a whole, and therefore the user is not able to understand the contents described in the text data. There seems to be little knowledge about the field. For this reason, the related information search unit 13 determines that it is necessary to present information including a detailed description of the unknown word among the related information retrieved and extracted, and gives priority to the document B in (2). Let it be a search result.

また、関連情報検索部13は、検索対象に対する関連情報として、例えば、(3)略語辞書から抽出した辞書情報や、(4)専門用語辞書から抽出した辞書情報等の各種辞書情報を取得してもよい。この場合、不明語分類部12が不明語密度が低いと判定した場合には、関連情報検索部13は、不明語に対する簡潔な説明を含む関連情報として、(3)の略語辞書から抽出した辞書情報を利用してもよい。また、不明語分類部12が不明語密度が高いと判定した場合には、関連情報検索部13は、不明語に対する詳細な説明として、(4)専門用語辞書から抽出した辞書情報を利用してもよい。   Further, the related information search unit 13 acquires various types of dictionary information such as (3) dictionary information extracted from the abbreviation dictionary and (4) dictionary information extracted from the technical term dictionary as related information for the search target. Also good. In this case, when the unknown word classification unit 12 determines that the unknown word density is low, the related information search unit 13 extracts the dictionary extracted from the abbreviation dictionary of (3) as related information including a brief explanation for the unknown word. Information may be used. When the unknown word classification unit 12 determines that the unknown word density is high, the related information search unit 13 uses (4) dictionary information extracted from the technical term dictionary as a detailed explanation for the unknown word. Also good.

(3)略語辞書とは、略語の元になった語句を説明した辞書である。略語辞書を用いる場合、関連情報検索部13は、例えば、略語「KPI」を説明した情報として、「key performance indicator 」という辞書情報を抽出する。また、(4)専門用語辞書とは、単語の意味について詳細に説明した辞書である。専門用語辞書を用いる場合、関連情報検索部13は、例えば語「KPI」を説明した情報として、「企業目標やビジネス戦略を実現するために設定した具体的な業務プロセスをモニタリングするために設定される指標(業績評価指標:performance indicators)といい、その中で特に重要なものを指す。...」という辞書情報を抽出する。   (3) The abbreviation dictionary is a dictionary that explains the phrase that is the source of the abbreviation. When the abbreviation dictionary is used, the related information search unit 13 extracts, for example, dictionary information “key performance indicator” as information describing the abbreviation “KPI”. The (4) technical term dictionary is a dictionary that explains the meaning of words in detail. When the technical term dictionary is used, the related information search unit 13 is set to monitor a specific business process set to realize a corporate goal or a business strategy as information explaining the word “KPI”, for example. The dictionary information that is particularly important among them is extracted.

また、前述したように、関連文書として(1)文書A及び(2)文書Bを抽出した場合、関連情報検索部13は、不明語分類部12Aによって不明語密度が低いと判断されたとすると、不明語に対する簡潔な説明である(1)の文書Aを優先して検索結果とする。この場合、文章Aを優先して検索結果とするために、関連情報検索部13は、予め文書Aに対する優先度を設定するようにすればよい。関連情報検索部13は、検索エンジンを用いた関連情報検索において、検索した各関連情報をランキングしスコア値を求める。そして、関連情報検索部13は、求めたランキングのスコア値に優先度を加算して、さらに検索対象の不明語に対する関連情報をランキングすればよい。   Further, as described above, when (1) document A and (2) document B are extracted as related documents, the related information search unit 13 determines that the unknown word density is low by the unknown word classification unit 12A. The document A in (1), which is a concise explanation for the unknown word, is given priority as a search result. In this case, in order to prioritize the sentence A as a search result, the related information search unit 13 may set the priority for the document A in advance. In the related information search using a search engine, the related information search unit 13 ranks each searched related information and obtains a score value. And the related information search part 13 should just add a priority to the score value of the calculated | required ranking, and may rank the related information with respect to the unknown word of search object further.

なお、ここで、インターネット上のWeb情報の検索等を行って関連情報を検索する場合、その検索技術については、既存の検索技術を用いることとする。   Here, when searching related information by searching Web information on the Internet or the like, an existing search technique is used.

例えば、文書Aと文書Bとについて検索エンジンを用いて検索した際のスコア値がともに+10であった場合を説明する。この場合、例えば、優先度を付加する前の各検索関連情報のランキングのスコア値として、関連情報検索部13は、図7Aに示すランキングのスコア値を得る。   For example, a case will be described in which the score values when searching for the documents A and B using the search engine are both +10. In this case, for example, the related information search unit 13 obtains the ranking score value shown in FIG. 7A as the ranking score value of each search related information before the priority is added.

関連情報検索部13は、不明語に対する簡潔な説明である文書Aに対して優先度+5が与えられているとすると、合計のスコア値を+15と求め、図7Bに示すように、文書Aを文書Bより上位にランキングする。そして、関連情報提示部14は、関連情報検索部13の検索結果に基づいて、ディスプレイ装置等の表示装置に、文書Aをランキングの上位に表示する。   If the priority level +5 is given to the document A which is a concise explanation of the unknown word, the related information search unit 13 obtains the total score value as +15, and the document A is obtained as shown in FIG. 7B. Ranking higher than document B. Then, the related information presentation unit 14 displays the document A on the top of the ranking on a display device such as a display device based on the search result of the related information search unit 13.

なお、単純に優先度をスコア値に加算する場合を示したが、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングを、優先度と検索エンジンのスコア値とをパラメータとして計算で求めてもよい。また、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングとして、優先度の順に、単に検索対象の不明語に対する関連情報の検索結果を並べてもよい。さらに、関連情報検索部13は、検索対象の不明語に対する関連情報のランキングを、優先度を検索エンジンのスコア計算のパラメータとして計算して求めてもよい。   Although the case where the priority is simply added to the score value is shown, the related information search unit 13 calculates the ranking of the related information for the unknown word to be searched using the priority and the score value of the search engine as parameters. You may ask for. Moreover, the related information search part 13 may arrange | position the search result of the related information only with respect to the unknown word of a search object in order of a priority as a ranking of the related information with respect to the unknown word of a search object. Further, the related information search unit 13 may calculate the ranking of the related information for the unknown word to be searched by calculating the priority as a parameter for calculating the score of the search engine.

そして、関連文書提示部14は、関連情報検索部13が求めたランキング順に、不明語に対する関連情報の検索結果を、ディスプレイ装置等の表示装置上に表示する。   And the related document presentation part 14 displays the search result of the related information with respect to an unknown word on display apparatuses, such as a display apparatus, in the ranking order which the related information search part 13 calculated | required.

また、ユーザが特定のグループに所属している場合、関連情報検索システムは、そのグループの他のメンバがその分野に詳しいか否かを推定し、その推定結果をユーザに対して適用して関連情報を検索してもよい。これは、同じグループのメンバとユーザとは、同じ分野の知識を持っていると考えられるためである。   In addition, when the user belongs to a specific group, the related information retrieval system estimates whether other members of the group are familiar with the field, and applies the estimation result to the user to determine the relationship. Information may be searched. This is because members of the same group and users are considered to have knowledge in the same field.

ここで、グループとは、ユーザが所属する部署や、参加プロジェクト、出席した会議等を指す。例えば、先のユーザが会議に参加している場合に、同じ会議の出席者で例文1を読んでいる参加者がいるものとする。このとき、他の出席者もこの関連情報検索システムを利用しており、ユーザは、他の参加者が入力操作したテキストデータも参照できるものとする。   Here, the group indicates a department to which the user belongs, a participating project, a meeting attended, or the like. For example, it is assumed that when the previous user is participating in a conference, there is a participant who is reading the example sentence 1 among attendees of the same conference. At this time, it is assumed that other attendees also use this related information search system, and the user can refer to text data input by other participants.

関連情報検索システムの不明語分類部12Aは、ユーザ以外の他の出席者の入力操作に従って入力したテキストデータに基づいて、不明語が他の出席者にとって不明語密度が高い語であるか、低い語であるかに分類することができる。他の出席者が例文1について不明語密度が高かった場合には、他の出席者と知識が同等であると考えられるユーザにとって、不明語に対する詳細な説明を含む関連情報の提示が必要な語である可能性がある。そのため、関連情報検索部13は、(2)の文書Bの詳細な説明を含む文書の優先度を+3としてスコア値に加算し、図7Cに示すように、合計のスコア値を+13と求める。   The unknown word classification unit 12A of the related information search system is based on the text data input according to the input operation of other attendees other than the user, and the unknown word is a word having a high unknown word density for other attendees or low. It can be classified as a word. When other attendees have a high unknown word density for example sentence 1, words that require presentation of related information including detailed explanations for the unknown words for users who are considered to have the same knowledge as other attendees There is a possibility. Therefore, the related information search unit 13 adds the priority of the document including the detailed description of the document B of (2) to +3 as the score value, and obtains the total score value as +13 as shown in FIG. 7C.

図7Cに示すように、文書Aと文書Bとの得点の差が小さくなるため、ランキングの順位が変化して、関連情報検索部13は、文書Bも比較的上位にランキングすることになる。この場合、ユーザが実際には文書について詳しくなかったのであるが、ユーザ自身に対する不明語密度が小さかったために、不明語分類部12Aによってユーザがテキストデータの内容に詳しいと判定されることもありうる。そのような場合であっても、不明語分類部12Aによって他のメンバにとって不明語が多いと判断されるため、関連情報検索部13は、文書Bを上位にランキングする。そのため、ユーザは、不明語に対する詳しい説明を参照することができる。   As shown in FIG. 7C, since the difference in the scores between the document A and the document B becomes small, the ranking order changes, and the related information search unit 13 also ranks the document B relatively high. In this case, although the user was not actually familiar with the document, the unknown word density with respect to the user himself / herself was so small that the unknown word classification unit 12A may determine that the user is familiar with the contents of the text data. . Even in such a case, since the unknown word classification unit 12A determines that there are many unknown words for other members, the related information search unit 13 ranks the document B at the top. Therefore, the user can refer to the detailed explanation for the unknown word.

表1に、関連情報検索部13が検索する検索対象の不明語に対する関連情報の一例を示す。表1に示す例では、関連情報検索部13は、略語辞書、専門用語辞書、過去に参照した文書、及びインターネット情報Web情報を、検索対象の不明語に対する関連情報として検索する。表1において、略語辞書は略語を展開した正式な表現のみを表すものであり、専門用語辞書はその領域(分野)の知識のない人にその専門用語の意味を教えるものである。また、過去に参照した文書は、過去にユーザ自身が作成した文書や会議等で参照した文書の集合である。   Table 1 shows an example of related information for an unknown word to be searched for which the related information search unit 13 searches. In the example shown in Table 1, the related information search unit 13 searches the abbreviation dictionary, the technical term dictionary, the document referred to in the past, and the Internet information Web information as related information for the unknown word to be searched. In Table 1, the abbreviation dictionary represents only a formal expression in which abbreviations are expanded, and the technical term dictionary teaches the meaning of the technical term to a person who has no knowledge of the domain (field). The documents referred to in the past are a set of documents created by the user in the past, documents referred to at meetings, and the like.

Figure 2009020092
Figure 2009020092

以上のように、本実施例によれば、テキストデータ中の不明語密度に基づいて不明語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。   As described above, according to the present embodiment, unknown words are classified based on the unknown word density in the text data, so it is determined whether or not the contents of the text data are contents in a field that can be understood by the user. Can do. Therefore, appropriate related information can be selected and presented depending on whether the content of the text data is in a field that can be understood by the user.

次に、本発明の第2の実施例を図面を参照して説明する。なお、本実施例で示す関連情報検索システムは、第3の実施形態で示した関連情報検索システムに相当する。本実施例では、不明語分類部12Bが、言い換え表現既知判定部123を含む点で、第1の実施例と異なる。また、関連情報検索システムは、不明語の言い換えを行うために略語辞書や、カタカナ語辞書等からなる言い換え辞書3を、予め磁気ディスク装置や光ディスク装置等の記憶装置に記憶する。   Next, a second embodiment of the present invention will be described with reference to the drawings. The related information search system shown in the present example corresponds to the related information search system shown in the third embodiment. This embodiment differs from the first embodiment in that the unknown word classification unit 12B includes a paraphrase expression known determination unit 123. In addition, the related information retrieval system stores the paraphrase dictionary 3 including an abbreviation dictionary and a katakana dictionary in advance in a storage device such as a magnetic disk device or an optical disk device in order to paraphrase an unknown word.

言い換え表現既知判定部123は、略語辞書やカタカナ語辞書等の言い換え辞書3から、入力されたテキストデータに含まれる不明語句に対する言い換え表現を取得(抽出)する。また、言い換え表現既知判定部123は、抽出した言い換え表現がテキストデータの対象文章中に登場するか否かを判断する。また、対象文章中に登場する場合には、言い換え表現既知判定部123は、その言い換え表現も不明語であるか否かを判定する。   The paraphrase expression known determination unit 123 acquires (extracts) a paraphrase expression for an unknown word / phrase included in the input text data from the paraphrase dictionary 3 such as an abbreviation dictionary or a katakana dictionary. The paraphrase expression known determination unit 123 determines whether or not the extracted paraphrase expression appears in the target sentence of the text data. In addition, when it appears in the target sentence, the paraphrase expression known determination unit 123 determines whether or not the paraphrase expression is also an unknown word.

例えば、例文1に示すテキストデータを入力した場合に、言い換え表現既知判定部123は、不明語「KPI」に対して、略語辞書から言い換え表現「Key Performance Indicator 」を得たものとする。   For example, when the text data shown in Example sentence 1 is input, the paraphrase expression known determination unit 123 obtains the paraphrase expression “Key Performance Indicator” from the abbreviation dictionary for the unknown word “KPI”.

言い換え表現既知判定部123は、言い換え表現が不明語か否かを調べると、テキストデータの対象文章中に「Key Performance Indicator 」が含まれており、かつユーザが「Key Performance Indicator 」も不明語と指定していると判定する。そして、カテゴリ分類部124は、言い換え表現既知判定部123の判定結果に基づいて、不明語に対して言い換え表現に置き換えてもユーザが理解できない語であると分類する。この場合、ユーザにとって不明語の表す内容自体が未知である可能性が高いと判断できる。そのため、関連情報検索部13Bは、不明語に対する詳細な説明を含む関連情報の優先度を上げて検索結果とする。そして、関連情報提示部14が詳細な説明を含む関連情報を提示することで、ユーザは不明語に対する内容まで理解することができる。   When the paraphrase expression known determination unit 123 checks whether or not the paraphrase expression is an unknown word, “Key Performance Indicator” is included in the target sentence of the text data, and the user also determines that “Key Performance Indicator” is also an unknown word. Judge that it is specified. Then, based on the determination result of the paraphrase expression known determination unit 123, the category classification unit 124 classifies the unknown word as a word that the user cannot understand even if it is replaced with the paraphrase expression. In this case, it can be determined that the content represented by the unknown word is highly unknown to the user. Therefore, the related information search unit 13B increases the priority of the related information including the detailed explanation for the unknown word and sets it as the search result. Then, the related information presenting unit 14 presents related information including a detailed description, so that the user can understand the content of the unknown word.

一方、関連情報検索システムが以下に示す例文2をテキストデータとして入力する場合を考える。   On the other hand, consider a case where the related information search system inputs the following example sentence 2 as text data.

例文2「弊社は、このたび次世代サプライチェーン・マネジメント構築事業を日本国内で推進してまいります。日本の製造業におけるSCMパッケージの導入率は1割以下と推測されます。」   Example 2 “We are promoting the next-generation supply chain management construction business in Japan. The introduction rate of SCM packages in the Japanese manufacturing industry is estimated to be less than 10%.”

上記に示す例文2を入力した場合、例えば、言い換え表現既知判定部123は、不明語「SCM」に対して、略語辞書から言い換え表現「サプライチェーン・マネジメント」を得たものとする。   When the example sentence 2 described above is input, for example, it is assumed that the paraphrase expression known determination unit 123 obtains the paraphrase expression “supply chain management” from the abbreviation dictionary for the unknown word “SCM”.

言い換え表現既知判定部123は、言い換え表現が不明語か否かを調べると、入力テキストデータ中に「サプライチェーン・マネジメント」があり、ユーザが不明語として指定していないと判断する。この場合、カテゴリ分類部124は、言い換え表現既知判定部123の判定結果に基づいて、不明語「SCM」について言い換え表現に置き換えればユーザが理解できる語であるとして分類する。この場合、ユーザは不明語の表す意味自体は分かっているため、関連情報検索部13Bは、略語辞書から抽出した言い換え表現を優先して検索結果とする。そして、関連情報提示部14が言い換え語「サプライチェーン・マネジメント」を提示することで、ユーザは不明語に対する意味を理解することができる。   When the paraphrase expression known determination unit 123 checks whether or not the paraphrase expression is an unknown word, it determines that there is “supply chain management” in the input text data and the user has not designated it as an unknown word. In this case, based on the determination result of the paraphrase expression known determination unit 123, the category classification unit 124 classifies the unknown word “SCM” as a word that can be understood by the user by replacing it with the paraphrase expression. In this case, since the user knows the meaning represented by the unknown word, the related information search unit 13B gives priority to the paraphrase expression extracted from the abbreviation dictionary as the search result. Then, the related information presentation unit 14 presents the paraphrase word “supply chain management”, so that the user can understand the meaning of the unknown word.

以上のように、本実施例によれば、不明語に対する言い換え語があるか否かを判断し、その言い換え語も不明語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。   As described above, according to the present embodiment, it is determined whether or not there is a paraphrase for the unknown word, and the unknown word is classified based on whether or not the paraphrase is also an unknown word. Appropriate related information can be selected and presented depending on whether there is a possible paraphrase.

なお、上記に示した各実施形態では、以下の(1)〜(5)に示すような関連情報検索システムの特徴的構成が示されている。   In each of the embodiments described above, the characteristic configuration of the related information search system as shown in the following (1) to (5) is shown.

(1)関連情報検索システムは、ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段(例えば、入力部11によって実現される)と、テキスト入力手段により入力されたテキストデータに基づいて、未知語に対するユーザの知識及び未知語の関連分野に対するユーザの知識を推定することによって、未知語を分類する分類手段(例えば、不明語分類部12によって実現される)と、分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段(例えば、関連情報検索部13によって実現される)と、検索手段により検索された関連情報を提示する提示手段(例えば、関連情報提示部14によって実現される)とを備える。そのような構成によれば、入力されたテキストデータに基づいて未知語を分類する。そして、分類した未知語の種別に従って、検索対象の関連情報を提示する。そのため、未知語の分類に従って自動的に検索対象の未知語に対する関連情報を選択し提示することができる。従って、ユーザに未知語に対する関連情報を提示するためのユーザの作業コストを削減することができる。 (1) The related information search system is realized by a text input unit (for example, the input unit 11) that inputs text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified. And classifying means for classifying unknown words (for example, unknown words) by estimating user knowledge of unknown words and user knowledge of related fields of unknown words based on text data input by the text input means A search unit for searching related information related to the unknown word (for example, realized by the related information search unit 13) based on the classification result of the unknown word by the classification unit, and a search Presenting means for presenting related information retrieved by the means (for example, realized by the related information presenting unit 14) Equipped with a. According to such a configuration, the unknown words are classified based on the input text data. Then, the related information to be searched is presented according to the classified unknown word type. Therefore, it is possible to automatically select and present related information for the unknown word to be searched according to the unknown word classification. Therefore, it is possible to reduce the user's work cost for presenting relevant information for unknown words to the user.

(2)分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度(例えば、不明語密度)を算出する密度算出手段(例えば、不明語密度解析部121によって実現される)と、密度算出手段により算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリ(例えば、未知語密度が高いカテゴリ)と未知語密度が閾値以下のカテゴリである第2のカテゴリ(例えば、未知語密度が低いカテゴリ)とに分類する第1のカテゴリ分類手段(例えば、カテゴリ分類部122によって実現される)とを備える。検索手段は、分類手段によって検索対象の未知語が第1のカテゴリに分類されると、検索対象の未知語に対する所定量の説明(例えば、詳細な説明)を含む関連情報を検索し、分類手段によって検索対象の未知語が第2のカテゴリに分類されると、検索対象の未知語に対する所定量より簡潔な説明を含む関連情報を検索する。そのような構成によれば、テキストデータ中の未知語密度に基づいて未知語を分類するので、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。従って、テキストデータの内容がユーザにとって理解できる分野の内容であるか否かに応じて、適切な関連情報を選択して提示することができる。 (2) The classification unit calculates density based on the text data input by the text input unit to calculate an unknown word density (for example, unknown word density) that is a density at which the unknown word to be searched is included in the text data. Based on the means (for example, realized by the unknown word density analysis unit 121) and the unknown word density calculated by the density calculation means, the unknown word to be searched is a category whose unknown word density is larger than a predetermined threshold. A first category classification means (for example, a category having a high unknown word density) and a second category (for example, a category having a low unknown word density) whose unknown word density is a threshold or less. For example, it is realized by the category classification unit 122). When the unknown word to be searched is classified into the first category by the classifying means, the searching means searches related information including a predetermined amount of explanation (for example, detailed description) for the unknown word to be searched, and the classifying means When the unknown word to be searched is classified into the second category by the above, related information including a simpler explanation than a predetermined amount for the unknown word to be searched is searched. According to such a configuration, since unknown words are classified based on the unknown word density in the text data, it can be determined whether or not the contents of the text data are contents in a field that can be understood by the user. Therefore, appropriate related information can be selected and presented depending on whether the content of the text data is in a field that can be understood by the user.

(3)分類手段は、テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段(例えば、言い換え表現既知判定部123によって実現される)と、言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段(例えば、カテゴリ分類部124によって実現される)とを備える。検索手段は、分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する。そのような構成によれば、未知語に対する言い換え語があるか否かを判断し、その言い換え語も未知語であるか否かに基づいて不明語を分類するので、ユーザにとって理解できる言い換え語が存在するか否かに応じて、適切な関連情報を選択して提示することができる。 (3) The classification unit is realized by a paraphrase expression determination unit (for example, a paraphrase expression known determination unit 123) that determines a paraphrased paraphrased expression of an unknown word to be searched based on text data input by the text input unit. Based on the determination result of the paraphrased expression determining means, the user can replace the unknown word to be searched with the third category, which is a word category that can be understood by the user by replacing it with the paraphrased expression. And a second category classification means (for example, realized by the category classification unit 124) for classifying into a fourth category that is a category of words that cannot be understood. When the unknown word to be searched is classified into the third category by the classifying means, the search means searches the paraphrase expression as related information for the unknown word to be searched. According to such a configuration, it is determined whether or not there is a paraphrase for the unknown word, and the unknown word is classified based on whether or not the paraphrase is also an unknown word. Appropriate related information can be selected and presented depending on whether it exists.

(4)第1のカテゴリ分類手段は、密度算出手段により算出された未知語密度が所定の閾値より大きいか否かを判定し、未知語密度が所定の閾値より大きいと判定すると、検索対象の未知語を第1のカテゴリに分類し、未知語密度が所定の閾値以下であると判定すると、検索対象の未知語を第2のカテゴリに分類する。そのような構成によれば、未知語密度の閾値判定を行うことによって、容易にテキストデータの内容がユーザにとって理解できる分野の内容であるか否かを判断することができる。 (4) The first category classification unit determines whether or not the unknown word density calculated by the density calculation unit is greater than a predetermined threshold, and determines that the unknown word density is greater than the predetermined threshold. If the unknown word is classified into the first category and it is determined that the unknown word density is equal to or lower than a predetermined threshold, the unknown word to be searched is classified into the second category. According to such a configuration, it is possible to easily determine whether or not the content of the text data is in a field that can be understood by the user by performing a threshold value determination of the unknown word density.

(5)関連情報検索システムは、予め言い換え表現を含む言い換え辞書(例えば、言い換え辞書3)を記憶する言い換え辞書記憶手段(例えば、言い換え辞書3を記憶する磁気ディスク装置や光ディスク装置等の記憶装置によって実現される)をさらに備える。言い換え表現判定手段は、検索対象の未知語に対する言い換え表現を言い換え辞書記憶手段から抽出し、抽出した言い換え表現が未知語であるか否かを判定する。第2のカテゴリ分類手段は、言い換え表現判定手段により言い換え表現が未知語でないと判定されると、検索対象の未知語を第3のカテゴリに分類し、言い換え表現判定手段により言い換え表現が未知語であると判定されると、検索対象の未知語を第4のカテゴリに分類する。そのような構成によれば、予め記憶する言い換え辞書から容易に言い換え表現を抽出して取得することができる。 (5) The related information retrieval system uses a paraphrase dictionary storage unit (for example, a magnetic disk device storing the paraphrase dictionary 3 or an optical disk device that stores the paraphrase dictionary 3) to store a paraphrase dictionary (for example, the paraphrase dictionary 3) including a paraphrase expression beforehand. Is realized). The paraphrase expression determination unit extracts a paraphrase expression for the unknown word to be searched from the paraphrase dictionary storage unit, and determines whether or not the extracted paraphrase expression is an unknown word. When the paraphrase expression determining unit determines that the paraphrase expression is not an unknown word, the second category classification unit classifies the unknown word to be searched into the third category, and the paraphrase expression determination unit determines that the paraphrase expression is an unknown word. If it is determined that there is an unknown word to be searched, it is classified into a fourth category. According to such a configuration, a paraphrase expression can be easily extracted and acquired from a paraphrase dictionary stored in advance.

以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。   The present invention has been described above with reference to the embodiments, but the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

この出願は、2007年8月3日に出願された日本出願特願2007−203196号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。   This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2007-203196 for which it applied on August 3, 2007, and takes in those the indications of all here.

Claims (12)

ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するテキスト入力手段と、
前記テキスト入力手段により入力されたテキストデータに基づいて、未知語を分類する分類手段と、
前記分類手段による未知語の分類結果に基づいて、未知語に関連する関連情報を検索する検索手段と、
前記検索手段により検索された関連情報を提示する提示手段と
を備える関連情報検索システム。
Text input means for inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified;
Classification means for classifying unknown words based on the text data input by the text input means;
Search means for searching related information related to the unknown word based on the classification result of the unknown word by the classification means;
A related information search system comprising: presenting means for presenting related information searched by the search means.
前記分類手段は、
テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度を算出する密度算出手段と、
前記密度算出手段により算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリと未知語密度が前記閾値以下のカテゴリである第2のカテゴリとに分類する第1のカテゴリ分類手段と
を備え、
前記検索手段は、
前記分類手段によって検索対象の未知語が第1のカテゴリに分類されると、検索対象の未知語に対する所定量の説明を含む関連情報を検索し、
前記分類手段によって検索対象の未知語が第2のカテゴリに分類されると、検索対象の未知語に対する前記所定量より簡潔な説明を含む関連情報を検索する
請求項1記載の関連情報検索システム。
The classification means includes
Based on the text data input by the text input means, density calculation means for calculating an unknown word density, which is a density in which the unknown word to be searched is included in the text data,
Based on the unknown word density calculated by the density calculating means, the unknown word to be searched is classified into a first category whose unknown word density is larger than a predetermined threshold and a category whose unknown word density is equal to or lower than the threshold. A first category classification means for classifying into a second category,
The search means includes
When the unknown word to be searched is classified into the first category by the classifying unit, related information including a predetermined amount of explanation for the unknown word to be searched is searched,
The related information search system according to claim 1, wherein when the unknown word to be searched is classified into the second category by the classification unit, related information including a simpler explanation than the predetermined amount for the unknown word to be searched is searched.
前記分類手段は、
テキスト入力手段により入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定する言い換え表現判定手段と、
前記言い換え表現判定手段の判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類する第2のカテゴリ分類手段と
を備え、
前記検索手段は、前記分類手段によって検索対象の未知語が第3のカテゴリに分類されると、言い換え表現を検索対象の未知語に対する関連情報として検索する
請求項1記載の関連情報検索システム。
The classification means includes
Based on the text data input by the text input means, a paraphrase expression determination means for determining a paraphrased paraphrased expression of the unknown word to be searched;
Based on the determination result of the paraphrase expression determination means, the third word, which is a category of words that can be understood by the user by replacing the unknown word to be searched with the paraphrase expression, and also understood by the user even when the paraphrase expression is replaced. A second category classification means for classifying into a fourth category which is a category of words that cannot be performed,
The related information search system according to claim 1, wherein when the unknown word to be searched is classified into the third category by the classifying means, the search means searches for the paraphrase expression as related information for the unknown word to be searched.
予め言い換え表現を含む言い換え辞書を記憶する言い換え辞書記憶手段をさらに備え、
前記言い換え表現判定手段は、
検索対象の未知語に対する言い換え表現を前記言い換え辞書記憶手段から抽出し、
抽出した言い換え表現が未知語であるか否かを判定し、
前記第2のカテゴリ分類手段は、
前記言い換え表現判定手段により言い換え表現が未知語でないと判定されると、検索対象の未知語を第3のカテゴリに分類し、
前記言い換え表現判定手段により言い換え表現が未知語であると判定されると、検索対象の未知語を第4のカテゴリに分類する
請求項3記載の関連情報検索システム。
It further comprises a paraphrase dictionary storage means for storing a paraphrase dictionary including a paraphrase expression in advance,
The paraphrase expression judging means includes
Extracting the paraphrase expression for the unknown word to be searched from the paraphrase dictionary storage means,
Determine whether the extracted paraphrase is an unknown word,
The second category classification means includes:
If the paraphrase expression determining unit determines that the paraphrase expression is not an unknown word, the unknown word to be searched is classified into a third category;
The related information search system according to claim 3, wherein when the paraphrase expression determining unit determines that the paraphrase expression is an unknown word, the unknown word to be searched is classified into a fourth category.
ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、
入力されたテキストデータに基づいて、未知語を分類するステップと、
未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、
検索された関連情報を提示するステップと
を備える関連情報検索方法。
Inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified;
Classifying unknown words based on input text data;
Searching related information related to the unknown word based on the classification result of the unknown word;
A related information search method comprising: a step of presenting searched related information.
分類するステップは、
入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度を算出するステップと、
算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリと未知語密度が前記閾値以下のカテゴリである第2のカテゴリとに分類するステップと
を備え、
検索するステップは、
検索対象の未知語が第1のカテゴリに分類された場合に、検索対象の未知語に対する所定量の説明を含む関連情報を検索するステップと、
検索対象の未知語が第2のカテゴリに分類された場合に、検索対象の未知語に対する前記所定量より簡潔な説明を含む関連情報を検索するステップと
を備える請求項5記載の関連情報検索方法。
The classification step is
Calculating an unknown word density, which is a density in which the unknown word to be searched is included in the text data, based on the input text data;
Based on the calculated unknown word density, an unknown word to be searched is classified into a first category whose unknown word density is a category larger than a predetermined threshold, and a second category whose unknown word density is a category equal to or lower than the threshold. And a step of classifying
The search step is
Searching for related information including a predetermined amount of explanation for the unknown word to be searched when the unknown word to be searched is classified into the first category;
The related information search method according to claim 5, further comprising: searching related information including a concise description of the unknown word to be searched for when the unknown word to be searched is classified into the second category. .
分類するステップは、
入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、
判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップと
を備え、
検索するステップは、検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える
請求項5記載の関連情報検索方法。
The classification step is
Determining a paraphrased paraphrased expression of the unknown word to be searched based on the input text data;
Based on the determination result, a third category that is a category of words that can be understood by the user by replacing the unknown word to be searched with the paraphrase expression, and a category of words that cannot be understood by the user even if the word is replaced with the paraphrase expression. Categorizing into a fourth category,
The related information search method according to claim 5, wherein the searching step includes a step of searching the paraphrase expression as related information for the unknown word to be searched when the unknown word to be searched is classified into the third category.
予め言い換え表現を含む言い換え辞書を記憶するステップをさらに備え、
判定するステップは、
検索対象の未知語に対する言い換え表現を前記言い換え辞書から抽出するステップと、
抽出された言い換え表現が未知語であるか否かを判定するステップと
を備え、
第3のカテゴリと第4のカテゴリとに分類するステップは、
言い換え表現が未知語でないと判定された場合に、検索対象の未知語を第3のカテゴリに分類するステップと、
言い換え表現が未知語であると判定された場合に、検索対象の未知語を第4のカテゴリに分類するステップと
を備える請求項7記載の関連情報検索方法。
Further comprising the step of storing a paraphrase dictionary including a paraphrase expression in advance,
The determining step is
Extracting a paraphrase expression for the unknown word to be searched from the paraphrase dictionary;
Determining whether the extracted paraphrase expression is an unknown word,
The step of classifying into a third category and a fourth category is:
When it is determined that the paraphrase expression is not an unknown word, the unknown word to be searched is classified into a third category;
The related information search method according to claim 7, further comprising: classifying the unknown word to be searched into a fourth category when it is determined that the paraphrase expression is an unknown word.
ユーザにとって未知である未知語及びユーザにとって既知である既知語の少なくとも一方が全て指定されたテキストデータを入力するステップと、
入力されたテキストデータに基づいて、未知語を分類するステップと、
未知語の分類結果に基づいて、未知語に関連する関連情報を検索するステップと、
検索された関連情報を提示するステップと
をコンピュータに実行させるためのプログラム。
Inputting text data in which at least one of an unknown word unknown to the user and a known word known to the user are all specified;
Classifying unknown words based on input text data;
Searching related information related to the unknown word based on the classification result of the unknown word;
A program for causing a computer to execute the step of presenting the retrieved related information.
分類するステップは、
入力されたテキストデータに基づいて、検索対象の未知語がテキストデータ内に含まれる密度である未知語密度を算出するステップと、
算出された未知語密度に基づいて、検索対象の未知語を、未知語密度が所定の閾値より大きいカテゴリである第1のカテゴリと未知語密度が前記閾値以下のカテゴリである第2のカテゴリとに分類するステップと
を備え、
検索するステップは、
検索対象の未知語が第1のカテゴリに分類された場合に、検索対象の未知語に対する所定量の説明を含む関連情報を検索するステップと、
検索対象の未知語が第2のカテゴリに分類された場合に、検索対象の未知語に対する前記所定量より簡潔な説明を含む関連情報を検索するステップと
を備える請求項9記載のプログラム。
The classification step is
Calculating an unknown word density, which is a density in which the unknown word to be searched is included in the text data, based on the input text data;
Based on the calculated unknown word density, an unknown word to be searched is classified into a first category whose unknown word density is a category larger than a predetermined threshold, and a second category whose unknown word density is a category equal to or lower than the threshold. And a step of classifying
The search step is
Searching for related information including a predetermined amount of explanation for the unknown word to be searched when the unknown word to be searched is classified into the first category;
The method according to claim 9, further comprising: searching related information including a concise description of the unknown word to be searched for when the unknown word to be searched is classified into the second category.
分類するステップは、
入力されたテキストデータに基づいて、検索対象の未知語の言い換え可能な言い換え表現を判定するステップと、
判定結果に基づいて、検索対象の未知語を、言い換え表現に置き換えることによりユーザに理解できる語のカテゴリである第3のカテゴリと、前記言い換え表現に置き換えてもユーザに理解できない語のカテゴリである第4のカテゴリとに分類するステップと
を備え、
検索するステップは、検索対象の未知語が第3のカテゴリに分類された場合に、言い換え表現を検索対象の未知語に対する関連情報として検索するステップを備える
請求項9記載のプログラム。
The classification step is
Determining a paraphrased paraphrased expression of the unknown word to be searched based on the input text data;
Based on the determination result, a third category that is a category of words that can be understood by the user by replacing the unknown word to be searched with the paraphrase expression, and a category of words that cannot be understood by the user even if the word is replaced with the paraphrase expression. Categorizing into a fourth category,
The program according to claim 9, wherein the searching step includes a step of searching for the paraphrase expression as related information for the unknown word to be searched when the unknown word to be searched is classified into the third category.
予め言い換え表現を含む言い換え辞書を記憶するステップをさらにコンピュータに実行させ、
判定するステップは、
検索対象の未知語に対する言い換え表現を前記言い換え辞書から抽出するステップと、
抽出された言い換え表現が未知語であるか否かを判定するステップと
を備え、
第3のカテゴリと第4のカテゴリとに分類するステップは、
言い換え表現が未知語でないと判定された場合に、検索対象の未知語を第3のカテゴリに分類するステップと、
言い換え表現が未知語であると判定された場合に、検索対象の未知語を第4のカテゴリに分類するステップと
を備える請求項11記載のプログラム。
Causing the computer to further execute a step of storing a paraphrase dictionary including a paraphrase expression in advance;
The determining step is
Extracting a paraphrase expression for the unknown word to be searched from the paraphrase dictionary;
Determining whether the extracted paraphrase expression is an unknown word,
The step of classifying into a third category and a fourth category is:
When it is determined that the paraphrase expression is not an unknown word, the unknown word to be searched is classified into a third category;
The program according to claim 11, further comprising: classifying unknown words to be searched into a fourth category when it is determined that the paraphrase expression is an unknown word.
JP2009526445A 2007-08-03 2008-08-04 Related information search system and related information search method Expired - Fee Related JP5218409B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009526445A JP5218409B2 (en) 2007-08-03 2008-08-04 Related information search system and related information search method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007203196 2007-08-03
JP2007203196 2007-08-03
JP2009526445A JP5218409B2 (en) 2007-08-03 2008-08-04 Related information search system and related information search method
PCT/JP2008/063955 WO2009020092A1 (en) 2007-08-03 2008-08-04 Associated information search system and associated information search method

Publications (2)

Publication Number Publication Date
JPWO2009020092A1 true JPWO2009020092A1 (en) 2010-11-04
JP5218409B2 JP5218409B2 (en) 2013-06-26

Family

ID=40341325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009526445A Expired - Fee Related JP5218409B2 (en) 2007-08-03 2008-08-04 Related information search system and related information search method

Country Status (2)

Country Link
JP (1) JP5218409B2 (en)
WO (1) WO2009020092A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373638B2 (en) 2019-01-22 2022-06-28 Interactive Solutions Corp. Presentation assistance device for calling attention to words that are forbidden to speak

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013229A1 (en) * 2009-07-30 2011-02-03 株式会社東芝 Behavior recommendation device
US9305081B2 (en) 2009-11-20 2016-04-05 Nec Corporation Information processing device
JP5032600B2 (en) * 2010-01-07 2012-09-26 株式会社東芝 Document readability evaluation program and document readability evaluation apparatus
JP7476962B2 (en) * 2020-07-03 2024-05-01 日本電信電話株式会社 Speech understanding support system, method, device and program
JP2024041246A (en) * 2022-09-14 2024-03-27 Necプラットフォームズ株式会社 Processing system, processing method, and program
CN118261141B (en) * 2024-04-17 2024-09-06 后浪出版咨询(北京)有限责任公司 Self-learning book correction and editing system based on data relevance

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3752717B2 (en) * 1996-01-29 2006-03-08 富士ゼロックス株式会社 Document processing device
JP3629905B2 (en) * 1997-07-04 2005-03-16 富士ゼロックス株式会社 Document processing apparatus and document processing method
JP2004302926A (en) * 2003-03-31 2004-10-28 Fujitsu Ltd Term retrieval method, and program making computer carry out the method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373638B2 (en) 2019-01-22 2022-06-28 Interactive Solutions Corp. Presentation assistance device for calling attention to words that are forbidden to speak

Also Published As

Publication number Publication date
JP5218409B2 (en) 2013-06-26
WO2009020092A1 (en) 2009-02-12

Similar Documents

Publication Publication Date Title
Huq et al. Sentiment analysis on Twitter data using KNN and SVM
CN110888990B (en) Text recommendation method, device, equipment and medium
Weimer et al. Automatically assessing the post quality in online discussions on software
Luyckx et al. The effect of author set size and data size in authorship attribution
US9460195B1 (en) System and methods for determining term importance, search relevance, and content summarization
Chen et al. User intention modeling in web applications using data mining
JP5218409B2 (en) Related information search system and related information search method
CN109299865B (en) Psychological evaluation system and method based on semantic analysis and information data processing terminal
US9189470B2 (en) Generation of explanatory summaries
US20120203584A1 (en) System and method for identifying potential customers
WO2009154153A1 (en) Document search system
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
US20110112824A1 (en) Determining at least one category path for identifying input text
JP5391632B2 (en) Determining word and document depth
JP2009093649A (en) Recommendation for term specifying ontology space
BE1027696B1 (en) ANALYSIS AND COMPARISON OF CHARACTER-CODED DIGITAL DATA, PARTICULARLY FOR JOB MATCHING
US11275777B2 (en) Methods and systems for generating timelines for entities
CN109947902A (en) A kind of data query method, apparatus and readable medium
Bhatia et al. Identifying the role of individual user messages in an online discussion and its use in thread retrieval
CN112307336A (en) Hotspot information mining and previewing method and device, computer equipment and storage medium
US11681732B2 (en) Tuning query generation patterns
McGillivray et al. Digital humanities and natural language processing:“je t’aime... moi non plus”
US20220366346A1 (en) Method and apparatus for document evaluation
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
CN114491034A (en) Text classification method and intelligent device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees