WO2023032100A1 - 文書作成支援装置、文書作成支援方法、及びプログラム - Google Patents

文書作成支援装置、文書作成支援方法、及びプログラム Download PDF

Info

Publication number
WO2023032100A1
WO2023032100A1 PCT/JP2021/032194 JP2021032194W WO2023032100A1 WO 2023032100 A1 WO2023032100 A1 WO 2023032100A1 JP 2021032194 W JP2021032194 W JP 2021032194W WO 2023032100 A1 WO2023032100 A1 WO 2023032100A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
document
document creation
words
creation support
Prior art date
Application number
PCT/JP2021/032194
Other languages
English (en)
French (fr)
Inventor
章 竹内
正浩 外間
美永子 原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/032194 priority Critical patent/WO2023032100A1/ja
Priority to JP2023544891A priority patent/JPWO2023032100A1/ja
Publication of WO2023032100A1 publication Critical patent/WO2023032100A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • the present disclosure relates to a document creation support device, a document creation support method, and a program.
  • Patent Literature 1 supports creation of a document representing a problem created by a person to be solved.
  • Word2vec a method that uses a neural network to express words as embedded vectors.
  • context-aware language models such as Bidirectional Encoder Representations from Transformers (BERT), which acquire general-purpose pre-trained language models using large amounts of text data and fine-tune them for various natural language tasks. high performance.
  • the present invention has been made in view of the above points, and aims to support the creation of documents by supporting people's ideas and creating new sentences.
  • the invention according to claim 1 is a document creation support apparatus for assisting document creation, comprising: morphological analysis means for morphologically analyzing data of the document and dividing the document into words; Mask word setting means for setting mask words by masking predetermined words among the divided words, and word candidates based on the mask words using a trained natural language processing model. and word search means for completing the document candidates by searching for likelihoods in consideration of the context and determining replacement candidates for the masked words according to the likelihoods. It is a support device.
  • the document creation support apparatus 1 determines replacement candidates for words in an input document, thereby creating a new document by supporting human thinking. can help create.
  • FIG. 2 is an electrical hardware configuration diagram of the document creation support device of the present embodiment
  • FIG. 1 is a functional block diagram of a document creation support device of this embodiment
  • FIG. 4 is a flow chart showing processing for assisting creation of a document; It is a figure which shows an example of the input document.
  • FIG. 4 is a diagram showing an example of a word sequence in which mask words are set;
  • FIG. 10 is a diagram illustrating an example of document candidates;
  • FIG. 1 is an electrical hardware configuration diagram of the document creation support apparatus of this embodiment.
  • the document creation support device 1 is a PC (personal computer), as shown in FIG. Solid State Drive) 104 , display 105 , keyboard 106 , external device I/F 107 , network I/F 108 , media I/F 109 and bus line 110 .
  • PC personal computer
  • the CPU 101 controls the operation of the document creation support apparatus 1 as a whole.
  • the ROM 102 stores programs used to drive the CPU 101, such as an IPL (Initial Program Loader).
  • a RAM 103 is used as a work area for the CPU 101 .
  • the SSD 104 is a storage device that reads or writes various data such as programs of the document creation support apparatus 1 under the control of the CPU 101 .
  • a storage device such as an HDD (Hard Disk Drive) may be used instead of the SSD.
  • the display 105 is a kind of display means such as liquid crystal or organic EL (Electro Luminescence) that displays characters, images, and the like.
  • liquid crystal or organic EL Electro Luminescence
  • the keyboard 106 is a type of input means having multiple keys for inputting characters, numerical values, various instructions, and the like.
  • the external device I/F 107 is an interface for connecting various external devices.
  • the external device in this case includes an external display as an example of a display means, a mouse, an external keyboard or a microphone as an example of an input means, a printer or a speaker as an example of an output means, and an example of a storage means.
  • USB Universal Serial Bus
  • the network I/F 108 is a circuit for transmitting and receiving data to and from other evaluation devices via the Internet.
  • the media I/F 109 controls reading or writing (storage) of data to the recording media 109m such as flash memory.
  • the recording medium 109m also includes a DVD (Digital Versatile Disc), a Blu-ray Disc (registered trademark), and the like.
  • the bus line 110 is an address bus, a data bus, etc. for electrically connecting each component such as the CPU 101 shown in FIG.
  • FIG. 2 is a functional block diagram of the document creation support device of this embodiment.
  • document creation support device 1 has storage unit 10 .
  • the storage unit 10 is implemented by the RAM 103 or SSD 104 in FIG.
  • the document creation support device 1 also has a document input unit 11 , a morphological analysis unit 12 , a mask word setting unit 13 , a word search unit 14 and a document output unit 15 . These units are functions realized by commands from the CPU 101 in FIG. 1 based on programs.
  • the document input unit 11 receives input of predetermined document data from the user or the like.
  • the morphological analysis unit 12 morphologically analyzes the data of the document input by the document input unit 11 and divides the document into words.
  • the mask word setting unit 13 creates a word sequence by setting mask words by masking predetermined words among the words divided by the morphological analysis unit 12 .
  • the word searching unit 14 uses a trained natural language processing model and, based on the masked words (word sequences) set by the masked word setting unit 13, finds word candidates and likelihoods in consideration of the context (before and after the word).
  • the document candidate is completed by searching for the degree of probability and determining a mask word replacement candidate according to this likelihood. Also, the word search unit 14 determines a replacement candidate with a probability proportional to the likelihood, or selects a predetermined number of words with high likelihood and randomly determines the replacement candidate from among the selected words. Furthermore, the word search unit 14 determines a replacement candidate word by word for a plurality of masked words.
  • the trained natural language processing model performs machine learning using a known machine learning algorithm using a neural network, and here, a model suitable for the field of the content of the input document is used.
  • the document output unit 15 sorts and outputs the document candidates completed by the word search unit 14 based on the evaluation index.
  • the types of output are display output displayed on the display 105 in FIG. Transmission output to the device and the like can be mentioned.
  • FIG. 3 is a flow chart showing processing for assisting creation of a document.
  • FIG. 3 first, the document input unit 11 inputs document data from the user (S11).
  • FIG. 4 is a diagram showing an example of an input document. Figure 4 shows a sentence describing the content of the SDGs (Sustainable Development Goals).
  • the morphological analysis unit 12 morphologically analyzes the data of the document input by the document input unit 11, and divides the sentence into words (S12).
  • Examples of morphological analysis techniques include MeCab, ChaSen, and KyTea.
  • the mask word setting unit 13 selects some predetermined words from all the words divided by the morphological analysis unit 12, and sets mask words by masking these predetermined words. and create a word sequence containing each mask word (S13).
  • FIG. 5 is a diagram showing an example of a word sequence in which mask words are set.
  • the mask word setting unit 13 evaluates and selects the degree of importance of a word using an existing method such as tf-idf or an attention mechanism.
  • tf-idf (Term-Frequency-Inverse-Document-Frequency) is one of the methods for evaluating the importance of words contained in a document, and is mainly used in fields such as information retrieval and topic analysis.
  • the Attention Mechanism is a mechanism that learns the relationship between each element and points of caution, which are introduced into the Encoder-Decoder model mainly for machine translation and image processing. Alternatively, the user may manually select a predetermined word.
  • the word search unit 14 inputs the word sequence data to a trained natural language processing model that has been pre-trained by existing methods such as BERT, and considers word candidates and context (before and after the word).
  • the calculated likelihood is searched for, and probabilistic substitution candidates for the masked word are determined according to the likelihood (S14).
  • BERT Bidirectional Encoder Representations from Transformers
  • NLP natural language processing
  • alternative candidates may be determined with a probability proportional to likelihood, or a predetermined number of words with high likelihood are selected, and Alternative candidates (words) may be randomly determined.
  • the word search unit 14 determines replacement candidates word by word for each mask word.
  • the reason for determining one word at a time is that determining one replacement candidate changes the next mask word candidate and likelihood.
  • the order of the words that the word searching unit 14 replaces may be from the beginning of the sentence or may be random.
  • the mask word setting unit 13 determines whether all mask words have been replaced (S15). Then, if not all of them have been replaced (S15; NO), the process returns to step S14. On the other hand, if all have been replaced (S15; YES), the masked word setting unit 13 completes one document candidate and unmasks (removes) the masked words (S16).
  • FIG. 6 is a diagram showing an example of document candidates. In FIG. 6, (1) indicates the first document candidate, and (2) indicates the second document candidate.
  • the mask word setting unit 13 determines whether a predetermined number of document candidates have been completed (S17). If the predetermined number of sentence candidates are not completed (S17; NO), the process returns to step S13.
  • the predetermined number of document candidates is preset by the user. On the other hand, if the predetermined number of document candidates have been completed (S17; YES), the document output unit 15 outputs and displays the predetermined number of document candidates on the display 105 (S18). In this case, the document output unit 15 outputs and displays the sorted documents based on an evaluation index preset by the user.
  • An example of an evaluation index is perplexity, which indicates the prediction performance of the natural language processing model 2 .
  • the document output unit 15 may print out to a printer, which is an external device, via the external device I/F 107 in FIG. 1, or transmit and output to another device via the network I/F 108 in FIG. may
  • examples of documents that can be assisted by the document creation support apparatus 1 include the following examples. (1) Using an existing recipe sentence as an input, instead of a word indicating an ingredient, another ingredient candidate and a seasoning suitable for the ingredient are presented to assist in arranging the recipe. (2) Support new slogan creation by inputting existing slogans. (3) Support future scenario creation by inputting the future forecast scenario created in the past.
  • the document creation support device 1 uses the trained natural language processing model 2 suitable for the field of the input document to generate word substitution candidates that reflect the context before and after the document. By systematically searching and presenting, it is possible to support people's ideas and create new documents.
  • the present invention is not limited to the above-described embodiments, and may be configured or processed (operations) as described below.
  • the document creation support apparatus 1 can also be realized by a computer and a program, but it is also possible to record this program on a recording medium or provide it via the communication network 100 .
  • a personal computer is shown as an example of the document creation support device 1, but it is not limited to this, and may be a tablet terminal, a smart phone, a smart watch, or the like.
  • the number of CPUs 101 may be not only single but also plural.
  • Document creation support device Trained natural language processing model 10
  • Storage unit 11
  • Document input unit an example of document input means
  • morphological analysis unit an example of morphological analysis means
  • mask word setting unit an example of mask word setting means
  • word search unit an example of word search means
  • document output unit an example of document output means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

近年、文書分類、翻訳や要約、Q&Aのようなタスクに対しては高い性能が得られるようになったものの、文章を創造するという点においては、AIだけでは不十分であり、AIが人を支援することの必要性が高いということができる。本発明は、人の発想を支援して新たな文章を作成することで、文書の作成を支援することを目的とする。 本発明は、文書の作成を支援する文書作成支援装置であって、文書のデータを形態素解析して当該文書を単語に分割する形態素解析部(12)と、この分割された単語のうち、所定の単語に対してマスクを行うことでマスク単語を設定するマスク単語設定部(13)と、学習済みの自然言語処理モデル(2)を用い、マスク単語に基づいて、単語の候補及び文脈を考慮した尤度を探索し、この尤度に応じてマスク単語の代替え候補を決定することで、文書の候補を完成させる単語探索部(14)とを有する。

Description

文書作成支援装置、文書作成支援方法、及びプログラム
 本開示内容は、文書作成支援装置、文書作成支援方法、及びプログラムに関する。
 人を支援する分野においては、近年、人工知能(AI)や機械学習の手法が注目されている。例えば、特許文献1に開示された技術は、人が作成する解決したい課題を表す文書の作成を支援する。
 一方、文書をコンピュータで機械的に処理するため、ニューラルネットワークを用いて単語を埋め込みベクトルとして表現する手法(例えばWord2vec)がある。さらに、文脈を考慮した言語モデルとして、例えばBidirectional Encoder Representations from Transformers(BERT)があり、大量のテキストデータを用いて汎用的な事前学習済み言語モデルを獲得し、様々な自然言語タスクにファインチューニングして高い性能が得られるようになった。
特開2020-042695号公報
 しかしながら、文書分類、翻訳や要約、Q&Aのようなタスクに対しては高い性能が得られるようになったものの、文章を創造するという点においては、AIだけでは不十分であり、AIが人を支援することの必要性が高いということができる。
 本発明は、上記の点に鑑みてなされたものであって、人の発想を支援して新たな文章を作成することで、文書の作成を支援することを目的とする。
 上記課題を解決するため、請求項1に係る発明は、文書の作成を支援する文書作成支援装置であって、前記文書のデータを形態素解析して当該文書を単語に分割する形態素解析手段と、前記分割された単語のうち、所定の単語に対してマスクを行うことでマスク単語を設定するマスク単語設定手段と、学習済みの自然言語処理モデルを用い、前記マスク単語に基づいて、単語の候補及び文脈を考慮した尤度を探索し、当該尤度に応じて前記マスク単語の代替え候補を決定することで、前記文書の候補を完成させる単語探索手段と、を有することを特徴とする文書作成支援装置である。
 以上説明したように本発明によれば、文書作成支援装置1が、入力した文書の単語の代替え候補を決定することによって、人の発想を支援して新たな文書を作成することで、文書の作成を支援することができる。
本実施形態の文書作成支援装置の電気的なハードウェア構成図である。 本実施形態の文書作成支援装置の機能ブロック図である。 文書の作成を支援する処理を示すフローチャートである。 入力された文書の一例を示す図である。 マスク単語が設定された単語シーケンスの一例を示す図である。 文書の候補の一例を示す図である。
 以下、図面に基づいて本発明の実施形態を説明する。本実施形態では、人の発想を支援して新たな文章を作成することで、文書の作成を支援する文書作成支援装置について説明する。
 〔文書作成支援装置のハードウェア構成〕
 次に、図1を用いて、文書作成支援装置1の電気的なハードウェア構成を説明する。図1は、本実施形態の文書作成支援装置の電気的なハードウェア構成図である。
  文書作成支援装置1は、PC(パーソナルコンピュータ)として、図1に示されているように、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、SSD(Solid State Drive)104、ディスプレイ105、キーボード106、外部機器I/F107、ネットワークI/F108、メディアI/F109、及びバスライン110を備えている。
 これらのうち、CPU101は、文書作成支援装置1全体の動作を制御する。ROM102は、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムを記憶する。RAM103は、CPU101のワークエリアとして使用される。
 SSD104は、CPU101の制御にしたがって、文書作成支援装置1のプログラム等の各種データの読み出し又は書き込みを行う記憶装置である。なお、SSDではなく、HDD(Hard Disk Drive)等の記憶装置であってもよい。
 ディスプレイ105は、文字や画像等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。
 キーボード106は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。
 外部機器I/F107は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、表示手段の一例としての外付けのディスプレイ、入力手段の一例としてのマウス、外付けのキーボード、又はマイク、及び出力手段の一例としてのプリンタ又はスピーカ、記憶手段の一例としてのUSB(Universal Serial Bus)メモリ等である。
 ネットワークI/F108は、インターネットを介して、他の評価装置とデータ等を送受信するための回路である。
 メディアI/F109は、フラッシュメモリ等の記録メディア109mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア109mには、DVD(Digital Versatile Disc)やBlu-ray Disc(登録商標)等も含まれる。
 バスライン110は、図1に示されているCPU101等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
 〔文書作成支援装置の機能構成〕
 続いて、図2を用いて、文書作成支援装置1の機能構成について説明する。図2は、本実施形態の文書作成支援装置の機能ブロック図である。図2に示されているように、文書作成支援装置1は、記憶部10を有する。記憶部10は、図1のRAM103又はSSD104によって実現される。
 また、文書作成支援装置1は、文書入力部11、形態素解析部12、マスク単語設定部13、単語探索部14、及び文書出力部15を有する。これら各部は、プログラムに基づき図1のCPU101による命令によって実現される機能である。
 これらのうち、文書入力部11は、ユーザ等から、所定の文書のデータの入力を受け付ける。
 形態素解析部12は、文書入力部11によって入力された文書のデータを形態素解析して当該文書を単語に分割する。
 マスク単語設定部13は、形態素解析部12によって分割された単語のうち、所定の単語に対してマスクを行うことでマスク単語を設定することで、単語シーケンスを作成する。
 単語探索部14は、学習済みの自然言語処理モデルを用い、マスク単語設定部13によって設定されたマスク単語(単語シーケンス)に基づいて、単語の候補及び(単語の前後の)文脈を考慮した尤度を探索し、この尤度に応じてマスク単語の代替え候補を決定することで、文書の候補を完成させる。また、単語探索部14は、尤度に比例した確率で代替え候補を決定する、又は尤度の高い単語を所定数選択し当該選択した単語の中からランダムに前記代替え候補を決定する。更に、単語探索部14は、複数のマスク単語に対して、一単語ずつ代替え候補を決定する。なお、学習済みの自然言語処理モデルは、ニューラルネットワークによる公知の機械学習アルゴリズムを用いた機械学習を行い、ここでは、入力された文書の内容の分野に適したモデルが用いられる。
 文書出力部15は、単語探索部14によって完成された文書の候補を評価指標に基づいてソートして出力する。出力の種類は、図1のディスプレイ105に表示する表示出力、図1の外部機器I/F107を介して外部装置であるプリンタで行う印刷出力、及び図1のネットワークI/F108を介して他の装置に行う送信出力等が挙げられる。
 〔実施形態の処理又は動作〕
 続いて、図3乃至図6を用いて、本実施形態の処理又は動作について詳細に説明する。図3は、文書の作成を支援する処理を示すフローチャートである。
 図3において、まず、文書入力部11は、ユーザから文書のデータを入力する(S11)。図4は、入力された文書の一例を示す図である。図4には、SDGs(持続可能な開発目標)の内容が記載された文章を示している。
 次に、形態素解析部12は、文書入力部11によって入力された文書のデータを形態素解析して、文章を単語に分割する(S12)。形態素解析の手法の一例として、MeCab、ChaSen、KyTea等が挙げられる。
 次に、マスク単語設定部13は、形態素解析部12によって分割された全ての単語のうちの一部の所定の単語を選択し、この所定の単語に対してマスクを行うことでマスク単語を設定し、各マスク単語を含んだ単語シーケンスを作成する(S13)。図5は、マスク単語が設定された単語シーケンスの一例を示す図である。所定の単語の選択方法としては、マスク単語設定部13が、tf-idfやアテンション機構等の既存の手法により、単語の重要度を評価して選択する方法が挙げられる。tf-idf(Term Frequency- Inverse Document Frequency)は、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。また、アテンション機構(Attention Mechanism)は、主に機械翻訳や画像処理等を目的としたEncoder-Decoderモデルに導入される要素ごとの関係性、注意箇所を学習する機構である。なお、ユーザが、所定の単語を手動で選択してもよい。
 次に、単語探索部14は、BERT等の既存の手法によって事前学習された学習済みの自然言語処理モデルへ単語シーケンスのデータを入力して、単語の候補及び(単語の前後の)文脈を考慮した尤度を探索し、この尤度に応じて確率的にマスク単語の代替え候補を決定する(S14)。BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理(NLP)の事前学習用ためのTransformerベースの機械学習手法である。また、「尤度に応じて」としては、尤度に比例した確率で代替え候補(単語)を決定してもよいし、尤度の高い単語を所定数選択し、この選択した単語の中からランダムに代替え候補(単語)を決定してもよい。この場合、単語探索部14は、各マスク単語に対して、一単語ずつ代替え候補を決定していく。一単語ずつ決定していくのは、代替え候補を1つ決定することによって、次のマスク単語の候補や尤度が変わるためである。なお、単語探索部14が代替えして行く単語の順序は、文頭からとしても良いし、ランダムであってもよい。
 次に、マスク単語設定部13は、マスク単語の全てを代替えしたかを判断する(S15)。そして、全て代替えしていない場合には(S15;NO)、上記ステップS14の処理に戻る。一方、全て代替えしている場合には(S15;YES)、マスク単語設定部13は、1つの文書の候補を完成させて、マスク単語のマスクを戻す(外す)(S16)。図6は、文書の候補の一例を示す図である。図6において、(1)には最初の文書の候補が示されており、(2)には2番目の文書の候補が示されている。
 次に、マスク単語設定部13は、所定数の文書の候補を完成したかを判断する(S17)。そして、所定数の文章の候補が完成していない場合には(S17;NO)、上記ステップS13の処理に戻る。文書の候補の所定数は、予めユーザによって設定されている。一方、所定数の文書の候補が完成している場合には(S17;YES)、文書出力部15は、ディスプレイ105に、所定数の文書の候補を出力表示する(S18)。この場合、文書出力部15は、ユーザによって予め設定された評価指標に基づき、ソートして出力表示する。評価指標としては、例えば、自然言語処理モデル2の予測性能を示すパープレキシティ(perplexity)が挙げられる。なお、文書出力部15は、図1の外部機器I/F107を介して外部装置であるプリンタに印刷出力してもよいし、図1のネットワークI/F108を介して他の装置に送信出力してもよい。
 なお、図4乃至図6に示されている文書の他に、文書作成支援装置1が作成支援できる文書の例を挙げると、以下のような例がある。
(1)既存のレシピ文章を入力として、食材を示す単語の代わりに別の食材候補、およびその食材に合う調味料などを提示することによって、レシピのアレンジを支援する。
(2)既存の標語を入力することによって、新たな標語作成を支援する。
(3)過去に作成した将来予測シナリオを入力として、更なる未来のシナリオ作成を支援する。
 以上のように、学習済み自然言語処理モデル2をその分野の文章を用いてファインチューニングしておくことによって、より適切な単語を提示することが期待できる。
 〔実施形態の主な効果〕
 以上説明したように、本実施形態によれば、文書作成支援装置1が、入力した文書の分野に適した学習済み自然言語処理モデル2を用い、前後の文脈を反映した単語の代替え候補を確率的に探索して提示することによって、人の発想を支援して新たな文書を作成することができる。
 〔補足〕
 本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
(1)文書作成支援装置1はコンピュータとプログラムによっても実現できるが、このプログラムを記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。
(2)上記実施形態では、文書作成支援装置1の一例としてパソコンが示されているが、これに限るものではなく、例えば、タブレット端末、スマートフォン、スマートウォッチ等であってもよい。
(3)CPU101は、単一だけでなく、複数であってもよい。
1 文書作成支援装置
2 学習済み自然言語処理モデル
10 記憶部
11 文書入力部(文書入力手段の一例)
12 形態素解析部(形態素解析手段の一例)
13 マスク単語設定部(マスク単語設定手段の一例)
14 単語探索部(単語探索手段の一例)
15 文書出量部(文書出力手段の一例)

Claims (8)

  1.  文書の作成を支援する文書作成支援装置であって、
     前記文書のデータを形態素解析して当該文書を単語に分割する形態素解析手段と、
     前記分割された単語のうち、所定の単語に対してマスクを行うことでマスク単語を設定するマスク単語設定手段と、
     学習済みの自然言語処理モデルを用い、前記マスク単語に基づいて、単語の候補及び文脈を考慮した尤度を探索し、当該尤度に応じて前記マスク単語の代替え候補を決定することで、前記文書の候補を完成させる単語探索手段と、
     を有することを特徴とする文書作成支援装置。
  2.  前記マスク単語設定手段は、前記マスク単語を設定することで、単語シーケンスを作成し、
     前記単語探索手段は、前記学習済みの自然言語処理モデルを用い、前記作成された単語シーケンスに基づいて前記尤度を探索することを特徴とする請求項1に記載の文書作成支援装置。
  3.  前記単語探索手段は、前記尤度に比例した確率で前記代替え候補を決定する、又は前記尤度の高い単語を所定数選択し当該選択した単語の中からランダムに前記代替え候補を決定することを特徴とする請求項1に記載の文書作成支援装置。
  4.  前記単語探索手段は、複数の前記マスク単語に対して、一単語ずつ前記代替え候補を決定することを特徴とする請求項1に記載の文書作成支援装置。
  5.  前記学習済みの自然言語処理モデルは、BERTであることを特徴とする請求項1に記載の文書作成支援装置。
  6.  請求項1乃至5のいずれか一項に記載の文書作成支援装置であって、
     前記単語探索手段によって完成された複数の前記文書の候補を、評価指標に基づきソートして出力する文書出力手段を有することを特徴とする文書作成支援装置。
  7.  文書の作成を支援する文書作成支援装置が実行する文書作成支援方法であって、
     前記文書のデータを形態素解析して当該文書を単語に分割する形態素解析ステップと、
     前記分割された単語のうち、所定の単語に対してマスクを行うことでマスク単語を設定するマスク単語設定ステップと、
     学習済みの自然言語処理モデルを用い、前記マスク単語に基づいて、単語の候補及び文脈を考慮した尤度を探索し、当該尤度に応じて前記マスク単語の代替え候補を決定することで、前記文書の候補を完成させる単語探索ステップと、
     を実行することを特徴とする文書作成方法。
  8.  コンピュータに、請求項7に記載の方法を実行させるプログラム。
PCT/JP2021/032194 2021-09-01 2021-09-01 文書作成支援装置、文書作成支援方法、及びプログラム WO2023032100A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/032194 WO2023032100A1 (ja) 2021-09-01 2021-09-01 文書作成支援装置、文書作成支援方法、及びプログラム
JP2023544891A JPWO2023032100A1 (ja) 2021-09-01 2021-09-01

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/032194 WO2023032100A1 (ja) 2021-09-01 2021-09-01 文書作成支援装置、文書作成支援方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023032100A1 true WO2023032100A1 (ja) 2023-03-09

Family

ID=85410947

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/032194 WO2023032100A1 (ja) 2021-09-01 2021-09-01 文書作成支援装置、文書作成支援方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2023032100A1 (ja)
WO (1) WO2023032100A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151849A (ja) * 2016-02-26 2017-08-31 日本電信電話株式会社 外れ値箇所抽出装置、方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151849A (ja) * 2016-02-26 2017-08-31 日本電信電話株式会社 外れ値箇所抽出装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEKIZAWA, YUKI ET AL.: "Improving Neural Machine Translation by Rephrasing Natural Language Low-Frequency Words as High-Frequency Words", PROCEEDINGS OF THE 23RD ANNUAL MEETING OF THE NATURAL LANGUAGE PROCESSING SOCIETY, vol. 23, 6 March 2017 (2017-03-06), pages 982 - 985, XP009544167 *

Also Published As

Publication number Publication date
JPWO2023032100A1 (ja) 2023-03-09

Similar Documents

Publication Publication Date Title
JP7247441B2 (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
AU2019260600B2 (en) Machine learning to identify opinions in documents
US11645314B2 (en) Interactive information retrieval using knowledge graphs
US10606946B2 (en) Learning word embedding using morphological knowledge
CN111368996A (zh) 可传递自然语言表示的重新训练投影网络
Fu et al. CRNN: a joint neural network for redundancy detection
CN108351871A (zh) 通用翻译
CN111680159A (zh) 数据处理方法、装置及电子设备
CN108052489A (zh) 用于输入法编辑器的个人语言模型
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
US20220147835A1 (en) Knowledge graph construction system and knowledge graph construction method
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
US20220358280A1 (en) Context-aware font recommendation from text
Moreno-Garcia et al. A novel application of machine learning and zero-shot classification methods for automated abstract screening in systematic reviews
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
CN116547681A (zh) 用于持续演进内容的动态语言模型
WO2023032100A1 (ja) 文書作成支援装置、文書作成支援方法、及びプログラム
Shafiq et al. Enhancing Arabic Aspect-Based Sentiment Analysis Using End-to-End Model
WO2022180990A1 (ja) 質問生成装置
JP6817690B2 (ja) 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
Amrutha et al. Effortless and beneficial processing of natural languages using transformers
Rahman et al. Analyzing sentiments in elearning: A comparative study of bangla and romanized bangla text using transformers
CN117236347B (zh) 交互文本翻译的方法、交互文本的显示方法和相关装置
Sindhu et al. Aspect based opinion mining leveraging weighted bigru and CNN module in parallel

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21955989

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023544891

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21955989

Country of ref document: EP

Kind code of ref document: A1