WO2021009885A1 - 教師データ生成装置、教師データ生成方法および教師データ生成プログラム - Google Patents

教師データ生成装置、教師データ生成方法および教師データ生成プログラム Download PDF

Info

Publication number
WO2021009885A1
WO2021009885A1 PCT/JP2019/028175 JP2019028175W WO2021009885A1 WO 2021009885 A1 WO2021009885 A1 WO 2021009885A1 JP 2019028175 W JP2019028175 W JP 2019028175W WO 2021009885 A1 WO2021009885 A1 WO 2021009885A1
Authority
WO
WIPO (PCT)
Prior art keywords
teacher data
document
relevance
data generation
tag
Prior art date
Application number
PCT/JP2019/028175
Other languages
English (en)
French (fr)
Inventor
山田 剛史
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021532628A priority Critical patent/JPWO2021009885A1/ja
Priority to PCT/JP2019/028175 priority patent/WO2021009885A1/ja
Priority to US17/625,827 priority patent/US20220277138A1/en
Publication of WO2021009885A1 publication Critical patent/WO2021009885A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a teacher data generator, a teacher data generation method, and a teacher data generation program.
  • Patent Document 1 a technique for automatically extracting test items for development requirements from documents such as design documents written by non-engineers using natural language has been studied (see Patent Document 1).
  • This technology uses, for example, a machine learning (CRF, Conditional Random Fields) method to tag important description parts such as the target device, input, output, state, and checkpoint of the design document, and the assigned tag. Test items are automatically extracted from the range of. In that case, the tag is automatically added to the design document by performing machine learning using the tagged design document as teacher data.
  • CRF Conditional Random Fields
  • the present invention has been made in view of the above, and an object of the present invention is to easily supplement teacher data in which a document is appropriately tagged.
  • the teacher data generation device is a teacher data generation device that generates teacher data with tags according to the contents described in the document, and is a document.
  • a calculation unit that calculates the degree of relevance between the description content of the document and the description content of the document corresponding to the tag, and when the calculated relevance degree is equal to or higher than a predetermined threshold, the tag is placed in the description location of the description content of the document. It is characterized by having a granting portion for granting.
  • FIG. 1 is a diagram for explaining a processing outline of a system including the teacher data generator of the present embodiment.
  • FIG. 2 is a diagram for explaining a processing outline of a system including the teacher data generator of the present embodiment.
  • FIG. 3 is a schematic diagram illustrating a schematic configuration of the teacher data generation device of the present embodiment.
  • FIG. 4 is a diagram for explaining the processing of the calculation unit.
  • FIG. 5 is a flowchart showing a teacher data generation processing procedure.
  • FIG. 6 is a diagram for explaining the effect of the teacher data generation processing.
  • FIG. 7 is a diagram showing an example of a computer that executes a teacher data generation program.
  • FIG. 1 and 2 are diagrams for explaining a processing outline of a system including the teacher data generator of the present embodiment.
  • the system including the teacher data generator of the present embodiment executes the test item extraction process.
  • a document such as a design document written in natural language
  • an important description part indicating development requirements such as a target device, input, output, state, checkpoint, etc.
  • a tag is attached.
  • the system automatically extracts test items from the range indicated by the tag of the document (see Patent Document 1).
  • the system performs machine learning using documents with tags attached to important description parts as teacher data, and learns the tendency of tagging in teacher data by probabilistic statistical calculation. And output as a learning result. For example, the system learns the tendency of tagging based on the position and type of tags, words before and after, context, and the like.
  • the system automatically tags the target document of the test item extraction process that extracts the test item using the learning result that shows the tendency of tagging the teacher data obtained in the learning phase. Give. The system then automatically extracts test items from the tagged range of the document.
  • the teacher data generation device of the present embodiment automatically adds a tag to the document to generate teacher data.
  • the teacher data generator identifies which part of the design document the description of the test item corresponding to the tag to be assigned corresponds to in the learning phase, and the specified part is used. Automatically add tags to generate teacher data.
  • the teacher data generator uses the PMI (Pointwise Mutual Information) method to identify the part of the design document that is highly relevant to the description of the test item, and automatically attaches a tag to the specified part. To generate teacher data.
  • PMI Pointwise Mutual Information
  • the teacher data generation device automatically generates teacher data to which tags appropriately attached to the contents of the document are appropriately attached, and makes it possible to easily replenish the teacher data.
  • FIG. 3 is a schematic diagram illustrating a schematic configuration of the teacher data generation device of the present embodiment.
  • the teacher data generation device 10 of the present embodiment is realized by a general-purpose computer such as a personal computer, and includes an input unit 11, an output unit 12, a communication control unit 13, a storage unit 14, and a control unit 15. Be prepared.
  • the input unit 11 is realized by using an input device such as a keyboard or a mouse, and inputs various instruction information such as processing start to the control unit 15 in response to an input operation by the operator.
  • the output unit 12 is realized by a display device such as a liquid crystal display, a printing device such as a printer, or the like. For example, the output unit 12 displays the result of the teacher data generation process described later.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between an external device and the control unit 15 via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • the communication control unit 13 is a management device that manages documents related to the development of design documents, test items, etc., a tagging device that learns the tendency of tagging documents and automatically assigns tags to documents, and the like. It controls communication between the control unit 15 and an extraction device or the like that extracts test items from a range to which a document is tagged.
  • the storage unit 14 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 stores in advance a processing program that operates the teacher data generation device 10, data used during execution of the processing program, and the like, or is temporarily stored each time the processing is performed.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13.
  • the control unit 15 is realized by using a CPU (Central Processing Unit) or the like, and executes a processing program stored in a memory. As a result, the control unit 15 functions as the calculation unit 15a and the imparting unit 15b, as illustrated in FIG. Note that these functional units may be implemented in different hardware. Further, the control unit 15 may include other functional units.
  • a CPU Central Processing Unit
  • the control unit 15 may include other functional units.
  • the calculation unit 15a calculates the degree of relevance between the description content of the document and the description content of the document corresponding to the tag. For example, the calculation unit 15a acquires a design document to which a tag is attached and a test item corresponding to the tag to be attached via the input unit 11 or the communication control unit 13. Further, the calculation unit 15a calculates the degree of relevance between the description content of the design document and the description content of the test item corresponding to the tag to be given by using the self-mutual information amount PMI.
  • the calculation unit 15a calculates the degree of relevance of each word by using the probability of occurrence of a word in the document and the probability of occurrence in the document corresponding to the tag of the word. Specifically, the calculation unit 15a calculates the PMI represented by the following equation (1) for each word y in the design document and the premise event x that exists in the test item corresponding to the tag.
  • the PMI (x, y) has a probability of occurrence of the word y in the document p (y) and a probability of occurrence of the word y within the range of the tag p (y
  • x). It is the difference of the amount of information calculated by using and. For example, when one word y is included in a 20-word document, p (y) 1/20. If the word y does not exist within the tag range, p (y
  • Calculating unit 15a for each word in the design document, by using the total number of words X in design specifications and the appearance number n y for each word y of the design specifications, as shown in the following equation (2), P (Y) is calculated.
  • the calculation unit 15a uses the following equation (3) for each word in the test item corresponding to the tag, using the number of occurrences of y in the test item ny
  • FIG. 4 is a diagram for explaining the processing of the calculation unit 15a.
  • the calculation unit 15a specifies the high and low degree of relevance for each sentence by a predetermined threshold value determination. That is, the calculation unit 15a specifies that the degree of relevance is high when the calculated relevance is equal to or greater than a predetermined threshold value. Further, the calculation unit 15a specifies that the relevance degree is low when the calculated relevance degree is less than a predetermined threshold value.
  • the granting unit 15b adds a tag to the description location of the description content of the document. Specifically, the granting unit 15b assigns a tag corresponding to the test item to the description portion of the design document in which the degree of relevance is specified to be equal to or higher than a predetermined threshold value. For example, in the example shown in FIG. 4, the giving unit 15b attaches a tag corresponding to the test item to the range of the sentence specified as having a high degree of relevance to the description content of the test item, and uses it as teacher data.
  • the assigning unit 15b adds tags corresponding to the test items to the design document, generates teacher data, and outputs the generated teacher data.
  • the granting unit 15b outputs the tag to the granting device that automatically attaches the tag to the document via the output unit 12 or the communication control unit 13.
  • the assigning device learns the tendency of tagging a document using teacher data, automatically assigns a tag to a document using the learning result, and outputs it to an extracting device that extracts test items.
  • the extraction device uses the tagged document to automatically extract test items for the range indicated by the tag, using statistical information about the same or similar parts of the test.
  • FIG. 5 is a flowchart showing a teacher data generation processing procedure.
  • the flowchart of FIG. 5 is started, for example, at the timing when the user inputs an operation instructing the start.
  • the calculation unit 15a calculates the degree of relevance between the description content of the document and the description content of the test item corresponding to the tag (step S1). For example, the calculation unit 15a calculates the degree of relevance of each word by using the probability of occurrence of a word in a document and the probability of occurrence in a test item corresponding to the tag of the word. Further, the calculation unit 15a calculates the average value of the relevance of each word constituting the sentence of the document as the relevance of each sentence.
  • the granting unit 15b adds a tag to the description location of the description content of the document (step S2).
  • the granting unit 15b outputs the generated teacher data (step S3).
  • the granting unit 15b outputs to an granting device that automatically adds a tag to a document via the output unit 12 or the communication control unit 13. As a result, a series of teacher data generation processes is completed.
  • the teacher data generation device 10 of the present embodiment is a teacher data generation device 10 that generates teacher data to which tags according to the contents described in the document are attached, and the calculation unit 15a describes the document. Calculate the degree of relevance between the description content of and the description content of the document corresponding to the tag. When the calculated relevance degree is equal to or higher than a predetermined threshold value, the granting unit 15b adds a tag to the description location of the description content of the document.
  • the teacher data generation device 10 can automatically generate teacher data with tags appropriately attached to the document, and can easily replenish the teacher data for learning the tendency of attaching tags to the document. It becomes.
  • the calculation unit calculates the degree of relevance of each word by using the probability of occurrence of a word in the document and the probability of occurrence of the word in the document corresponding to the tag.
  • the teacher data generation device 10 can, for example, add a tag to the range of the document in which the words having high relevance are the most.
  • the calculation unit calculates the average value of the relevance of each word constituting the sentence of the document as the relevance of each sentence.
  • the teacher data generation device 10 can add tags to a range of documents having a high degree of relevance on a sentence-by-sentence basis.
  • FIG. 6 is a diagram for explaining the effect of the teacher data generation process.
  • the case where the degree of relevance to the description contents of the test items is calculated for each sentence is illustrated in descending order (highest order) of the degree of relevance.
  • the higher the average value of the PMI value of each sentence, that is, the PMI value of the words constituting each sentence the more it matches the coping process of the test item or the target development name. all right. That is, as shown in FIG. 6B, it was confirmed that the PMI value for each sentence reflects the degree of relevance to the description contents of the test items of each sentence.
  • the teacher data generation device 10 can be implemented by installing a teacher data generation program that executes the above teacher data generation process as package software or online software on a desired computer.
  • the information processing device can function as the teacher data generation device 10.
  • the information processing device referred to here includes a desktop type or notebook type personal computer.
  • the information processing device includes smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDAs (Personal Digital Assistants).
  • the function of the teacher data generation device 10 may be implemented in the cloud server.
  • FIG. 7 is a diagram showing an example of a computer that executes a teacher data generation program.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031.
  • the disk drive interface 1040 is connected to the disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050.
  • a display 1061 is connected to the video adapter 1060.
  • the hard disk drive 1031 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. Each piece of information described in the above embodiment is stored in, for example, the hard disk drive 1031 or the memory 1010.
  • the teacher data generation program is stored in the hard disk drive 1031 as, for example, a program module 1093 in which a command executed by the computer 1000 is described.
  • the program module 1093 in which each process executed by the teacher data generation device 10 described in the above embodiment is described is stored in the hard disk drive 1031.
  • the data used for information processing by the teacher data generation program is stored as program data 1094 in, for example, the hard disk drive 1031.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1031 into the RAM 1012 as needed, and executes each of the above-described procedures.
  • the program module 1093 and the program data 1094 related to the teacher data generation program are not limited to the case where they are stored in the hard disk drive 1031. For example, they are stored in a removable storage medium and are stored by the CPU 1020 via the disk drive 1041 or the like. It may be read out. Alternatively, the program module 1093 and the program data 1094 related to the teacher data generation program are stored in another computer connected via a network such as LAN or WAN (Wide Area Network), and read by the CPU 1020 via the network interface 1070. It may be issued.
  • LAN or WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書にタグが付与された教師データを生成する教師データ生成処理において、算出部(15a)が、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する。付与部(15b)が、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する。

Description

教師データ生成装置、教師データ生成方法および教師データ生成プログラム
 本発明は、教師データ生成装置、教師データ生成方法および教師データ生成プログラムに関する。
 近年、非エンジニアが自然言語を用いて記載した設計書等の文書から、開発の要求条件に対する試験項目を自動的に抽出する技術が検討されている(特許文献1参照)。この技術は、例えば、機械学習(CRF、Conditional Random Fields)の手法を用いて設計書の対象装置、入力、出力、状態、チェックポイント等の重要な記載部分にタグを付与し、付与されたタグの範囲から自動的に試験項目を抽出する。その場合には、タグが付与された設計書を教師データとして機械学習を行うことにより、設計書に自動的にタグが付与される。
特開2018-018373号公報
 しかしながら、従来、教師データには手動でタグが付与されているため、教師データの補充には、多大な稼働がかかっていた。
 本発明は、上記に鑑みてなされたものであって、文書に適切にタグを付与した教師データの補充を容易に行うことを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る教師データ生成装置は、文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置であって、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出部と、算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与部と、を有することを特徴とする。
 本発明によれば、文書に適切にタグを付与した教師データの補充を容易に行うことが可能となる。
図1は、本実施形態の教師データ生成装置を含むシステムの処理概略を説明するための図である。 図2は、本実施形態の教師データ生成装置を含むシステムの処理概略を説明するための図である。 図3は、本実施形態の教師データ生成装置の概略構成を例示する模式図である。 図4は、算出部の処理を説明するための図である。 図5は、教師データ生成処理手順を示すフローチャートである。 図6は、教師データ生成処理の効果を説明するための図である。 図7は、教師データ生成プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[システムの処理]
 図1および図2は、本実施形態の教師データ生成装置を含むシステムの処理概要を説明するための図である。本実施形態の教師データ生成装置を含むシステムは、試験項目抽出処理を実行する。まず、図1に示すように、システムは、自然言語で書かれた設計書等の文書に、対象装置、入力、出力、状態、チェックポイント等の開発の要求条件等を示す重要な記載部分にタグ(tag)を付与する。次に、システムは、文書のタグで示される範囲から、試験項目を自動的に抽出する(特許文献1参照)。
 具体的には、システムは、学習フェーズでは、重要な記載部分にタグが付与された文書を教師データとして機械学習を行って、教師データでのタグの付与の傾向を確率統計上の計算により学習し、学習結果として出力する。例えば、システムは、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向を学習する。
 また、システムは、試験フェーズでは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験項目を抽出する試験項目抽出処理の対象の文書に自動的にタグを付与する。そして、システムは、文書のタグが付与された範囲から、試験項目を自動的に抽出する。
 ここで、図1にAで示した学習フェーズでの処理において、教師データを人手により生成するには、多大な稼働を要する。そこで、本実施形態の教師データ生成装置は、文書に自動的にタグを付与して教師データを生成する。具体的には、教師データ生成装置は、図2に示すように、学習フェーズにおいて、付与するタグに対応する試験項目の記載が設計書のどの部分に該当するかを特定し、特定した部分に自動的にタグを付与して教師データを生成する。つまり、教師データ生成装置は、PMI(Pointwise Mutual Information)の手法を用いて、試験項目の記載内容との関連度が高い設計書の部分を特定し、特定した部分に自動的にタグを付与して教師データを生成する。
 このように、教師データ生成装置は、文書に記載内容に応じたタグを適切に付与した教師データを自動的に生成し、教師データの補充を容易に行うことを可能とする。
[教師データ生成装置の構成]
 図3は、本実施形態の教師データ生成装置の概略構成を例示する模式図である。図3に例示するように、本実施形態の教師データ生成装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
 入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部12には、後述する教師データ生成処理の結果が表示される。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、設計書等の開発に関する文書や試験項目等を管理する管理装置や、文書へのタグの付与傾向を学習して文書に自動的にタグを付与する付与装置や、文書のタグが付与された範囲から試験項目を抽出する抽出装置等と、制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、教師データ生成装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
 制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図3に例示するように、算出部15aおよび付与部15bとして機能する。なお、これらの機能部は、それぞれ異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
 算出部15aは、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する。例えば、算出部15aは、入力部11あるいは通信制御部13を介して、タグを付与する設計書と、付与するタグに対応する試験項目とを取得する。また、算出部15aは、設計書の記載内容と、付与するタグに対応する試験項目の記載内容との関連度を、自己相互情報量PMIを用いて算出する。
 例えば、算出部15aは、文書内での単語の発生確率と、該単語のタグに対応する文書内での発生確率とを用いて、各単語の関連度を算出する。具体的には、算出部15aは、設計書内の各単語yとタグに対応する試験項目内に存在するという前提事象xとについて、次式(1)に示すPMIを算出する。
Figure JPOXMLDOC01-appb-M000001
 上記式(1)に示すように、PMI(x,y)は、文書内での単語yの発生確率p(y)と、タグの範囲内での単語yの発生確率p(y|x)とを用いてそれぞれ算出される情報量の差分である。例えば、20単語の文書内に単語yが1つ含まれている場合には、p(y)=1/20となる。また、単語yがタグの範囲内に存在しない場合には、p(y|x)=0となる。この場合には、PMI(x、y)=4.3-∞=-∞と算出される。
 ここで、p(y)>P(y|x)の場合には、PMI値は負値となり、単語yのタグとの関連度が低いと定量評価される。また、p(y)=P(y|x)の場合には、PMI値は0となり、単語yのタグ内外との関連度が等しいと定量評価される。また、p(y)<P(y|x)の場合には、PMI値は正値となり、単語yのタグとの関連度が高いと定量評価される。すなわち、上記式(1)の情報量は、値が大きいほど関連度が高いことを表している。
 算出部15aは、設計書内の単語ごとに、設計書内の各単語yの出現数nと設計書内の全単語数Xとを用いて、次式(2)に示すように、P(y)を算出する。
Figure JPOXMLDOC01-appb-M000002
 また、算出部15aは、タグに対応する試験項目内の単語ごとに、試験項目内でのyの出現数ny|xと試験項目内の全単語数Wとを用いて、次式(3)に示すように、P(y|x)を算出する。
Figure JPOXMLDOC01-appb-M000003
 また、算出部15aは、文書の文を構成する各単語の関連度の平均値を、各文の関連度として算出する。例えば、文αが単語A、B、C、Dで構成されていて、単語A、B、C、CのそれぞれのPMI値が1、2、0.4、-1であった場合に、算出部15aは、各単語のPMI値の平均値(=0.6)を、文αの関連度として算出する。
 このようにして、算出部15aは、付与するタグに対応する試験項目の記載内容と関連度が高い設計書の部分を特定することができる。ここで、図4は、算出部15aの処理を説明するための図である。図4に示す例では、算出部15aは、文単位で関連度の高低を所定の閾値判定により特定している。すなわち、算出部15aは、算出した関連度が所定の閾値以上の場合に、関連度高と特定する。また、算出部15aは、算出した関連度が所定の閾値未満の場合に、関連度低と特定する。
 図3の説明に戻る。付与部15bは、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する。具体的には、付与部15bは、関連度が所定の閾値以上と特定された設計書の記載箇所に、試験項目に対応するタグを付与する。例えば、付与部15bは、図4に示した例において、試験項目の記載内容との関連度高と特定された文の範囲に、試験項目に対応するタグを付与して、教師データとする。
 このように、付与部15bは、試験項目に対応するタグを設計書に付与して教師データを生成し、生成した教師データを出力する。例えば、付与部15bは、出力部12あるいは通信制御部13を介して、文書にタグを自動的に付与する処理を行う付与装置に出力する。
 付与装置は、教師データを用いて文書へのタグの付与傾向を学習し、学習結果を用いて文書にタグを自動的に付与し、試験項目を抽出する抽出装置に出力する。抽出装置は、タグが付与された文書を用いて、タグで示される範囲について、同一または類似の部分の試験に関する統計情報を用いて自動的に試験項目を抽出する。
[教師データ生成処理]
 次に、図5を参照して、本実施形態に係る教師データ生成装置10による教師データ生成処理について説明する。図5は、教師データ生成処理手順を示すフローチャートである。図5のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
 まず、算出部15aが、文書の記載内容とタグに対応する試験項目の記載内容との関連度を算出する(ステップS1)。例えば、算出部15aは、文書内での単語の発生確率と、該単語のタグに対応する試験項目内での発生確率とを用いて、各単語の関連度を算出する。また、算出部15aは、文書の文を構成する各単語の関連度の平均値を、各文の関連度として算出する。
 そして、付与部15bが、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する(ステップS2)。
 また、付与部15bは、生成した教師データを出力する(ステップS3)。例えば、付与部15bは、出力部12あるいは通信制御部13を介して、文書へのタグを自動的に付与する処理を行う付与装置に出力する。これにより、一連の教師データ生成処理が終了する。
 以上、説明したように、本実施形態の教師データ生成装置10は、文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置10であって、算出部15aが、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する。付与部15bが、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する。
 これにより、教師データ生成装置10は、文書にタグを適切に付与した教師データを自動的に生成し、文書へのタグの付与傾向を学習するための教師データの補充を容易に行うことが可能となる。
 また、算出部は、文書内での単語の発生確率と、該単語の前記タグに対応する文書内での発生確率とを用いて、各単語の関連度を算出する。これにより、教師データ生成装置10は、例えば、関連度が高い単語が最多となる文書の範囲にタグを付与することができる。
 また、算出部は、文書の文を構成する各単語の関連度の平均値を、各文の関連度として算出する。これにより、教師データ生成装置10は、文単位で関連度の高い文書の範囲にタグを付与することが可能となる。
 図6は、教師データ生成処理の効果を説明するための図である。図6には、文単位で試験項目の記載内容との関連度を算出した場合が、関連度の降順(高い順)に例示されている。この場合に、図6(a)に示すように、各文のPMI値すなわち各文を構成する単語のPMI値の平均値が高いほど、試験項目の対処処理または対象開発名と一致することがわかった。つまり、図6(b)に示すように、文単位のPMI値が各文の試験項目の記載内容との関連度を反映していることが確認された。
[プログラム]
 上記実施形態に係る教師データ生成装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、教師データ生成装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の教師データ生成処理を実行する教師データ生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の教師データ生成プログラムを情報処理装置に実行させることにより、情報処理装置を教師データ生成装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、教師データ生成装置10の機能を、クラウドサーバに実装してもよい。
 図7は、教師データ生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、教師データ生成プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した教師データ生成装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、教師データ生成プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、教師データ生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、教師データ生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 10 教師データ生成装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 15 制御部
 15a 算出部
 15b 付与部

Claims (5)

  1.  文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置であって、
     文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出部と、
     算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与部と、
     を有することを特徴とする教師データ生成装置。
  2.  前記算出部は、前記文書内での単語の発生確率と、該単語の前記タグに対応する文書内での発生確率とを用いて、各単語の関連度を算出することを特徴とする請求項1に記載の教師データ生成装置。
  3.  前記算出部は、前記文書の文を構成する各単語の前記関連度の平均値を、各文の関連度として算出することを特徴とする請求項2に記載の教師データ生成装置。
  4.  文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置で実行される教師データ生成方法であって、
     文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出工程と、
     算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与工程と、
     を含んだことを特徴とする教師データ生成方法。
  5.  文書に記載内容に応じたタグが付与された教師データを生成する処理において、
     文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出ステップと、
     算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与ステップと、
     をコンピュータに実行させるための教師データ生成プログラム。
PCT/JP2019/028175 2019-07-17 2019-07-17 教師データ生成装置、教師データ生成方法および教師データ生成プログラム WO2021009885A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021532628A JPWO2021009885A1 (ja) 2019-07-17 2019-07-17
PCT/JP2019/028175 WO2021009885A1 (ja) 2019-07-17 2019-07-17 教師データ生成装置、教師データ生成方法および教師データ生成プログラム
US17/625,827 US20220277138A1 (en) 2019-07-17 2019-07-17 Training data generation device, training data generation method and training data generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/028175 WO2021009885A1 (ja) 2019-07-17 2019-07-17 教師データ生成装置、教師データ生成方法および教師データ生成プログラム

Publications (1)

Publication Number Publication Date
WO2021009885A1 true WO2021009885A1 (ja) 2021-01-21

Family

ID=74210254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/028175 WO2021009885A1 (ja) 2019-07-17 2019-07-17 教師データ生成装置、教師データ生成方法および教師データ生成プログラム

Country Status (3)

Country Link
US (1) US20220277138A1 (ja)
JP (1) JPWO2021009885A1 (ja)
WO (1) WO2021009885A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094434A (ja) * 2002-08-30 2004-03-25 Fujitsu Ltd 言語処理方法、プログラム及び装置
WO2013102396A1 (zh) * 2012-01-05 2013-07-11 腾讯科技(深圳)有限公司 一种自动给文档添加标签的方法、装置以及计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5139883B2 (ja) * 2008-05-08 2013-02-06 株式会社野村総合研究所 検索システム
JP4942727B2 (ja) * 2008-11-26 2012-05-30 日本電信電話株式会社 テキスト要約装置、その方法およびプログラム
US20200034911A1 (en) * 2018-07-27 2020-01-30 Mad Street Den, Inc. Ensemble Generation System for Retail Marketing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094434A (ja) * 2002-08-30 2004-03-25 Fujitsu Ltd 言語処理方法、プログラム及び装置
WO2013102396A1 (zh) * 2012-01-05 2013-07-11 腾讯科技(深圳)有限公司 一种自动给文档添加标签的方法、装置以及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUHEI YAMAMOTO: "HierarchicalEstimation Methods for Labeling Multi-Aspects toReal Life Tweets", DEIM FORUM 2014 C4-1, 3 March 2014 (2014-03-03), pages 1 - 1, XP009526209 *

Also Published As

Publication number Publication date
US20220277138A1 (en) 2022-09-01
JPWO2021009885A1 (ja) 2021-01-21

Similar Documents

Publication Publication Date Title
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
US11216701B1 (en) Unsupervised representation learning for structured records
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN112527281B (zh) 基于人工智能的算子升级方法、装置、电子设备及介质
CN113656587B (zh) 文本分类方法、装置、电子设备及存储介质
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
JP7291181B2 (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
WO2020095655A1 (ja) 選定装置および選定方法
CN112668281B (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
CN112464927B (zh) 一种信息提取方法、装置及系统
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
US20230334075A1 (en) Search platform for unstructured interaction summaries
WO2021009885A1 (ja) 教師データ生成装置、教師データ生成方法および教師データ生成プログラム
CN114492370B (zh) 网页识别方法、装置、电子设备和介质
US20140343920A1 (en) Method and system to determine part-of-speech
JP7247497B2 (ja) 選定装置および選定方法
CN111860862A (zh) 执行学习模型的分层简化
WO2021009886A1 (ja) 支援装置、支援方法および支援プログラム
JP6437936B2 (ja) 提示装置、提示方法、および提示プログラム
JP7494935B2 (ja) 推定装置、推定方法、および、推定プログラム
WO2022091422A1 (ja) 推定装置、推定方法、および、推定プログラム
CN115525730B (zh) 基于页面赋权的网页内容提取方法、装置及电子设备
CN113782001B (zh) 一种特定领域语音识别方法、装置、电子设备及存储介质
US20230162085A1 (en) Learning device, learning method, and learning program
WO2023238304A1 (ja) 判定装置、判定方法および判定プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021532628

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19937588

Country of ref document: EP

Kind code of ref document: A1