WO2020095655A1 - 選定装置および選定方法 - Google Patents

選定装置および選定方法 Download PDF

Info

Publication number
WO2020095655A1
WO2020095655A1 PCT/JP2019/041114 JP2019041114W WO2020095655A1 WO 2020095655 A1 WO2020095655 A1 WO 2020095655A1 JP 2019041114 W JP2019041114 W JP 2019041114W WO 2020095655 A1 WO2020095655 A1 WO 2020095655A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
word
compound word
unit
words
Prior art date
Application number
PCT/JP2019/041114
Other languages
English (en)
French (fr)
Inventor
山田 剛史
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/288,129 priority Critical patent/US11971918B2/en
Publication of WO2020095655A1 publication Critical patent/WO2020095655A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a selection device and a selection method.
  • Patent Document 1 a technique for automatically extracting test items for development requirements from a document such as a design document written by a non-engineer using natural language has been studied (see Patent Document 1).
  • This technology uses, for example, machine learning (CRF, Conditional Random Fields) to add tags to important parts of design documents and automatically extract test items from the tagged parts. is there.
  • machine learning a document is decomposed into word units by morphological analysis, and the tendency of tag addition is learned according to the position and type of tags, the words before and after, the context, and the like.
  • the present invention has been made in view of the above, and an object thereof is to appropriately add a tag to a document by using an appropriate compound word.
  • the selection device includes a calculation unit that calculates a degree of association between words that form a compound word candidate that is a continuous word in a document, and a calculation unit.
  • a selection unit that selects the compound word candidate having a degree of association that is higher than a predetermined threshold value as a compound word, a word in the document that includes the selected compound word, and a predetermined tag given in the document.
  • the learning unit for learning the positional relationship of No. 1 and the adding unit for adding the tag to the document based on the learned positional relationship.
  • FIG. 1 is a diagram for explaining the processing outline of the selection device of the present embodiment.
  • FIG. 2 is a diagram for explaining the processing outline of the selection device of the present embodiment.
  • FIG. 3 is a diagram for explaining the processing outline of the selection device of the present embodiment.
  • FIG. 4 is a schematic diagram illustrating the schematic configuration of the selection device according to the present embodiment.
  • FIG. 5 is a diagram for explaining the processing of the calculation unit.
  • FIG. 6 is a flowchart showing a selection processing procedure in the learning phase.
  • FIG. 7 is a flowchart showing the selection processing procedure in the test phase.
  • FIG. 8 is a diagram illustrating an example of a computer that executes the selection program.
  • [Outline of processing by selection device] 1 to 3 are diagrams for explaining the processing outline of the selection device of the present embodiment.
  • the selection device targets a document 1 such as a design document written in natural language as a processing target.
  • the selection device performs machine learning manually by using the tagged document 2 in which a tag is attached to an important description portion such as the requirement of development in the document 1 as teacher data in the learning phase.
  • the tag attachment position in the document 1 is learned, and the learning result 3 is obtained.
  • the selection device attaches a tag to an appropriate position by using the learning result 3 obtained in the learning phase in the document 1 to be subjected to the test item extraction processing for extracting the test item. See Appendix 4. After that, the selection device automatically extracts the test item from the portion indicated by the tag of the tagged document 4.
  • the selection device sets the tendency of tagging in the teacher data by using the teacher data in which the important description portion is tagged as the input information. Learning is performed by calculation on probability statistics, and the learning result is output. For example, the selection device decomposes the document into word units by morphological analysis, and learns the tendency of tag addition based on the tag position and type, the preceding and following words, the context, and the like.
  • the selection device uses the learning result obtained in the learning phase and indicating the tendency of tagging the teacher data, and the target document of the test item extraction process.
  • a tag is added to the test data.
  • the selection device attaches a predetermined tag indicating that the requirement is described to the description portion indicating the requirement of the test data.
  • FIG. 3 exemplifies a case in which a natural language document "when a service subscriber makes a call, the number is converted when the server cannot be connected " is decomposed into word units by morphological analysis. Has been done.
  • the selection device performs the machine learning with such a compound word to improve the learning accuracy, for example, by adding a tag indicating that the requirement is described to the description part indicating the requirement of the design document. Can be improved.
  • the selection device of the present embodiment selects a compound word from the teacher data and makes it a target of machine learning in order to obtain an appropriate learning result in the examination phase.
  • the selection device can accurately specify the description part to which the tag of the document is added, and thus can accurately learn the tag addition to the specified description part.
  • the selection device selects a compound word from the test data in the test phase, identifies the description part to which the tag of the test data is added using the compound word according to the learning result in the learning phase, and specifies the specified description part. Add a predetermined tag.
  • the selection device specifies, for example, the description part indicating the requirement of the design document which is the test data with high accuracy using the compound word, and indicates that the requirement is described in the specified description part.
  • a predetermined tag can be added with high accuracy.
  • the selection device can appropriately extract the test item from the portion indicated by the tag of the test data in which the appropriate portion is tagged.
  • the selection device can learn the tag attachment position with high accuracy using appropriate compound words. Further, the selection device adds a tag to an appropriate position of the test data according to the learning result. As a result, the selection device can appropriately extract the test item from the test data.
  • FIG. 4 is a schematic diagram illustrating the schematic configuration of the selection device according to the present embodiment.
  • the selection device 10 is realized by a general-purpose computer such as a personal computer, and includes an input unit 11, an output unit 12, a communication control unit 13, a storage unit 14, and a control unit 15.
  • the input unit 11 is realized by using an input device such as a keyboard and a mouse, and inputs various instruction information such as processing start to the control unit 15 in response to an input operation by an operator.
  • the output unit 12 is realized by a display device such as a liquid crystal display and a printing device such as a printer.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between an external device and a control unit 15 via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • the communication control unit 13 controls communication between the control unit 15 and a management device or the like that manages documents used in the selection process described later.
  • the storage unit 14 is realized by a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 stores a learning result indicating a tendency of tagging teacher data in a selection process described later.
  • the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13.
  • the control unit 15 is realized by using a CPU (Central Processing Unit) or the like and executes a processing program stored in the memory. As a result, the control unit 15 functions as the calculation unit 15a, the selection unit 15b, the learning unit 15c, the addition unit 15d, and the extraction unit 15e, as illustrated in FIG.
  • a CPU Central Processing Unit
  • the control unit 15 functions as the calculation unit 15a, the selection unit 15b, the learning unit 15c, the addition unit 15d, and the extraction unit 15e, as illustrated in FIG.
  • the extraction unit 15e may be implemented in hardware different from the calculation unit 15a, the selection unit 15b, the learning unit 15c, and the addition unit 15d.
  • the adding unit 15d may be implemented in hardware different from the calculating unit 15a, the selecting unit 15b, and the learning unit 15c. That is, in the present embodiment, a case has been described in which the selection device executes both the learning phase and the test phase, but separate devices may execute the learning phase and the test phase.
  • the calculation unit 15a calculates the degree of association between the words that form a compound word candidate that is a continuous word in the document.
  • the compound word is composed of a plurality of words that are closely related to each other and continuously exist in the document.
  • a compound word is "service subscriber” composed of consecutive nouns “service”, “subscription”, and “person”, and "when calling” composed of consecutive nouns “call”, “call”, and “hour”. , Etc.
  • a compound word may be composed of words having different parts of speech that continuously exist in a document, such as “user information” composed of a noun “user”, a particle “no”, and a noun “information”. ..
  • the calculation unit 15a selects a plurality of words that continuously exist in the document as compound word candidates.
  • the calculation unit 15a also calculates the degree of association between the words that form the compound word candidate.
  • the selecting unit 15b which will be described later, selects a compound word having a high degree of association between consecutive words as a compound word.
  • the calculation unit 15a divides the document input via the input unit 11 or the communication control unit 13 into words by morphological analysis. Then, the calculation unit 15a selects consecutive words in the document as compound word candidates.
  • the calculation unit 15a also calculates the degree of association between the words that form the selected compound word candidate. For example, the calculating unit 15a calculates the degree of association using a conditional probability that is a probability that a word before the last word exists in the document under the condition that the last word follows.
  • FIG. 5 is a diagram for explaining the processing of the calculation unit 15a.
  • the probability that there is a compound word candidate composed of two consecutive words is the first under the precondition x that the second word follows. Is represented by the conditional probability p (y
  • the degree of association between two words is represented by the conditional probability p (y
  • the degree of association between two words may be represented by the self mutual information amount PMI (x, y) shown in the following expression (1).
  • the above equation (4) indicates that PMI (x, y) is the amount of information generated by a simple y, minus the amount of information when x and y co-occur.
  • PMI (x, y) is the amount of information generated by a simple y, minus the amount of information when x and y co-occur.
  • the fact that the self mutual information amount PMI (x, y) is large means that the information amount when x and y co-occur is small, that is, the probability that x and y co-occur is large. means. Therefore, it is understood that selecting the word y having a large self mutual information amount PMI (x, y) as the feature of the compound word is effective for learning related to x.
  • the degree of association P 2 of two words is the conditional probability p (y
  • the probability that a compound word candidate composed of three consecutive words exists is two consecutive words shown by a1 in FIG.
  • the constructed compound word candidate y is represented by the conditional probability p (y
  • the degree of association P 3 of the three words of the compound word candidate including the three words is calculated by p (y
  • the degree of association P n of n words of a compound word candidate composed of n consecutive words is calculated by p (y
  • the selection unit 15b selects a compound word candidate having a calculated degree of association higher than a predetermined threshold as a compound word. For example, selection unit 15b, the relevant degree P 2 calculated for consists compound word candidate words two consecutive is higher than a predetermined threshold value, selecting the compound word candidate as a compound word.
  • the selecting unit 15b determines that the degree of association is the highest among the degrees of association calculated for each of the compound word candidates each including the continuous number of words. A high compound word candidate is selected as a compound word.
  • the selecting unit 15 b sets P A compound word candidate composed of two words corresponding to 2 is selected as a compound word.
  • the selection unit 15b four or more n words in the document and is continuous, if for example, P 3> P n> P 2, of the compound word candidates corresponding to P 3 3 A compound word candidate consisting of three consecutive words is selected as a compound word.
  • the selection unit 15b can select, as a compound word, from the compound word candidates, words that are closely related and continuously exist in the document.
  • the learning unit 15c learns the positional relationship between the word in the document including the selected compound word and the predetermined tag added in the document.
  • a predetermined tag is added to the document according to the description content.
  • the design document is attached with tags such as Agent, Input, Input condition, Condition, Output, Output condition, and Check point that indicate the requirements to be defined.
  • Agent indicates the target system.
  • Input indicates input information to the system.
  • Input condition indicates an input condition.
  • Condition indicates system conditions.
  • Output indicates output information from the system.
  • Output condition indicates an output condition.
  • Check point indicates a check location or check item.
  • the learning unit 15c learns the positional relationship between the words including the compound word in the document and the predetermined tags added in the document, for the teacher data. For example, the learning unit 15c learns the positional relationship between a word including a compound word such as “service subscriber” or “at the time of calling” and a tag indicating that the required condition is described.
  • the learning unit 15c learns to attach a predetermined tag to an important description part of the document such as a place where the requirement of the design document is specified, which is identified by using the word including the compound word.
  • the learning unit 15c creates, for example, a model indicating at least the relationship between the existing position of a word including a compound word in a document and the position where a predetermined tag is added, and stores the model in the storage unit 14.
  • this model may be one in which features such as the frequency of appearance of words and the type of tags are also learned.
  • the learning technique is not particularly limited, and any existing technique may be applied.
  • the learning unit 15c can accurately specify the description part to which the tag is added in the document by using the compound word, and thus can learn the addition of the tag to the specified description part with high accuracy. That is, the learning unit 15c can improve the accuracy of learning the position where a predetermined tag is attached to a document by performing machine learning using a compound word.
  • the adding unit 15d adds a predetermined tag to the document based on the positional relationship between the word in the document including the learned compound word and the predetermined tag added to the document. Specifically, in the test phase, the assigning unit 15d refers to the learning result obtained in the learning phase and stored in the storage unit 14, and according to the learning result, the test data that may include the compound word And add a predetermined tag.
  • the assigning unit 15d uses the model including the compound word of the test data and its word in the model created by the learning unit 15c and showing the relationship between the existing position of the word including the compound word in the document and the assigning position of the predetermined tag. By inputting the existing position, a predetermined tag and its attached position are obtained. As a result, the adding unit 15d can add a predetermined tag to the test data.
  • the adding unit 15d can accurately specify the description part to which the tag is added by using the compound word, and add the predetermined tag to the specified description part.
  • the assigning unit 15d can accurately attach the tag to an appropriate portion of the test data.
  • the extraction unit 15e extracts the test item from the test data to which the tag is added.
  • the extraction unit 15e refers to a tag that is appropriately added to an important description portion of a document such as a requirement of a development design document by the addition unit 15d, and the portion indicated by the tag is the same or similar portion.
  • Test items are automatically extracted using statistical information about the test. Thereby, the extraction unit 15e can automatically extract appropriate test items from the test data described in natural language.
  • FIG. 6 is a flowchart showing a selection processing procedure in the learning phase.
  • the flowchart of FIG. 6 starts, for example, at the timing when the user inputs an operation instructing the start.
  • the calculation unit 15a selects consecutive words in the document as compound word candidates (step S1). Next, the calculation unit 15a calculates the degree of association between the words forming the compound word candidate (step S2).
  • the calculation unit 15a uses the conditional probability p (y
  • the degree of association is the conditional probability p (y
  • the selection unit 15b selects, as a compound word, a compound word candidate whose calculated degree of association is higher than a predetermined threshold value (step S3). In addition, when three or more words are consecutive in the document, the selecting unit 15b determines that the degree of association is the highest among the degrees of association calculated for each of the compound word candidates each including the continuous number of words. A high compound word candidate is selected as a compound word.
  • n words are consecutive in the document, and P 3 is the maximum among the degree of association P 2 , P 3 , ..., P n of each compound word candidate composed of each number of words.
  • the selection unit 15b selects a compound word candidate composed of three consecutive words as a compound word.
  • the learning unit 15c uses the selected compound word to learn the attachment position of the predetermined tag to the document (step S4). That is, in the learning phase, the learning unit 15c learns the positional relationship between the word in the document including the selected compound word and the predetermined tag added to the document regarding the teacher data. As a learning result, the learning unit 15c creates, for example, a model representing the relationship between the existing position of a word containing a compound word in a document and the given tag addition position, and stores the model in the storage unit 14.
  • FIG. 7 is a flowchart showing the selection processing procedure in the test phase.
  • the processing of steps S1 to S3 is the same as the processing shown in FIG. 6, so description thereof will be omitted.
  • the processes of steps S1 to S3 may be omitted.
  • the adding unit 15d adds a tag to the test data according to the learning result learned using the compound word in the learning phase. That is, the adding unit 15d, based on the learning result obtained in the learning phase shown in FIG. 6, based on the positional relationship between the word including the compound word in the document and the predetermined tag added in the document, A predetermined tag is added to the test data.
  • the adding unit 15d refers to the storage unit 14 and inputs the word including the compound word of the test data and its existence position into the model created by the learning unit 15c to obtain a predetermined tag and its addition position. ..
  • the selection device 10 highly accurately tags the appropriate portion of the test data.
  • the extraction unit 15e extracts the test item from the test data to which the tag is appropriately added, by using the statistical information regarding the test of the same or similar part as the part indicated by the tag.
  • the calculation unit 15a calculates the degree of association between the words that form the compound word candidate that is a continuous word in the document. Further, the selection unit 15b selects a compound word candidate having a calculated degree of association higher than a predetermined threshold value as a compound word. Then, the learning unit 15c learns the positional relationship between the word in the document including the selected compound word and the predetermined tag added in the document. Further, the adding unit 15d adds a predetermined tag to the document based on the positional relationship between the word in the document including the learned compound word and the predetermined tag added to the document.
  • the selection device 10 appropriately selects words that are present in the document in a close relationship and continuously and as a compound word, and uses the selected compound word to accurately describe the part of the document to which the tag is added. Can be specified. Therefore, the selection device 10 can learn the tendency of the tag attachment position with respect to the teacher data with high accuracy.
  • the selection device 10 selects the test data that may include the compound word based on the positional relationship between the word including the compound word in the teacher data which is the learning result and the predetermined tag added to the teacher data. Thus, it is possible to accurately specify the description portion of the document to which the tag is attached and attach the predetermined tag. As described above, the selection device 10 can learn the tag attaching position by using the appropriately selected compound word and attach the tag to the appropriate part of the test data described in the natural language.
  • the extraction unit 15e refers to the tag attached to the appropriate portion of the test data, and uses the statistical information regarding the test of the portion that is the same as or similar to the portion indicated by the tag, and appropriately and accurately. It becomes possible to extract test items. As described above, according to the selection device 10, the extraction unit 15e can automatically extract appropriate test items from the test data described in natural language.
  • the calculation unit 15a uses the conditional probability p (y
  • the selecting unit 15b has the highest degree of relevance among the degree of relevance calculated for each of the compound word candidates formed by the consecutive number of words.
  • a compound word candidate is selected as a compound word.
  • the selection device 10 can select a more appropriate compound word, so that it is possible to perform machine learning for tagging with higher accuracy.
  • the selection device 10 can be implemented by installing a selection program that executes the above selection process as package software or online software in a desired computer.
  • the information processing device can be caused to function as the selection device 10.
  • the information processing apparatus mentioned here includes a desktop or notebook personal computer.
  • the information processing apparatus includes a mobile communication terminal such as a smartphone, a mobile phone or a PHS (Personal Handyphone System), and a slate terminal such as a PDA (Personal Digital Assistant) in its category.
  • FIG. 8 is a diagram illustrating an example of a computer that executes a selection program.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031.
  • the disk drive interface 1040 is connected to the disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050, for example.
  • a display 1061 is connected to the video adapter 1060, for example.
  • the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. Each information described in the above embodiment is stored in, for example, the hard disk drive 1031 or the memory 1010.
  • the selection program is stored in the hard disk drive 1031 as a program module 1093 in which a command executed by the computer 1000 is described, for example.
  • the program module 1093 in which each process executed by the selection device 10 described in the above embodiment is described is stored in the hard disk drive 1031.
  • data used for information processing by the selection program is stored as program data 1094 in, for example, the hard disk drive 1031.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1031 into the RAM 1012 as necessary, and executes the above-described procedures.
  • the program module 1093 and the program data 1094 related to the selection program are not limited to being stored in the hard disk drive 1031 and may be stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. May be done. Alternatively, the program module 1093 and program data 1094 related to the selection program are stored in another computer connected via a network such as LAN or WAN (Wide Area Network) and read by the CPU 1020 via the network interface 1070. May be.
  • LAN or WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

算出部(15a)が、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する。算出部(15a)は、最後尾の単語が後続するという条件の下でこの最後尾の単語より前の単語が文書中に存在する確率である条件付確率を用いて、関連度合いを算出する。選定部(15b)が、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する。学習部(15c)が、選定された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。付与部(15d)が、学習された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係に基づいて文書中に所定のタグを付与する。

Description

選定装置および選定方法
 本発明は、選定装置および選定方法に関する。
 近年、非エンジニアが自然言語を用いて記載した設計書等の文書から、開発の要求条件に対する試験項目を自動的に抽出する技術が検討されている(特許文献1参照)。この技術は、例えば、機械学習(CRF、Conditional Random Fields)の手法を用いて設計書の重要な記載部分にタグを付与し、タグが付与された部分から自動的に試験項目を抽出するものである。機械学習では、文書が形態素解析で単語単位に分解され、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向が学習される。
特開2018-018373号公報
 しかしながら、従来の技術は、文書に適切にタグを付与することが困難な場合があった。例えば、文書を単語単位に分解する際に、複数の名詞等の単語が結合されて意味を成す複合語まで単語単位に分解してしまうため、複合語による機械学習を行うことができず、学習結果の精度が低くなる場合があった。したがって、学習結果を用いて自動抽出された試験項目と、実際の開発で抽出された試験項目とでは、多数の不一致が生じる場合があった。
 本発明は、上記に鑑みてなされたものであって、適切な複合語を用いて、文書中に適切にタグを付与することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る選定装置は、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する算出部と、算出された前記関連度合いが所定の閾値より高い前記複合語候補を複合語として選定する選定部と、選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する学習部と、学習された前記位置関係に基づいて文書中に前記タグを付与する付与部と、を備えることを特徴とする。
 本発明によれば、適切な複合語を用いて、文書中に適切にタグを付与することが可能となる。
図1は、本実施形態の選定装置の処理概要を説明するための図である。 図2は、本実施形態の選定装置の処理概要を説明するための図である。 図3は、本実施形態の選定装置の処理概要を説明するための図である。 図4は、本実施形態の選定装置の概略構成を例示する模式図である。 図5は、算出部の処理を説明するための図である。 図6は、学習フェーズにおける選定処理手順を示すフローチャートである。 図7は、試験フェーズにおける選定処理手順を示すフローチャートである。 図8は、選定プログラムを実行するコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[選定装置の処理概要]
 図1~図3は、本実施形態の選定装置の処理概要を説明するための図である。まず、図1に示すように、選定装置は、自然言語で書かれた設計書等の文書1を処理対象とする。選定装置は、学習フェーズでは、人手により、文書1中の開発の要求条件等を示すような重要な記載部分にタグが付与されたタグ付文書2を、教師データとして機械学習を行うことにより、文書1中のタグの付与位置を学習し、学習結果3を得る。
 また、選定装置は、試験フェーズでは、試験項目を抽出する試験項目抽出処理の対象とする文書1中に、学習フェーズで得られた学習結果3を用いて適切な位置にタグを付与してタグ付文書4とする。その後、選定装置は、このタグ付文書4のタグで示される部分から、試験項目を自動的に抽出する。
 具体的には、図2(a)に示すように、選定装置は、学習フェーズでは、重要な記載部分にタグが付与されている教師データを入力情報として、教師データでのタグ付与の傾向を確率統計上の計算により学習し、学習結果として出力する。例えば、選定装置は、文書を形態素解析で単語単位に分解し、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向を学習する。
 また、図2(b)に示すように、選定装置は、試験フェーズでは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験項目抽出処理の対象の文書である試験データに対してタグを付与する。例えば、選定装置は、試験データの要求条件を示す記載部分に、要求条件が記載されていることを示す所定のタグを付与する。
 上記の学習フェーズにおいて、選定装置が文書を単語単位に分解する際、複数の単語が結合されて意味を成す複合語まで単語単位に分解してしまうと、複合語による機械学習を行えず、学習の精度が低下する場合がある。
 例えば、図3には、「サービス加入者の発呼時、サーバに接続できなかった場合には番号の変換が…」という自然言語の文書が、形態素解析で単語単位に分解された場合が例示されている。
 この文書は、例えば図中に斜体字で示すように、単語単位では「サービス」「加入」「者」と分解されてしまう。そうすると、選定装置は、名詞の複合語である「サービス加入者」による機械学習を行うことができない。同様に、この文書は、単語単位では「発」「呼」「時」と分解されてしまう。そうすると、選定装置は「発呼」または「発呼時」等の名詞の複合語による機械学習を行うことができない。
 一方、例えば、設計書では、「サービス加入者」や「発呼時」のような複合語を手掛かりにすれば、要求条件を示す記載部分を精度高く特定することが可能となる。したがって、選定装置は、このような複合語による機械学習を行うことにより、例えば、設計書の要求条件を示す記載部分へ、要求条件が記載されていることを示すタグを付与する学習の精度を向上させることができる。
 そこで、本実施形態の選定装置は、学習フェーズでは、試験フェーズに適切な学習結果を得るために、教師データから複合語を選定し、機械学習の対象とする。これにより、選定装置は、文書のタグを付与する記載部分を精度高く特定できるので、特定した記載箇所へのタグ付与を精度高く学習することができる。
 また、選定装置は、試験フェーズでは、試験データから複合語を選定し、学習フェーズでの学習結果に従って、複合語を用いて試験データのタグを付与する記載部分を特定し、特定した記載部分に所定のタグを付与する。
 これにより、選定装置は、例えば、試験データである設計書の要求条件を示す記載部分を、複合語を用いて精度高く特定し、特定した記載部分に、要求条件が記載されていることを示す所定のタグを精度高く付与することができる。その結果、選定装置は、適切な部分にタグが付与された試験データのタグで示される部分から、適切に試験項目を抽出することが可能となる。
 このように、選定装置は、適切な複合語を用いて、タグの付与位置を精度高く学習することができる。また、選定装置は、学習結果に従って、試験データの適切な位置にタグを付与する。その結果、選定装置は、試験データから適切に試験項目を抽出することが可能となる。
[選定装置の構成]
 図4は、本実施形態の選定装置の概略構成を例示する模式図である。図4に例示するように、選定装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
 入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。
 通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、後述する選定処理に用いられる文書を管理する管理装置等と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部14には、後述する選定処理において、教師データのタグ付与の傾向を示す学習結果が記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
 制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図4に例示するように、算出部15a、選定部15b、学習部15c、付与部15dおよび抽出部15eとして機能する。
 なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、抽出部15eが、算出部15a、選定部15b、学習部15cおよび付与部15dとは異なるハードウェアに実装されてもよい。
 さらに、付与部15dが、算出部15a、選定部15bおよび学習部15cとは異なるハードウェアに実装されてもよい。つまり、本実施形態では、学習フェーズと試験フェーズとの両方を選定装置が実行する場合を説明しているが、学習フェーズと試験フェーズとを別々の装置が実行するようにしてもよい。
 算出部15aは、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する。
 ここで、複合語とは、密接に関連して連続して文書に存在する複数の単語で構成されるものである。例えば、複合語とは、連続する名詞「サービス」「加入」「者」で構成される「サービス加入者」や、連続する名詞「発」「呼」「時」で構成される「発呼時」等である。
 なお、複合語を構成する単語は、名詞に限定されない。例えば、名詞「ユーザ」、助詞「の」、名詞「情報」で構成される「ユーザの情報」のように、複合語は、連続して文書に存在する異なる品詞の単語で構成されてもよい。
 そこで、算出部15aが、文書に連続して存在する複数の単語を複合語候補として選定する。また、算出部15aは、複合語候補を構成する単語間の関連度合いを算出する。そして、後述する選定部15bが、複合語候補のうち、連続する単語間の関連度合いが高いものを複合語として選定する。
 具体的には、算出部15aは、入力部11あるいは通信制御部13を介して入力された文書を、形態素解析で単語に分割する。そして、算出部15aは、文書中で連続する単語を複合語候補として選定する。
 また、算出部15aは、選定した複合語候補を構成する単語間の関連度合いを算出する。例えば、算出部15aは、最後尾の単語が後続するという条件の下でこの最後尾の単語より前の単語が文書中に存在する確率である条件付確率を用いて、関連度合いを算出する。
 ここで、図5は、算出部15aの処理を説明するための図である。例えば、図5(a)にa1で示すように、2つの連続する単語で構成される複合語候補が存在する確率は、2つ目の単語が後続するという前提条件xの下で1つ目の単語yが存在する条件付確率p(y|x)で表される。
 その場合に、2つの単語の関連度合いは、条件付確率p(y|x)で表される。または2つの単語の関連度合いは、次式(1)に示す自己相互情報量PMI(x,y)で表されるものとしてもよい。
Figure JPOXMLDOC01-appb-M000001
 上記式(1)は、p(y|x)を用いて、次式(2)のように変形することができる。
Figure JPOXMLDOC01-appb-M000002
 ここで、次式(3)で表される情報量Iを定義する。
Figure JPOXMLDOC01-appb-M000003
 また、上記式(2)は、次式(4)のように変形することができる。
Figure JPOXMLDOC01-appb-M000004
 すなわち、上記式(4)は、PMI(x,y)は、y単体が発生する情報量から、xとyとが共起する場合の情報量を差し引いたものであることを示す。言い換えれば、自己相互情報量PMI(x、y)が大きいということは、xとyとが共起する場合の情報量が小さいこと、つまり、xとyとが共起する確率が大きいことを意味する。従って、自己相互情報量PMI(x,y)が大きい単語yを複合語の素性として選定することが、xと関連した学習に有効であることがわかる。
 このように、図5(a)にa1で示した2つの単語で構成される複合語候補について2つの単語の関連度合いPが、条件付確率p(y|x)、または条件付確率p(y|x)を用いた上記式(4)により算出される。
 また、図5(b)にb1で示すように、3つの連続する単語で構成される複合語候補が存在する確率は、上記した図5(a)にa1で示した2つの連続する単語で構成される複合語候補yが、3つ目の単語が後続するという前提条件xの下で存在する条件付確率p(y|x)で表される。
 この場合に、3つの単語で構成される複合語候補の3つの単語の関連度合いPが、p(y|x)、または上記式(4)により算出される。
 同様に、n個の連続する単語で構成される複合語候補のn個の単語の関連度合いPが、p(y|x)、または上記式(4)により算出される。
 選定部15bは、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する。例えば、選定部15bは、2つの連続する単語で構成される複合語候補について算出された関連度合いPが所定の閾値より高い場合に、この複合語候補を複合語として選定する。
 また、選定部15bは、文書中で3以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された関連度合いのうち、該関連度合いが最も高い複合語候補を複合語として選定する。
 例えば、選定部15bは、文書中で連続する3つの単語で構成される複合語候補について算出された関連度合いPより、前の2単語の関連度合いPの方が大きい場合には、Pに対応する2つの単語で構成される複合語候補を複合語として選定する。
 また、選定部15bは、文書中で4以上のn個の単語が連続しており、例えばP>P>Pである場合には、複合語候補のうち、Pに対応する3つの連続する単語で構成される複合語候補を複合語として選定する。
 これにより、選定部15bは、複合語候補のうち、密接に関連して連続して文書に存在する単語を複合語として選定することができる。
 学習部15cは、選定された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。
 ここで、文書中には、記載内容に応じて所定のタグが付与される。例えば、設計書には、定義される要件を示す、Agent、Input、Input condition、Condition、Output、Output condition、Check point等のタグが付与される。
 Agentとは、ターゲットのシステムを示す。Inputとは、システムへの入力情報を示す。Input conditionとは、入力条件を示す。Conditionとは、システムの条件を示す。Outputとは、システムからの出力情報を示す。Output conditionとは、出力条件を示す。Check pointとは、チェック箇所やチェック事項を示す。
 そこで、学習部15cは、教師データについて、文書中の複合語を含む単語と文書中に付与されている所定のタグとの位置関係を学習する。例えば、学習部15cは、「サービス加入者」や「発呼時」等の複合語を含む単語と、要求条件が記載されていることを示すタグとの位置関係を学習する。
 これにより、学習部15cは、複合語を含む単語を用いて特定される、設計書の要求条件が記載された箇所等の文書の重要な記載部分への所定のタグの付与を学習する。学習部15cは、学習結果として、例えば、文書中の複合語を含む単語の存在位置と所定のタグの付与位置との関係を少なくとも示すモデルを作成し、記憶部14に記憶させる。なお、このモデルは、単語の出現頻度やタグの種別等の特徴を併せて学習させたものでもよい。学習の手法については特に限定されず、既存の技術が適用されればよい。
 このように、学習部15cは、複合語を用いることにより、文書中のタグを付与する記載部分を精度高く特定できるので、特定した記載部分へのタグの付与を精度高く学習することができる。つまり、学習部15cは、複合語による機械学習を行うことにより、文書中への所定のタグの付与位置の学習の精度を向上させることが可能となる。
 付与部15dは、学習された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係に基づいて文書中に所定のタグを付与する。具体的には、付与部15dは、試験フェーズにおいて、学習フェーズで得られた、記憶部14に記憶されている学習結果を参照し、この学習結果に従って、複合語が含まれ得る試験データに対して所定のタグを付与する。
 例えば、付与部15dは、学習部15cが作成した、文書中の複合語を含む単語の存在位置と所定のタグの付与位置との関係を示すモデルに、試験データの複合語を含む単語とその存在位置とを入力し、所定のタグとその付与位置とを得る。これにより、付与部15dは、試験データに所定のタグを付与することができる。
 このように、付与部15dは、複合語を用いることにより、タグを付与する記載部分を精度高く特定し、特定した記載部分に所定のタグを付与することができる。これにより、付与部15dは、精度高く試験データの適切な部分にタグを付与することができる。
 抽出部15eは、タグが付与された試験データから、試験項目を抽出する。例えば、抽出部15eは、付与部15dによって開発設計書の要求条件のような文書の重要な記載部分に適切に付与されたタグを参照し、タグで示される部分について、同一または類似の部分の試験に関する統計情報を用いて、自動的に試験項目を抽出する。これにより、抽出部15eは、自然言語で記載された試験データから適切な試験項目を自動的に抽出することができる。
[選定処理]
 次に、図6および図7を参照して、本実施形態に係る選定装置10による選定処理について説明する。図6は、学習フェーズにおける選定処理手順を示すフローチャートである。図6のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
 まず、算出部15aが、文書中で連続する単語を複合語候補として選定する(ステップS1)。次に、算出部15aは、複合語候補を構成する単語間の関連度合いを算出する(ステップS2)。
 例えば、算出部15aは、最後尾の単語が後続するという条件xの下でこの最後尾の単語より前の単語yが文書中に存在する確率である条件付確率p(y|x)を用いて、関連度合いを算出する。ここで、関連度合いは、条件付確率p(y|x)、または上記式(4)で示される自己相互情報量PMI(x,y)である。
 次に、選定部15bが、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する(ステップS3)。また、選定部15bは、文書中で3以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された関連度合いのうち、該関連度合いが最も高い複合語候補を複合語として選定する。
 例えば、文書中でn個の単語が連続しており、各個数の単語で構成される各複合語候補のそれぞれの関連度合いP、P、…、Pのうち、Pが最大である場合に、選定部15bは、3つの連続する単語で構成される複合語候補を複合語として選定する。
 次に、学習部15cが、選定された複合語を用いて、文書への所定のタグの付与位置を学習する(ステップS4)。すなわち、学習部15cは、学習フェーズにおいて、教師データについて、選定された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。学習部15cは、学習結果として、例えば、文書中の複合語を含む単語の存在位置と所定のタグの付与位置との関係を表すモデルを作成し、記憶部14に記憶させる。
 また、図7は、試験フェーズにおける選定処理手順を示すフローチャートである。図7の処理において、ステップS1~S3の処理は、図6に示した処理と同様であるので、説明を省略する。なお、試験フェーズにおいては、ステップS1~S3の処理は省略されてもよい。
 ステップS5の処理では、付与部15dが、学習フェーズで複合語を用いて学習された学習結果に従って、試験データにタグを付与する。すなわち、付与部15dは、図6に示した学習フェーズで得られた学習結果である、文書中の複合語を含む単語と該文書中に付与された所定のタグとの位置関係に基づいて、試験データに所定のタグを付与する。例えば、付与部15dは、記憶部14を参照し、学習部15cが作成したモデルに、試験データの複合語を含む単語とその存在位置とを入力し、所定のタグとその付与位置とを得る。
 これにより、一連の選定処理が終了する。その結果、選定装置10は、精度高く試験データの適切な部分にタグを付与する。その後、抽出部15eが、適切にタグが付与された試験データから、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、試験項目を抽出する。
 以上、説明したように、本実施形態の選定装置10において、算出部15aが、文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する。また、選定部15bが、算出された関連度合いが所定の閾値より高い複合語候補を複合語として選定する。そして、学習部15cが、選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する。また、付与部15dが、学習された複合語を含む文書中の単語と該文書中に付与された所定のタグとの位置関係に基づいて文書中に所定のタグを付与する。
 これにより、選定装置10は、密接に関連して連続して文書に存在する単語を複合語として適切に選定し、選定された複合語を用いて、タグを付与する文書の記載部分を精度高く特定できる。したがって、選定装置10は、教師データについてタグの付与位置の傾向を高精度に学習することができる。
 また、選定装置10は、この学習結果である教師データ中の複合語を含む単語と教師データ中に付与された所定のタグとの位置関係に基づいて、複合語が含まれ得る試験データに対して、タグを付与する文書の記載部分を精度高く特定し、所定のタグを付与することができる。このように、選定装置10は、適切に選定した複合語を用いてタグの付与位置を学習し、自然言語で記載された試験データの適切な部分にタグを付与することが可能となる。
 また、その結果、抽出部15eは、試験データの適切な部分に付与されたタグを参照し、タグで示される部分と同一または類似の部分の試験に関する統計情報を用いて、高精度に適切な試験項目を抽出すること可能となる。このように、選定装置10によれば、抽出部15eが、自然言語で記載された試験データから適切な試験項目を自動的に抽出することが可能となる。
 また、算出部15aは、最後尾の単語が後続するという条件xの下でこの最後尾の単語より前の単語yが文書中に存在する確率である条件付確率p(y|x)を用いて、関連度合いを算出する。このように、選定装置10は、文書中に関連して連続して出現する単語を適切に複合語として選定することができる。
 また、選定部15bは、文書中で3以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された関連度合いのうち、関連度合いが最も高い複合語候補を複合語として選定する。これにより、選定装置10は、より適切な複合語を選定することができるので、より高精度にタグ付与の機械学習を行うことが可能となる。
[プログラム]
 上記実施形態に係る選定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、選定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の選定処理を実行する選定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の選定プログラムを情報処理装置に実行させることにより、情報処理装置を選定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、選定装置10の機能を、クラウドサーバに実装してもよい。
 図8は、選定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、選定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した選定装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、選定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、選定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、選定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 1 文書
 3 学習結果
 10 選定装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 15 制御部
 15a 算出部
 15b 選定部
 15c 学習部
 15d 付与部
 15e 抽出部

Claims (4)

  1.  文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する算出部と、
     算出された前記関連度合いが所定の閾値より高い前記複合語候補を複合語として選定する選定部と、
     選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する学習部と、
     学習された前記位置関係に基づいて文書中に前記タグを付与する付与部と、
     を備えることを特徴とする選定装置。
  2.  前記算出部は、最後尾の単語が後続するという条件の下で該最後尾の単語より前の単語が文書中に存在する確率である条件付確率を用いて、前記関連度合いを算出することを特徴とする請求項1に記載の選定装置。
  3.  前記選定部は、文書中で3以上の単語が連続する場合に、連続する各個数の単語で構成される各複合語候補のそれぞれについて算出された前記関連度合いのうち、該関連度合いが最も高い複合語候補を複合語として選定することを特徴とする請求項1に記載の選定装置。
  4.  選定装置で実行される選定方法であって、
     文書中で連続する単語である複合語候補を構成する該単語間の関連度合いを算出する算出工程と、
     算出された前記関連度合いが所定の閾値より高い前記複合語候補を複合語として選定する選定工程と、
     選定された前記複合語を含む前記文書中の単語と該文書中に付与された所定のタグとの位置関係を学習する学習工程と、
     学習された前記位置関係に基づいて文書中に前記タグを付与する付与工程と、
     を含んだことを特徴とする選定方法。
PCT/JP2019/041114 2018-11-05 2019-10-18 選定装置および選定方法 WO2020095655A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/288,129 US11971918B2 (en) 2018-11-05 2019-10-18 Selectively tagging words based on positional relationship

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018208357A JP2020077054A (ja) 2018-11-05 2018-11-05 選定装置および選定方法
JP2018-208357 2018-11-05

Publications (1)

Publication Number Publication Date
WO2020095655A1 true WO2020095655A1 (ja) 2020-05-14

Family

ID=70611275

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/041114 WO2020095655A1 (ja) 2018-11-05 2019-10-18 選定装置および選定方法

Country Status (3)

Country Link
US (1) US11971918B2 (ja)
JP (1) JP2020077054A (ja)
WO (1) WO2020095655A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283509A (zh) * 2021-05-28 2021-08-20 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238049B (zh) * 2022-06-17 2023-08-04 北京优酷科技有限公司 剧本标注方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258884A (ja) * 2001-02-27 2002-09-11 Mitsubishi Electric Corp 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
AU2005201758B2 (en) * 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US8781810B2 (en) * 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US20150104763A1 (en) * 2013-10-15 2015-04-16 Apollo Group, Inc. Teaching students to recognize and correct sentence fragments
US11645317B2 (en) * 2016-07-26 2023-05-09 Qualtrics, Llc Recommending topic clusters for unstructured text documents
JP6676495B2 (ja) 2016-07-29 2020-04-08 日本電信電話株式会社 抽出装置および抽出方法
US20230409932A1 (en) * 2019-11-04 2023-12-21 Kpn Innovations, Llc. Systems and methods for classifying media according to user negative propensities
US20230297963A1 (en) * 2022-03-15 2023-09-21 My Job Matcher, Inc. D/B/A Job.Com Apparatus and method of opportunity classification
US11790018B1 (en) * 2022-07-25 2023-10-17 Gravystack, Inc. Apparatus for attribute traversal
US11783252B1 (en) * 2022-10-31 2023-10-10 Double Diamond Interests, LLC Apparatus for generating resource allocation recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258884A (ja) * 2001-02-27 2002-09-11 Mitsubishi Electric Corp 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283509A (zh) * 2021-05-28 2021-08-20 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质
CN113283509B (zh) * 2021-05-28 2024-03-29 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质

Also Published As

Publication number Publication date
US20210383057A1 (en) 2021-12-09
JP2020077054A (ja) 2020-05-21
US11971918B2 (en) 2024-04-30

Similar Documents

Publication Publication Date Title
CN113836333B (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN112926306B (zh) 文本纠错方法、装置、设备以及存储介质
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN104142909A (zh) 一种汉字注音方法及装置
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
WO2020095655A1 (ja) 選定装置および選定方法
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
WO2021174814A1 (zh) 众包任务的答案验证方法、装置、计算机设备及存储介质
CN113011531A (zh) 分类模型训练方法、装置、终端设备及存储介质
CN112799658B (zh) 模型训练方法、模型训练平台、电子设备和存储介质
CN109614494A (zh) 一种文本分类方法及相关装置
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
JP7247497B2 (ja) 選定装置および選定方法
JP6928346B2 (ja) 予測装置、予測方法および予測プログラム
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
WO2020059506A1 (ja) 学習装置、抽出装置及び学習方法
CN111767710A (zh) 印尼语的情感分类方法、装置、设备及介质
CN111860862A (zh) 执行学习模型的分层简化
WO2021009885A1 (ja) 教師データ生成装置、教師データ生成方法および教師データ生成プログラム
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19882649

Country of ref document: EP

Kind code of ref document: A1