WO2020166397A1 - 校閲方法、情報処理装置および校閲プログラム - Google Patents

校閲方法、情報処理装置および校閲プログラム Download PDF

Info

Publication number
WO2020166397A1
WO2020166397A1 PCT/JP2020/003801 JP2020003801W WO2020166397A1 WO 2020166397 A1 WO2020166397 A1 WO 2020166397A1 JP 2020003801 W JP2020003801 W JP 2020003801W WO 2020166397 A1 WO2020166397 A1 WO 2020166397A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
abbreviation
appearances
prototype
determined
Prior art date
Application number
PCT/JP2020/003801
Other languages
English (en)
French (fr)
Inventor
菜那 長谷川
宮尾 浩
鎮成 齋藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/430,089 priority Critical patent/US20220138406A1/en
Publication of WO2020166397A1 publication Critical patent/WO2020166397A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Definitions

  • the present invention relates to a review method, an information processing device, and a review program.
  • the conventional method has a problem that it takes time and effort to manually correct the text data of a development document or the like when the writing fluctuation occurs.
  • a reviewing method of the present invention is a reviewing method executed by an information processing apparatus, and an extracting step of extracting a pair of an abbreviation and a prototype word from text data,
  • the number of appearances of the abbreviations and prototypes of the pair extracted by the extraction step is counted, and the appearance frequency of the abbreviations and the number of appearances of the prototypes is determined, and the determination result is stored in the storage unit.
  • the counting step of storing and the determination result stored in the storage unit whether the words included in the text data to be reviewed include an abbreviation or a prototype word determined to have a small number of appearances by the counting step.
  • a determination step of identifying the word as a correction target word is included.
  • the extraction unit for extracting a pair of abbreviations and prototypes from the text data respectively counting the number of appearances of the abbreviations and prototypes of the pairs extracted by the extraction unit, the appearance of abbreviations Of the number of appearances and the number of appearances of the prototype word, it is determined which of the appearance counts is higher, and the counting unit that stores the determination result in the storage unit and the determination result stored in the storage unit are referred to, and the text data to be reviewed is referred to. It is determined whether the word contained in contains an abbreviation or prototype word determined to have a small number of appearances by the counting unit, and if it is determined to include an abbreviation or prototype word determined to have a small number of appearances. And a determination unit that identifies the word as a correction target word.
  • the extraction step of extracting a pair of abbreviations and prototypes from the text data respectively counting the number of appearances of the abbreviations and prototypes of the pairs extracted by the extraction step, the number of appearances of abbreviations
  • the number of appearances of the prototype word and the number of appearances of the prototype word is determined
  • the counting step of storing the determination result in the storage unit and the determination result stored in the storage unit are referred to, and
  • the included words it is determined whether the abbreviations or prototypes that are determined to have a small number of appearances by the counting step are included, and if it is determined that the abbreviations or prototypes that are determined to have a small number of appearances are included, And a determining step of specifying the word as a correction target word.
  • FIG. 1 is a block diagram showing a configuration example of an information processing device according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of data stored in the determination table storage unit.
  • FIG. 3 is a diagram illustrating a process of extracting an abbreviation-prototype word pair.
  • FIG. 4 is a diagram illustrating the extraction rule.
  • FIG. 5 is a diagram illustrating a process of counting the number of appearances of abbreviations and the number of appearances of prototype words.
  • FIG. 6 is a diagram illustrating a process of correcting a new document.
  • FIG. 7 is a flowchart showing an example of the flow of the determination table storage process in the information processing device according to the first embodiment.
  • FIG. 7 is a flowchart showing an example of the flow of the determination table storage process in the information processing device according to the first embodiment.
  • FIG. 8 is a flowchart showing an example of the flow of review processing in the information processing apparatus according to the first embodiment.
  • FIG. 9 is a diagram for explaining the background of the development document on the development site.
  • FIG. 10 is a diagram illustrating a computer that executes a review program.
  • FIG. 1 is a block diagram showing a configuration example of an information processing device according to the first embodiment.
  • the information processing apparatus 10 illustrated in FIG. 1 creates pairs of abbreviations and prototypes from text data of past development documents, obtains frequencies of occurrences of the abbreviations and prototypes, respectively, and determines the most correct words and the few correct words. The word is wrong. Then, when the incorrect word is used in the document of the new document to be reviewed, the information processing device 10 corrects the correct word.
  • the information processing device 10 has an input unit 11, an output unit 12, a control unit 13, and a storage unit 14. The processing of each unit of the information processing device 10 will be described below.
  • the input unit 11 is an input device such as a keyboard and a mouse, and inputs, for example, text data of past development documents and text data to be reviewed.
  • the output unit 12 is an output device such as a display, and outputs a review result or the like of the text data to be reviewed.
  • the output unit 12 may output the correction target word specified by the determination unit 13c described below.
  • the review result may be transmitted to an external device instead of being output from the output unit 12.
  • the storage unit 14 stores data and programs necessary for various processes by the control unit 13.
  • the storage unit 14 is a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 has a determination table storage unit 14a.
  • the judgment table storage unit 14a stores which of a correct word and an incorrect word is a pair of an abbreviation and a prototype word extracted from text data of past development documents.
  • the determination table storage unit 14a associates each pair of abbreviations and prototypes with “correct” indicating a correct word and “wrong” indicating an error word.
  • FIG. 2 is a diagram illustrating an example of data stored in the determination table storage unit. To explain using the example of FIG. 2, the determination table storage unit 14a stores, for example, that the prototype word “phone number” is the correct word and the abbreviation “telephone number” is the error word. doing.
  • the control unit 13 has an internal memory for storing a program defining various processing procedures and required data, and executes various processing by these.
  • the control unit 13 is, for example, an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the control unit 13 has an extraction unit 13a, a counting unit 13b, a determination unit 13c, and a correction unit 13d.
  • the extraction unit 13a extracts an abbreviation and prototype word pair from the text data. For example, the extraction unit 13a aggregates text data of past development documents at a specific development site to create a development corpus. Then, for example, as illustrated in FIG. 3, the extraction unit 13a acquires pairs of abbreviations and prototypes from the text data of the past development document according to the extraction rule and lists them.
  • FIG. 3 is a diagram illustrating a process of extracting an abbreviation-prototype word pair.
  • the extraction unit 13a may aggregate the text data of past development documents in a plurality of development sites with respect to the text data of past development documents. In this case, the extraction unit 13a may extract the pairs of abbreviations and prototypes from all the text data and list them, or classify the text data by development site and identify the abbreviations for each development site. It is also possible to extract a pair of prototype words and list them.
  • FIG. 4 is a diagram illustrating the extraction rule.
  • the extraction unit 13a has the following rules 1 and 2 set as extraction rules, and extracts nouns that satisfy the rules 1 and 2 as a pair of abbreviations and prototypes.
  • Rule 1 All characters included in noun A appear in noun B in the same order.
  • Rule 2 Noun A (abbreviation candidate) and noun B (prototype word candidate) have the same beginning character string.
  • the extraction unit 13a causes all the characters included in the noun A included in the text data to appear in the same order in the noun B included in the text data, and at the beginning of the noun A and the noun B. Are the same, the noun A is extracted as a pair and the noun B is extracted as a prototype.
  • the extraction unit 13a first determines whether the noun “cascon” and the noun “customer control” satisfy the extraction rule. It is determined whether “su", “ko”, and "n” appear in the noun “customer control” in the same order. Since the noun "customer control" appears in the order of "ka”, “su", “ko", and "n", the extraction unit 13a determines that the above rule 1 is satisfied.
  • the extraction unit 13a determines whether the first character of the noun “cascon” and the noun “customer control” are the same. Since the first character of both the noun “cascon” and the noun “customer control” is "ka", the extraction unit 13a determines that the above rule 2 is satisfied. As a result, the extraction unit 13a obtains the noun “cascon” and the noun “customer control” as an abbreviation candidate and a prototype word candidate because both the rule 1 and the rule 2 are satisfied.
  • the extraction unit 13a calculates, for example, the noun similarity between the acquired abbreviation candidate and prototype word candidate by using Word2vec, and extracts pairs with a certain number of noun similarity as formal abbreviations and prototypes.
  • the counting unit 13b counts the number of appearances of the abbreviation and the prototype word of the pair extracted by the extraction unit 13a, determines which of the appearance frequency of the abbreviation and the appearance number of the prototype word, whichever is more, and determines The result is stored in the determination table storage unit 14a.
  • FIG. 5 is a diagram illustrating a process of counting the number of appearances of abbreviations and the number of appearances of prototype words.
  • the counting unit 13b counts the number of appearances of each abbreviation and prototype word in the text data of the past development document, and the one with the larger number of appearances is the correct answer word and the smaller the number of appearances.
  • One is stored in the determination table storage unit 14a as an erroneous word.
  • the counting unit 13b counts the number of appearances of the abbreviation “telephone number” and the prototype word “telephone number”, respectively, and corrects the “telephone number” having the largest number of appearances And the "phone number” with a small number of appearances are stored in the determination table storage unit 14a as an error word.
  • the counting unit 13b determines the number of occurrences and prototypes of abbreviations in the text data for each development site. The number of appearances of a word may be counted, and the determination result may be stored in the determination table storage unit 14a for each development site.
  • the determination unit 13c refers to the determination result stored in the determination table storage unit 14a, and the words included in the text data to be reviewed include abbreviations or prototypes that the counting unit 13b determined to have a low number of appearances. If it is determined that the abbreviation or prototype word determined to have a small number of appearances is included, the word is specified as the correction target word.
  • the determination unit 13c when the determination unit 13c receives a new document as the text data to be reviewed, the determination unit 13c refers to the determination table and determines whether or not the new document includes a word stored as “wrong” in the determination table. Then, when the determination unit 13c determines that the new document includes the word stored as “wrong” in the determination table, the determination unit 13c notifies the correction unit 13d of the correction target word. Further, the determination unit 13c may output the correction target word via the output unit 12b.
  • the correction unit 13d corrects the prototype word corresponding to the abbreviation, and when the word to be corrected is a prototype word, the prototype Correct the abbreviation corresponding to the word.
  • FIG. 6 is a diagram illustrating a process of correcting a new document.
  • the information processing device 10 receives an input of a new document as the text data to be reviewed, and the new document includes a word that matches a word stored as an error word in the determination table storage unit 14a. If so, the corresponding word in the new document is corrected to the correct word corresponding to the incorrect word.
  • the correction unit 13d corrects “replication” to the correct word “reply” because “replication” in the new document matches the incorrect word “replication”.
  • the information processing apparatus 10 automatically determines whether it is appropriate to describe the new development document by “abbreviation” or “prototype”, and when the description of the new development document is not appropriate, , It is possible to automatically correct a new development document or point out an error to the user.
  • the information processing device 10 may perform only the process of outputting the word to be corrected specified by the determination unit 13c without performing the correction process by the correction unit 13d, and only prompt the user to manually perform the correction work. ..
  • FIG. 7 is a flowchart showing an example of the flow of the determination table storage process in the information processing device according to the first embodiment.
  • FIG. 8 is a flowchart showing an example of the flow of review processing in the information processing apparatus according to the first embodiment.
  • the extraction unit 13a of the information processing device 10 acquires a past development document (step S101) and extracts a pair of abbreviations and prototypes (step S102).
  • the counting unit 13b counts the number of appearances of the abbreviation and the prototype word of the pair extracted by the extraction unit 13a (step S103), and the appearance frequency of the abbreviation or the prototype word is higher. It is determined and the determination result is stored in the determination table storage unit 14a (step S104).
  • step S201 when the determination unit 13c of the information processing device 10 receives a new document as the text data to be reviewed (Yes in step S201), the determination unit 13c refers to the determination table and refers to the new document as “wrong” in the determination table. It is determined whether or not the word stored as is included (step S202).
  • the correcting unit 13d corrects the correction target word. 13d is notified (step S203). If the determination unit 13c determines that the new document does not include the word stored as "erroneous" in the determination table (No at Step S202), the process ends.
  • the information processing apparatus 10 extracts pairs of abbreviations and prototypes from text data, counts the number of appearances of the abbreviations and prototypes of the pair, respectively, and calculates the number of appearances of the abbreviations and the number of appearances of the prototypes. It is determined which one of them appears more frequently, and the determination result is stored in the determination table storage unit 14a. Then, the information processing apparatus 10 refers to the determination result stored in the determination table storage unit 14a, and does the word included in the text data to be reviewed include an abbreviation or a prototype word that is determined to occur less frequently? When it is determined that the abbreviation or prototype word determined to have a small number of appearances is included, the word is specified as the correction target word. For this reason, the information processing device 10 can reduce the operation for correcting the text data having the notation fluctuation.
  • FIG. 9 is a diagram for explaining the background of the development document on the development site.
  • the new employee A, the middle-ranked employee B, and the veteran employee C create the development document as the authors, abbreviations and prototypes are mixed. Furthermore, whether it should be described as an abbreviation or prototype is different depending on the development site and terms.
  • the term “phone number” is described as an abbreviation “telephone number” in the development document, and as for middleware, the prototype word “middleware” is described.
  • the term “phone number” is described as an abbreviation “telephone number”
  • the middleware is described as a prototype word "middleware”.
  • the information processing apparatus 10 it is automatically determined whether “abbreviation” or “prototype” is appropriate in the new development document, and the new If the description of the development document is not appropriate, it is possible to automatically correct a new development document or point out an error to the user. Therefore, in the information processing apparatus 10 according to the first embodiment, it is possible to properly use the abbreviation and the prototype word according to the development environment, and it is possible to realize the operation reduction for correction.
  • each component of each device shown in the drawings is functionally conceptual and does not necessarily have to be physically configured as shown. That is, the specific form of distribution/integration of each device is not limited to that shown in the figure, and all or part of the device may be functionally or physically distributed/arranged in arbitrary units according to various loads and usage conditions. It can be integrated and configured. Further, each processing function performed by each device may be realized in whole or in part by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by a wired logic.
  • program It is also possible to create a program in which the processing executed by the information processing apparatus described in the above embodiment is described in a computer-executable language.
  • a review program in which the processing executed by the information processing apparatus 10 according to the embodiment is described in a computer-executable language.
  • the same effect as that of the above embodiment can be obtained by the computer executing the review program.
  • the same processing as that in the above-described embodiment may be realized by recording the review program in a computer-readable recording medium and reading the review program recorded in the recording medium into a computer and executing the program.
  • FIG. 10 is a diagram showing a computer that executes a review program.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. However, these units are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012, as illustrated in FIG.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090, as illustrated in FIG.
  • the disk drive interface 1040 is connected to the disk drive 1100, as illustrated in FIG.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120, as illustrated in FIG.
  • the video adapter 1060 is connected to, for example, the display 1130, as illustrated in FIG.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above-mentioned review program is stored in, for example, the hard disk drive 1090 as a program module in which a command executed by the computer 1000 is described.
  • the various data described in the above embodiment is stored as program data in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 or the hard disk drive 1090 into the RAM 1012 as necessary, and executes various processing procedures.
  • the program module 1093 and the program data 1094 related to the review program are not limited to being stored in the hard disk drive 1090, and may be stored in, for example, a removable storage medium and read by the CPU 1020 via a disk drive or the like. Good.
  • the program module 1093 and the program data 1094 related to the review program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070. It may be read by the CPU 1020.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

情報処理装置(10)は、テキストデータから略語と原型語のペアを抽出し、ペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部(14a)に格納する。そして、情報処理装置(10)は、判定テーブル記憶部(14a)に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。

Description

校閲方法、情報処理装置および校閲プログラム
 本発明は、校閲方法、情報処理装置および校閲プログラムに関する。
 開発現場では、開発用語は略語が使用されることが多い。例えば、「ミドルウェア」と「ミドル」、「レプリケーション」と「レプリ」、「電話番号」と「電番」等がある。また、開発ドキュメント等のテキストデータについて、執筆者は一人に限られないため、表記揺れが発生する。このような表記揺れは、どちらかに統一させる必要があるため、従来では、開発用語に関する表記揺れを人手で確認し修正することが行われている。
酒井浩之、増山繁、"略語とその原型語との対応関係のコーパスからの自動獲得手法の改良"、自然言語処理 Vol.12 No.5、2005年10月
 しかしながら、従来の手法では、開発ドキュメント等のテキストデータについて、表記揺れが発生した場合に、テキストデータを人手で修正するため、手間が掛かるという課題があった。
 例えば、略語と原型語、どちらを記述すべきなのかはその開発現場によって様々であり、開発用語によっても異なるため一様に定めることは出来ず、開発用語に関する表記揺れは人手で確認し修正しなければならなかった。なお、一般に市販されている校正ツールは開発用語のような専門用語を対象としておらず、開発用語に関する表記揺れは人手で確認し修正していくことが多かった。
 上述した課題を解決し、目的を達成するために、本発明の校閲方法は、情報処理装置によって実行される校閲方法であって、テキストデータから略語と原型語のペアを抽出する抽出工程と、前記抽出工程によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数工程と、前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数工程によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定工程とを含むことを特徴とする。
 また、本発明の情報処理装置は、テキストデータから略語と原型語のペアを抽出する抽出部と、前記抽出部によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数部と、前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数部によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定部とを有することを特徴とする。
 また、本発明の校閲プログラムは、テキストデータから略語と原型語のペアを抽出する抽出ステップと、前記抽出ステップによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数ステップと、前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数ステップによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定ステップとをコンピュータに実行させることを特徴とする。
 本発明によれば、表記揺れがあるテキストデータを修正するための稼働を削減することができるという効果を奏する。
図1は、第1の実施形態に係る情報処理装置の構成例を示すブロック図である。 図2は、判定テーブル記憶部に記憶されるデータの一例を示す図である。 図3は、略語と原型語のペアを抽出する処理を説明する図である。 図4は、抽出ルールについて説明する図である。 図5は、略語の出現回数と原型語の出現回数とを計数する処理を説明する図である。 図6は、新規ドキュメントを修正する処理を説明する図である。 図7は、第1の実施形態に係る情報処理装置における判定テーブル格納処理の流れの一例を示すフローチャートである。 図8は、第1の実施形態に係る情報処理装置における校閲処理の流れの一例を示すフローチャートである。 図9は、開発現場における開発ドキュメントの背景について説明するための図である。 図10は、校閲プログラムを実行するコンピュータを示す図である。
 以下に、本願に係る校閲方法、情報処理装置および校閲プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る校閲方法、情報処理装置および校閲プログラムが限定されるものではない。
[第1の実施形態]
 以下の実施の形態では、第1の実施形態に係る情報処理装置10の構成、情報処理装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
[情報処理装置の構成]
 まず、図1を用いて、本実施形態の情報処理装置10の構成例を説明する。図1は、第1の実施形態に係る情報処理装置の構成例を示すブロック図である。図1に例示する情報処理装置10は、過去の開発文書のテキストデータから略語と原型語のペアを作成し、略語と原型語の出現頻度をそれぞれ求め、多い方を正解の単語、少ない方を誤りの単語とする。そして、情報処理装置10は、校閲対象の新規ドキュメントの文書において、誤りの単語の方が使用されている場合には、正解の単語に修正する。
 図1に示すように、この情報処理装置10は、入力部11、出力部12、制御部13および記憶部14を有する。以下に情報処理装置10が有する各部の処理を説明する。
 入力部11は、キーボードやマウスなどの入力デバイスであり、例えば、過去の開発文書のテキストデータや校閲対象のテキストデータなどを入力するものである。出力部12は、ディスプレイなどの出力デバイスであり、校閲対象のテキストデータの校閲結果等を出力する。例えば、出力部12は、後述する判定部13cによって特定された修正対象の単語を出力するようにしてもよい。なお、校閲結果は、出力部12から出力される代わりに、外部の装置に送信されるようにしてもよい。
 記憶部14は、制御部13による各種処理に必要なデータおよびプログラムを格納する。例えば、記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。例えば、記憶部14は、判定テーブル記憶部14aを有する。
 判定テーブル記憶部14aは、過去の開発文書のテキストデータから抽出された略語と原型語のペアについて、どちらが正解の単語であるか誤りの単語であるかをそれぞれ記憶する。
 例えば、判定テーブル記憶部14aは、図2に例示するように、略語と原型語の各ペアについて、正解の単語を示す「正」と誤りの単語であることを示す「誤」とを対応付けて記憶する。図2は、判定テーブル記憶部に記憶されるデータの一例を示す図である。図2の例を挙げて説明すると、判定テーブル記憶部14aは、例えば、原型語である「電話番号」が正解の単語であり、略語である「電番」が誤りの単語であることを記憶している。
 制御部13は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。ここで、制御部13は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。制御部13は、抽出部13a、計数部13b、判定部13cおよび修正部13dを有する。
 抽出部13aは、テキストデータから略語と原型語のペアを抽出する。例えば、抽出部13aは、特定の開発現場における過去の開発文書のテキストデータを集約し、開発コーパスを作成する。そして、例えば、抽出部13aは、図3に例示するように、過去の開発文書のテキストデータから抽出ルールに従って、略語と原型語のペアを取得し、リスト化する。図3は、略語と原型語のペアを抽出する処理を説明する図である。
 なお、抽出部13aは、過去の開発文書のテキストデータについて、複数の開発現場における過去の開発文書のテキストデータを集約するようにしてもよい。この場合には、抽出部13aは、全てのテキストデータから略語と原型語のペアを抽出してリスト化するようにしてもよいし、開発現場別にテキストデータを分類し、開発現場ごとに略語と原型語のペアを抽出してリスト化するようにしてもよい。
 ここで、図4を用いて、抽出ルールについて説明する。図4は、抽出ルールについて説明する図である。抽出部13aは、抽出ルールとして、以下のルール1およびルール2が設定されており、ルール1およびルール2を満たす名詞を略語と原型語のペアとして抽出する。
ルール1:名詞Aに含まれる全ての文字が、名詞Bに同じ順序で出現する。
ルール2:名詞A(略語候補)と名詞B(原型語候補)の先頭の文字列が同じである。
 抽出部13aは、抽出ルールに従い、テキストデータに含まれる名詞Aに含まれるすべての文字が、テキストデータに含まれる名詞Bに同じ順序で出現し、かつ、名詞Aと名詞Bの先頭の文字列が同じである場合に、名詞Aを略語、名詞Bを原型語とするペアとして抽出する。
 図4の例を用いて説明すると、抽出部13aは、名詞「カスコン」と名詞「カスタマーコントロール」とが抽出ルールを満たすか判定するため、まず、名詞「カスコン」に含まれる「カ」、「ス」、「コ」、「ン」が、名詞「カスタマーコントロール」に同じ順序で出現するか判定する。名詞「カスタマーコントロール」では、「カ」、「ス」、「コ」、「ン」の順序で出現するため、抽出部13aは、上記のルール1を満たすと判定する。
 続いて、抽出部13aは、名詞「カスコン」と名詞「カスタマーコントロール」の先頭の文字が同じであるか判定する。名詞「カスコン」も名詞「カスタマーコントロール」も先頭の文字が「カ」であるため、抽出部13aは、上記のルール2を満たすと判定する。この結果、抽出部13aは、ルール1およびルール2の両方を満たすため、名詞「カスコン」と名詞「カスタマーコントロール」とを略語候補と原型語候補として取得する。
 そして、抽出部13aは、例えば、取得した略語候補と原型語候補との名詞間類似度をWord2vecにより計算し、名詞間類似度が一定数のペアを正式な略語と原型語として抽出する。
 計数部13bは、抽出部13aによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部14aに格納する。
 ここで、図5の例を用いて、略語の出現回数と原型語の出現回数とを計数する処理を説明する。図5は、略語の出現回数と原型語の出現回数とを計数する処理を説明する図である。図5に例示するように、計数部13bは、過去の開発文書のテキストデータにおいて、ペアの略語および原型語の出現回数をそれぞれ計数し、出現回数が多い方を正解の単語、出現回数が少ない方を誤りの単語として判定テーブル記憶部14aに格納する。
 図5の例を挙げて具体的に説明すると、例えば、計数部13bは、略語「電番」と原型語「電話番号」の出現回数をそれぞれ計数し、出現回数が多い「電話番号」を正解の単語、出現回数が少ない「電番」を誤りの単語として判定テーブル記憶部14aに格納する。
 なお、計数部13bは、抽出部13aが複数の開発現場における過去の開発文書のテキストデータから略語と原型語のペアを抽出した場合には、開発現場ごとにテキストデータにおける略語の出現回数と原型語の出現回数とを計数し、開発現場ごとに判定結果を判定テーブル記憶部14aに格納するようにしてもよい。
 判定部13cは、判定テーブル記憶部14aに格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、計数部13bによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。
 例えば、判定部13cは、校閲対象のテキストデータとして新規ドキュメントを受け付けると、判定テーブルを参照し、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれているか否か判定する。そして、判定部13cは、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれていると判定した場合には、修正対象の単語を修正部13dに通知する。また、判定部13cは、出力部12bを介して修正対象の単語を出力するようにしてもよい。
 修正部13dは、判定部13cによって特定された修正対象の単語が略語である場合には、該略語に対応する原型語に修正し、修正対象の単語が原型語である場合には、該原型語に対応する略語に修正する。
 ここで、図6を用いて、校閲対象のテキストデータを修正する処理について説明する。図6は、新規ドキュメントを修正する処理を説明する図である。図6の例では、情報処理装置10は、校閲対象のテキストデータとして、新規ドキュメントの入力を受け付け、新規ドキュメントにおいて、判定テーブル記憶部14aに誤りの単語として記憶された単語と一致する単語が含まれている場合には、新規ドキュメントにおける該当の単語を、誤りの単語に対応する正解の単語に修正する。
 例えば、図6の例を用いて説明すると、修正部13dは、新規ドキュメントにおける「レプリケーション」が誤りの単語「レプリケーション」と一致するので、「レプリケーション」を正解の単語「レプリ」に修正する。
 このように、情報処理装置10では、新規の開発ドキュメントにおいて「略語」か「原型語」のどちらで記載する方が適切か自動的に判断し、新規の開発ドキュメントの記載が適切でない場合には、新規の開発ドキュメントを自動で修正したり、ユーザに誤りを指摘したりすることが可能である。なお、情報処理装置10は、修正部13dによる修正処理を行わずに、判定部13cによって特定された修正対象の単語を出力する処理のみを行い、修正作業を手動で行うように促すだけでもよい。
[情報処理装置の処理手順]
 次に、図7および図8を用いて、第1の実施形態に係る情報処理装置10による処理手順の例を説明する。図7は、第1の実施形態に係る情報処理装置における判定テーブル格納処理の流れの一例を示すフローチャートである。図8は、第1の実施形態に係る情報処理装置における校閲処理の流れの一例を示すフローチャートである。
 まず、図7を用いて、略語と原型語のペアのうち、どちらが正解の単語であるか誤りの単語であるかを示す判定テーブルを格納する処理の流れを説明する。図7に例示するように、情報処理装置10の抽出部13aは、過去の開発文書を取得し(ステップS101)、略語および原型語のペアを抽出する(ステップS102)。
 そして、計数部13bは、抽出部13aによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し(ステップS103)、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部14aに格納する(ステップS104)。
 続いて、図8を用いて、判定テーブルを用いて新規ドキュメントを校閲する処理の流れを説明する。図8に例示するように、情報処理装置10の判定部13cは、校閲対象のテキストデータとして新規ドキュメントを受け付けると(ステップS201肯定)、判定テーブルを参照し、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれているか否か判定する(ステップS202)。
 そして、判定部13cが、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれていると判定した場合には(ステップS202肯定)、修正部13dは、修正対象の単語を修正部13dに通知する(ステップS203)。また、判定部13cが、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれていないと判定した場合には(ステップS202否定)、そのまま処理を終了する。
[第1の実施形態の効果]
 第1の実施形態に係る情報処理装置10は、テキストデータから略語と原型語のペアを抽出し、ペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部14aに格納する。そして、情報処理装置10は、判定テーブル記憶部14aに格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。このため、情報処理装置10は、表記揺れがあるテキストデータを修正するための稼働を削減することが可能である。
 図9を用いて、開発現場における開発ドキュメントの背景について説明する。図9は、開発現場における開発ドキュメントの背景について説明するための図である。図9に例示するように、新入社員A、中堅社員Bおよびベテラン社員Cが執筆者として開発ドキュメントを作成する場合には、略語と原型語が混在することとなる。さらに、開発現場によっても用語によっても略語で記述すべきか原型語で記載すべきかが異なる。例えば、図9に例示するように、A社では、開発ドキュメントにおいて「電話番号」という用語は略語「電番」と記載し、ミドルウェアについては原型語「ミドルウェア」と記載する一方で、B社では、開発ドキュメントにおいて「電話番号」という用語は略語「電番」と記載し、ミドルウェアについては原型語「ミドルウェア」と記載する。
 このような前提のもと、第1の実施形態に係る情報処理装置10では、新規の開発ドキュメントにおいて「略語」か「原型語」のどちらで記載する方が適切か自動的に判断し、新規の開発ドキュメントの記載が適切でない場合には、新規の開発ドキュメントを自動で修正したり、ユーザに誤りを指摘したりすることが可能である。このため、第1の実施形態に係る情報処理装置10では、開発環境に応じた略語と原型語の使い分けが可能となり、修正おための稼働削減を実現することが可能である。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 また、上記実施形態において説明した情報処理装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る情報処理装置10が実行する処理をコンピュータが実行可能な言語で記述した校閲プログラムを作成することもできる。この場合、コンピュータが校閲プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる校閲プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された校閲プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
 図10は、校閲プログラムを実行するコンピュータを示す図である。図10に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
 メモリ1010は、図10に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図10に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図10に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図10に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図10に例示するように、例えばディスプレイ1130に接続される。
 ここで、図10に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、校閲プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
 また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
 なお、校閲プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、校閲プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 情報処理装置
 11 入力部
 12 出力部
 13 制御部
 13a 抽出部
 13b 計数部
 13c 判定部
 13d 修正部
 14 記憶部
 14a 判定テーブル記憶部

Claims (6)

  1.  情報処理装置によって実行される校閲方法であって、
     テキストデータから略語と原型語のペアを抽出する抽出工程と、
     前記抽出工程によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数工程と、
     前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数工程によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定工程と
     を含むことを特徴とする校閲方法。
  2.  前記判定工程によって特定された修正対象の単語が略語である場合には、該略語に対応する原型語に修正し、前記修正対象の単語が原型語である場合には、該原型語に対応する略語に修正する修正工程をさらに含むことを特徴とする請求項1に記載の校閲方法。
  3.  前記判定工程によって特定された修正対象の単語を出力する出力工程をさらに含むことを特徴とする請求項1に記載の校閲方法。
  4.  前記抽出工程は、前記テキストデータに含まれる第一の名詞に含まれるすべての文字が、前記テキストデータに含まれる第二の名詞に同じ順序で出現し、かつ、前記第一の名詞と前記第二の名詞の先頭の文字列が同じである場合に、前記第一の名詞を略語、前記第二の名詞を原型語とするペアとして抽出することを特徴とする請求項1に記載の校閲方法。
  5.  テキストデータから略語と原型語のペアを抽出する抽出部と、
     前記抽出部によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数部と、
     前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数部によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定部と
     を有することを特徴とする情報処理装置。
  6.  テキストデータから略語と原型語のペアを抽出する抽出ステップと、
     前記抽出ステップによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数ステップと、
     前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数ステップによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定ステップと
     をコンピュータに実行させることを特徴とする校閲プログラム。
PCT/JP2020/003801 2019-02-14 2020-01-31 校閲方法、情報処理装置および校閲プログラム WO2020166397A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/430,089 US20220138406A1 (en) 2019-02-14 2020-01-31 Reviewing method, information processing device, and reviewing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019024652A JP7211139B2 (ja) 2019-02-14 2019-02-14 校閲方法、情報処理装置および校閲プログラム
JP2019-024652 2019-02-14

Publications (1)

Publication Number Publication Date
WO2020166397A1 true WO2020166397A1 (ja) 2020-08-20

Family

ID=72045422

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003801 WO2020166397A1 (ja) 2019-02-14 2020-01-31 校閲方法、情報処理装置および校閲プログラム

Country Status (3)

Country Link
US (1) US20220138406A1 (ja)
JP (1) JP7211139B2 (ja)
WO (1) WO2020166397A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502614B (zh) * 2023-06-26 2023-09-01 北京每日信动科技有限公司 一种数据校对方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6441963A (en) * 1987-08-07 1989-02-14 Hitachi Ltd Calibration supporting system
JPH03244071A (ja) * 1990-02-22 1991-10-30 Toshiba Corp 文書校正支援システム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675821A (en) * 1984-11-16 1997-10-07 Canon Kabushiki Kaisha Document processing apparatus and method
DE3577937D1 (de) * 1984-11-16 1990-06-28 Canon Kk Wortverarbeitungsgeraet.
US5774833A (en) * 1995-12-08 1998-06-30 Motorola, Inc. Method for syntactic and semantic analysis of patent text and drawings
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US8726148B1 (en) * 1999-09-28 2014-05-13 Cloanto Corporation Method and apparatus for processing text and character data
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
US7483829B2 (en) * 2001-07-26 2009-01-27 International Business Machines Corporation Candidate synonym support device for generating candidate synonyms that can handle abbreviations, mispellings, and the like
US20040008368A1 (en) * 2001-09-07 2004-01-15 Plunkett Michael K Mailing online operation flow
US7131117B2 (en) * 2002-09-04 2006-10-31 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
US7366729B2 (en) * 2003-06-11 2008-04-29 Wtviii, Inc. Schema framework and a method and apparatus for normalizing schema
US20070055639A1 (en) * 2005-08-26 2007-03-08 Lee Garvey Method and system for printing self-mailer including color-postal form
US7848918B2 (en) * 2006-10-04 2010-12-07 Microsoft Corporation Abbreviation expansion based on learned weights
JP5119693B2 (ja) 2007-03-19 2013-01-16 日本電気株式会社 文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、方法及びプログラム
CA2785258A1 (en) * 2009-12-23 2011-06-30 Gradalis, Inc. Furin-knockdown and gm-csf-augmented (fang) cancer vaccine
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
GB2493875A (en) * 2010-04-26 2013-02-20 Trustees Of Stevens Inst Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
CA2860231A1 (en) * 2011-12-28 2013-07-04 Pozen Inc. Improved compositions and methods for delivery of omeprazole plus acetylsalicylic acid
US9582555B2 (en) * 2012-09-06 2017-02-28 Sap Se Data enrichment using business compendium
JP2016540761A (ja) * 2013-12-02 2016-12-28 アッヴィ・インコーポレイテッド 変形性関節症を治療するための組成物及び方法
WO2015138337A1 (en) * 2014-03-09 2015-09-17 Abbvie, Inc. Compositions and methods for treating rheumatoid arthritis
US20160244520A1 (en) * 2015-01-24 2016-08-25 Abbvie Inc. Compositions and methods for treating psoriatic arthritis
US11514096B2 (en) * 2015-09-01 2022-11-29 Panjiva, Inc. Natural language processing for entity resolution
US10918672B1 (en) * 2016-04-07 2021-02-16 The Administrators Of The Tulane Educational Fund Small tissue CCR5−MSCs for treatment of HIV
US10366461B2 (en) * 2017-03-06 2019-07-30 Aon Risk Services, Inc. Of Maryland Automated document analysis for varying natural languages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6441963A (en) * 1987-08-07 1989-02-14 Hitachi Ltd Calibration supporting system
JPH03244071A (ja) * 1990-02-22 1991-10-30 Toshiba Corp 文書校正支援システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAKAI, HIROYUKI ET AL.: "Important Causal Information Extraction from Japanese Financial Articles Concerning Business Performance of Companies", PROCEEDINGS OF THE THIRTEENTH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 19 March 2007 (2007-03-19), pages 436 - 439 *

Also Published As

Publication number Publication date
US20220138406A1 (en) 2022-05-05
JP7211139B2 (ja) 2023-01-24
JP2020135126A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
US9064063B1 (en) Methods, systems, and articles of manufacture for implementing interactive, real-time checking or verification of complex constraints
CN109885614B (zh) 一种数据同步的方法和装置
US10339035B2 (en) Test DB data generation apparatus
CN110990276A (zh) 接口字段自动化测试方法、装置和存储介质
WO2021169626A1 (zh) 基于词库的匹配推荐方法、装置、设备及存储介质
US10782942B1 (en) Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation
WO2020166397A1 (ja) 校閲方法、情報処理装置および校閲プログラム
CN112651217B (zh) 论文文档的处理方法、处理装置、电子设备及存储介质
CN111597118A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN110175128A (zh) 一种相似代码案例获取方法、装置、设备和存储介质
CN114385679A (zh) 一种表结构巡检方法、表结构巡检装置和电子设备
CN117033309A (zh) 一种数据转换方法、装置、电子设备及可读存储介质
CN111142871A (zh) 一种前端页面开发系统、方法、设备、介质
CN111553130A (zh) 一种章节标题样式转换方法、装置、电子设备及存储介质
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
WO2020170804A1 (ja) 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
WO2021183382A1 (en) Graph-based method for inductive bug localization
US9305117B2 (en) String generation tool
CN112783775A (zh) 特殊字符输入测试方法及装置
US12039297B2 (en) Code inspection interface providing method and apparatus for implementing the method
JP2020160782A (ja) 自然言語データ処理装置およびプログラム
JP6547345B2 (ja) テストケース生成プログラム、テストケース生成方法およびテストケース生成装置
US20170132278A1 (en) Systems and Methods for Inferring Landmark Delimiters for Log Analysis
US20230004361A1 (en) Code inspection interface providing method and apparatus for implementing the method
US11704094B2 (en) Data integrity analysis tool

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20756643

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20756643

Country of ref document: EP

Kind code of ref document: A1