JPWO2019225007A1 - 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム - Google Patents
入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム Download PDFInfo
- Publication number
- JPWO2019225007A1 JPWO2019225007A1 JP2020520987A JP2020520987A JPWO2019225007A1 JP WO2019225007 A1 JPWO2019225007 A1 JP WO2019225007A1 JP 2020520987 A JP2020520987 A JP 2020520987A JP 2020520987 A JP2020520987 A JP 2020520987A JP WO2019225007 A1 JPWO2019225007 A1 JP WO2019225007A1
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- word
- analysis target
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 238000004458 analytical method Methods 0.000 claims abstract description 74
- 230000008859 change Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000033772 system development Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/10—Requirements analysis; Specification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
情報システムの仕様が自然言語で記述されたシステム仕様書と、前記情報システムを分析する分析装置への入力情報と前記分析装置からの出力情報との少なくともいずれかが自然言語で記述された解析対象文書とに共通して出現する単語群を選別する選別部と、
前記システム仕様書と前記解析対象文書とのそれぞれにおける、前記選別部により選別された単語群に属する個別の単語の意味を学習する学習部と、
前記システム仕様書と前記解析対象文書との間における、前記学習部により学習された意味の変化を検知することで、前記解析対象文書に含まれる、前記入力情報の入力ミスに起因する単語の誤りを特定する検知部と
を備える。
本実施の形態について、図1から図10を用いて説明する。
図1を参照して、本実施の形態に係る入力ミス検知装置100の構成を説明する。
初めに、本実施の形態に係る入力ミス検知装置100の動作の概要を、数学的な説明によって示す。
1.システム仕様書117と、自然言語化された分析装置入力情報111、分析装置出力情報112またはその両方とから共通して頻出する単語のリストWを抽出する。
W:={w(1),w(2),・・・,w(n)}
2.Wのすべての単語w(i)について、分布仮説に基づく意味ベクトルを、システム仕様書117と、自然言語化された分析装置入力情報111、分析装置出力情報112またはその両方との上で、それぞれ計算する。
v(S,w(i)):=システム仕様書117で学習した単語w(i)の単語意味ベクトル
v(T,w(i)):=自然言語化された分析装置入力情報111、分析装置出力情報112またはその両方で学習した単語w(i)の単語意味ベクトル
3.次のような式を満たすような最適な変換行列Uを計算する。
V(S)・U≒V(T)
ここで、V(S):=i行目がv(S,w(i))である行列、V(T):=i行目がv(T,w(i))である行列。
4.ある閾値ε>0を設定し、次の式を満たすような単語w(i)を入力ミスとして検知する。
d([V(S)・U]のi行目,V(T,w(i)))>ε
ここで、d(x,y):=距離関数。
本実施の形態では、システム仕様書117と解析対象文書116とに共通して出現する単語群に属する個別の単語の意味が学習される。そして、システム仕様書117と解析対象文書116との間における、学習された意味の変化を検知することで、解析対象文書116に含まれる、分析装置入力情報111の入力ミスに起因する単語の誤りが特定される。そのため、本実施の形態によれば、分析装置入力情報111の形式に依存せず、入力ミス検知ルールが必要のない入力ミス検知手法を提供することができる。
本実施の形態では、言語化部107、選別部108、学習部109および検知部110の機能がソフトウェアにより実現されるが、別の変形例として、言語化部107、選別部108、学習部109および検知部110の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。すなわち、言語化部107、選別部108、学習部109および検知部110の機能の一部が専用のハードウェアにより実現され、残りがソフトウェアにより実現されてもよい。
Claims (7)
- 情報システムの仕様が自然言語で記述されたシステム仕様書と、前記情報システムを分析する分析装置への入力情報と前記分析装置からの出力情報との少なくともいずれかが自然言語で記述された解析対象文書とに共通して出現する単語群を選別する選別部と、
前記システム仕様書と前記解析対象文書とのそれぞれにおける、前記選別部により選別された単語群に属する個別の単語の意味を学習する学習部と、
前記システム仕様書と前記解析対象文書との間における、前記学習部により学習された意味の変化を検知することで、前記解析対象文書に含まれる、前記入力情報の入力ミスに起因する単語の誤りを特定する検知部と
を備える入力ミス検知装置。 - 前記学習部は、前記システム仕様書における前記単語群の意味を単語別に表す第1ベクトル群と、前記解析対象文書における前記単語群の意味を単語別に表す第2ベクトル群とを生成することで、前記システム仕様書と前記解析対象文書とのそれぞれにおける前記個別の単語の意味を学習し、
前記検知部は、前記第1ベクトル群を前記第2ベクトル群に変換する行列を近似した変換行列を計算し、前記第2ベクトル群と、計算した変換行列を用いて前記第1ベクトル群を変換して得られる第3ベクトル群とを単語別に比較することで、前記システム仕様書と前記解析対象文書との間における前記変化を検知する請求項1に記載の入力ミス検知装置。 - 前記入力情報と前記出力情報との少なくともいずれかを自然言語文に変換することで、前記解析対象文書を生成する言語化部をさらに備える請求項1または2に記載の入力ミス検知装置。
- 前記言語化部は、前記入力情報を変換して得られた自然言語文と、前記出力情報を変換して得られた自然言語文とを統合することで、前記解析対象文書を生成する請求項3に記載の入力ミス検知装置。
- 前記選別部は、前記システム仕様書と前記解析対象文書とに出現する頻度が閾値を超える単語を前記単語群に属する単語として選別する請求項1から4のいずれか1項に記載の入力ミス検知装置。
- 選別部が、情報システムの仕様が自然言語で記述されたシステム仕様書と、前記情報システムを分析する分析装置への入力情報と前記分析装置からの出力情報との少なくともいずれかが自然言語で記述された解析対象文書とに共通して出現する単語群を選別し、
学習部が、前記システム仕様書と前記解析対象文書とのそれぞれにおける、前記選別部により選別された単語群に属する個別の単語の意味を学習し、
検知部が、前記システム仕様書と前記解析対象文書との間における、前記学習部により学習された意味の変化を検知することで、前記解析対象文書に含まれる、前記入力情報の入力ミスに起因する単語の誤りを特定する入力ミス検知方法。 - コンピュータに、
情報システムの仕様が自然言語で記述されたシステム仕様書と、前記情報システムを分析する分析装置への入力情報と前記分析装置からの出力情報との少なくともいずれかが自然言語で記述された解析対象文書とに共通して出現する単語群を選別する選別処理と、
前記システム仕様書と前記解析対象文書とのそれぞれにおける、前記選別処理により選別された単語群に属する個別の単語の意味を学習する学習処理と、
前記システム仕様書と前記解析対象文書との間における、前記学習処理により学習された意味の変化を検知することで、前記解析対象文書に含まれる、前記入力情報の入力ミスに起因する単語の誤りを特定する検知処理と
を実行させる入力ミス検知プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/020172 WO2019225007A1 (ja) | 2018-05-25 | 2018-05-25 | 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019225007A1 true JPWO2019225007A1 (ja) | 2020-09-17 |
JP6837604B2 JP6837604B2 (ja) | 2021-03-03 |
Family
ID=68617256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020520987A Active JP6837604B2 (ja) | 2018-05-25 | 2018-05-25 | 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210049322A1 (ja) |
JP (1) | JP6837604B2 (ja) |
CN (1) | CN112136136A (ja) |
WO (1) | WO2019225007A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149680B (zh) * | 2020-09-28 | 2024-01-16 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
CN113822338B (zh) * | 2021-08-23 | 2024-05-14 | 北京亚鸿世纪科技发展有限公司 | 面向自然语言处理的数据投毒防御方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259246A (ja) * | 1993-03-09 | 1994-09-16 | Hitachi Ltd | プログラム検証方法とその装置 |
JP2018136585A (ja) * | 2015-05-26 | 2018-08-30 | 株式会社日立製作所 | エンジニアリングドキュメントからの知識抽出方法および装置 |
-
2018
- 2018-05-25 JP JP2020520987A patent/JP6837604B2/ja active Active
- 2018-05-25 WO PCT/JP2018/020172 patent/WO2019225007A1/ja active Application Filing
- 2018-05-25 CN CN201880093603.7A patent/CN112136136A/zh not_active Withdrawn
-
2020
- 2020-10-15 US US17/071,038 patent/US20210049322A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2019225007A1 (ja) | 2019-11-28 |
US20210049322A1 (en) | 2021-02-18 |
JP6837604B2 (ja) | 2021-03-03 |
CN112136136A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11308278B2 (en) | Predicting style breaches within textual content | |
US11373041B2 (en) | Text classification using models with complementary granularity and accuracy | |
US11194963B1 (en) | Auditing citations in a textual document | |
WO2011146934A2 (en) | Apparatus, system, and method for computer aided translation | |
US11462039B2 (en) | Method, device, and storage medium for obtaining document layout | |
US20210397787A1 (en) | Domain-specific grammar correction system, server and method for academic text | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
US20230336532A1 (en) | Privacy Preserving Document Analysis | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
US20210049322A1 (en) | Input error detection device, input error detection method, and computer readable medium | |
Huo et al. | ARCLIN: automated API mention resolution for unformatted texts | |
Li et al. | BERT is not the count: Learning to match mathematical statements with proofs | |
CN104123275A (zh) | 翻译验证 | |
Picco et al. | Zshot: An open-source framework for zero-shot named entity recognition and relation extraction | |
Ou et al. | Automatic negation detection in narrative pathology reports | |
US11675980B2 (en) | Bias identification and correction in text documents | |
KR102467096B1 (ko) | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 | |
Dalal et al. | Evaluating sequence-to-sequence learning models for if-then program synthesis | |
JP6357912B2 (ja) | 用語集作成支援システムおよび方法、プログラム | |
Langlais et al. | Issues in analogical inference over sequences of symbols: A case study on proper name transliteration | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
EP4398156A1 (en) | Artificial intelligence explainability for intent classification | |
Nguyen et al. | Learning Reading Order via Document Layout with Layout2Pos | |
Ogrodniczuk | Fine-Tuning OCR Error Detection and Correction in a Polish Corpus of Scientific Abstracts | |
Fedotov et al. | Methods for Identifying Semantic and Hidden Relations in User Data for the Octoshell HPC Center Management System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200611 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6837604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |