KR20200062885A - 의존 구문 분석 장치 및 방법 - Google Patents
의존 구문 분석 장치 및 방법 Download PDFInfo
- Publication number
- KR20200062885A KR20200062885A KR1020180148817A KR20180148817A KR20200062885A KR 20200062885 A KR20200062885 A KR 20200062885A KR 1020180148817 A KR1020180148817 A KR 1020180148817A KR 20180148817 A KR20180148817 A KR 20180148817A KR 20200062885 A KR20200062885 A KR 20200062885A
- Authority
- KR
- South Korea
- Prior art keywords
- dependency
- word
- morphemes
- syntax tree
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000001419 dependent effect Effects 0.000 claims abstract description 113
- 230000007704 transition Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims description 80
- 238000009826 distribution Methods 0.000 claims description 64
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2 내지 도 4는 전처리부가 전처리 문장을 생성하는 방법을 설명하는 도면이다.
도 5는 전이 기반 방식 분석부가 스택 포인터 네트워크를 이용하여 전처리 문장의 의존 구문 분석을 수행하는 방법을 도시한 도면이다.
도 6은 그래프 기반 방식 분석부가 Deep biaffine network를 이용하여 전처리 문장의 의존 구문 분석을 수행하는 방법을 도시한 도면이다.
도 7은 의존 구문 분석 장치가 입력 문장의 의존 구문 분석을 수행하는 방법을 도시한 도면이다.
Claims (10)
- 의존 구문 분석 장치로서,
입력 문장을 구성하는 각 어절들을 미리 설정된 수의 형태소들 및 품사 정보들로 구분한 전처리 문장을 생성하는 전처리부,
스택 포인터 네트워크를 통해 상기 각 어절들의 의존 관계를 예측하여, 상기 전처리 문장에 대한 제1 의존 구문 트리를 생성하는 전이 기반 방식 분석부,
Deep biaffine network를 통해, 상기 각 어절들의 의존 관계를 예측하여, 상기 전처리 문장에 대한 제2 의존 구문 트리를 생성하는 그래프 기반 방식 분석부, 그리고
상기 제1 의존 구문 트리 및 상기 제2 의존 구문 트리에 서로 다른 가중치를 적용하여 상기 전처리 문장에 대한 최종 의존 구문 트리를 생성하고, 상기 최종 의존 구문 트리를 이용하여 상기 입력 문장의 의존 구문을 분석하는 결과 생성부
를 포함하는 의존 구문 분석 장치. - 제1항에서,
상기 전처리부는
상기 입력 문장을 구성하는 복수의 어절들을 결정하고, 각 어절들을 구성하는 형태소들의 수를 결정하고,
상기 형태소들의 수가 상기 미리 설정된 수와 동일한 제1 어절의 경우, 상기 제1 어절을 상기 미리 설정된 수만큼의 형태소들 및 품사 정보들로 구분하고,
상기 형태소들의 수가 상기 미리 설정된 수보다 작은 제2 어절의 경우, 상기 제2 어절을 구성하는 형태소들 중 임의의 형태소를 중복 사용하여 상기 제2 어절을 상기 미리 설정된 수만큼의 형태소들 및 품사 정보들로 구분하고,
상기 형태소들의 수가 상기 미리 설정된 수보다 큰 제3 어절의 경우, 상기 제3 어절을 구성하는 형태소들 중 임의의 복수의 형태소들을 하나의 형태소로 처리하여 상기 제3 어절을 상기 미리 설정된 수만큼의 형태소들 및 품사 정보들로 구분하는 의존 구문 분석 장치. - 제1항에서,
상기 전이 기반 방식 분석부는
상기 스택 포인터 네트워크의 인코더를 통해 상기 미리 설정된 수의 형태소들 및 품사 정보들을 이용하여 상기 각 어절들에 대한 은닉 표상을 생성하고, 상기 스택 포인터 네트워크의 디코더를 통해 상기 은닉 표상을 이용하여 상기 제1 의존 구문 트리를 생성하는 의존 구문 분석 장치. - 제1항에서,
상기 그래프 기반 방식 분석부는
상기 Deep biaffine network의 인코더를 통해 상기 미리 설정된 수의 형태소들 및 품사 정보들을 이용하여 상기 각 어절들에 대한 은닉 표상을 생성하고, 상기 은닉 표상에 상기 전처리 문장의 전역적인 정보를 반영하여 전역 은닉 표상을 생성하고, 상기 Deep biaffine network의 디코더를 통해 상기 전역 은닉 표상을 이용하여 상기 전처리 문장을 구성하는 각 어절들이 의존소로 쓰였을 때의 표상인 의존소 표상 및 지배소로 쓰였을 때의 표상인 지배소 표상을 각각 계산하고, 상기 의존소 표상 및 상기 지배소 표상 사이의 관계를 계산하여 상기 제2 의존 구문 트리를 생성하는 의존 구문 분석 장치. - 제1항에서,
상기 결과 생성부는
상기 제1 의존 구문 트리의 의존소 확률 분포에 제1 가중치를 적용하여 제1 가중치 의존소 확률 분포를 결정하고, 상기 제2 의존 구문 트리의 의존소 확률 분포에 제2 가중치를 적용하여 제2 가중치 의존소 확률 분포를 결정하고, 상기 제1 가중치 의존소 확률 분포 및 상기 제2 가중치 의존소 확률 분포를 더한 최종 의존소 확률 분포를 의존소 확률 분포로 가지는 상기 최종 의존 구문 트리를 생성하는 의존 구문 분석 장치. - 의존 구문 분석 장치가 입력 문장의 의존 구문을 분석하는 방법으로서,
입력 문장을 구성하는 각 어절들을 미리 설정된 수의 형태소들 및 품사 정보들로 구분한 전처리 문장을 생성하는 단계,
스택 포인터 네트워크를 통해 상기 각 어절들의 의존 관계를 예측하여, 상기 전처리 문장에 대한 제1 의존 구문 트리를 생성하는 단계,
Deep biaffine network를 통해, 상기 각 어절들의 의존 관계를 예측하여, 상기 전처리 문장에 대한 제2 의존 구문 트리를 생성하는 단계, 그리고
상기 제1 의존 구문 트리 및 상기 제2 의존 구문 트리에 서로 다른 가중치를 적용하여 상기 전처리 문장에 대한 최종 의존 구문 트리를 생성하고, 상기 최종 의존 구문 트리를 이용하여 상기 입력 문장의 의존 구문을 분석하는 단계
를 포함하는 의존 구문 분석 방법. - 제6항에서,
상기 전처리 문장을 생성하는 단계는
상기 입력 문장을 구성하는 복수의 어절들을 결정하고, 각 어절들을 구성하는 형태소들의 수를 결정하는 단계,
상기 형태소들의 수가 상기 미리 설정된 수와 동일한 제1 어절의 경우, 상기 제1 어절을 상기 미리 설정된 수만큼의 형태소들 및 품사 정보들로 구분하는 단계,
상기 형태소들의 수가 상기 미리 설정된 수보다 작은 제2 어절의 경우, 상기 제2 어절을 구성하는 형태소들 중 임의의 형태소를 중복 사용하여 상기 제2 어절을 상기 미리 설정된 수만큼의 형태소들 및 품사 정보들로 구분하는 단계, 그리고
상기 형태소들의 수가 상기 미리 설정된 수보다 큰 제3 어절의 경우, 상기 제3 어절을 구성하는 형태소들 중 임의의 복수의 형태소들을 하나의 형태소로 처리하여 상기 제3 어절을 상기 미리 설정된 수만큼의 형태소들 및 품사 정보들로 구분하는 단계
를 포함하는 의존 구문 분석 방법. - 제6항에서,
상기 제1 의존 구문 트리를 생성하는 단계는
상기 스택 포인터 네트워크의 인코더를 통해 상기 미리 설정된 수의 형태소들 및 품사 정보들을 이용하여 상기 각 어절들에 대한 은닉 표상을 생성하는 단계, 그리고
상기 스택 포인터 네트워크의 디코더를 통해 상기 은닉 표상을 이용하여 상기 제1 의존 구문 트리를 생성하는 단계
를 포함하는 의존 구문 분석 방법. - 제6항에서,
상기 제2 의존 구문 트리를 생성하는 단계는
상기 Deep biaffine network의 인코더를 통해 상기 미리 설정된 수의 형태소들 및 품사 정보들을 이용하여 상기 각 어절들에 대한 은닉 표상을 생성하고, 상기 은닉 표상에 상기 전처리 문장의 전역적인 정보를 반영하여 전역 은닉 표상을 생성하는 단계, 그리고
상기 Deep biaffine network의 디코더를 통해 상기 전역 은닉 표상을 이용하여 상기 전처리 문장을 구성하는 각 어절들이 의존소로 쓰였을 때의 표상인 의존소 표상 및 지배소로 쓰였을 때의 표상인 지배소 표상을 각각 계산하고, 상기 의존소 표상 및 상기 지배소 표상 사이의 관계를 계산하여 상기 제2 의존 구문 트리를 생성하는 단계
를 포함하는 의존 구문 분석 방법. - 제6항에서,
상기 최종 의존 구문 트리를 생성하는 단계는
상기 제1 의존 구문 트리의 의존소 확률 분포에 제1 가중치를 적용하여 제1 가중치 의존소 확률 분포를 결정하는 단계,
상기 제2 의존 구문 트리의 의존소 확률 분포에 제2 가중치를 적용하여 제2 가중치 의존소 확률 분포를 결정하는 단계, 그리고
상기 제1 가중치 의존소 확률 분포 및 상기 제2 가중치 의존소 확률 분포를 더한 최종 의존소 확률 분포를 의존소 확률 분포로 가지는 상기 최종 의존 구문 트리를 생성하는 단계
를 포함하는 의존 구문 분석 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180148817A KR20200062885A (ko) | 2018-11-27 | 2018-11-27 | 의존 구문 분석 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180148817A KR20200062885A (ko) | 2018-11-27 | 2018-11-27 | 의존 구문 분석 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200062885A true KR20200062885A (ko) | 2020-06-04 |
Family
ID=71080997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180148817A Ceased KR20200062885A (ko) | 2018-11-27 | 2018-11-27 | 의존 구문 분석 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200062885A (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069798A (zh) * | 2020-09-14 | 2020-12-11 | 深圳前海微众银行股份有限公司 | 基于依存句法的复述句识别方法、设备和可读存储介质 |
CN112117009A (zh) * | 2020-09-25 | 2020-12-22 | 北京百度网讯科技有限公司 | 用于构建标签预测模型的方法、装置、电子设备及介质 |
CN113901217A (zh) * | 2021-10-09 | 2022-01-07 | 科大讯飞股份有限公司 | 一种句子分类方法、装置、设备及存储介质 |
CN114239548A (zh) * | 2021-12-16 | 2022-03-25 | 杭州电子科技大学 | 一种融合依存句法和指针生成网络的三元组抽取方法 |
CN114595683A (zh) * | 2020-12-07 | 2022-06-07 | 深圳前海微众银行股份有限公司 | 评价对象抽取方法、装置、设备、存储介质象及程序产品 |
CN114611487A (zh) * | 2022-03-10 | 2022-06-10 | 昆明理工大学 | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
CN115618929A (zh) * | 2021-07-12 | 2023-01-17 | 苏州洞察云信息技术有限公司 | Ast处理方法、神经网络模型训练方法、装置和存储介质 |
-
2018
- 2018-11-27 KR KR1020180148817A patent/KR20200062885A/ko not_active Ceased
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069798A (zh) * | 2020-09-14 | 2020-12-11 | 深圳前海微众银行股份有限公司 | 基于依存句法的复述句识别方法、设备和可读存储介质 |
CN112117009A (zh) * | 2020-09-25 | 2020-12-22 | 北京百度网讯科技有限公司 | 用于构建标签预测模型的方法、装置、电子设备及介质 |
CN114595683A (zh) * | 2020-12-07 | 2022-06-07 | 深圳前海微众银行股份有限公司 | 评价对象抽取方法、装置、设备、存储介质象及程序产品 |
CN115618929A (zh) * | 2021-07-12 | 2023-01-17 | 苏州洞察云信息技术有限公司 | Ast处理方法、神经网络模型训练方法、装置和存储介质 |
CN113901217A (zh) * | 2021-10-09 | 2022-01-07 | 科大讯飞股份有限公司 | 一种句子分类方法、装置、设备及存储介质 |
CN114239548A (zh) * | 2021-12-16 | 2022-03-25 | 杭州电子科技大学 | 一种融合依存句法和指针生成网络的三元组抽取方法 |
CN114611487A (zh) * | 2022-03-10 | 2022-06-10 | 昆明理工大学 | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
CN114611487B (zh) * | 2022-03-10 | 2022-12-13 | 昆明理工大学 | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20200062885A (ko) | 의존 구문 분석 장치 및 방법 | |
US11775777B2 (en) | Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation | |
CN110210032B (zh) | 文本处理方法及装置 | |
US11232358B1 (en) | Task specific processing of regulatory content | |
WO2018207723A1 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
CN113254610B (zh) | 面向专利咨询的多轮对话生成方法 | |
CN110532353B (zh) | 基于深度学习的文本实体匹配方法、系统、装置 | |
US11755657B2 (en) | Training a question-answer dialog system to avoid adversarial attacks | |
CN111680494A (zh) | 相似文本的生成方法及装置 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN112764738A (zh) | 基于多视图程序特征的代码自动生成方法及系统 | |
CN113780418A (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
CN108664512A (zh) | 文本对象分类方法及装置 | |
Dilawari et al. | Neural attention model for abstractive text summarization using linguistic feature space | |
KR102418260B1 (ko) | 고객 상담 기록 분석 방법 | |
JP2019133563A (ja) | 情報処理装置および情報処理システム | |
CN119314466A (zh) | 多语言场景下基于ai大模型的语音合成方法、装置以及设备 | |
JP2020135689A (ja) | モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム | |
CN118504551A (zh) | 一种新闻人物的言论抽取方法、设备及介质 | |
CN118585641A (zh) | 一种基于预训练模型的文本摘要生成方法 | |
US12093298B2 (en) | Apparatus and method for training model for document summarization | |
KR101472029B1 (ko) | 색인요소를 이용한 자연어 분석 방법 및 시스템 | |
JP2022140337A (ja) | 文章評価システム、文章評価方法及び文章評価プログラム | |
He et al. | Case study: Quora question pairs | |
CN118692693B (zh) | 一种基于文本分析的康养服务需求挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20181127 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20211118 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20181127 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20230907 Patent event code: PE09021S01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20231206 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20230907 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |