KR101587023B1 - 자연어 정규화 방법 및 장치 - Google Patents
자연어 정규화 방법 및 장치 Download PDFInfo
- Publication number
- KR101587023B1 KR101587023B1 KR1020140117970A KR20140117970A KR101587023B1 KR 101587023 B1 KR101587023 B1 KR 101587023B1 KR 1020140117970 A KR1020140117970 A KR 1020140117970A KR 20140117970 A KR20140117970 A KR 20140117970A KR 101587023 B1 KR101587023 B1 KR 101587023B1
- Authority
- KR
- South Korea
- Prior art keywords
- normalization
- natural language
- word
- similarity
- normalized
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000010606 normalization Methods 0.000 claims abstract description 175
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 238000012804 iterative process Methods 0.000 claims 1
- 230000000877 morphologic effect Effects 0.000 claims 1
- 235000012054 meals Nutrition 0.000 description 13
- 238000013523 data management Methods 0.000 description 9
- 241000282326 Felis catus Species 0.000 description 7
- 241000209094 Oryza Species 0.000 description 7
- 235000007164 Oryza sativa Nutrition 0.000 description 7
- 235000009566 rice Nutrition 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 235000013372 meat Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
자연어 데이터를 유사한 역할을 하는 단위로 군집화하고, 군집화 결과에서 유사도를 기초로 추출된 정규화 후보 중 선택된 정규화 단어를 이용하여 정규화 규칙을 생성하는 자연어 정규화 방법 및 장치에 관한 것이다.
Description
도 2는 본 실시예에 따른 자연어를 정규화하는 방법을 설명하기 위한 순서도이다.
도 3은 본 실시예에 따른 정규화된 자연어를 제공하는 방법을 설명하기 위한 순서도이다.
도 4는 본 실시예에 따른 자연어 데이터를 정규화하는 동작을 설명하기 위한 예시도이다.
120: 군집화 제어부 130: 후보 처리부
140: 정규화 제어부 150: 정규화 지식 저장부
160: 정규화 규칙 생성부 170: 정규화 데이터 관리부
Claims (10)
- 자연어 데이터를 생성하는 전처리 과정;
상기 자연어 데이터를 기 설정된 언어 모델과 비교하여 모델링하고, 상기 언어 모델을 포함하는 단어정보를 동일한 군으로 군집화하여 유사도 리스트를 생성하는 유사도 생성과정;
상기 유사도 리스트를 발음 또는 단어형태의 유사도 순으로 정렬하고, 기 설정된 개수의 상위 유사도를 갖는 상기 단어정보를 정규화 후보로 추출하는 후보 처리과정;
상기 정규화 후보 중 정규화 단어를 선정하는 정규화 제어과정; 및
상기 정규화 단어를 등록하여 복수의 형태로 표현되는 자연어를 단일한 형태로 정규화하는 정규화 규칙을 생성하는 규칙 생성과정을 포함하되,
상기 정규화 규칙에 포함된 상기 정규화 단어를 신규 자연어 데이터로 설정하여 정규화 단어를 선정하는 과정을 반복하는 것을 특징으로 하는 자연어 정규화 방법. - 제 1 항에 있어서,
상기 자연어 정규화 방법은,
상기 정규화 규칙에 포함된 상기 정규화 단어를 저장하고, 상기 정규화 단어를 신규 자연어 데이터로 설정하여 기 설정된 상기 언어 모델에 근거하여 유사도 리스트를 생성하고, 상기 유사도 리스트 중 정규화 후보를 추출하여 정규화 단어를 선정하는 반복과정을 추가로 포함하며, 상기 반복과정은 기 설정된 횟수 또는 기 설정된 주기로 반복하여 동작하는 것을 특징으로 하는 자연어 정규화 방법. - 삭제
- 제 1 항에 있어서,
상기 유사도 생성과정은,
형태소 분석, 구문 분석, 의미 분석 및 실용 분석 중 적어도 하나의 방식을 이용하여 상기 복수 개의 자연어 데이터를 분석하고, 분석 결과에 따라 군집화한 단어정보들을 상기 유사도 리스트로 생성하는 것을 특징으로 하는 자연어 정규화 방법. - 삭제
- 제 1 항에 있어서,
상기 정규화 제어과정은,
외부 출력장치를 이용하여 상기 정규화 후보가 출력되도록 하고, 상기 정규화 후보 중 사용자 입력신호에 근거하여 선택된 단어정보를 상기 정규화 단어로 선정하는 것을 특징으로 하는 자연어 정규화 방법. - 제 1 항에 있어서,
상기 정규화 제어과정은,
기 저장된 정규화 사전 저장부에 포함된 단어정보와 상기 정규화 후보에 포함된 단어정보를 비교하여 대응되는 단어정보를 상기 정규화 단어로 선정하는 것을 특징으로 하는 자연어 정규화 방법. - 제 1 항에 있어서,
상기 전처리 과정은,
외부장치로부터 입력된 자연어를 음성인식, 전사 및 문자인식 중 적어도 하나의 방식을 이용하여 적어도 하나 이상의 문자 또는 문장을 포함하는 상기 자연어 데이터를 생성하는 것을 특징으로 하는 자연어 정규화 방법. - 제 1 항에 있어서,
상기 정규화 규칙에 포함된 상기 정규화 단어를 획득하고, 상기 정규화 단어를 기 설정된 횟수 또는 기 설정된 주기로 반복하여 군집화하고, 신규 정규화 단어로 결정되는 경우 신규로 저장하는 동작을 반복하는 것을 특징으로 하는 자연어 정규화 방법. - 자연어 데이터를 생성하는 자연어 전처리부;
상기 자연어 데이터를 기 설정된 언어 모델과 비교하여 모델링하고, 상기 언어 모델을 포함하는 단어정보를 동일한 군으로 군집화하여 유사도 리스트를 생성하는 군집화 제어부;
상기 유사도 리스트를 발음 또는 단어형태의 유사도 순으로 정렬하고, 기 설정된 개수의 상위 유사도를 갖는 상기 단어정보를 정규화 후보로 추출하는 후보 처리부;
상기 정규화 후보 중 정규화 단어를 선정하는 정규화 제어부; 및
상기 정규화 단어를 등록하여 복수의 형태로 표현되는 자연어를 단일한 형태로 정규화하는 정규화 규칙을 생성하는 정규화 규칙 생성부를 포함하되,
상기 정규화 규칙에 포함된 상기 정규화 단어를 신규 자연어 데이터로 설정하여 정규화 단어를 선정하는 과정을 반복하는 것을 특징으로 하는 자연어 정규화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140117970A KR101587023B1 (ko) | 2014-09-04 | 2014-09-04 | 자연어 정규화 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140117970A KR101587023B1 (ko) | 2014-09-04 | 2014-09-04 | 자연어 정규화 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101587023B1 true KR101587023B1 (ko) | 2016-01-21 |
Family
ID=55308721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140117970A KR101587023B1 (ko) | 2014-09-04 | 2014-09-04 | 자연어 정규화 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101587023B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019164144A1 (ko) * | 2018-02-22 | 2019-08-29 | 삼성전자주식회사 | 전자 장치 및 이의 자연어 생성 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060047454A (ko) * | 2004-04-23 | 2006-05-18 | 마이크로소프트 코포레이션 | 의미 프로그래밍 언어 및 언어 객체 모델 |
-
2014
- 2014-09-04 KR KR1020140117970A patent/KR101587023B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060047454A (ko) * | 2004-04-23 | 2006-05-18 | 마이크로소프트 코포레이션 | 의미 프로그래밍 언어 및 언어 객체 모델 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019164144A1 (ko) * | 2018-02-22 | 2019-08-29 | 삼성전자주식회사 | 전자 장치 및 이의 자연어 생성 방법 |
US11657237B2 (en) | 2018-02-22 | 2023-05-23 | Samsung Electronics Co., Ltd. | Electronic device and natural language generation method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315737B (zh) | 一种语义逻辑处理方法及系统 | |
WO2022227207A1 (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
JP6813591B2 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム | |
JP5526199B2 (ja) | 文書分類装置および文書分類処理プログラム | |
CN106407211B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN108268539A (zh) | 基于文本分析的视频匹配系统 | |
Tur et al. | Exploiting the semantic web for unsupervised natural language semantic parsing | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
JP2018055142A (ja) | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN110222250A (zh) | 一种面向微博的突发事件触发词识别方法 | |
CN114817465A (zh) | 一种用于多语言语义理解的实体纠错方法及智能设备 | |
KR101579544B1 (ko) | 자연어 유사도 산출 방법 및 장치 | |
CN107168953A (zh) | 海量文本中基于词向量表征的新词发现方法及系统 | |
CN113392183A (zh) | 一种儿童范畴图谱知识的表征与计算方法 | |
CN110413779B (zh) | 一种针对电力行业的词向量训练方法及其系统、介质 | |
CN114036957B (zh) | 一种快速语义相似度计算方法 | |
CN107562907B (zh) | 一种智能律师专家案件应答装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140904 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150121 Patent event code: PE09021S01D |
|
AMND | Amendment | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20150421 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20150121 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
X091 | Application refused [patent] | ||
AMND | Amendment | ||
PX0901 | Re-examination |
Patent event code: PX09011S01I Patent event date: 20150421 Comment text: Decision to Refuse Application Patent event code: PX09012R01I Patent event date: 20150310 Comment text: Amendment to Specification, etc. |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150608 Patent event code: PE09021S01D |
|
AMND | Amendment | ||
PX0701 | Decision of registration after re-examination |
Patent event date: 20151231 Comment text: Decision to Grant Registration Patent event code: PX07013S01D Patent event date: 20150807 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I Patent event date: 20150429 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I Patent event date: 20150421 Comment text: Decision to Refuse Application Patent event code: PX07011S01I Patent event date: 20150310 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I |
|
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20160114 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20160114 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20190102 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20191216 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20191216 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20210104 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20220103 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20231212 Start annual number: 9 End annual number: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20241219 Start annual number: 10 End annual number: 10 |