KR102528779B1 - 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 - Google Patents
한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR102528779B1 KR102528779B1 KR1020180055617A KR20180055617A KR102528779B1 KR 102528779 B1 KR102528779 B1 KR 102528779B1 KR 1020180055617 A KR1020180055617 A KR 1020180055617A KR 20180055617 A KR20180055617 A KR 20180055617A KR 102528779 B1 KR102528779 B1 KR 102528779B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- sentence
- tagging
- user terminal
- abbreviation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000010365 information processing Effects 0.000 claims description 24
- 238000000926 separation method Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2a 내지 도 2c는 본 발명의 일 실시예에서 선행어를 선택하기 위한 과정을 설명하기 위한 참고도.
도 3a 내지 도 3c는 본 발명의 일 실시예에서 생략어를 추가하기 위한 과정을 설명하기 위한 참고도.
도 4a 내지 도 4c는 본 발명의 일 실시예에서 생략어가 태깅된 문장에서 생략어 태깅 결과를 수정하기 위한 과정을 설명하기 위한 참고도.
도 5a 내지 도 5c는 본 발명의 일 실시예에서 생략어가 태깅된 문장에서 생략어 태깅 결과를 삭제하기 위한 과정을 설명하기 위한 참고도.
도 6은 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법을 설명하기 위한 순서도.
도 7은 본 발명의 일 실시예에서 태깅 정보를 표시하는 단계의 세부 단계를 설명하기 위한 순서도.
도 8은 본 발명의 일 실시예에서 말뭉치 사전에 등록하는 단계의 세부 단계를 설명하기 위한 순서도이다.
130 : 어절성분 정의부 140 : 태깅 정보 처리부
Claims (8)
- 사용자 단말이 생략어 복원을 위해 태깅 작업에 이용되는 문장을 제공받는 단계;
상기 사용자 단말이 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 단계;
상기 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하여 생략어 태깅을 추가하는 단계; 및
상기 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅함을 확인하거나, 태깅된 생략어를 수정 또는 삭제할 수 있도록 태깅 정보를 표시하는 단계;를 포함하고,
상기 태깅 정보를 표시하는 단계는,
상기 선택된 어절의 하단에 표시되는 드롭다운 형태의 생략어 태깅 버튼을 표시하는 단계; 및
상기 생략어 태깅 버튼을 이용하여 생략어를 선택하면, 생략어의 종류를 선택하기 위한 선택 버튼, 작업자가 미리 등록한 선행어를 선택하기 위한 버튼 및 상기 태깅된 생략어를 수정 또는 삭제하기 위한 취소 및 추가 버튼을 표시하는 단계
를 포함하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법. - 제1항에 있어서,
상기 제공된 문장의 어절 중 문장 구조의 형태를 갖는 어절을 검출하는 단계;
상기 사용자 단말에서 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하는 단계;
상기 생략된 어절이 존재하는지의 여부를 판단하는 단계에서 문장 내에서 생략된 어절이 존재하는 것으로 판단되면, 상기 어절 일측에 태깅 정보를 표시하는 단계; 및
상기 사용자 단말에 의해 태깅 정보가 선택되면, 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록하는 단계;를 포함하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법. - 제2항에 있어서,
상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계는,
태깅 작업자가 상기 사용자 단말을 통해 태깅된 문장을 수정할 수 있도록, 태깅된 생략어가 포함된 문장의 표시하는 단계; 태깅 작업자가 사용자 단말을 통해 상기 태깅된 생략어를 선택하는 단계; 태깅된 생략어 수정 또는 삭제를 위한 태깅 정보 표시하는 단계; 및
사용자 단말에 의해 태깅된 생략어의 수정 또는 삭제하고, 그 수정 또는 삭제한 문장을 말뭉치 사전에 등록하는 단계를 포함하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법.
- 제2항에 있어서,
상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계는,
문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법. - 사용자 단말이 접속하면, 생략어 복원을 위해 태깅 작업에 이용되는 문장을 상기 사용자 단말에 제공하는 문장 제공부;
상기 사용자 단말에 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 어절 분리부;
상기 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하는 어절성분 정의부; 및
상기 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅되고, 해당 어절에 태깅 정보가 태깅되었음을 나타내도록 표시하는 태깅 정보 처리부;를 포함하고,
상기 태깅 정보 처리부는,
상기 선택된 어절의 하단에 표시되는 드롭다운 형태의 생략어 태깅 버튼을 표시하고, 상기 생략어 태깅 버튼을 이용하여 생략어를 선택하면, 생략어의 종류를 선택하기 위한 선택 버튼, 작업자가 미리 등록한 선행어를 선택하기 위한 버튼 및 상기 태깅된 생략어를 수정 또는 삭제하기 위한 취소 및 추가 버튼을 표시하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치. - 제5항에 있어서,
상기 태깅 정보 처리부는,
상기 사용자 단말로부터 상기 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하고, 문장 내에서 생략된 어절이 존재하는 것으로 판단되면, 상기 어절 일측에 태깅 정보를 표시하며, 상기 사용자 단말에 의해 태깅 정보가 선택되면 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치. - 제 6항에 있어서,
상기 태깅 정보 처리부는,
태깅 작업자가 상기 사용자 단말을 통해 등록된 생략어의 문장 속 위치를 수정할 수 있도록, 해당 생략어를 문장의 가상 위치에 삽입하고, 상기 가상 위치에 삽입된 생략어를 태깅 작업자가 사용자 단말을 통해 선택하면, 생략어 추가를 위한 정보를 사용자 단말에 제공하며, 상기 사용자 단말에 의해 가상 위치에 삽입된 생략어의 추가를 승인하면, 생략어가 추가된 문장을 말뭉치 사전에 등록하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치. - 제 5항에 있어서,
상기 태깅 정보 처리부는,
문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180055617A KR102528779B1 (ko) | 2018-05-15 | 2018-05-15 | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180055617A KR102528779B1 (ko) | 2018-05-15 | 2018-05-15 | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190130905A KR20190130905A (ko) | 2019-11-25 |
KR102528779B1 true KR102528779B1 (ko) | 2023-05-08 |
Family
ID=68730635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180055617A KR102528779B1 (ko) | 2018-05-15 | 2018-05-15 | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102528779B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102628304B1 (ko) * | 2023-06-29 | 2024-01-24 | 주식회사 멜로우컴퍼니 | 자연어 처리 프로세서를 이용한 영상 원문 수정 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326367A (ja) | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
KR100805191B1 (ko) | 2006-09-20 | 2008-02-21 | 한국전자통신연구원 | 한국어 문장에서의 생략 성분 복원 방법 및 장치 |
JP2015052858A (ja) * | 2013-09-05 | 2015-03-19 | 京セラドキュメントソリューションズ株式会社 | 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101116471B1 (ko) * | 2010-02-10 | 2012-03-07 | 한국과학기술원 | 코더 친화적 기계이해형 자연어 텍스트 표현 방법 |
-
2018
- 2018-05-15 KR KR1020180055617A patent/KR102528779B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326367A (ja) | 2003-04-23 | 2004-11-18 | Sharp Corp | テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 |
KR100805191B1 (ko) | 2006-09-20 | 2008-02-21 | 한국전자통신연구원 | 한국어 문장에서의 생략 성분 복원 방법 및 장치 |
JP2015052858A (ja) * | 2013-09-05 | 2015-03-19 | 京セラドキュメントソリューションズ株式会社 | 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置 |
Non-Patent Citations (1)
Title |
---|
류지희 외 3명, "한국어 생략어복원 가이드라인", 제29회 한글 및 한국어 정보처리 학술대회 논문집, 2017.10., pp.213-219. 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR20190130905A (ko) | 2019-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200257848A1 (en) | System and method for generating task-embedded documents | |
US7219050B2 (en) | Automatic interpreting system including a system for recognizing errors | |
KR100570224B1 (ko) | 전표정의데이터 작성방법 및 전표처리장치 | |
JPH04505227A (ja) | ドキュメント生成装置および方法 | |
US20130191110A1 (en) | Method for character correction | |
KR20190095099A (ko) | 거래 시스템 에러 검출 방법, 장치, 저장 매체 및 컴퓨터 장치 | |
CN103049458A (zh) | 一种修正用户词库的方法和系统 | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
US20050125731A1 (en) | Method and system for character sequence checking according to a selected language | |
KR102528779B1 (ko) | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 | |
CN113032548A (zh) | 信息处理装置、存储介质及信息处理方法 | |
CN112733517B (zh) | 需求模板符合性检查的方法、电子设备及存储介质 | |
CN111985232B (zh) | 基于nlp的机载显控系统需求的领域模型提取方法 | |
CN111611779A (zh) | 辅助文本标注方法、装置、设备及其存储介质 | |
JP2017151768A (ja) | 翻訳プログラム及び情報処理装置 | |
US20130174029A1 (en) | Method and apparatus for analyzing a document | |
US11379661B2 (en) | Word verification editing for simple and detailed text editing | |
US10331948B1 (en) | Rules based data extraction | |
CN114970524A (zh) | 可控文本生成方法及装置 | |
CN113886748A (zh) | 网页内容的编辑信息生成、信息输出方法、装置及设备 | |
JP2004234402A (ja) | Web画面作成ツール及び用語チェックツール | |
JPH0778138A (ja) | コメント付与方法及び文書処理装置 | |
KR102118322B1 (ko) | 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법 | |
JP2020035023A (ja) | 学習方法、誤り判定方法、学習システム、誤り判定システム、およびプログラム | |
JP2006276912A (ja) | 文書編集装置、文書編集方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180515 |
|
PG1501 | Laying open of application | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20210503 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20180515 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220907 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230328 |
|
PG1601 | Publication of registration |