KR101644044B1 - 개념 및 관계 의역 시스템 및 방법 - Google Patents
개념 및 관계 의역 시스템 및 방법 Download PDFInfo
- Publication number
- KR101644044B1 KR101644044B1 KR1020150160487A KR20150160487A KR101644044B1 KR 101644044 B1 KR101644044 B1 KR 101644044B1 KR 1020150160487 A KR1020150160487 A KR 1020150160487A KR 20150160487 A KR20150160487 A KR 20150160487A KR 101644044 B1 KR101644044 B1 KR 101644044B1
- Authority
- KR
- South Korea
- Prior art keywords
- corpus
- subject
- paraphrase
- concept
- expressions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 50
- 239000013598 vector Substances 0.000 claims abstract description 39
- 239000000284 extract Substances 0.000 claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims description 64
- 238000003058 natural language processing Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 25
- 230000006399 behavior Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 4
- 230000026676 system process Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G06F17/20—
-
- G06F17/277—
-
- G06F17/30958—
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 본 발명의 실시예에 따른 개념 및 관계를 의역하는 방법에 대한 흐름도이다.
도 3은 본 발명의 실시예에 따른 이중 이분 그래프 구조의 예시도이다.
Claims (10)
- 개념과 관계에 대한 의역 집합을 추출하는 시스템에 있어서,
외부로부터 입력되는 말뭉치를 자연어 처리하여 의미역이 부착된 말뭉치를 생성하는 자연어 처리부;
상기 의미역이 부착된 말뭉치로부터 주체, 행동, 객체가 포함된 정보 집합을 추출하는 집합 추출부;
상기 집합 추출부에서 추출한 정보 집합을 이중 이분 그래프로 구축하고, 상기 주체, 행동, 객체를 벡터 표현으로 변환하는 벡터 표현부;
상기 벡터 표현부에서 변환된 벡터 표현을 이용하여 벡터 간의 유사도 기반으로 친밀성을 측정하는 친밀성 측정부; 및
상기 친밀성 측정부가 측정한 친밀도를 기반으로, 친밀성이 높은 값을 갖는 개념 쌍들과 관계 쌍들을 변환 가능한 의역으로 인식하고 의역 집합으로 추출하는 의역 인식부
를 포함하는 개념/관계 의역 시스템. - 제1항에 있어서,
상기 자연어 처리부는,
상기 말뭉치를 자연어 처리하여 문장을 인식하고, 인식한 문장 내 단어들의 품사 정보를 부착하며, 문장 내 단어들 사이의 의존 관계를 분석하고 각 단어들에 대한 의미역을 부착하는 개념/관계 의역 시스템. - 제2항에 있어서,
상기 자연어 처리부는,
상기 말뭉치 내의 동일한 대상에 대해 다르게 표현한 상호 참조 표현들을 하나의 군집으로 연결하고, 상대적 시점으로 기술된 시간 표현들을 절대적 시간 표현으로 정규화시키며, 상기 말뭉치 내의 개체들에 대한 표현을 실존 개체들에 대한 대용량 지식베이스 상의 고유한 개체로 연결하는 개념/관계 의역 시스템. - 제1항에 있어서,
상기 집합 추출부는,
상기 자연어 처리부로부터 수신한 의미역이 부착된 말뭉치를 토큰화하여 상기 정보 집합에 포함될 행동 요소를 찾아내고, 동사 핵심어에 의존하면서 주요 논항으로 된 단어들에 따라 주체와 객체를 인식하는 개념/관계 의역 시스템. - 제1항에 있어서,
상기 벡터 표현부는,
상기 집합 추출부에서 추출한 정보 집합에 포함된 주체, 행동, 객체간의 연결성을 기반으로 주체 및 객체와 연관되어 사용되는 행동을 파악하고, 행동과 연관되어 사용되는 주체 및 객체를 파악하는 개념/관계 의역 시스템. - 개념/관계 의역 시스템이 개념과 관계를 의역하는 방법에 있어서,
외부로부터 입력되는 말뭉치를 자연어 처리하여 의미역이 부착된 말뭉치를 생성하는 단계;
상기 의미역이 부착된 말뭉치로부터 주체, 행동, 객체가 포함된 정보 집합을 추출하는 단계;
상기 추출한 정보 집합을 이중 이분 그래프로 구축하고, 상기 주체, 행동, 객체를 벡터 표현으로 변환하는 단계;
상기 벡터 표현을 토대로 벡터간 유사도를 기반으로 친밀성을 측정하는 단계; 및
친밀성 값을 토대로 높은 값을 갖는 각 개념 쌍들과 관계 쌍들을 변환 가능한 의역으로 인식하고 의역 집합에 추가하는 단계
를 포함하는 개념/관계 의역 방법. - 제6항에 있어서,
상기 의미역이 부착된 말뭉치를 생성하는 단계는,
상기 말뭉치로부터 문장을 인식하고, 인식된 문장 내에 포함되어 있는 단어들에 품사 정보를 부착하는 단계;
상기 인식된 문장 내에서 각 단어들의 의존 관계를 분석하고, 상기 각 단어들이 서술어를 중심으로 어떤 의미적 역할을 수행하는지 탐지하며, 탐지한 결과를 의미역으로 단어에 부착하는 단계;
상기 인식된 문장 내에서 동일한 대상에 대해 다르게 표현한 상호 참조 표현들이 있는지 확인하고, 상호 참조 표현들이 있는 경우 하나의 군집으로 연결하는 단계;
상기 인식된 문장에 제1 시점으로 기술된 시간 표현들을 제2 시간 표현으로 정규화하는 단계; 및
상기 인식된 문장 내에 실존하는 개체들 각각의 표현들을, 상기 개체 전후의 문맥적 의미를 고려하여 실존 개체들에 대한 대용량 지식베이스 상의 고유 개체로 연결하는 단계
를 포함하는 개념/관계 의역 방법. - 제6항에 있어서,
상기 정보 집합을 추출하는 단계는,
상기 의미역이 부착된 말뭉치를 토큰화하는 단계;
토큰화된 말뭉치로부터 상기 정보 집합에 포함될 행동 요소를 찾아내고, 동사 핵심어에 의존하면서 주요 논항으로 된 단어들을 주체와 객체로 인식하는 단계; 및
토큰화된 말뭉치로부터 구 수준의 표현을 추출하고 구로 인식된 표현에서 핵심어를 결정하는 단계
를 포함하는 개념/관계 의역 방법. - 제6항에 있어서,
상기 이중 이분 그래프는,
G=[V, E]
여기서, 점들의 집합인 V는 V=[VAgent, VPredicate, VPatient]로 나타내며, VAgent는 주체에 대한 점을, VPredicate는 행동에 대한 점을, VPatient는 객체들이 모인 점을 의미하고, 간선의 집합인 E는 E=[EAP, EPP]로 정의되는데 EAP는 주체에 대한 점과 행동에 대한 점 사이의 간선이 몇 개 형성되는지를 의미하고, EPP는 행동에 대한 점과 객체에 대한 점 사이의 간선이 몇 개 형성되는지를 의미함
을 포함하는 개념/관계 의역 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150026086 | 2015-02-24 | ||
KR20150026086 | 2015-02-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101644044B1 true KR101644044B1 (ko) | 2016-08-01 |
Family
ID=56706992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150160487A Expired - Fee Related KR101644044B1 (ko) | 2015-02-24 | 2015-11-16 | 개념 및 관계 의역 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101644044B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200093441A (ko) * | 2019-01-28 | 2020-08-05 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 지식 그래프 중의 데이터 모델을 획득하는 방법, 장치, 기기 및 저장 매체 |
WO2021222119A1 (en) * | 2020-04-28 | 2021-11-04 | Encyclopaedia Britannica, Inc. | Systems, methods, and apparatus for context-driven search |
US12353456B2 (en) | 2021-04-26 | 2025-07-08 | Encyclopaedia Britannica, Inc. | Systems, methods, and apparatus for context-driven search |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100033585A (ko) * | 2008-09-22 | 2010-03-31 | 숭실대학교산학협력단 | 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 |
KR20120053207A (ko) * | 2010-11-17 | 2012-05-25 | 한국과학기술정보연구원 | 술어-논항구조 기반의 관계 식별 방법 및 장치 |
-
2015
- 2015-11-16 KR KR1020150160487A patent/KR101644044B1/ko not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100033585A (ko) * | 2008-09-22 | 2010-03-31 | 숭실대학교산학협력단 | 단어연관그래프를 이용한 단어 의미의 자동 군집 기법 |
KR20120053207A (ko) * | 2010-11-17 | 2012-05-25 | 한국과학기술정보연구원 | 술어-논항구조 기반의 관계 식별 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
"개념 및 관계 분류를 통한 분야 온톨로지 구축", 정보과학회논문지:소프트웨어 및 응용 제35권제9호(pp. 562-571), 2008년 9월 * |
"한국어 의미역 말뭉치 구축을 위한 반자동 태깅 도구 개발", 한국정보과학회 2014 한국컴퓨터종합학술대회 논문집(pp. 592-594). 2014년 06월 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200093441A (ko) * | 2019-01-28 | 2020-08-05 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 지식 그래프 중의 데이터 모델을 획득하는 방법, 장치, 기기 및 저장 매체 |
KR102299744B1 (ko) * | 2019-01-28 | 2021-09-08 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 지식 그래프 중의 데이터 모델을 획득하는 방법, 장치, 기기 및 저장 매체 |
US11556812B2 (en) | 2019-01-28 | 2023-01-17 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for acquiring data model in knowledge graph, and medium |
WO2021222119A1 (en) * | 2020-04-28 | 2021-11-04 | Encyclopaedia Britannica, Inc. | Systems, methods, and apparatus for context-driven search |
GB2610085A (en) * | 2020-04-28 | 2023-02-22 | Encyclopaedia Britannica Inc | Systems, methods, and apparatus for context-driven search |
US12353456B2 (en) | 2021-04-26 | 2025-07-08 | Encyclopaedia Britannica, Inc. | Systems, methods, and apparatus for context-driven search |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Analyzing the dynamics of research by extracting key aspects of scientific papers | |
Mills et al. | Graph-based methods for natural language processing and understanding—a survey and analysis | |
Sravanthi et al. | Semantic similarity between sentences | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
Sabeti et al. | LexiPers: An ontology based sentiment lexicon for Persian | |
CN110096599B (zh) | 知识图谱的生成方法及装置 | |
KR101396131B1 (ko) | 패턴 기반 관계 유사도 측정 장치 및 방법 | |
Flati et al. | The CQC algorithm: Cycling in graphs to semantically enrich and enhance a bilingual dictionary | |
Atabuzzaman et al. | Leveraging grammatical roles for measuring semantic similarity between texts | |
Chifu et al. | A system for detecting professional skills from resumes written in natural language | |
KR20110017129A (ko) | 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체 | |
KR101644044B1 (ko) | 개념 및 관계 의역 시스템 및 방법 | |
Nebhi | Named Entity Disambiguation using Freebase and Syntactic Parsing. | |
Malandrakis et al. | DeepPurple: Estimating sentence semantic similarity using n-gram regression models and web snippets | |
Hosseini et al. | A systemic functional linguistics approach to implicit entity recognition in tweets | |
Molina et al. | Discursive sentence compression | |
Conrado et al. | Exploration of a rich feature set for automatic term extraction | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
Nargis et al. | Generating an emotion ontology for roman urdu text | |
Karuppaiah et al. | Hybrid approach for semantic similarity calculation between Tamil words | |
Arukgoda et al. | A word sense disambiguation technique for sinhala | |
Anke et al. | TALN-UPF: Taxonomy learning exploiting CRF-based hypernym extraction on encyclopedic definitions | |
Mathew et al. | Paraphrase identification of Malayalam sentences-an experience | |
Peng et al. | Towards structure-aware paraphrase identification with phrase alignment using sentence encoders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20151116 |
|
PA0201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20160620 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20160725 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20160725 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20190625 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20190625 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20200727 Start annual number: 5 End annual number: 5 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20220505 |