KR20200088088A - 단어 속성 분류 장치 및 방법 - Google Patents
단어 속성 분류 장치 및 방법 Download PDFInfo
- Publication number
- KR20200088088A KR20200088088A KR1020190004649A KR20190004649A KR20200088088A KR 20200088088 A KR20200088088 A KR 20200088088A KR 1020190004649 A KR1020190004649 A KR 1020190004649A KR 20190004649 A KR20190004649 A KR 20190004649A KR 20200088088 A KR20200088088 A KR 20200088088A
- Authority
- KR
- South Korea
- Prior art keywords
- words
- word
- extracted
- target
- learning
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000005070 sampling Methods 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
도2는 본 발명의 일 실시예에 따른 특징값 생성부의 구성을 개략적으로 도시한 블록도이다.
도3은 본 발명의 일 실시예에 따른 네거티브 샘플링부의 구성을 개략적으로 도시한 블록도이다.
도4는 본 발명의 일 실시예에 따른 단어 임베딩 모델을 설명하기 위해 도시한 도면이다.
도5는 본 발명의 일 실시예에 따른 단어의 속성을 분류하기 위해 학습하는 과정을 설명하기 위한 도면이다.
도6은 본 발명의 일 실시예에 따른 각 단어의 특징 벡터를 시각화하여 도시한 도면이다.
도7은 본 발명의 일 실시예에 따른 단어 속성 분류 장치의 동작 순서를 개략적으로 나타낸 도면이다.
도8은 본 발명의 일 실시예에 따른 단어 속성 분류 방법을 시간의 순서에 따라 도시한 흐름도이다.
110: 입력부
120: 단어 추출부
130: 특징값 생성부
140: 속성 분류부
Claims (12)
- 적어도 하나의 자연어 문장을 포함하는 대상 원문을 입력 받는 입력부;
상기 입력된 상기 대상 원문을, 상기 자연어 문장을 구성하는 단어별로 분절하고, 의미론적 분석을 통해 분절된 단어들 중 적어도 일부를 추출하는 단어 추출부;
단어 임베딩 모델을 이용하여 상기 추출된 단어들을 학습함에 따라 상기 추출된 각 단어의 특징값을 생성하는 특징값 생성부; 및
상기 생성된 단어 특징값들을 이용하여 상기 생성된 단어들간 유사도를 판단함에 따라 군집화하여, 상기 추출된 단어들을 기 설정된 속성별로 분류하는 속성 분류부;
를 포함하는 단어 속성 분류 장치. - 제1항에 있어서, 상기 특징값 생성부는,
상기 추출된 단어들 중 하나의 타겟 단어를 선택하는 타겟 단어 선택부를 더 포함하는 것을 특징으로 하는 단어 속성 분류 장치. - 제2항에 있어서, 상기 특징값 생성부는,
미리 설정된 윈도우 사이즈를 고려하여 상기 타겟 단어와 인접하거나 인접하지 않은 단어들을 분류함에 따라 네거티브 샘플링(negative sampling)을 수행하는 네거티브 샘플링부를 더 포함하는 것을 특징으로 하는 단어 속성 분류 장치. - 제3항에 있어서, 상기 네거티브 샘플링부는,
상기 타겟 단어가 속하는 적어도 하나의 자연어 문장을 구성하는 단어들 중에서, 기 설정된 기준에 따라 상기 타겟 단어와 인접한 단어인 것으로 정의되는 인접 단어들을 추출하는 인접 단어 추출부; 및
상기 타겟 단어가 속하는 적어도 하나의 자연어 문장을 구성하는 단어들 중에서 상기 인접 단어 추출부로부터 추출된 인접 단어들을 제외한 나머지 단어로 정의되는 네거티브 샘플 단어를 추출하는 네거티브 샘플 단어 추출부;를 더 포함하는 것을 특징으로 하는 단어 속성 분류 장치. - 제4항에 있어서,
상기 네거티브 샘플링부는,
상기 추출된 인접 단어들 및 네거티브 샘플 단어를 독립 파라미터로서 이용하는 수식에 기초하여 상기 추출된 단어들을 학습시킴으로써, 상기 추출된 단어들을 상기 기 설정된 속성별로 분류하기 위한 학습 과정에서의 노이즈를 최소화시키기 위한 네거티브 샘플링을 수행하는 것을 특징으로 하는 단어 속성 분류 장치. - 제1항에 있어서,
상기 특징값 생성부는, 상기 추출된 단어들 각각의 출현빈도를 고려하여 상기 추출된 단어들 중 적어도 하나의 단어의 특징값을 서브샘플링(subsampling)함에 따라 학습 대상 단어 후보에서 제외시키는 것을 특징으로 하는 단어 속성 분류 장치. - 제1항에 있어서,
상기 속성 분류부는, 상기 추출된 단어들의 특징벡터들간 코사인 유사도를 판단함에 따라 상기 추출된 단어들을 상기 기 설정된 속성별로 분류하는 것을 특징으로 하는 단어 속성 분류 장치. - 제1항에 있어서,
상기 단어 임베딩 모델은 입력층, 프로젝션 층 및 복수개의 출력층을 포함하는 skip-gram 학습 모델인 것을 특징으로 하는 단어 속성 분류 장치. - 적어도 하나의 자연어 문장을 포함하는 대상 원문을 입력 받는 단계;
상기 입력된 상기 대상 원문을, 상기 대상 원문의 상기 자연어 문장을 구성하는 단어별로 분절함에 따라 분절된 단어들을 추출하는 단계;
단어 임베딩 모델을 이용하여 상기 추출된 단어들을 학습함에 따라 상기 추출된 각 단어의 특징값을 생성하는 단계; 및
상기 생성된 단어 특징값들을 이용하여 상기 생성된 단어들간 유사도를 판단함에 따라 군집화하여, 상기 추출된 단어들을 기 설정된 속성별로 분류하는 단계;
를 포함하는 단어 속성 분류 방법. - 제9항에 있어서, 상기 특징값을 생성하는 단계는,
상기 추출된 단어들 중 하나의 타겟 단어를 선택하는 단계;
상기 타겟 단어가 속하는 적어도 하나의 자연어 문장을 구성하는 단어들 중에서, 기 설정된 기준에 따라 상기 타겟 단어와 인접한 단어인 것으로 정의되는 인접 단어들을 추출하는 단계; 및
상기 타겟 단어가 속하는 적어도 하나의 자연어 문장을 구성하는 단어들 중에서 상기 추출된 인접 단어들을 제외한 나머지 단어로 정의되는 네거티브 샘플 단어를 추출하는 단계;
를 더 포함하는 것을 특징으로 하는 단어 속성 분류 방법. - 제10항에 있어서,
상기 특징값을 생성하는 단계는,
상기 추출된 인접 단어들 및 네거티브 샘플 단어를 독립 파라미터로서 이용하는 수식에 기초하여 상기 추출된 단어들을 학습시킴으로써, 상기 추출된 단어들을 상기 기 설정된 속성별로 분류하기 위한 학습 과정에서의 노이즈를 최소화시키기 위한 네거티브 샘플링을 수행하는 것을 특징으로 하는 단어 속성 분류 방법. - 컴퓨터에서 적어도 하나의 자연어 문장을 포함하는 대상 원문을 입력 받는 단계;
상기 입력된 상기 대상 원문을, 상기 대상 원문의 상기 자연어 문장을 구성하는 단어별로 분절함에 따라 분절된 단어들을 추출하는 단계;
단어 임베딩 모델을 이용하여 상기 추출된 단어들을 학습함에 따라 상기 각 단어의 특징값을 생성하는 단계; 및
상기 생성된 단어 특징값들을 이용하여 상기 단어들간 유사도를 판단함에 따라 군집화하여, 상기 추출된 단어들을 기 설정된 속성별로 분류하는 단계;를 실행시키기 위하여 컴퓨터에서 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190004649A KR20200088088A (ko) | 2019-01-14 | 2019-01-14 | 단어 속성 분류 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190004649A KR20200088088A (ko) | 2019-01-14 | 2019-01-14 | 단어 속성 분류 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200088088A true KR20200088088A (ko) | 2020-07-22 |
Family
ID=71893250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190004649A KR20200088088A (ko) | 2019-01-14 | 2019-01-14 | 단어 속성 분류 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200088088A (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364130A (zh) * | 2020-11-10 | 2021-02-12 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
KR102265947B1 (ko) * | 2020-11-23 | 2021-06-17 | 주식회사 엠로 | 기계 학습 기반 정보 제공 방법 및 장치 |
KR102327002B1 (ko) * | 2020-07-27 | 2021-11-16 | 주식회사 엔터프라이즈블록체인 | 구매자 가치를 예측하는 영업기회정보 판매 서버 및 그 방법 |
KR102329920B1 (ko) * | 2021-06-04 | 2021-11-23 | 가천대학교 산학협력단 | 기계학습된 모델을 이용한 의료원문데이터를 증강하는 방법 및 시스템 |
KR20220040295A (ko) * | 2020-09-23 | 2022-03-30 | 네이버 주식회사 | 메트릭 학습을 위한 가상의 학습 데이터 생성 방법 및 시스템 |
US20240104300A1 (en) * | 2022-09-28 | 2024-03-28 | Korea Electric Power Corporation | Apparatus and method for generating word embedding library |
US12026764B2 (en) | 2020-11-23 | 2024-07-02 | Emro Co., Ltd. | Method and apparatus for providing information using trained model based on machine learning |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130074176A (ko) | 2011-12-26 | 2013-07-04 | 울산대학교 산학협력단 | 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법 |
-
2019
- 2019-01-14 KR KR1020190004649A patent/KR20200088088A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130074176A (ko) | 2011-12-26 | 2013-07-04 | 울산대학교 산학협력단 | 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102327002B1 (ko) * | 2020-07-27 | 2021-11-16 | 주식회사 엔터프라이즈블록체인 | 구매자 가치를 예측하는 영업기회정보 판매 서버 및 그 방법 |
WO2022025465A1 (ko) * | 2020-07-27 | 2022-02-03 | 주식회사 엔터프라이즈블록체인 | 구매자 가치를 예측하는 영업기회정보 판매 서버 및 그 방법 |
KR20220040295A (ko) * | 2020-09-23 | 2022-03-30 | 네이버 주식회사 | 메트릭 학습을 위한 가상의 학습 데이터 생성 방법 및 시스템 |
CN112364130A (zh) * | 2020-11-10 | 2021-02-12 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
CN112364130B (zh) * | 2020-11-10 | 2024-04-09 | 深圳前海微众银行股份有限公司 | 样本采样方法、设备和可读存储介质 |
KR102265947B1 (ko) * | 2020-11-23 | 2021-06-17 | 주식회사 엠로 | 기계 학습 기반 정보 제공 방법 및 장치 |
US12026764B2 (en) | 2020-11-23 | 2024-07-02 | Emro Co., Ltd. | Method and apparatus for providing information using trained model based on machine learning |
KR102329920B1 (ko) * | 2021-06-04 | 2021-11-23 | 가천대학교 산학협력단 | 기계학습된 모델을 이용한 의료원문데이터를 증강하는 방법 및 시스템 |
US20240104300A1 (en) * | 2022-09-28 | 2024-03-28 | Korea Electric Power Corporation | Apparatus and method for generating word embedding library |
US12112128B2 (en) | 2022-09-28 | 2024-10-08 | Korea Electric Power Corporation | Apparatus and method for generating word embedding library |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12141532B2 (en) | Device and method for machine reading comprehension question and answer | |
KR102455616B1 (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
KR20200088088A (ko) | 단어 속성 분류 장치 및 방법 | |
CN106407211B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
US11315551B2 (en) | System and method for intent discovery from multimedia conversation | |
Arumugam et al. | Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications | |
CN110414004A (zh) | 一种核心信息提取的方法和系统 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
KR102088357B1 (ko) | 기계독해기반 질의응답방법 및 기기 | |
Abdallah et al. | Multi-domain evaluation framework for named entity recognition tools | |
CN111159405A (zh) | 基于背景知识的讽刺检测方法 | |
JP2022067234A (ja) | 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム | |
CN109472032A (zh) | 一种实体关系图的确定方法、装置、服务器及存储介质 | |
JP7452623B2 (ja) | 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム | |
CN117094383B (zh) | 一种语言模型的联合训练方法、系统、设备及存储介质 | |
Khassanov et al. | Enriching rare word representations in neural language models by embedding matrix augmentation | |
EP3822816A1 (en) | Device and method for machine reading comprehension question and answer | |
CN117056524B (zh) | 基于领域知识图谱的方面级情感分析方法及系统 | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
CN116975275A (zh) | 多语种文本分类模型训练方法、装置和计算机设备 | |
KR102299001B1 (ko) | 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치 | |
Zhang et al. | Language-agnostic and language-aware multilingual natural language understanding for large-scale intelligent voice assistant application | |
AbuElAtta et al. | Arabic Regional Dialect Identification (ARDI) using Pair of Continuous Bag-of-Words and Data Augmentation. | |
WO2022213864A1 (zh) | 一种语料标注方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190114 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200421 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20200925 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20200421 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |