KR102361616B1 - 문맥 정보를 고려한 개체명 인식 방법 및 장치 - Google Patents
문맥 정보를 고려한 개체명 인식 방법 및 장치 Download PDFInfo
- Publication number
- KR102361616B1 KR102361616B1 KR1020190177904A KR20190177904A KR102361616B1 KR 102361616 B1 KR102361616 B1 KR 102361616B1 KR 1020190177904 A KR1020190177904 A KR 1020190177904A KR 20190177904 A KR20190177904 A KR 20190177904A KR 102361616 B1 KR102361616 B1 KR 102361616B1
- Authority
- KR
- South Korea
- Prior art keywords
- entity name
- word
- label
- prediction model
- model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 description 84
- 238000010586 diagram Methods 0.000 description 14
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 12
- 239000000126 substance Substances 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 206010046406 Ureteric obstruction Diseases 0.000 description 1
- 230000002546 agglutinic effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- CBVCZFGXHXORBI-PXQQMZJSSA-N indinavir Chemical compound C([C@H](N(CC1)C[C@@H](O)C[C@@H](CC=2C=CC=CC=2)C(=O)N[C@H]2C3=CC=CC=C3C[C@H]2O)C(=O)NC(C)(C)C)N1CC1=CC=CN=C1 CBVCZFGXHXORBI-PXQQMZJSSA-N 0.000 description 1
- 229960001936 indinavir Drugs 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000002620 ureteric effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/08—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers from or to individual record carriers, e.g. punched card, memory card, integrated circuit [IC] card or smart card
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 한 실시예에 따른 개체명 인식 결과의 예시도이다.
도 3은 한 실시예에 따른 개체명 인식 장치가 동작하는 방법의 흐름도이다.
도 4는 한 실시예에 따른 단항 딥러닝 모델과 이항 딥러닝 모델의 구조도이다.
도 5는 한 실시예에 따른 전이 행렬의 예시도이다.
도 6은 한 실시예에 따른 단항 딥러닝 모델과 이항 딥러닝 모델이 결합된 구조를 나타내는 도면이다.
도 7은 한 실시예에 따른 개체명 예측 모델의 구조도이다.
도 8은 한 실시예에 따른 컴퓨팅 장치의 하드웨어 구성도이다.
Claims (14)
- 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치가 개체명을 인식하는 방법으로서,
복수의 단어들에 개체명 라벨을 태깅한 학습 텍스트를 입력받는 단계,
상기 학습 텍스트에 포함된 각 단어와 상기 각 단어에 대응되어 태깅된 개체명 라벨 간의 관계를 학습하여, 입력에 대한 출력 라벨 시퀀스에서 각 개체명 라벨이 해당 위치일 확률을 예측하는 단항 개체명 예측 모델을 학습시키는 단계,
상기 학습 텍스트를 구성하는 각 인접 단어쌍과 상기 각 인접 단어쌍에 대응되는 개체명 라벨 쌍의 관계를 학습하여, 입력에 대한 출력 라벨 시퀀스에서 이웃 개체명 라벨들이 해당 위치일 확률을 예측하는 이항 개체명 예측 모델을 학습시키는 단계, 그리고
학습된 단항 개체명 예측 모델과 학습된 이항 개체명 예측 모델의 출력단에 라벨 결정 모델을 결합하여 개체명 예측 모델을 생성하는 단계
를 포함하는, 개체명 인식 방법. - 제1항에서,
상기 입력받는 단계는,
상기 학습 텍스트를 단어 임베딩 모델로 전처리하는, 개체명 인식 방법. - 제1항에서,
상기 입력받는 단계는,
상기 복수의 단어들에 IOBES 방식 또는 BIO 방식으로 상기 개체명 라벨을 태깅하고,
상기 IOBES 방식은, 임의의 단어가 복수의 단어들로 구성된 개체명의 시작에 해당하면 B, 개체명의 중간에 해당하면 I, 개체명의 끝에 해당하면 E, 개체명이 아닌 단어이면 O, 한 단어로 구성된 개체명에 해당하면 S로 표시하는 방식이고,
상기 BIO 방식은, 상기 임의의 단어가 상기 복수의 단어들로 구성된 개체명의 시작에 해당하면 B, 시작이 아닌 개체명에 해당하면 I, 개체명이 아닌 단어이면 O로 표시하는 방식인, 개체명 인식 방법. - 삭제
- 제1항에서,
상기 개체명 예측 모델은,
상기 단항 개체명 예측 모델에 포함된 양방향 장단기 기억 구조(Bidirectional Long Short-Term Memory, BiLSTM) 레이어의 파라미터들과 상기 이항 개체명 예측 모델에 포함된 BiLSTM 레이어의 파라미터들이 통합된 모델인, 개체명 인식 방법. - 제1항에서,
상기 개체명 예측 모델로 텍스트를 입력하는 단계, 그리고
상기 개체명 예측 모델을 이용하여 상기 텍스트에 포함된 단어들의 개체명 라벨이 나열된 라벨 시퀀스를 예측하는 단계
를 더 포함하는, 개체명 인식 방법. - 제6항에서,
상기 라벨 시퀀스를 예측하는 단계는,
상기 학습된 단항 개체명 예측 모델이 출력하는 확률 값과 상기 학습된 이항 개체명 예측 모델이 출력하는 확률 값을 곱한 값을 최대로 만드는 라벨 시퀀스를 에측하는, 개체명 인식 방법. - 제7항에서,
상기 텍스트는 단어 임베딩 모델에 의해 전처리된 단어 임베딩 벡터인, 개체명 인식 방법. - 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치가 개체명을 인식하는 방법으로서,
텍스트를 단항 개체명 예측 모델과 이항 개체명 예측 모델로 입력하는 단계,
상기 단항 개체명 예측 모델을 이용하여 상기 텍스트를 구성하는 각 단어에 해당하는 개체명 라벨을 예측하고, 상기 이항 개체명 예측 모델을 이용하여 상기 텍스트를 구성하는 인접 단어쌍에 대응되는 예측된 개체명 라벨쌍이 출력될 가능성을 예측하는 단계, 그리고
예측된 결과를 바탕으로, 상기 텍스트에 포함된 단어들의 개체명 라벨이 나열된 라벨 시퀀스를 출력하는 단계
를 포함하고,
상기 단항 개체명 예측 모델은, 각 단어와 상기 각 단어에 대응되어 태깅된 개체명 라벨 간의 관계를 학습하여, 입력에 대한 출력 라벨 시퀀스에서 각 개체명 라벨이 해당 위치일 확률을 예측하는 모델이고,
상기 이항 개체명 예측 모델은, 각 인접 단어쌍과 상기 각 인접 단어쌍에 대응되는 개체명 라벨 쌍의 관계를 학습하여, 입력에 대한 출력 라벨 시퀀스에서 이웃 개체명 라벨들이 해당 위치일 확률을 예측하는 모델인, 개체명 인식 방법. - 제9항에서,
상기 출력하는 단계는,
상기 단항 개체명 예측 모델의 예측 결과와 상기 이항 개체명 예측 모델의 예측 결과를 하나의 라벨 결정 모델로 결합하는, 개체명 인식 방법. - 컴퓨팅 장치로서,
메모리, 그리고
상기 메모리에 로드된 프로그램의 명령들(instructions)을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 프로그램은
개체명 라벨이 태깅된 학습 텍스트로 개체명 예측 모델을 학습시키는 단계,
학습된 개체명 예측 모델로 텍스트를 입력하는 단계,
상기 개체명 예측 모델을 이용하여, 상기 텍스트를 구성하는 각 단어의 개체명 라벨과, 이웃한 단어들에 대응되는 개체명 라벨들이 이웃하여 출력될 수 있는지 여부를 예측하는 단계, 그리고
예측된 개체명 라벨 중 이웃 가능한 개체명 라벨들을 상기 텍스트의 라벨 시퀀스로 출력하는 단계
를 실행하도록 기술된 명령들을 포함하고,
상기 개체명 예측 모델은
각 단어와 상기 각 단어에 대응되어 태깅된 개체명 라벨 간의 관계를 학습하여, 입력에 대한 출력 라벨 시퀀스에서 각 개체명 라벨이 해당 위치일 확률을 예측하는 단항 개체명 예측 모델, 그리고
각 인접 단어쌍과 상기 각 인접 단어쌍에 대응되는 개체명 라벨 쌍의 관계를 학습하여, 입력에 대한 출력 라벨 시퀀스에서 이웃 개체명 라벨들이 해당 위치일 확률을 예측하는 이항 개체명 예측 모델을 포함하는, 컴퓨팅 장치. - 제11항에서,
상기 입력하는 단계는,
임의의 단어 임베딩 모델을 이용하여 상기 텍스트를 구성하는 단어들을 단어 임베딩 벡터로 생성하고, 생성된 단어 임베딩 벡터들을 상기 개체명 예측 모델로 입력하는, 컴퓨팅 장치. - 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190177904A KR102361616B1 (ko) | 2019-12-30 | 2019-12-30 | 문맥 정보를 고려한 개체명 인식 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190177904A KR102361616B1 (ko) | 2019-12-30 | 2019-12-30 | 문맥 정보를 고려한 개체명 인식 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210085158A KR20210085158A (ko) | 2021-07-08 |
KR102361616B1 true KR102361616B1 (ko) | 2022-02-11 |
Family
ID=76893455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190177904A KR102361616B1 (ko) | 2019-12-30 | 2019-12-30 | 문맥 정보를 고려한 개체명 인식 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102361616B1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102707314B1 (ko) * | 2021-07-28 | 2024-09-13 | 서울대학교산학협력단 | 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
KR102659389B1 (ko) * | 2021-11-29 | 2024-04-23 | 한국과학기술원 | 신뢰도와 언어폭력 간 의존성을 이용한 언어폭력 수정 및 텍스트 신뢰도 증강 시스템 및 그 방법 |
CN114330618B (zh) * | 2021-12-30 | 2024-07-02 | 神思电子技术股份有限公司 | 一种基于伪标签的二分类标签数据优化方法、设备及介质 |
KR102506706B1 (ko) * | 2022-06-09 | 2023-03-06 | 주식회사 브레인벤쳐스 | Bio 태그 데이터를 이용한 기계 학습 데이터 구축용 단말 및 ai 기반의 감정 파악 시스템 |
KR102496212B1 (ko) * | 2022-06-30 | 2023-02-06 | 주식회사 애자일소다 | 주요 구절 추출 장치 및 그 방법 |
CN116341554B (zh) * | 2023-05-22 | 2023-08-29 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101897060B1 (ko) * | 2016-10-24 | 2018-09-12 | 가천대학교 산학협력단 | 개체명 인식 모델 생성 장치 및 방법 |
KR102012404B1 (ko) * | 2017-08-18 | 2019-08-20 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
KR102043353B1 (ko) * | 2017-12-04 | 2019-11-12 | 주식회사 솔루게이트 | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 |
-
2019
- 2019-12-30 KR KR1020190177904A patent/KR102361616B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20210085158A (ko) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102361616B1 (ko) | 문맥 정보를 고려한 개체명 인식 방법 및 장치 | |
US11501182B2 (en) | Method and apparatus for generating model | |
JP7120433B2 (ja) | 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
US11568240B2 (en) | Method and apparatus for classifying class, to which sentence belongs, using deep neural network | |
JP6976324B2 (ja) | 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング | |
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN110377916B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
JP7247878B2 (ja) | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
US20180204120A1 (en) | Improved artificial neural network for language modelling and prediction | |
KR102315830B1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN113656563A (zh) | 一种神经网络搜索方法及相关设备 | |
CN112926655A (zh) | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
US11941360B2 (en) | Acronym definition network | |
JP7618201B2 (ja) | 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
KR102139272B1 (ko) | 생의학적 개체명 인식 시스템 | |
Singh et al. | Next-LSTM: a novel LSTM-based image captioning technique | |
Sawant et al. | Analytical and Sentiment based text generative chatbot | |
Chandra et al. | Pixels to Phrases: Bridging the Gap with Computationally Effective Deep Learning models in Image Captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20191230 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210630 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220125 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220207 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220207 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |