KR102284903B1 - 입력 시퀀스 생성 방법 및 장치 - Google Patents
입력 시퀀스 생성 방법 및 장치 Download PDFInfo
- Publication number
- KR102284903B1 KR102284903B1 KR1020190057711A KR20190057711A KR102284903B1 KR 102284903 B1 KR102284903 B1 KR 102284903B1 KR 1020190057711 A KR1020190057711 A KR 1020190057711A KR 20190057711 A KR20190057711 A KR 20190057711A KR 102284903 B1 KR102284903 B1 KR 102284903B1
- Authority
- KR
- South Korea
- Prior art keywords
- tokens
- token
- sub
- input
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 일 실시예에 따른 입력 시퀀스 생성의 일 예를 나타낸 예시도이다.
도 3은 일 실시예에 따른 문장 생성 모델의 개략적 구성을 나타낸 도면이다.
도 4는 다른 실시예에 따른 문장 생성 모델의 개략적 구성을 나타낸 도면이다.
도 5는 일 실시예에 따른 입력 시퀀스 생성 방법의 순서도이다.
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 입력 시퀀스 생성 장치
110: 토큰화부
120: 임베딩부
300, 400: 문장 생성 모델
Claims (14)
- 입력 문장을 제1 분할 단위로 토큰화(tokenization)하여 상기 입력 문장에 대한 토큰 시퀀스를 생성하는 동작; 및
상기 토큰 시퀀스에 포함된 복수의 토큰 각각을 임베딩 벡터(embedding vector)로 변환하여 문장 생성 모델에 대한 입력 시퀀스를 생성하는 동작을 포함하되,
상기 입력 시퀀스를 생성하는 동작은,
상기 복수의 토큰 중 기 설정된 카테고리에 속하지 않는 토큰은 상기 제1 분할 단위로 임베딩 벡터를 생성하는 동작;
상기 복수의 토큰 중 기 설정된 카테고리에 속하는 하나 이상의 분할 대상 토큰이 포함되어 있는 경우, 상기 하나 이상의 분할 대상 토큰 각각을 제2 분할 단위로 토큰화하여 상기 하나 이상의 분할 대상 토큰 각각을 복수의 서브 토큰으로 분할하는 동작; 및
상기 복수의 서브 토큰을 이용하여 상기 하나 이상의 분할 대상 토큰 각각에 대한 임베딩 벡터를 생성하는 동작을 포함하는 입력 시퀀스 생성 방법. - 청구항 1에 있어서,
상기 토큰 시퀀스를 생성하는 동작은, 상기 입력 문장을 형태소 단위로 토큰화하는 입력 시퀀스 생성 방법. - 청구항 1에 있어서,
상기 분할하는 동작은, 상기 하나 이상의 분할 대상 토큰 각각을 음절 단위로 토큰화하는 입력 시퀀스 생성 방법. - 청구항 1에 있어서,
상기 분할하는 동작은, 상기 복수의 토큰 각각의 품사에 기초하여 상기 복수의 토큰 중 개방 품사 카테고리에 속하는 토큰을 상기 분할 대상 토큰으로 결정하는 입력 시퀀스 생성 방법. - 청구항 4에 있어서,
상기 분할하는 동작은, 상기 복수의 토큰 중 품사가 미등록어, 고유명사, 외국어 및 숫자 중 하나인 토큰을 상기 개방 품사 카테고리에 속하는 토큰으로 판단하는 입력 시퀀스 생성 방법. - 청구항 1에 있어서,
상기 임베딩 벡터를 생성하는 동작은, 컨볼루션 신경망(Convolutional Neural Network)을 이용하여 상기 복수의 서브 토큰으로부터 상기 복수의 서브 토큰에 대응되는 분할 대상 토큰에 대한 임베딩 벡터를 생성하는 입력 시퀀스 생성 방법. - 청구항 6에 있어서,
상기 임베딩 벡터를 생성하는 동작은,
상기 복수의 서브 토큰 각각을 임베딩 벡터로 변환하는 동작; 및
상기 복수의 서브 토큰 각각에 대한 임베딩 벡터를 포함하는 행렬을 상기 컨볼루션 신경망의 입력으로 이용하여 상기 복수의 서브 토큰에 대응되는 분할 대상 토큰에 대한 임베딩 벡터를 생성하는 동작을 포함하는 입력 시퀀스 생성 방법. - 하나 이상의 명령어를 저장하는 메모리; 및
상기 하나 이상의 명령어를 실행하는 하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는,
입력 문장을 제1 분할 단위로 토큰화(tokenization)하여 상기 입력 문장에 대한 토큰 시퀀스를 생성하고,
상기 토큰 시퀀스에 포함된 복수의 토큰 각각을 임베딩 벡터(embedding vector)로 변환하여 문장 생성 모델에 대한 입력 시퀀스를 생성하되,
상기 복수의 토큰 중 기 설정된 카테고리에 속하지 않는 토큰은 상기 제1 분할 단위로 임베딩 벡터를 생성하며,
상기 복수의 토큰 중 기 설정된 카테고리에 속하는 하나 이상의 분할 대상 토큰이 포함되어 있는 경우, 상기 하나 이상의 분할 대상 토큰 각각을 제2 분할 단위로 토큰화하여 상기 하나 이상의 분할 대상 토큰 각각을 복수의 서브 토큰으로 분할하고,
상기 복수의 서브 토큰을 이용하여 상기 하나 이상의 분할 대상 토큰 각각에 대한 임베딩 벡터를 생성하는 입력 시퀀스 생성 장치. - 청구항 8에 있어서,
상기 하나 이상의 프로세서는, 상기 입력 문장을 형태소 단위로 토큰화하는 입력 시퀀스 생성 장치. - 청구항 8에 있어서,
상기 하나 이상의 프로세서는, 상기 하나 이상의 분할 대상 토큰 각각을 음절 단위로 토큰화하는 입력 시퀀스 생성 장치. - 청구항 8에 있어서,
상기 하나 이상의 프로세서는, 상기 복수의 토큰 각각의 품사에 기초하여 상기 복수의 토큰 중 개방 품사 카테고리에 속하는 토큰을 상기 분할 대상 토큰으로 결정하는 입력 시퀀스 생성 장치. - 청구항 11에 있어서,
상기 하나 이상의 프로세서는, 상기 복수의 토큰 중 품사가 미등록어, 고유명사, 외국어 및 숫자 중 하나인 토큰을 상기 개방 품사 카테고리에 속하는 토큰으로 판단하는 입력 시퀀스 생성 장치. - 청구항 8에 있어서,
상기 하나 이상의 프로세서는, 컨볼루션 신경망(Convolutional Neural Network)을 이용하여 상기 복수의 서브 토큰으로부터 상기 복수의 서브 토큰에 대응되는 분할 대상 토큰에 대한 임베딩 벡터를 생성하는 입력 시퀀스 생성 장치. - 청구항 13에 있어서,
상기 하나 이상의 프로세서는,
상기 복수의 서브 토큰 각각을 임베딩 벡터로 변환하고,
상기 복수의 서브 토큰 각각에 대한 임베딩 벡터를 포함하는 행렬을 상기 컨볼루션 신경망의 입력으로 이용하여 상기 복수의 서브 토큰에 대응되는 분할 대상 토큰에 대한 임베딩 벡터를 생성하는 입력 시퀀스 생성 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190057711A KR102284903B1 (ko) | 2019-05-17 | 2019-05-17 | 입력 시퀀스 생성 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190057711A KR102284903B1 (ko) | 2019-05-17 | 2019-05-17 | 입력 시퀀스 생성 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200132344A KR20200132344A (ko) | 2020-11-25 |
KR102284903B1 true KR102284903B1 (ko) | 2021-08-03 |
Family
ID=73645805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190057711A Active KR102284903B1 (ko) | 2019-05-17 | 2019-05-17 | 입력 시퀀스 생성 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102284903B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102673273B1 (ko) * | 2021-05-03 | 2024-06-05 | 삼성생명보험주식회사 | 텍스트 교정 방법 및 장치 |
KR102753935B1 (ko) * | 2021-06-04 | 2025-01-14 | 한국전력공사 | 발전 운전 지식 서비스를 위한 딥러닝 기반 자연어 처리 시스템 및 방법 |
KR102575034B1 (ko) * | 2021-09-29 | 2023-09-04 | 가천대학교 산학협력단 | 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체 |
KR102743434B1 (ko) * | 2023-01-13 | 2024-12-17 | 한국전자통신연구원 | 한국어 최적화된 토큰화 및 임베딩 기반의 언어모델 학습 장치 및 방법, 어휘사전 구축 방법 |
KR102699939B1 (ko) * | 2023-10-31 | 2024-08-29 | 한국철도기술연구원 | 어구 명사화와 텍스트 임베딩을 이용한 유사 키워드 통합 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009098952A (ja) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | 情報検索システム |
KR101929509B1 (ko) * | 2018-09-17 | 2018-12-14 | 서강대학교 산학협력단 | 형태소 합성 장치 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102071582B1 (ko) * | 2017-05-16 | 2020-01-30 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
-
2019
- 2019-05-17 KR KR1020190057711A patent/KR102284903B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009098952A (ja) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | 情報検索システム |
KR101929509B1 (ko) * | 2018-09-17 | 2018-12-14 | 서강대학교 산학협력단 | 형태소 합성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20200132344A (ko) | 2020-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102284903B1 (ko) | 입력 시퀀스 생성 방법 및 장치 | |
KR102754124B1 (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
Sproat et al. | RNN approaches to text normalization: A challenge | |
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
JP2020038687A (ja) | テキスト要約システム、方法及び記憶媒体 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
US11709893B2 (en) | Search method, electronic device and storage medium | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
JPS63223962A (ja) | 翻訳装置 | |
US20200279024A1 (en) | Non-transitory computer readable medium | |
US20030061031A1 (en) | Japanese virtual dictionary | |
KR101929509B1 (ko) | 형태소 합성 장치 및 방법 | |
JP7327647B2 (ja) | 発話生成装置、発話生成方法、プログラム | |
CN110287498B (zh) | 层次化翻译方法、装置及存储介质 | |
KR102544700B1 (ko) | 문단 내 객체 탐지 방법 및 장치 | |
US12093298B2 (en) | Apparatus and method for training model for document summarization | |
US12039264B2 (en) | Artificial intelligence based system and method for smart sentence completion in mobile devices | |
KR102261411B1 (ko) | 채팅 모델 학습 방법 및 장치 | |
JP7705314B2 (ja) | 文書処理装置、文書処理方法、及び、文書処理プログラム | |
KR102383043B1 (ko) | 생략 복원 학습 방법과 인식 방법 및 이를 수행하기 위한 장치 | |
JP2004118461A (ja) | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 | |
KR102498670B1 (ko) | 단락의 순위화를 위한 방법 및 장치 | |
JP2020030379A (ja) | 認識結果補正装置、認識結果補正方法、およびプログラム | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190517 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210128 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210723 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210728 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210728 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240603 Start annual number: 4 End annual number: 4 |