KR102396250B1 - 대역 어휘 결정 장치 및 방법 - Google Patents

대역 어휘 결정 장치 및 방법 Download PDF

Info

Publication number
KR102396250B1
KR102396250B1 KR1020150109154A KR20150109154A KR102396250B1 KR 102396250 B1 KR102396250 B1 KR 102396250B1 KR 1020150109154 A KR1020150109154 A KR 1020150109154A KR 20150109154 A KR20150109154 A KR 20150109154A KR 102396250 B1 KR102396250 B1 KR 102396250B1
Authority
KR
South Korea
Prior art keywords
vocabulary
language
vector
vocabulary vector
band
Prior art date
Application number
KR1020150109154A
Other languages
English (en)
Other versions
KR20170015010A (ko
Inventor
이호동
유상현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150109154A priority Critical patent/KR102396250B1/ko
Priority to US15/188,405 priority patent/US10216726B2/en
Publication of KR20170015010A publication Critical patent/KR20170015010A/ko
Application granted granted Critical
Publication of KR102396250B1 publication Critical patent/KR102396250B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)

Abstract

대역 어휘 결정 장치 및 방법이 개시된다. 일 양상에 따른 대역 어휘 결정 장치는, 제1 언어의 어휘를 입력 받는 어휘 입력부와, 제1 언어와 관련된 제1 어휘 벡터 공간을 참조하여 입력된 제1 언어의 어휘에 대한 어휘 벡터를 생성하는 어휘 벡터 생성부와, 매칭 모델을 이용하여 생성된 어휘 벡터에 대응하는 제2 언어의 어휘 벡터를 판단하는 어휘 벡터 판단부와, 판단된 제2 언어의 어휘 벡터를 기반으로 입력된 제1 언어의 어휘에 대응하는 제2 언어의 대역 어휘를 선택하는 대역 어휘 선택부를 포함한다.

Description

대역 어휘 결정 장치 및 방법{Apparatus and Method for determining target word}
자동 번역 기술에 관한 발명으로, 특히, 대역 어휘 결정 장치 및 방법과 관련된다.
동의어나 유사어와 같은 대역 어휘를 찾기 위해 동의어/유사어 사전을 이용하는 방법이 있다. 이러한 방법은 분야별로 구축된 동의어/유사어 쌍을 통해 주어진 어휘에 대한 대역 어휘를 파악하는 방법이다. 그러나, 이러한 동의어/유사어 사전을 구축하기 위해서는 해당 분야의 전문가의 많은 노력과 시간이 필요하다. 또한, 동의어/유사어 사전을 이용하여 방법은 새로운 어휘들에 대해 그 대역 어휘를 찾기 힘들다.
한편, 기계 학습 기술이 발전함에 따라 병렬 코퍼스를 통해 병렬 문장쌍을 학습함으로써 대역 어휘를 찾는 방법이 있으나, 이에 의하더라도, 병렬 문장쌍이 있는 코퍼스를 구축하는 작업에 많은 노력과 시간이 필요하다.
각 언어에 대한 모노 코퍼스를 이용하여 구축된, 각 언어의 어휘 벡터 공간 간의 매칭을 통해 입력 어휘의 대역 어휘를 결정할 수 있는 대역 어휘 결정 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 대역 어휘 결정 장치는, 제1 언어의 어휘를 입력받는 어휘 입력부와, 제1 언어와 관련된 제1 어휘 벡터 공간을 참조하여 입력된 제1 언어의 어휘에 대한 어휘 벡터를 생성하는 어휘 벡터 생성부와, 매칭 모델을 이용하여 생성된 어휘 벡터에 대응하는 제2 언어의 어휘 벡터를 판단하는 어휘 벡터 판단부와, 판단된 제2 언어의 어휘 벡터를 기반으로 입력된 제1 언어의 어휘에 대응하는 제2 언어의 대역 어휘를 선택하는 대역 어휘 선택부를 포함할 수 있다.
대역 어휘 선택부는, 제2 언어와 관련된 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택하고, 선택된 어휘 벡터에 대응하는 제2 언어의 어휘를 대역 어휘로 선택할 수 있다.
대역 어휘 선택부는, 거리 측정 함수, 유사도 측정 함수, 및 상관 계수 중 적어도 하나를 이용하여, 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택할 수 있다.
거리 측정 함수는 유클리디언 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance), 및 해밍 거리(Hamming Distance) 중 하나이고, 유사도 측정 함수는 코사인 유사도(Cosine Similarity)이고, 상관 계수는 피어슨 상관계수(Pearson correlation coefficient), 스피어만 상관계수(Spearman correlation coefficient), 부분 상관계수(Partial correlation coefficient), 및 크론바하 알파(Cronbach's alpha) 중 하나일 수 있다.
제1 어휘 벡터 공간은 제1 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축되고, 제2 어휘 벡터 공간은 제2 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축될 수 있다.
기계 학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(GA: Genetic Algorithm), 유전자 프로그래밍(GP: Genetic Programming), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-NN: K-Nearest Neighbor), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(SVM: Support Vector Machine), 및 딥러닝(deep-learning) 중 하나일 수 있다.
매칭 모델은 제1 어휘 벡터 공간과, 제2 언어와 관련된 제2 어휘 벡터 공간을 매칭하기 위한 모델일 수 있다.
매칭 모델은 제1 언어 및 제2 언어의 관계를 정의한 언어 자원을 이용하여 기계 학습을 통해 미리 구축될 수 있다.
언어 자원은 동의어 사전 및 유사어 사전 중 적어도 하나를 포함할 수 있다.
다른 양상에 따른 대역 어휘 결정 방법은, 제1 언어의 어휘를 입력받는 단계와, 제1 언어와 관련된 제1 어휘 벡터 공간을 참조하여 입력된 제1 언어의 어휘에 대한 어휘 벡터를 생성하는 단계와, 매칭 모델을 이용하여 생성된 어휘 벡터에 대응하는 제2 언어의 어휘 벡터를 판단하는 단계와, 판단된 제2 언어의 어휘 벡터를 기반으로 입력된 제1 언어의 어휘에 대응하는 제2 언어의 대역 어휘를 선택하는 단계를 포함할 수 있다.
대역 어휘를 선택하는 단계는, 제2 언어와 관련된 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택하는 단계와, 선택된 어휘 벡터에 대응하는 제2 언어의 어휘를 대역 어휘로 선택하는 단계를 포함할 수 있다.
제2 언어의 어휘 백터와 가장 유사한 어휘 벡터를 선택하는 단계는, 거리 측정 함수, 유사도 측정 함수, 및 상관 계수 중 적어도 하나를 이용하여, 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택할 수 있다.
거리 측정 함수는 유클리디언 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance), 및 해밍 거리(Hamming Distance) 중 하나이고, 유사도 측정 함수는 코사인 유사도(Cosine Similarity)이고, 상관 계수는 피어슨 상관계수(Pearson correlation coefficient), 스피어만 상관계수(Spearman correlation coefficient), 부분 상관계수(Partial correlation coefficient), 및 크론바하 알파(Cronbach's alpha) 중 하나일 수 있다.
제1 어휘 벡터 공간은 제1 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축되고, 제2 어휘 벡터 공간은 제2 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축될 수 있다.
기계 학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(GA: Genetic Algorithm), 유전자 프로그래밍(GP: Genetic Programming), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-NN: K-Nearest Neighbor), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(SVM: Support Vector Machine), 및 딥러닝(deep-learning) 중 하나일 수 있다.
매칭 모델은 상기 제1 어휘 벡터 공간과, 제2 언어와 관련된 제2 어휘 벡터 공간을 매칭하기 위한 모델일 수 있다.
매칭 모델은 제1 언어 및 제2 언어의 관계를 정의한 언어 자원을 이용하여 기계 학습을 통해 미리 구축될 수 있다.
언어 자원은 동의어 사전 및 유사어 사전 중 적어도 하나를 포함할 수 있다.
각 언어에 대한 모노 코퍼스를 이용하여 각 언어의 어휘 벡터 공간을 구축하고, 동의어/유사어 사전과 같은 언어 자원을 기반으로 어휘 벡터 공간간 매칭 모델을 생성하여, 입력 어휘의 대역 어휘를 결정하는데 이용함으로써, 사전에 정의되지 않은 어휘에 대해서도 그 대역 어휘를 제시할 수 있다.
도 1은 대역 어휘 결정 시스템의 일 실시예를 도시한 블록도이다.
도 2는 매칭 모델 생성 장치(100)의 일 실시예를 도시한 블록도이다.
도 3은 대역 어휘 결정 장치의 일 실시예를 도시한 블록도이다.
도 4는 매칭 모델 생성 및 대역 어휘 결정 과정을 설명하기 위한 예시도이다.
도 5는 대역 어휘 결정 장치의 다른 실시예를 도시한 블록도이다.
도 6은 매칭 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 7은 대역 어휘 결정 방법의 일 실시예를 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 대역 어휘 결정 시스템의 일 실시예를 도시한 블록도이다.
도 1을 참조하면, 대역 어휘 결정 시스템(10)은 매칭 모델 생성 장치(100) 및 대역 어휘 결정 장치(200)를 포함할 수 있다.
매칭 모델 생성 장치(100)는 각 언어의 코퍼스를 기반으로 각 언어의 어휘 벡터 공간을 구축하고, 구축된 각 언어의 어휘 벡터 공간을 매칭하기 위한 매칭 모델을 생성할 수 있다. 예컨대, 매칭 모델 생성 장치(100)는 제1 언어의 코퍼스를 기반으로 제1 언어의 어휘 벡터 공간(이하, 제1 어휘 벡터 공간)을 생성하고, 제2 언어의 코퍼스를 기반으로 제2 언어의 어휘 벡터 공간(이하, 제2 어휘 벡터 공간)을 생성하고, 제1 어휘 벡터 공간 및 제2 어휘 벡터 공간을 매칭하기 위한 매칭 모델을 생성할 수 있다.
대역 어휘 결정 장치(200)는 매칭 모델 생성 장치(100)에서 생성된 매칭 모델을 이용하여 입력된 어휘에 대한 대역 어휘를 결정할 수 있다. 예컨대, 대역 어휘 결정 장치(200)는 매칭 모델을 이용하여 제1 언어의 어휘에 대한 제2 언어의 대역 어휘를 결정할 수 있다.
이하, 도 2를 참조하여 매칭 모델 생성 장치(100)를 상세히 설명하고, 도 3을 참조하여 대역 어휘 결정 장치(200)를 상세히 설명한다.
도 2는 매칭 모델 생성 장치(100)의 일 실시예를 도시한 블록도이다.
도 2를 참조하면, 매칭 모델 생성 장치(100)는 어휘 벡터 공간 생성부(110) 및 매칭 모델 생성부(120)를 포함할 수 있다.
어휘 벡터 공간 생성부(110)는 각 언어(제1 언어 및 제2 언어)에 대한 어휘 벡터 공간(word vector space)를 구축할 수 있다.
일 실시예에 따르면, 어휘 벡터 공간 생성부(110)는 각 언어의 코퍼스를 이용하여 기계 학습을 통해 각 언어에 대한 어휘 벡터 공간을 구축할 수 있다. 예컨대, 어휘 벡터 공간 생성부(110)는 제1 언어의 코퍼스(corpus)(이하, 제1 언어 코퍼스)를 이용하여 기계 학습을 통해 제1 언어의 각 어휘에 대한 어휘 벡터를 생성하고, 생성된 어휘 벡터를 제1 언어의 벡터 공간에 맵핑시켜 제1 언어에 대한 어휘 벡터 공간(이하, 제1 어휘 벡터 공간)을 구축할 수 있다. 또한, 어휘 벡터 공간 생성부(110)는 제2 언어의 코퍼스(이하, 제2 언어 코퍼스)를 이용하여 기계 학습을 통해 제2 언어의 각 어휘에 대한 어휘 벡터를 생성하고, 생성된 어휘 벡터를 제2 언어의 벡터 공간에 맵핑시켜 제2 언어에 대한 어휘 벡터 공간(이하, 제2 어휘 벡터 공간)을 구축할 수 있다.
매칭 모델 생성부(120)는 제1 어휘 벡터 공간과 제2 어휘 벡터 공간을 매칭하는 매칭 모델을 생성할 수 있다. 일 실시예에 따르면, 매칭 모델 생성부(120)는 제1 언어 및 제2 언어의 관계를 정의한 언어 자원(예컨대, 동의어 사전 및 유사어 사전 등)을 이용하여, 제1 어휘 벡터 공간 내의 어휘 벡터와 제2 어휘 벡터 공간 내의 어휘 벡터의 매칭을 기계 학습을 통해 학습하여 매칭 모델을 생성할 수 있다.
이때, 어휘 벡터 공간 생성 및 매칭 모델 생성에 사용되는 기계 학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(GA: Genetic Algorithm), 유전자 프로그래밍(GP: Genetic Programming), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-NN: K-Nearest Neighbor), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(SVM: Support Vector Machine), 딥러닝(deep-learning) 등을 포함할 수 있다. 그러나, 이는 일 실시예에 불과할 뿐, 이에 한정되는 것은 아니다.
도 3은 대역 어휘 결정 장치의 일 실시예를 도시한 블록도이다.
도 3을 참조하면, 대역 어휘 결정 장치(200)는 어휘 입력부(210), 어휘 벡터 생성부(220), 어휘 벡터 판단부(230), 및 대역 어휘 선택부(240)를 포함할 수 있다.
어휘 입력부(210)는 제1 언어의 어휘(이하, 입력 어휘)를 입력받을 수 있다.
어휘 벡터 생성부(220)는 어휘 벡터 공간 생성부(110)(도 2 참조)에서 구축된 제1 어휘 벡터 공간을 참조하여, 어휘 입력부(210)를 통해 입력된 입력 어휘에 대한 어휘 벡터(이하, 입력 어휘 벡터)를 생성할 수 있다.
어휘 벡터 판단부(230)는 매칭 모델 생성부(120)(도 2 참조)에서 생성된 매칭 모델을 이용하여, 입력 어휘 벡터에 대응하는 제2 언어의 어휘 벡터(이하, 목표 어휘 벡터)를 판단할 수 있다. 예컨대, 어휘 벡터 판단부(230)는 매칭 모델을 기반으로 입력 어휘 벡터를 제2 어휘 벡터 공간에 매칭시켜 입력 어휘 벡터에 대응하는 제2 어휘 벡터 공간 상의 목표 어휘 벡터를 판단할 수 있다.
대역 어휘 선택부(240)는 판단된 목표 어휘 벡터를 기반으로 입력 어휘에 대응하는 제2 언어의 대역 어휘를 선택할 수 있다. 예컨대, 대역 어휘 선택부(240)는 판단된 목표 어휘 벡터를 기반으로 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 목표 어휘 벡터와 가장 유사한 어휘 벡터를 선택하고, 선택된 어휘 벡터에 대응하는 어휘를 입력 어휘에 대한 대역 어휘로 선택할 수 있다.
일 실시예에 따르면, 대역 어휘 선택부(240)는 거리 측정 함수를 이용하여 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 목표 어휘 벡터와 가장 유사한 어휘 벡터를 선택할 수 있다. 어휘 벡터 공간은 유사 어휘의 어휘 벡터가 근거리에 위치하도록 구축된다. 따라서, 대역 어휘 선택부(240)는 유클리디언 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance), 및 해밍 거리(Hamming Distance) 등과 같은 거리 측정 함수를 이용하여 목표 어휘 벡터와 가장 가까운 거리에 위치하는 어휘 벡터를 목표 어휘 벡터와 가장 유사한 어휘 벡터로 선택할 수 있다.
다른 실시예에 따르면, 대역 어휘 선택부(240)는 코사인 유사도(Cosine Similarity) 등과 같은 유사도 측정 함수를 이용하여 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 목표 어휘 벡터와 가장 유사한 어휘 벡터를 선택할 수 있다.
또 다른 실시예에 따르면, 대역 어휘 선택부(240)는 상관 계수를 이용하여, 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 목표 어휘 벡터와 가장 유사한 어휘 벡터를 선택할 수 있다. 여기서, 상관 계수는 피어슨 상관계수(Pearson correlation coefficient), 스피어만 상관계수(Spearman correlation coefficient), 부분 상관계수(Partial correlation coefficient), 및 크론바하 알파(Cronbach's alpha) 등을 포함할 수 있다. 그러나, 이는 일 실시예에 불과할 뿐 이에 한정되는 것은 아니다.
한편, 대역 어휘 선택부(240)는 제2 어휘 벡터 공간 상의 모든 어휘 벡터를 유사도 판단 대상으로 할 수도 있으며, 제2 어휘 벡터 공간 상의 일부 어휘 벡터(예컨대, 제2 어휘 벡터 공간 상에서 목표 어휘 벡터와 일정 거리 내에 위치하는 어휘 벡터들)을 유사도 판단 대상으로 할 수도 있다. 그러나, 이에 한정되는 것은 아니며, 시스템의 성능 및 용도에 따라 다양한 기준으로 유사도 판단 대상 범위를 결정할 수 있다.
도 4는 매칭 모델 생성 및 대역 어휘 결정 과정을 설명하기 위한 예시도이다. 이때, 동의어 사전(450)에는 "TOME"에 대응되는 한국어 어휘가 정의되어 있지 않다고 가정한다.
도 2 내지 도 4를 참조하면, 어휘 벡터 공간 생성부(110)는 영어 코퍼스(310)를 이용하여 기계 학습을 통해 "BOOK", "NEWSPAPER" 및 "MAGAZINE"에 대한 어휘 벡터(421 내지 423)를 생성하고, 생성된 어휘 벡터(421 내지 423)를 영어 벡터 공간에 맵핑시켜 영어 어휘 벡터 공간(420)을 생성한다. 또한, 어휘 벡터 공간 생성부(110)는 한국어 코퍼스(430)를 이용하여 기계 학습을 통해 "책", "신문", 및 "잡지"에 대한 어휘 벡터(441 내지 443)를 생성하고, 생성된 어휘 벡터(441 내지 443)를 한국어 벡터 공간에 맵핑시켜 한국어 어휘 벡터 공간(440)을 생성한다.
매칭 모델 생성부(120)는 영어 및 한국어의 동의어 사전(450)을 이용하여, 영어 어휘 벡터 공간(420) 내의 어휘 벡터(421 내지 423)와 한국어 어휘 벡터 공간(440) 내의 어휘 벡터(441 내지 443)의 매칭을 기계 학습을 통해 학습하여 매칭 모델(460)을 생성한다. 도시된 예에서, 생성된 매칭 모델(460)을 통해, 어휘 벡터("BOOK")(421)은 어휘 벡터("책")(441)에, 어휘 벡터("NEWSPAPER")(422)는 어휘 벡터("신문")(442)에, 어휘 벡터("MAGAZINE")(423)은 어휘 벡터("잡지")(443)에 각각 매칭된다.
"TOME"이 어휘 입력부(210)를 통해 입력되면, 어휘 벡터 생성부(220)는 영어 어휘 벡터 공간(420)을 참조하여, 입력 어휘 "TOME"에 대한 입력 어휘 벡터(470)를 생성한다.
어휘 벡터 판단부(230)는 생성된 매칭 모델(460)을 이용하여, 입력 어휘 벡터(470)에 대응하는 한국어 어휘 벡터 공간(440) 상의 목표 어휘 벡터(480)를 판단한다.
대역 어휘 선택부(240)는 판단된 목표 어휘 벡터(480)를 기반으로 한국어 어휘 벡터 공간(440) 상의 어휘 벡터(441 내지 443) 중 목표 어휘 벡터(480)와 가장 유사한 어휘 벡터(441)를 선택하고, 선택된 어휘 벡터(441)에 대응하는 어휘, 즉, "책"을 입력 어휘("TOME")에 대한 대역 어휘로 결정한다.
즉, 일 실시예에 따른 대역 어휘 결정 장치(200)는 동의어 사전(450)(또는 유사어 사전)에 의해 정의되지 않은 어휘("TOME")에 대해서도 그 대역 어휘("책")을 결정하여 사용자에게 제공할 수 있다.
도 5는 대역 어휘 결정 장치의 다른 실시예를 도시한 블록도이다.
도 5를 참조하면, 대역 어휘 결정 장치(500)는 도 3의 대역 어휘 결정 장치(200)에서 저장부(510) 및 디스플레이부(520)를 선택적으로 더 포함할 수 있다.
저장부(510)는 어휘 벡터 공간 생성부(110)(도 2 참조)에서 생성된 어휘 벡터 공간에 대한 정보를 저장할 수 있다. 예컨대, 저장부(510)는 제1 언어와 관련된 제1 어휘 벡터 공간에 대한 정보 및 제2 언어와 관련된 제2 어휘 벡터 공간에 대한 정보를 저장할 수 있다.
저장부(510)는 매칭 모델 생성부(120)(도 2 참조)에서 생성된 매칭 모델을 저장할 수 있다.
한편, 저장부(510)는 플래시 메모리 타입(flash memory type), 하드 디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예컨대, SD 또는 XD 메모리 등), 램(Random Access Memory: RAM), SRAM(Static Random Access Memory), 롬(Read Only Memory: ROM), EEPROM(Electrically Erasable Programmable Read Only Memory), PROM(Programmable Read Only Memory), 자기 메모리, 자기 디스크, 광디스크 등을 포함할 수 있다.
디스플레이부(520)는 대역 어휘 결정 장치(500)에서 처리되는 정보를 시각적으로 표시하여 출력할 수 있다. 디스플레이부(520)는 제1 언어의 입력 어휘에 대한 제2 언어의 대역 어휘를 시각적으로 표시하여 출력할 수 있다.
디스플레이부(520)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor liquid crystal display), 유기 발광 다이오드(organic light emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 안경형 디스플레이(예컨대, HMD(Head Mounted Display), FMD(Face Mounted Display), EMD(Eye Mounted Display), EGD(Eye Glass Display)) 등을 포함할 수 있다.
도 6은 매칭 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 2 및 도 6을 참조하면, 일 실시예에 따른 매칭 모델 생성 방법(600)은, 먼저, 각 언어(제1 언어 및 제2 언어)에 대한 어휘 벡터 공간을 생성한다(610). 예컨대, 어휘 벡터 공간 생성부(110)는 제1 언어 코퍼스를 이용하여 기계 학습을 통해 제1 언어의 각 어휘에 대한 어휘 벡터를 생성하고, 생성된 어휘 벡터를 제1 언어의 벡터 공간에 맵핑시켜 제1 어휘 벡터 공간을 생성할 수 있다. 또한, 어휘 벡터 공간 생성부(110)는 제2 언어 코퍼스를 이용하여 기계 학습을 통해 제2 언어의 각 어휘에 대한 어휘 벡터를 생성하고, 생성된 어휘 벡터를 제2 언어의 벡터 공간에 맵핑시켜 제2 어휘 벡터 공간을 생성할 수 있다.
그 후, 제1 어휘 벡터 공간과 제2 어휘 벡터 공간을 매칭하는 매칭 모델을 생성한다(620). 예컨대, 매칭 모델 생성부(120)는 제1 언어 및 제2 언어의 관계를 정의한 언어 자원(예컨대, 동의어 사전 및 유사어 사전 등)을 이용하여, 제1 어휘 벡터 공간 내의 어휘 벡터와 제2 어휘 벡터 공간 내의 어휘 벡터의 매칭을 기계 학습을 통해 학습하여 매칭 모델을 생성할 수 있다.
이때, 기계 학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(GA: Genetic Algorithm), 유전자 프로그래밍(GP: Genetic Programming), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-NN: K-Nearest Neighbor), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(SVM: Support Vector Machine), 딥러닝(deep-learning) 등을 포함할 수 있다.
도 7은 대역 어휘 결정 방법의 일 실시예를 도시한 흐름도이다.
도 3 및 도 7을 참조하면, 일 실시예에 따른 대역 어휘 결정 방법(700)은, 먼저, 제1 언어의 어휘(입력 어휘)를 입력 받는다(710).
그 후, 미리 구축된 제1 어휘 벡터 공간을 참조하여, 입력 어휘에 대한 어휘 벡터(입력 어휘 벡터)를 생성한다(720).
그 후, 미리 구축된 매칭 모델을 이용하여, 입력 어휘 벡터에 대응하는 제2 언어의 어휘 벡터(목표 어휘 벡터)를 판단한다(730). 예컨대, 어휘 벡터 판단부(230)는 매칭 모델을 기반으로 입력 어휘 벡터를 제2 어휘 벡터 공간에 매칭시켜 입력 어휘 벡터에 대응하는 제2 어휘 벡터 공간 상의 목표 어휘 벡터를 판단할 수 있다.
그 후, 판단된 목표 어휘 벡터를 기반으로 입력 어휘에 대응하는 제2 언어의 대역 어휘를 선택한다(740). 예컨대, 대역 어휘 선택부(240)는 판단된 목표 어휘 벡터를 기반으로 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 목표 어휘 벡터와 가장 유사한 어휘 벡터를 선택하고, 선택된 어휘 벡터에 대응하는 어휘를 입력 어휘에 대한 대역 어휘로 선택할 수 있다.
일 실시예에 따르면, 대역 어휘 선택부(240)는 거리 측정 함수, 유사도 측정 함수, 및 상관 계수 중 적어도 하나를 이용하여, 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 목표 어휘 벡터와 가장 유사한 어휘 벡터를 선택할 수 있다.
여기서, 거리 측정 함수는 유클리디언 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance), 및 해밍 거리(Hamming Distance) 등을 포함할 수 있다. 유사도 측정 함수는 코사인 유사도(Cosine Similarity) 등을 포함할 수 있다. 상관 계수는 피어슨 상관계수(Pearson correlation coefficient), 스피어만 상관계수(Spearman correlation coefficient), 부분 상관계수(Partial correlation coefficient), 및 크론바하 알파(Cronbach's alpha) 등을 포함할 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
10: 대역 어휘 결정 시스템
100: 매칭 모델 생성 장치
110: 어휘 벡터 공간 생성부
120: 매칭 모델 생성부
200, 500: 대역 어휘 결정 장치
210: 어휘 입력부
220: 어휘 벡터 생성부
230: 어휘 벡터 판단부
240: 대역 어휘 선택부
510: 저장부
520: 디스플레이부

Claims (18)

  1. 제1 언어의 어휘를 입력 받는 어휘 입력부;
    상기 제1 언어와 관련된 제1 어휘 벡터 공간을 참조하여 제 2언어로 정의된 대응 어휘를 가지지 않는 상기 입력된 제1 언어의 어휘에 대한 어휘 벡터를 생성하는 어휘 벡터 생성부;
    상기 제 1언어와, 제 2언어 사이의 관계를 정의한 언어 자원을 이용하여 학습을 통해 미리 생성되는 매칭 모델을 이용하고, 제2 어휘 벡터 공간을 참조하여 상기 생성된 어휘 벡터에 대응하는 제2 언어의 어휘벡터를 판단하는 어휘 벡터 판단부; 및
    상기 판단된 제2 언어의 어휘 벡터를 기반으로 상기 입력된 제1 언어의 어휘에 대응하는 제2 언어의 대역 어휘를 선택하는 대역 어휘 선택부; 를 포함하는 대역 어휘 결정 장치.
  2. 제1항에 있어서,
    상기 대역 어휘 선택부는,
    제2 언어와 관련된 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 상기 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택하고, 선택된 어휘 벡터에 대응하는 제2 언어의 어휘를 상기 대역 어휘로 선택하는, 대역 어휘 결정 장치.
  3. 제2항에 있어서,
    상기 대역 어휘 선택부는,
    거리 측정 함수, 유사도 측정 함수, 및 상관 계수 중 적어도 하나를 이용하여, 상기 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 상기 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택하는, 대역 어휘 결정 장치.
  4. 제3항에 있어서,
    상기 거리 측정 함수는 유클리디언 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance), 및 해밍 거리(Hamming Distance) 중 하나이고,
    상기 유사도 측정 함수는 코사인 유사도(Cosine Similarity)이고,
    상기 상관 계수는 피어슨 상관계수(Pearson correlation coefficient), 스피어만 상관계수(Spearman correlation coefficient), 부분 상관계수(Partial correlation coefficient), 및 크론바하 알파(Cronbach's alpha) 중 하나인 대역 어휘 결정 장치.
  5. 제2항에 있어서,
    상기 제1 어휘 벡터 공간은 제1 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축되고,
    상기 제2 어휘 벡터 공간은 제2 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축되는, 대역 어휘 결정 장치.
  6. 제5항에 있어서,
    기계 학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(GA: Genetic Algorithm), 유전자 프로그래밍(GP: Genetic Programming), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-NN: K-Nearest Neighbor), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(SVM: Support Vector Machine), 및 딥러닝(deep-learning) 중 하나인 대역 어휘 결정 장치.
  7. 제1항에 있어서,
    상기 매칭 모델은 상기 제1 어휘 벡터 공간과, 제2 언어와 관련된 제2 어휘 벡터 공간을 매칭하기 위한 모델인 대역 어휘 결정 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 언어 자원은 동의어 사전 및 유사어 사전 중 적어도 하나를 포함하는 대역 어휘 결정 장치.
  10. 제1 언어의 어휘를 입력 받는 단계;
    상기 제1 언어와 관련된 제1 어휘 벡터 공간을 참조하여 제 2언어로 정의된 대응 어휘를 가지지 않는 상기 입력된 제1 언어의 어휘에 대한 어휘 벡터를 생성하는 단계;
    상기 제 1언어와, 제 2언어 사이의 관계를 정의한 언어 자원을 이용하여 학습을 통해 미리 생성되는 매칭 모델을 이용하고, 제2 어휘 벡터 공간을 참조하여 상기 생성된 어휘 벡터에 대응하는 제2 언어의 어휘 벡터를 판단하는 단계; 및
    상기 판단된 제2 언어의 어휘 벡터를 기반으로 상기 입력된 제1 언어의 어휘에 대응하는 제2 언어의 대역 어휘를 선택하는 단계; 를 포함하는 대역 어휘 결정 방법.
  11. 제10항에 있어서,
    상기 대역 어휘를 선택하는 단계는,
    제2 언어와 관련된 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 상기 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택하는 단계; 및
    선택된 어휘 벡터에 대응하는 제2 언어의 어휘를 상기 대역 어휘로 선택하는 단계; 를 포함하는 대역 어휘 결정 방법.
  12. 제11항에 있어서,
    상기 제2 언어의 어휘 백터와 가장 유사한 어휘 벡터를 선택하는 단계는,
    거리 측정 함수, 유사도 측정 함수, 및 상관 계수 중 적어도 하나를 이용하여, 상기 제2 어휘 벡터 공간 상의 다수의 어휘 벡터 중 상기 판단된 제2 언어의 어휘 벡터와 가장 유사한 어휘 벡터를 선택하는, 대역 어휘 결정 방법.
  13. 제12항에 있어서,
    상기 거리 측정 함수는 유클리디언 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance), 및 해밍 거리(Hamming Distance) 중 하나이고,
    상기 유사도 측정 함수는 코사인 유사도(Cosine Similarity)이고,
    상기 상관 계수는 피어슨 상관계수(Pearson correlation coefficient), 스피어만 상관계수(Spearman correlation coefficient), 부분 상관계수(Partial correlation coefficient), 및 크론바하 알파(Cronbach's alpha) 중 하나인 대역 어휘 결정 방법.
  14. 제11항에 있어서,
    상기 제1 어휘 벡터 공간은 제1 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축되고,
    상기 제2 어휘 벡터 공간은 제2 언어 코퍼스를 이용하여 기계 학습을 통해 미리 구축되는, 대역 어휘 결정 방법.
  15. 제14항에 있어서,
    기계 학습 알고리즘은 신경망(neural network), 결정 트리(decision tree), 유전 알고리즘(GA: Genetic Algorithm), 유전자 프로그래밍(GP: Genetic Programming), 가우스 과정 회귀, 선형 분별 분석, K 근접 이웃(K-NN: K-Nearest Neighbor), 퍼셉트론, 방사 기저 함수 네트워크, 서포트 벡터 머신(SVM: Support Vector Machine), 및 딥러닝(deep-learning) 중 하나인 대역 어휘 결정 방법.
  16. 제10항에 있어서,
    상기 매칭 모델은 상기 제1 어휘 벡터 공간과, 제2 언어와 관련된 제2 어휘 벡터 공간을 매칭하기 위한 모델인 대역 어휘 결정 방법.
  17. 삭제
  18. 제16항에 있어서,
    상기 언어 자원은 동의어 사전 및 유사어 사전 중 적어도 하나를 포함하는 대역 어휘 결정 방법.
KR1020150109154A 2015-07-31 2015-07-31 대역 어휘 결정 장치 및 방법 KR102396250B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150109154A KR102396250B1 (ko) 2015-07-31 2015-07-31 대역 어휘 결정 장치 및 방법
US15/188,405 US10216726B2 (en) 2015-07-31 2016-06-21 Apparatus and method for determining translation word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150109154A KR102396250B1 (ko) 2015-07-31 2015-07-31 대역 어휘 결정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170015010A KR20170015010A (ko) 2017-02-08
KR102396250B1 true KR102396250B1 (ko) 2022-05-09

Family

ID=57882596

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150109154A KR102396250B1 (ko) 2015-07-31 2015-07-31 대역 어휘 결정 장치 및 방법

Country Status (2)

Country Link
US (1) US10216726B2 (ko)
KR (1) KR102396250B1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
WO2018066083A1 (ja) * 2016-10-04 2018-04-12 富士通株式会社 学習プログラム、情報処理装置および学習方法
CN111611798B (zh) 2017-01-22 2023-05-16 创新先进技术有限公司 一种词向量处理方法及装置
US10339973B2 (en) * 2017-02-13 2019-07-02 International Business Machines Corporation System and method for audio dubbing and translation of a video
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
CN109948140B (zh) * 2017-12-20 2023-06-23 普天信息技术有限公司 一种词向量嵌入方法及装置
CN108231062B (zh) * 2018-01-12 2020-12-22 科大讯飞股份有限公司 一种语音翻译方法及装置
CN109359294B (zh) * 2018-09-18 2023-04-18 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109684445B (zh) * 2018-11-13 2021-05-28 中国科学院自动化研究所 口语化医疗问答方法及系统
CN109670180B (zh) * 2018-12-21 2020-05-08 语联网(武汉)信息技术有限公司 向量化译员的翻译个性特征的方法及装置
KR102305395B1 (ko) * 2019-03-20 2021-10-06 신승용 클라우드 기반의 두뇌사고행동패턴평가 시스템
CN110334360B (zh) * 2019-07-08 2021-07-06 腾讯科技(深圳)有限公司 机器翻译方法及装置、电子设备及存储介质
CN111539228B (zh) * 2020-04-29 2023-08-08 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置
KR102427797B1 (ko) * 2020-08-14 2022-08-01 어반랩스 주식회사 빅데이터 기반 맞춤형 건강기능식품 개발 서비스 제공 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345828A (ja) 2002-05-24 2003-12-05 Nippon Telegr & Teleph Corp <Ntt> 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体
KR100559472B1 (ko) 2003-12-24 2006-03-10 한국전자통신연구원 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
US20060129383A1 (en) 2002-04-26 2006-06-15 The University Court Of The Universityof Edinburgh Text processing method and system
US20090083023A1 (en) 2005-06-17 2009-03-26 George Foster Means and Method for Adapted Language Translation
US20140350914A1 (en) * 2012-01-27 2014-11-27 Nec Corporation Term translation acquisition method and term translation acquisition apparatus

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734459B2 (en) 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7620539B2 (en) 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
JP5096932B2 (ja) * 2006-01-24 2012-12-12 パナソニック株式会社 変換装置
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
JP2010009237A (ja) 2008-06-25 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
KR101027007B1 (ko) 2008-12-22 2011-04-11 한국전자통신연구원 대역어 사전 특화 장치 및 그 방법
JP6112536B2 (ja) 2012-06-29 2017-04-12 国立研究開発法人情報通信研究機構 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129383A1 (en) 2002-04-26 2006-06-15 The University Court Of The Universityof Edinburgh Text processing method and system
JP2003345828A (ja) 2002-05-24 2003-12-05 Nippon Telegr & Teleph Corp <Ntt> 単語類似度計算方法、この方法を実施する装置、単語類似度計算プログラム、このプログラムを記録した記録媒体
KR100559472B1 (ko) 2003-12-24 2006-03-10 한국전자통신연구원 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
US20090083023A1 (en) 2005-06-17 2009-03-26 George Foster Means and Method for Adapted Language Translation
US20140350914A1 (en) * 2012-01-27 2014-11-27 Nec Corporation Term translation acquisition method and term translation acquisition apparatus

Also Published As

Publication number Publication date
KR20170015010A (ko) 2017-02-08
US20170031899A1 (en) 2017-02-02
US10216726B2 (en) 2019-02-26

Similar Documents

Publication Publication Date Title
KR102396250B1 (ko) 대역 어휘 결정 장치 및 방법
CN109145153B (zh) 意图类别的识别方法和装置
US10664744B2 (en) End-to-end memory networks
US10437929B2 (en) Method and system for processing an input query using a forward and a backward neural network specific to unigrams
US20200184307A1 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
US11275895B1 (en) Generating author vectors
CN108701118B (zh) 语义类别分类
US20190057145A1 (en) Interactive information retrieval using knowledge graphs
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
KR102516364B1 (ko) 기계 번역 방법 및 장치
US11074280B2 (en) Cluster based search and recommendation method to rapidly on-board commands in personal assistants
US10803380B2 (en) Generating vector representations of documents
US11514102B2 (en) Methods and systems for depth-aware image searching
US20220391647A1 (en) Application-specific optical character recognition customization
CN107533567B (zh) 图像实体标识和响应
US9436891B2 (en) Discriminating synonymous expressions using images
CN114995903B (zh) 一种基于预训练语言模型的类别标签识别方法及装置
US20230177089A1 (en) Identifying similar content in a multi-item embedding space
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
US11755671B2 (en) Projecting queries into a content item embedding space
WO2021160100A1 (en) Methods for searching images and for indexing images, and electronic device
CN110019096A (zh) 索引文件的生成方法及装置
CN114595389A (zh) 通讯录查询方法、装置、设备、存储介质和程序产品
KR20220015228A (ko) 조선 분야의 시공성 문서 검색 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant