KR20190107033A

KR20190107033A - 단어 벡터 처리 방법 및 장치

Info

Publication number: KR20190107033A
Application number: KR1020197021351A
Authority: KR
Inventors: 사오성 차오; 시아오롱 리
Original assignee: 알리바바 그룹 홀딩 리미티드
Priority date: 2017-01-22
Filing date: 2018-01-22
Publication date: 2019-09-18
Also published as: SG11201906524TA; TWI685761B; EP3559823A1; CN108345580B; US10430518B2; US20200134262A1; TW201828105A; CN111611798A; US10878199B2; CN111611798B; CN108345580A; JP6742653B2; KR102117799B1; PH12019501675A1; JP2020507155A; WO2018136870A1; US20180210876A1

Abstract

본 출원의 실시예는 단어 벡터 처리 방법 및 장치를 개시한다. 상기 방법은 : 단어를 획득하기 위해 코퍼스상에서 단어 세그멘테이션을 수행하는 단계; 상기 단어에 대응하는 n 그램 스트로크를 결정하는 단계 - 상기 n 그램 스트로크는 대응하는 단어의 n 개의 연속 스트로크를 나타내는 단계; 상기 단어들에 대응하는 n 그램 스트로크들의 단어 및 스트로크 벡터들의 단어 벡터들을 설정하고 초기화하는 단계; 및 단어 분할, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하는 단계를 포함한다. 본 출원의 실시예에 따르면, 단어에 대응하는 ngram 스트로크를 사용함으로써 단어의 특징을보다 정확하게 나타낼 수 있으므로, 한자 단어의 단어 벡터의 정확도를 높이고 바람직한 실제효과를 달성할 수 있다.

Description

단어 벡터 처리 방법 및 장치

본 출원은 2017년 1월 22일에 출원된 중국 특허 출원 제201710045459.7호의 우선권을 청구하며, 이 중국 특허 출원의 전체 내용은 참조로서 본 명세서 내에서 원용된다.

본 출원은 컴퓨터 소프트웨어 기술 분야에 관한 것이며, 특히 단어 벡터 처리 방법 및 장치에 관한 것이다.

현재의 자연어 처리 솔루션은 주로 신경망 기반 아키텍처를 사용한다. 이러한 아키텍처에서 중요한 기본 기술은 단어 벡터이다. 단어 벡터는 단어를 고정된 차원으로 매핑하는 벡터이며 단어의 의미 정보를 나타냅니다.

종래 기술에서, 일반적인 단어 벡터 생성 알고리즘은 구글의 단어 벡터 알고리즘, 페이 스북의 n 그램 문자 알고리즘, 마이크로 소프트의 심 신경 네트워크 알고리즘 등과 같은 영어 용으로 특별히 설계되었다.

그러나, 종래 기술의 이러한 알고리즘은 중국어에 적용할 수 없거나, 알고리즘이 중국어에도 적용 가능하지만, 생성된 중국어 단어의 단어 벡터는 실용적이지 못하다.

본 출원의 실시예는 단어 벡터 생성 알고리즘을 종래 기술의 단어 벡터 생성 알고리즘이 중국어에 적용할 수 없거나 또는 알고리즘이 중국어에 적용 가능하지만, 그에 의해 생성된 중국어 단어의 단어 벡터를 해결할 수 있는 단어 벡터 처리 방법 및 장치를 제공한다 실용적인 효과가 떨어진다.

전술한 기술적 문제점을 해결하기 위해, 본 출원의 구현예들은 다음과 같이 구현된다.

본 출원의 실시예는 단어 벡터 처리 방법을 제공하며,

단어들을 획득하기 위해 코퍼스상에서 단어 세그먼테이션을 수행하는 단계;

상기 단어에 대응하는 n 그램 스트로크를 결정하는 단계 - 상기 n 그램 스트로크는 대응하는 단어의 n 개의 연속 스트로크를 나타내는 단계;

상기 단어들에 대응하는 n 그램 스트로크들의 단어 및 스트로크 벡터들의 단어 벡터들을 설정하고 초기화하는 단계; 과

단어 분할, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하는 단계를 포함한다.

본원의 실시예는 단어 벡터 처리 장치로서,

단어들을 획득하기 위해 코퍼스상에서 단어 세그멘테이션을 수행하도록 구성된 단어 세그멘테이션 모듈;

상기 단어에 대응하는 n 그램 스트로크를 결정하도록 구성된 결정 모듈 - 대응하는 단어의 n 개의 연속 스트로크를 나타내는 n 그램 스트로크;

상기 단어들의 단어 벡터 및 상기 단어들에 대응하는 상기 n 그램 스트로크의 스트로크 벡터들을 확립하고 초기화하도록 구성된 초기화 모듈; 과

단어 분할, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하도록 구성된 트레이닝 모듈을 포함한다.

전술 한 기술적 해결책 중 적어도 하나를 사용함으로써, 본 출원의 실시예는 단어에 대응하는 n 그램 스트로크를 사용함으로써 단어의 특징을보다 정확하게 나타낼 수 있고, 따라서 단어 벡터의 정확성을 향상시킨다 바람직한 단어 실용적인 효과를 달성할 수 있습니다. 따라서, 본 출원은 종래 기술의 일부 또는 모든 문제를 해결할 수 있다.

본 출원의 실시예들에서 또는 종래 기술에서의 기술적 해결책을 보다 명확하게 설명하기 위해, 아래에서는 본 실시예들 또는 종래 기술을 설명하는데 필요한 첨부 도면들을 간략하게 소개한다. 명백하게, 이하의 설명에서의 첨부 도면들은 본 출원의 일부 실시예들을 단지 보여줄 뿐이며, 당업자는 창의적인 노력 없이 이들 첨부 도면들로부터 다른 도면들을 계속해서 유도할 수 있다.
도 1은 본 발명의 일 실시예에 따른 단어 벡터 처리 방법의 개략적 인 흐름도.
도 2는 본 출원의 실시예에 따른 실제애플리케이션 시나리오에서의 단어 벡터 처리 방법의 특정 구현 솔루션의 개략적 인 흐름도이다.
도 3은 본 출원의 일 실시예에 따른도 2의 프로세스에서 사용되는 코퍼스의 일부에 대한 관련 처리 동작의 개략도이다. 과
도 4는 본 발명의 일 실시예에 따른도 1에 대응하는 단어 벡터 처리 장치의 개략적 인 구조도이다.

본 출원의 실시예는 단어 벡터 처리 방법 및 장치를 제공한다.

당업자가 본 출원의 기술적 해결책을 더 잘 이해하게하기 위해, 본원의 실시예의 기술적 해결책은 본원의 실시예에서 첨부된 도면을 참조하여 명확하고 완전하게 설명된다. 명백한 바와 같이, 설명된 실시예들은 본 출원의 모든 실시예들이라기 보다는 그 중 일부일 뿐이다. 본 출원의 실시예들에 기초하여, 당업자에 의해 창의적인 노력 없이 획득되는 다른 실시예들은 모두 본 출원의 보호 범위 내에 있다.

본 출원의 해결 방법은 중국어 단어의 단어 벡터 및 중국어와 유사한 다른 언어의 단어의 단어 벡터, 예를 들어, 스트로크를 특징으로하는 언어의 단어의 단어 벡터에 적용 가능하다 일본어로.

도 1은 본 발명의 일 실시예에 따른 단어 벡터 처리 방법의 개략적 인 흐름도이다. 이 처리는 단어 벡터 생성 기능 및/또는 트레이닝 기능을 갖는 프로그램에 의해 실행될 수 있다. 장치 관점에서, 프로세스를 실행하는 엔티티는 프로그램을 전송할 수 있는 다음 장치를 포함할 수 있지만, 이에 제한되지는 않는다 : 개인용 컴퓨터, 중형/대형 컴퓨터, 컴퓨터 클러스터, 이동 전화, 태블릿 컴퓨터, 지능형 착용 장치, 차량 탑재 제품 등이있다.

도 1의 프로세스는 다음의 단계들을 포함할 수 있다 :

S101: 단어를 얻기 위해 코퍼스에서 단어 세분화가 수행된다.

본 출원의 실시예에서, 단어는 구체적으로 코퍼스에서 적어도 한 번 발생하는 단어의 적어도 일부일 수 있다. 후속 처리를 쉽게하기 위해 단어는 용어집에 저장될 수 있으며 필요한 경우 용어집에서 읽을 수 있습니다.

S102 : 단어에 대응하는 n 그램 스트로크가 결정되고, n 그램 스트로크는 대응하는 단어의 n 개의 연속 스트로크를 나타낸다.

이해를 돕기 위해 "ngram stroke"는 중국어를 예제로 사용하여 더 자세히 설명된다. 한자 또는 단어의 경우 획은 "가로", "세로", "버림", "아래로 누르기", "끊기", "점", "상승"등을 포함한다. ngram 스트로크는 하나의 한자 또는 단어의 n 연속적인 스트로크를 나타낼 수 있습니다.

예를 들어, 문자 "珍"(보물을 의미하는 한자)의 해당 3 그램 획은 "수평, 수평 및 수직"(첫 번째 획 ~ 세 번째 획), "수평, 수직 및 (제4 스트로크에 대한 제2 스트로크), 제5 스트로크에 대한 제3 스트로크, 제5 스트로크에 대한 제3 스트로크, 제4 스트로크에 대한 제2 스트로크, 및 대응하는 4 그램 스트로크는 "수평, 수평, 수직 및 상승"(제1 스트로크 내지 제4 스트로크), "수평, 수직, 상승 및 버림"(제2 스트로크 내지 제5 스트로크) 에.

또 다른 예로, "어른"(어른을 의미하는 중국 용어)이라는 용어에 해당하는 3 그램의 스트로크는 "가로로 던져 버리고 아래로 누르십시오"(첫 번째 스트로크에서 세 번째 스트로크), "버리십시오 , 아래로 내리고 버려라 "(두 번째 스트로크에서 네 번째 스트로크), 등등. 상응하는 4 그램 스트로크는 "가로로 놓아 버리고 아래로 내리고 버려라"(첫 번째 스트로크에서 네 번째 스트로크), "버리고 내려서 던져 버리고 아래로 누르십시오"(두 번째 스트로크는 다섯 번째 획), 등등.

본원의 실시예에서, n의 값은 동적으로 조정될 수 있다. 동일한 단어에 대해, 단어에 대응하는 n 그램 스트로크를 결정하는 동안, n은 단 하나의 값 (예를 들어, 단어에 대응하는 3- 그램 스트로크 만 결정됨)을 가질 수 있거나, 또는 다중 값 (예를 들어, 3 - 그램에 해당하는 4 그램 스트로크 및 4 그램 스트로크가 결정된다). n의 값이 특정 값일 때, ngram 스트로크는 문자의 급진적 인 것일 수 있습니다. n의 값이 문자 또는 용어의 총 스트로크 인 경우, ngram 스트로크는 정확하게 문자 또는 용어이다.

본 출원의 실시예에서, 컴퓨터 처리의 용이함을 위해, n 그램 스트로크는 지정된 코드로 표시될 수 있다. 예를 들어, 다른 스트로크는 각각 다른 숫자로 표시되며, 그 후 n 그램 스트로크는 숫자 문자열로 대응하여 표시될 수 있습니다.

S103: 그 단어에 대응하는 n 그램 스트로크의 단어 벡터 및 스트로크 벡터가 설정되고 초기화된다.

본 출원의 실시예에서, 솔루션의 효과를 보장하기 위해, 단어 벡터 및 스트로크 벡터가 초기화될 때 약간의 제한이있을 수 있다. 예를 들어, 단어 벡터 및 획 벡터를 동일한 벡터로 초기화할 수 없습니다. 또 다른 예를 들어, 일부 단어 벡터 또는 획 벡터의 벡터 요소 값은 모두 0이 아니어야한다.

본원의 실시예에서, 단어에 대응하는 n 그램 스트로크의 단어 및 스트로크 벡터는 임의의 초기화 방식으로 또는 지정된 확률 분포에 따라 초기화 방식으로 초기화될 수 있다. 동일한 ngram 스트로크의 스트로크 벡터도 동일한다. 특정 확률 분포는 예를 들어, 0 내지 1의 분포 일 수 있다.

또한, 어떤 코퍼스에 기초하여 어떤 단어에 대응하는 단어 벡터 및 스트로크 벡터가 이미 트레이닝되어있는 경우,도 1에 도시된 코퍼스에 기초하여 이들 단어 벡터 및 이들 단어에 대응하는 스트로크 벡터가 더 트레이닝되면, 이들 단어에 대응하는 단어 벡터 및 스트로크 벡터는 다시 설정 및 초기화되지 않고도 1에 도시된 코퍼스 및 이전의 트레이닝 결과에 기초하여 재 트레이닝될 수 있다.

S104: 단어 벡터 및 스트로크 벡터는 단어 세그먼테이션, 단어 벡터 및 스트로크 벡터 이후에 얻어진 코퍼스에 따라 트레이닝된다.

본 출원의 실시예에서, 트레이닝은 신경 네트워크를 사용하여 구현될 수 있다. 신경망은 얕은 신경망 및 심 신경계를 포함하지만 이에 한정되지는 않는다.

도 1의 방법에 따르면, 단어에 대응하는 ngram 스트로크를 사용함으로써 단어의 특징을보다 정확하게 나타낼 수 있기 때문에 한자 단어의 단어 벡터의 정확도가 향상되고 바람직한 실제효과를 얻을 수 있다. 따라서,이 방법은 종래 기술의 일부 또는 모든 문제를 해결할 수 있다.

도 1의 방법에 기초하여, 본 출원의 실시예는 이하에서 설명되는 방법의 몇몇 특정 구현 솔루션 및 확장 솔루션을 더 제공한다.

본 출원의 실시예에서, 단어에 대응하는 n 그램 스트로크를 결정하는 단계 (S102)는 특히, 코퍼스상의 단어 세분화의 결과에 따라, 코퍼스에서 적어도 한 번 발생하는 단어를 결정하는 단계; 과

결정된 각 단어에 대해 다음 작업을 수행한다.

상기 단어에 대응하는 n 그램 스트로크를 결정하고, 상기 단어에 대응하는 각각의 n 그램 스트로크는 상기 단어의 n 개의 연속 스트로크를 나타내며, n은 하나의 양의 정수 또는 다수의 상이한 양의 정수이다.

또한, 코퍼스에서 단어가 거의 나타나지 않으면 코퍼스 기반의 트레이닝 중에 해당 트레이닝 샘플 및 트레이닝 횟수가 적어 트레이닝 결과의 신뢰성에 악영향을 미칩니다. 따라서 이러한 단어는 제거될 수 있으며 일시적으로 트레이닝되지 않으며 이후에 다른 코퍼스에서 트레이닝될 수 있습니다.

이러한 생각에 기초하여, 단어 세분화의 결과에 따라, 코퍼스에서 적어도 한번 발생하는 단어를 구체적으로 결정하는 단계는, 구체적으로, 코퍼스상의 단어 세분화의 결과에 따라, 코퍼스는 설정된 횟수 이상, 설정된 횟수는 1 회 이상이어야한다. 설정된 횟수의 특정 값은 실제상태에 따라 결정될 수 있다.

본 출원의 실시예에서, 단계 (S104)에 대해, 예를 들어 문맥 단어에 기초한 트레이닝 방식, 지정된 근 - 동의어 또는 동의어에 기초한 트레이닝 방식 등과 같은 다수의 특정 트레이닝 방식이있을 수 있다. 이해를 쉽게하기 위해, 이전의 방식을 예로 들어 상세히 설명한다.

단어 세그먼테이션, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하는 단계는 구체적으로 : 단어 분할 이후에 획득된 코퍼스 내의 지정된 단어를 결정하는 단계 및 하나 이상의 단어 세분화 후에 얻은 코퍼스에서 지정된 단어의 컨텍스트 단어; 상기 지정된 단어 및 해당 단어의 단어 벡터에 대응하는 n 그램 스트로크의 스트로크 벡터에 따라 상기 지정된 단어와 상기 문맥 단어 사이의 유사도를 결정하는 단계; 및 상기 지정된 단어와 상기 컨텍스트 단어 사이의 유사도에 따라 상기 지정된 단어에 대응하는 상기 컨텍스트 단어의 단어 벡터 및 상기 스트로크 벡터의 스트로크 벡터를 업데이트하는 단계를 포함하는 방법.

이 응용 프로그램은 유사성 정도를 결정하는 특정 방식을 제한하지 않습니다. 예를 들어, 유사도는 벡터 들간의 각도에 대한 코사인 연산에 기초하여 또는 벡터들에 대한 2 차 합 연산에 기초하여 계산될 수 있다.

여러 개의 지정된 단어가있을 수 있습니다. 지정된 단어는 코퍼스의 다른 위치에서 반복적으로 발생할 수 있습니다. 앞 단락에서 설명한 처리 작업은 각 지정된 단어에 대해 수행될 수 있습니다. 바람직하게는, 단어 세분화 후에 얻어진 코퍼스 내의 각 단어는 지정된 단어로서 사용될 수 있다.

본원의 실시예에서, 단계 S104의 트레이닝은 지정된 단어와 컨텍스트 단어 사이의 유사도를 증가시킬 수 있다 (여기서, 유사도는 연관도를 반영할 수 있으며, 여기서 단어와 그것의 문맥 단어가 상대적으로 높고, 동의어 또는 근사 동의어에 해당하는 문언 단어는 동일하거나 유사한 의미를 가짐), 지정된 단어와 비 문맥 단어 사이의 유사성 정도를 감소시킨다. 비 문맥 단어는 아래에 설명된 음의 표본 단어로 사용될 수 있으며, 문맥 단어는 긍정적 인 표본 단어로 사용될 수 있습니다.

위에서 볼 수 있듯이 일부 부정적인 샘플 단어는 트레이닝 과정에서 비교를 위해 결정되어야한다. 하나 이상의 단어는 단어 세분화 후에 획득된 코퍼스로부터 네가티브 샘플 단어로서 무작위로 선택되거나, 비 문맥 단어가 네거티브 샘플 단어로서 엄격하게 선택될 수 있다. 이전의 방식을 예로 들면, 지정된 단어와 문맥 단어 사이의 유사도에 따라 문맥 단어의 단어 벡터 및 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계는 구체적으로 상기 단어들로부터 하나 이상의 단어들을 음의 표본 단어로서 선택하는 단계; 상기 지정된 단어와 각각의 음의 샘플 단어 간의 유사도를 결정하는 단계; 지정된 손실 함수, 상기 지정된 단어와 상기 컨텍스트 단어 사이의 유사도 및 상기 지정된 단어와 각각의 네거티브 샘플 단어 간의 유사도에 따라 상기 지정된 단어에 대응하는 손실 특성 값을 결정하는 단계; 및 상기 손실 특성 값에 따라 상기 지정된 단어에 대응하는 상기 컨텍스트 단어의 단어 벡터 및 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 포함하는 것을 특징으로하는 컴퓨터 판독 가능 매체.

손실 특성화 값은 현재 벡터 값과 학습 목표 간의 오차의 정도를 측정하는 데 사용된다. 전술 한 몇몇 정도의 유사성이 손실 함수의 파라미터로서 사용될 수 있다. 손실 함수의 구체적인 표현은 본 출원에서 제한되지 않으며, 나중에 예를 들어 상세히 설명될 것이다.

본 출원의 실시예에서, 단어 벡터 및 스트로크 벡터의 업데이트는 실제로 에러의 정도에 대한 수정이다. 본 발명의 해결 방법이 신경망을 사용하여 구현되는 경우, 이러한 변형은 역 전파 및 기울기 하강에 기초하여 구현될 수 있다. 이 경우 기울기는 손실 함수에 해당하는 기울기이다.

손실 특성화 값에 따라 컨텍스트 단어의 단어 벡터 및 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계는 특히, 손실 특성 값에 따라 손실 함수에 대응하는 구배를 결정하는 단계 ; 및 상기 그래디언트에 따라 상기 지정된 단어에 대응하는 컨텍스트 단어의 단어 벡터 및 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 포함하는 방법.

본 출원의 실시예에서, 단어 벡터 및 스트로크 벡터를 트레이닝하는 프로세스는 단어 분할 후에 획득된 코퍼스의 적어도 일부 단어에 기초하여 반복적으로 수행될 수 있어서, 단어 벡터 및 스트로크 벡터 점차 트레이닝이 끝날 때까지 수렴한다.

단어 세분화 후에 얻은 코퍼스의 모든 단어에 대한 트레이닝이 예제로 사용된다. 단어 분할, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하는 단계 (S104)는 구체적으로 :

단어 세분화 후에 얻은 코퍼스를 가로 지르고, 단어 세분화 후에 얻은 코퍼스의 각 단어에 대해 다음 작업을 수행한다.

상기 단어 세분화 후에 획득된 상기 코퍼스 내의 상기 단어의 하나 이상의 컨텍스트 단어를 결정하는 단계; 과

각 컨텍스트 단어에 따라 다음 작업을 수행한다.

상기 단어와 상기 문맥 단어의 유사도를 결정하는 단계는, 상기 단어 및 상기 문맥 단어의 단어 벡터에 대응하는 n 그램 스트로크의 스트로크 벡터에 따라 상기 유사도를 결정하는 단계; 과

상기 단어와 상기 컨텍스트 단어 사이의 유사도에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 단어에 대응하는 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 더 포함하는 방법.

특정 업데이트 프로세스는 위에서 설명되었으므로 본 명세서에서 다시 설명하지는 않는다.

또한, 컴퓨터 처리의 용이함을 위해, 전술 한 횡단 과정은 윈도우에 기초하여 구현될 수 있다.

예를 들어, 단어 세분화 후에 획득된 코퍼스 내의 단어의 하나 이상의 컨텍스트 단어를 결정하는 단계는 구체적으로 :이 단어를 중심으로하여 지정된 단어 수의 거리만큼 왼쪽 및/또는 오른쪽으로 슬라이딩 단어 세분화 후에 얻은 코퍼스가 창을 설정한다. 창에서이 단어를 제외한 단어를이 단어의 컨텍스트 단어로 결정한다.

물론, 단어 세분화 후에 획득된 코퍼스의 첫 번째 단어부터 시작하여 설정된 길이의 창을 설정하는 것도 가능한다. 창은 첫 번째 단어와 첫 번째 단어 다음에 오는 일련의 연속 단어를 포함한다. 창에있는 단어가 처리된 후에는 창을 앞으로 밀면 코퍼스가 완전히 지나갈 때까지 다음 단어 묶음을 처리한다.

이상이 본 출원의 실시예에 따른 단어 벡터 처리 방법을 설명한다. 이해를 돕기 위해, 전술 한 설명에 기초하여, 본 출원의 실시예는도 2에 도시된 바와 같이 실제애플리케이션 시나리오에서 단어 벡터 처리 방법의 특정 구현 솔루션의 개략적 인 흐름도를 더 제공한다.

도 2의 처리는 주로 다음의 단계들을 포함한다 :

단계 1 단어 세분화 도구를 사용하여 중국어 자료에 단어 세분화가 수행되고, 단어 세분화가 수행된 후 얻은 중국어 자료가 검색되고, 발생한 모든 단어가 집계되어 용어집이 설정되고 b 회 미만의 단어 (즉, 설정된 횟수)가 삭제된다. 그런 다음 2 단계가 수행된다.

단계 2 용어집은 하나씩 스캔되고 각 단어에 해당하는 ngram 스트로크가 추출되어 단어와 해당 ngram 스트로크 사이의 매핑 테이블과 ngram 스트로크 테이블을 만듭니다. 총 다섯 가지 유형의 스트로크가 정의된다. "아래", "아래로"및 "중단"(스트로크 "후크", "점"및 "상승"은 모두 "중단"으로 간주된다), "수평", "수직", " 1 ~ 5의 번호. 그런 다음 3 단계가 수행된다.

단계 3 용어집에서 각 단어에 대해 d 차원 단어 벡터가 설정되고, ngram 스트로크 테이블에서 각 ngram 스트로크에 대해 d 차원 스트로크 벡터가 설정되고 모든 설정된 벡터가 임의로 초기화된다. 그런 다음 4 단계가 수행된다.

단계 4 단어 분할은 단어 분할 후에 얻은 중국어 자료의 첫 번째 단어부터 시작하여 하나씩 차례로 진행된다. 하나의 단어가 매번 "현재 단어 w"(즉, 지정된 단어)로서 선택된다. 전체 코퍼스의 모든 단어가 w로 이동된 경우 프로세스가 종료되고, 그렇지 않으면 5 단계가 수행된다.

단계 5 현재 단어를 중심으로 창문을 만들기 위해 k 단어의 길이만큼 양면으로 슬라이드한다. 창에서 첫 단어부터 마지막 단어까지 (현재 단어 w 제외) "컨텍스트 단어 c"로 한 단어가 선택된다. 창에서 모든 단어가 c로 이동된 경우 4 단계가 수행되고, 그렇지 않으면 6 단계가 수행된다.

단계 6 현재 단어 w에 대해, 현재 단어 w에 대응하는 n 그램 스트로크는 단계 2에서 단어와 대응 n 그램 스트로크 사이의 매핑 테이블에서 검색되고, 현재 단어 w와 컨텍스트 단어 사이의 유사도 c는 다음 식 (1)을 사용하여 계산된다.

수학식 1***

이 식에서, S는 단계 2에서 설정된 ngram 스트로크 표를 나타내며, S (w)는 단계 2에서의 매핑 표에서 현재 단어 w에 대응하는 ngram 스트로크의 집합을 나타내며, q는 , sim (w, c)는 현재 단어 w와 문맥 단어 c 사이의 유사도 스코어를 나타내며, □ (□ (→ qq) ? ) □ (□ (→ cc))는 ngram 스트로크 q와 문맥 단어 c 사이의 벡터 내적 연산을 나타낸다. 그런 다음 7 단계가 수행된다.

제7 단계 : λ 개의 단어를 무작위로 음의 표본 단어로 추출하고, 손실률 l (w, c)를하기 수학 식 2에 따라 계산한다 (즉, 상기 손실 함수). 손실 점수는 위에 설명된 손실 특성화 값으로 사용될 수 있습니다.

수학식 2에 의해 계산될 수 있고,

이 식에서, log는 로그 함수를 나타내고, c '는 랜덤하게 추출된 네거티브 샘플 단어를 나타내고, E_ (c'∈p (V)) [x]는 랜덤하게 추출된 네거티브 샘플 단어 c는 확률 분포 p (V)를 만족하고, σ (A)는 신경망의 여기 함수이다. 자세한 내용은 다음 식 (3)을 참조하십시오.

수학식 3에 의해 계산될 수 있고,

이 식에서 x가 실수이면 "σ"( "x")도 실수이다. 그라데이션은 l (w, c)의 값에 따라 계산되고, ngram 스트로크의 벡터 → qq와 컨텍스트 단어의 벡터 → cc가 업데이트된다. 그런 다음 5 단계가 수행된다.

6 단계와 7 단계는 위의 1 ~ 7 단계의 주요 단계이다. 이해를 용이하게하기 위해,이 두 단계는도 3을 참조하여 예를 사용하여 설명된다.

도 3은 본 출원의 일 실시예에 따른도 2의 프로세스에서 사용되는 코퍼스의 일부에 대한 관련 처리 동작의 개략도이다.

도 3에 도시된 바와 같이, 코퍼스에 "스리랑그 치료가 위급 한"것을 의미하는 "치료 트리트먼트"라는 문장이 있고, "치료"를 의미하는 "治理", " "스모그"를 의미하는) 및 "刻不容緩解"(즉, "is_of_great_urgency"를 의미 함)은 단어 세분화 후에 얻어진다.

현재 단어 w로 "Ц ?"가 선택되었고 문맥 단어 c로 "治理"가 선택되었다고 가정한다. 현재 단어 w에 의해 맵핑된 모든 ngram 스트로크 S (w)가 추출된다. 예를 들어, "Ц ?"로 매핑된 3 그램 스트로크에는 "145", "452", "524"등이 포함된다. 다음 식 (1), (2) 및 (3)에 따라 손실 스코어 ? (w, c)를 계산 한 다음 그래디언트를 계산하여 c의 단어 벡터와 w.

이상이 본 출원의 실시예에 따른 단어 벡터 처리 방법을 설명한다. 동일한 개념에 기초하여, 본 출원의 실시예는도 4에 도시된 바와 같이 대응하는 장치를 더 제공한다.

도 4는 본 발명의 일 실시예에 따른도 1에 대응하는 단어 벡터 처리 장치의 개략적 인 구조도이다. 상기 장치는도 1의 프로세스를 실행하는 엔티티에 위치될 수 있으며,

단어들을 획득하기 위해 코퍼스상에서 단어 세그멘테이션을 수행하도록 구성된 단어 세그멘테이션 모듈 (401);

상기 단어에 대응하는 n 그램 스트로크를 결정하도록 구성된 결정 모듈 (402) - 대응하는 단어의 n 개의 연속 스트로크를 나타내는 n 그램 스트로크;

상기 단어들의 단어 벡터 및 상기 단어들에 대응하는 상기 n 그램 스트로크의 스트로크 벡터들을 확립하고 초기화하도록 구성된 초기화 모듈 (403); 과

, 단어 분할, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하도록 구성된 트레이닝 모듈 (404)을 포함한다.

선택적으로, 결정 모듈 (402)에 의해, 단어들에 대응하는 n 그램 스트로크들은 구체적으로 :

상기 코퍼스에서의 단어 세분화의 결과에 따라 상기 결정 모듈 (402)에 의해 상기 코퍼스에서 적어도 한 번 발생하는 단어들을 결정하는 단계; 과

결정된 각 단어에 대해 다음 작업을 수행한다.

선택적으로, 단어 세분화의 결과에 따라 결정 모듈 (402)에 의해, 코퍼스에서 적어도 한번 발생하는 단어를 구체적으로 결정하는 것은,

상기 코퍼스에서의 단어 세분화 결과에 따라 상기 결정 모듈 (402)에 의해 상기 코퍼스에서 발생하는 단어를 설정된 횟수 이상 결정하고, 상기 설정된 횟수는 1 이상이다.

선택적으로, 초기화 모듈 (403)에 의해, 단어의 단어 벡터 및 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 구체적으로 포함하는 것은 :

초기화 모듈 (403)에 의해, 임의의 초기화 방식으로 또는 지정된 확률 분포에 따라 초기화 방식으로 단어에 대응하는 n 그램 스트로크의 단어 벡터 및 스트로크 벡터를 초기화하는 단계로서, 동일한 ngram 스트로크도 동일한다.

선택적으로, 단어 세그먼테이션, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따른 트레이닝 모듈 (404)에 의한 트레이닝, 단어 벡터 및 뇌졸중 벡터의 트레이닝은 구체적으로 :

트레이닝 모듈 (404)에 의해, 단어 세분화 후에 획득된 코퍼스 내의 지정된 단어 및 단어 세분화 후에 획득된 코퍼스 내의 지정된 단어의 하나 이상의 컨텍스트 단어를 결정하는 단계;

상기 지정된 단어 및 해당 단어의 단어 벡터에 대응하는 n 그램 스트로크의 스트로크 벡터에 따라 상기 지정된 단어와 상기 문맥 단어 사이의 유사도를 결정하는 단계; 과

상기 지정된 단어와 상기 컨텍스트 단어 사이의 유사도에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 더 포함하는 방법.

선택적으로, 트레이닝 모듈 (404)에 의해, 지정된 단어와 컨텍스트 단어 사이의 유사도에 따라 컨텍스트 단어의 단어 벡터 및 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 것은 구체적으로 :

상기 트레이닝 모듈 (404)에 의해, 상기 단어들로부터 하나 이상의 단어들을 음의 표본 단어로서 선택하는 단계;

상기 지정된 단어와 각각의 음의 샘플 단어 간의 유사도를 결정하는 단계;

지정된 손실 함수, 상기 지정된 단어와 상기 컨텍스트 단어 사이의 유사도 및 상기 지정된 단어와 각각의 네거티브 샘플 단어 간의 유사도에 따라 상기 지정된 단어에 대응하는 손실 특성 값을 결정하는 단계; 과

손실 특성화 값에 따라 컨텍스트 단어의 단어 벡터 및 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 포함한다.

선택적으로, 트레이닝 모듈 (404)에 의해, 손실 특성화 값에 따라 문맥 단어의 단어 벡터 및 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 것은 구체적으로 :

상기 학습 모듈 (404)에 의해, 상기 손실 특성 값에 따라 상기 손실 함수에 대응하는 구배를 결정하는 단계; 과

상기 그래디언트에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 지정된 단어에 대응하는 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 더 포함하는 방법.

선택적으로, 트레이닝 모듈 (404)에 의해 네거티브 샘플 단어로서 단어들로부터 하나 이상의 단어를 선택하는 것은 구체적으로 :

트레이닝 모듈 (404)에 의해 네거티브 샘플 단어로서 단어들로부터 하나 이상의 단어들을 무작위로 선택하는 단계를 포함한다.

트레이닝 모듈 (404)에 의해 단어 세분화 후에 얻어진 코퍼스를 횡단하고, 단어 세분화 후에 얻어진 코퍼스 내의 각 단어에 대해 다음의 연산을 수행한다 :

각 컨텍스트 단어에 따라 다음 작업을 수행한다.

선택적으로, 트레이닝 모듈 (404)에 의해, 단어 세분화 후에 획득된 코퍼스 내의 단어의 하나 이상의 컨텍스트 단어를 구체적으로 결정하는 것은 :

이 단어를 중심으로, 트레이닝 모듈 (404)에 의해, 단어 세분화 후에 얻어진 코퍼스 내의 지정된 수의 단어의 거리만큼 왼쪽 및/또는 오른쪽으로 슬라이딩하여 윈도우를 확립한다; 과

창에서이 단어를 제외한 단어를이 단어의 문맥 단어로 결정한다.

선택적으로 단어는 중국어 단어이고 단어 벡터는 중국어 단어의 단어 벡터이다.

본 출원의 실시예에 제공된 장치는 일대일 방식으로이 방법에 대응한다. 따라서, 상기 장치는 또한 대응하는 방법과 유사한 유익한 기술적 효과를 갖는다. 본 방법의 이로운 기술적 효과를 위에서 자세하게 설명하였기 때문에, 본 디바이스의 이로운 기술적 효과는 여기에 기술되지 않는다.

1990 년대에 하드웨어 개선 (예 : 다이오드, 트랜지스터 및 스위치와 같은 회로 구조 개선) 또는 소프트웨어 개선 (예 : 방법 절차). 그러나, 기술의 발달과 함께, 많은 방법 절차의 개선은 현재 하드웨어 회로 구조의 직접적인 개선으로 간주될 수 있다. 거의 모든 설계자는 개선된 방법 절차를 하드웨어 회로에 프로그래밍하여 해당 하드웨어 회로 구조를 얻습니다. 따라서 하드웨어 엔티티 모듈을 사용하여 메소드 프로 시저의 개선을 구현할 수 없다고 가정하는 것은 부적절한다. 예를 들어, PLD (Programmable Logic Device) (예를 들어, FPGA (Field Programmable Gate Array))는 로직 기능이 사용자에 의해 프로그래밍된 디바이스에 의해 결정되는 집적 회로이다. 설계자는 칩 제조업체가 전용 집적 회로 칩을 설계하고 제조할 것을 요구하지 않고도 PLD에 디지털 시스템을 "통합"하기 위해 스스로 프로그래밍한다. 더욱이, 현재, 프로그래밍은 집적 회로 칩을 수동으로 제조하는 대신 로직 컴파일러 소프트웨어를 사용함으로써 대부분 구현된다. 논리 컴파일러 소프트웨어는 프로그램 개발 및 작성에 사용되는 소프트웨어 컴파일러와 유사하며 컴파일 전의 원래 코드도 HDL (Hardware Description Language)이라고하는 특정 프로그래밍 언어를 사용하여 작성해야한다. ABL (Advanced Boolean Expression Language), AHDL (Altera Hardware Description Language), CURL (Cornell University Programming Language), HDCal, JHDL (Java Hardware Description Language), Lava, Lola, MyHDL과 같은 여러 유형의 HDL이 있습니다. , PALASM 및 Ruby Hardware Description Language (VHDL) 및 Verilog가 가장 일반적으로 사용되는 RHDL (Reliability Description Language) 또한, 당업자는 상기 논리 방법 절차를 구현하기위한 하드웨어 회로가 상기 여러 하드웨어 설명 언어를 사용하여 방법 프로 시저를 약간 논리적으로 프로그래밍하고이를 집적 회로에 프로그래밍함으로써 쉽게 얻을 수 있다는 것을 알아야한다.

글자는 임의의 적절한 방법으로 선택될 수 있다. 예를 들어, 제어기는 예를 들어 마이크로 프로세서 또는 프로세서와, (마이크로) 프로세서에 의해 실행 가능한 컴퓨터 판독 가능 프로그램 코드 (예를 들어, 소프트웨어 또는 펌웨어)를 저장하는 컴퓨터 판독 가능 매체, 논리 게이트, 스위치, ASIC (Application Specific Integrated Circuit), 프로그래머블 로직 컨트롤러 및 임베디드 마이크로 컨트롤러를 포함할 수 있다. 제어기의 예시로는 비제한적인 예시들로서, 다음과 같은 마이크로프로세서들, ARC 625D, Atmel AT91SAM, Microchip PIC18F26K20, 및 Silicone Labs C8051F320을 포함한다. 메모리 제어기는 또한 메모리의 제어 논리의 일부로서 구현될 수 있다. 또한, 당업자는 순수한 컴퓨터 판독 가능 프로그램 코드를 사용함으로써 제어기가 구현될 수 있고, 또한 방법 단계가 논리 게이트의 형태로 제어기가 동일한 기능을 구현할 수 있도록 논리적으로 프로그램될 수 있다는 것을 알고있다. 스위치, 애플리케이션 특정 집적 회로, 프로그래머블 로직 컨트롤러 및 임베디드 마이크로 컨트롤러를 포함한다. 따라서, 이러한 종류의 제어기는 하드웨어 구성 요소로 간주될 수 있으며, 다양한 기능을 구현하기위한 장치는 하드웨어 구성 요소 내부의 구조로 간주될 수 있다. 대안적으로, 다양한 기능들을 구현하도록 구성된 장치는 본 방법을 구현하는 소프트웨어 모듈 및 하드웨어 컴포넌트 내부의 구조물 둘 다로서 간주될 수도 있다.

상기 구현예들에서 예시된 시스템, 장치, 모듈, 또는 유닛은 컴퓨터 칩 또는 엔티티를 사용하여 구현될 수 있거나, 또는 특정 기능을 갖는 제품을 사용하여 구현될 수 있다. 일반적인 구현 디바이스는 컴퓨터이다. 컴퓨터는, 예를 들어, 퍼스널 컴퓨터, 랩톱 컴퓨터, 셀룰러 전화기, 카메라 폰, 스마트폰, 개인 휴대 정보 단말기, 미디어 플레이어, 네비게이션 디바이스, 이메일 디바이스, 게임 콘솔, 태블릿 컴퓨터, 또는 착용가능형 디바이스, 또는 이들 디바이스의 임의의 조합일 수 있다.

설명을 용이하게하기 위해, 장치를 설명할 때, 각각의 설명을 위해 기능적으로 다양한 단위로 나누어진다. 물론, 본 출원이 구현될 때, 유닛들의 기능은 하나 이상의 소프트웨어 및/또는 하드웨어 조각들로 구현될 수 있다.

당업자는 본 출원의 실시예들이 방법, 시스템, 또는 컴퓨터 프로그램 제품으로서 제공될 수 있음을 이해해야 한다. 따라서, 본 발명은 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예 또는 소프트웨어와 하드웨어를 결합한 실시예로서 구현될 수 있다. 또한, 본 발명은 컴퓨터로 사용가능한 프로그램 코드가 포함된 하나 이상의 컴퓨터로 사용가능한 저장 매체(비제한적인 예시로서, 디스크 메모리, CD-ROM, 광학 메모리 등을 포함함) 상에 구현되는 컴퓨터 프로그램 제품의 형태를 사용할 수 있다.

본 출원은 본 출원의 실시예들에 따른 방법, 장치(시스템), 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도에 따라 기술된다. 흐름도 및/또는 블록도에서의 각각의 프로세스 및/또는 각각의 블록, 및 흐름도 및/또는 블록도에서의 프로세스 및/또는 블록의 조합을 구현하기 위해 컴퓨터 프로그램 명령어들이 사용될 수 있다는 것을 이해해야 한다. 이들 컴퓨터 프로그램 명령어들은, 컴퓨터 또는 임의의 다른 프로그램가능 데이터 처리 디바이스의 프로세서에 의해 실행된 명령어들이 흐름도들 내에서의 하나 이상의 프로세스들 또는 블록도들 내에서의 하나 이상의 블록들에서 특정 기능을 구현하기 위한 장치를 생성하도록, 범용 컴퓨터, 특수 목적용 컴퓨터, 내장형 프로세서, 또는 머신을 생성하기 위한 임의의 다른 프로그램가능 데이터 처리 디바이스의 프로세서에 제공될 수 있다.

이들 컴퓨터 프로그램 명령어들은, 컴퓨터로 판독가능한 메모리에 저장된 명령어들이 명령어 장치를 포함하는 아티펙트를 생성하도록, 컴퓨터로 판독가능한 메모리에 저장되어, 컴퓨터 또는 임의의 다른 프로그램가능한 데이터 처리 디바이스로 하여금 상세한 방법을 사용하여 동작할 것을 명령내릴 수 있다. 명령어 장치는 흐름도들 내의 하나 이상의 프로세스들에서 및/또는 블록도들 내의 하나 이상의 블록들에서 특정 기능을 구현한다.

이들 컴퓨터 프로그램 명령어들은, 일련의 동작들 및 단계들이 컴퓨터 또는 다른 프로그램가능한 디바이스 상에서 수행됨으로써 컴퓨터 구현 처리를 생성할 수 있도록, 컴퓨터 또는 다른 프로그램가능한 데이터 처리 디바이스 상에 로딩될 수 있다. 따라서, 컴퓨터 또는 다른 프로그램가능한 디바이스 상에서 실행되는 명령어들은 흐름도들 내의 하나 이상의 프로세스들에서 및/또는 블록도들 내의 하나 이상의 블록들에서 상세한 기능을 구현하기 위한 단계들을 제공한다.

일반적인 구성에서, 컴퓨팅 디바이스는 하나 이상의 중앙 처리 장치(CPU), 입력/출력 인터페이스, 네트워크 인터페이스, 및 메모리를 포함한다.

메모리는 휘발성 메모리, 랜덤 액세스 메모리 (RAM) 및/또는 비 휘발성 메모리, 예를 들어, 판독 전용 메모리 (ROM) 또는 플래시 RAM과 같은 컴퓨터 판독 가능 매체를 포함할 수 있다. 메모리는 컴퓨터 판독가능 매체의 예시이다.

컴퓨터 판독 가능 매체는 비 휘발성 및 휘발성 매체뿐만 아니라 이동 가능 및 비 이동 가능 매체를 포함하며, 임의의 방법 또는 기술에 의해 정보 저장을 구현할 수 있다. 정보는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터일 수 있다. 컴퓨터 저장 매체의 예시들은, 비제한적인 예시로서, PRAM(parameter random access memory), SRAM(static random access memory), DRAM(dynamic random access memory), 다른 유형의 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), 플래시 메모리 또는 다른 메모리 기술, CD-ROM(compact disc read-only memory), DVD(digital versatile disc) 또는 다른 광학 저장장치, 카세트 자기 테이프, 테이프 및 자기 저장장치 또는 다른 자기 저장 디바이스, 또는 컴퓨팅 디바이스에 의해 액세스될 수 있는 정보를 저장하도록 구성될 수 있는 임의의 다른 비 전송 매체를 포함한다. 이 텍스트의 정의에 따르면, 컴퓨터 판독 가능 매체는 변조된 데이터 신호 및 캐리어와 같은 일시적인 매체를 포함하지 않는다.

또한, "포함하다"또는 "포함하다"라는 용어는 일련의 구성 요소를 포함하는 프로세스, 방법, 필수품 또는 장치가 그 구성 요소를 포함할뿐만 아니라 비 배타적 포함을 포함하도록 의도된 것이며, 명확하게 열거되지 않은 다른 요소들을 포함하거나, 프로세스, 방법, 상품 또는 장치의 고유 한 요소들을 더 포함한다. 더 이상 제한이없는 경우, "a/an ... 포함"으로 정의된 요소는 요소를 포함하는 프로세스, 방법, 상품 또는 장치가 다른 동일한 요소를 더 포함한다는 것을 배제하지 않습니다.

당업자는 본 출원의 실시예들이 방법, 시스템, 또는 컴퓨터 프로그램 제품으로서 제공될 수 있음을 이해해야 한다. 따라서, 본 출원은 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예 또는 소프트웨어와 하드웨어를 결합한 실시예로서 구현될 수 있다. 또한, 본 출원은 컴퓨터로 사용가능한 프로그램 코드가 포함된 하나 이상의 컴퓨터로 사용가능한 저장 매체(비제한적인 예시로서, 디스크 메모리, CD-ROM, 광학 메모리 등을 포함함) 상에 구현되는 컴퓨터 프로그램 제품의 형태를 사용할 수 있다.

본 출원은 컴퓨터, 예컨대 프로그램 모듈에 의해 실행되는 컴퓨터 실행가능 명령어들의 일반적인 정황으로 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 또는 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 출원은 분산 컴퓨팅 환경에서도 구현될 수 있으며, 분산 컴퓨터 환경에서는 통신 네트워크를 통해 연결된 원격 프로세싱 장치를 사용하여 태스크가 실행된다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 저장 디바이스들을 포함하는 로컬 및 원격 컴퓨터 저장 매체에 위치될 수 있다.

본 명세서의 실시예들은 점차적으로, 동일하거나 유사한 실시예들이 서로 관련하여 얻어질 수 있으며, 각각의 실시예는 다른 실시예와 다른 부분을 강조한다. 디바이스 실시예는 기본적으로 방법 실시예에 대응하므로, 관련 부분들에 대해서는, 방법 실시예에서의 부분들의 설명을 참조할 수 있다.

상기 실시예는 본 출원의 실시예일 뿐이며, 본 출원을 제한하려는 것은 아니다. 당업자게 있어서, 본 출원은 다양한 변형과 변경을 가질 수 있다. 본 출원의 사상 및 원리로부터 벗어남이 없이 임의의 수정, 등가적 대체, 또는 개선이 본 출원의 청구 범위 내에 속해야 한다.

Claims

단어 벡터 처리 방법으로서,
단어들을 얻기 위해 스트로크들을 특징으로하는 언어로 된 단어들의 코퍼스 (corpus)에 대해 단어 세그먼테이션을 수행하는 단계;
상기 단어에 대응하는 n 그램 스트로크를 결정하는 단계로서, 상기 n 그램 스트로크는 대응하는 단어의 n 개의 연속 스트로크를 나타내는 것 인 단계;
상기 단어들에 대응하는 n 그램 스트로크들의 단어 및 스트로크 벡터들의 단어 벡터들을 설정하고 초기화하는 단계; 과
신경망을 이용하여, 단어 세그멘테이션 후에 획득된 코퍼스, 단어 벡터 및 스트로크 벡터에 따라 단어 벡터 및 뇌졸중 벡터를 트레이닝하는 단계를 포함한다.
제1항에 있어서, 상기 단어에 대응하는 n 그램 스트로크를 결정하는 단계는 구체적으로 :
상기 코퍼스에서의 단어 세분화의 결과에 따라, 상기 코퍼스에서 적어도 한 번 발생하는 단어들을 결정하는 단계; 과
결정된 각 단어에 대해 다음 작업을 수행한다.
상기 단어에 대응하는 n 그램 스트로크를 결정하고, 상기 단어에 대응하는 각각의 n 그램 스트로크는 상기 단어의 n 개의 연속 스트로크를 나타내며, n은 하나의 양의 정수 또는 다수의 상이한 양의 정수이다.
제2항에 있어서, 상기 코퍼스에서의 단어 세분화의 결과에 따라, 상기 코퍼스에서 적어도 한 번 발생하는 단어를 구체적으로 결정하는 단계는,
상기 코퍼스에서의 단어 세분화의 결과에 따라, 상기 코퍼스 내에서 발생하는 단어를 설정된 횟수 이상 결정하고, 상기 설정된 횟수는 1보다 작지 않은지를 결정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 단어에 대응하는 상기 n 그램 스트로크의 단어 및 스트로크 벡터의 단어 벡터를 초기화하는 단계는 구체적으로,
지정된 확률 분포에 따라 랜덤 초기화 방식 또는 초기화 방식으로 상기 단어에 대응하는 n 그램 스트로크의 단어 벡터 및 스트로크 벡터를 초기화하는 단계로서, 동일한 n 그램 스트로크의 스트로크 벡터는 똑같다.
제1항에 있어서, 상기 단어 세그먼테이션, 상기 단어 벡터 및 상기 스트로크 벡터 이후에 얻어진 상기 코퍼스에 따라 상기 단어 벡터 및 상기 스트로크 벡터를 트레이닝하는 단계는 구체적으로,
상기 단어 세분화 후에 획득된 상기 코퍼스 내의 지정된 단어 및 상기 단어 세분화 후에 획득된 상기 코퍼스 내의 지정된 단어의 하나 이상의 컨텍스트 단어를 결정하는 단계;
상기 지정된 단어 및 해당 단어의 단어 벡터에 대응하는 n 그램 스트로크의 스트로크 벡터에 따라 상기 지정된 단어와 상기 문맥 단어 사이의 유사도를 결정하는 단계; 과
상기 지정된 단어와 상기 컨텍스트 단어 사이의 유사도에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 더 포함하는 방법.
제5항에 있어서, 상기 지정된 단어와 상기 문맥 단어 사이의 유사도에 따라 상기 지정된 단어에 대응하는 컨텍스트 단어의 단어 벡터 및 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계는 특히,
상기 단어들 중 하나 이상의 단어를 음의 샘플 단어로서 선택하는 단계;
상기 지정된 단어와 각각의 음의 샘플 단어 간의 유사도를 결정하는 단계;
지정된 손실 함수, 상기 지정된 단어와 상기 컨텍스트 단어 사이의 유사도 및 상기 지정된 단어와 각각의 네거티브 샘플 단어 간의 유사도에 따라 상기 지정된 단어에 대응하는 손실 특성 값을 결정하는 단계; 과
손실 특성화 값에 따라 컨텍스트 단어의 단어 벡터 및 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 포함한다.
제6항에 있어서, 상기 손실 특성 값에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 지정된 단어에 대응하는 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계는 특히,
상기 손실 특성 값에 따라 상기 손실 함수에 대응하는 기울기를 결정하는 단계; 과
상기 그래디언트에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 지정된 단어에 대응하는 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 더 포함하는 방법.
제6항에 있어서, 네거티브 샘플 단어로서 상기 단어들로부터 하나 이상의 단어들을 선택하는 단계는 구체적으로 :
상기 단어들 중 하나 이상의 단어들을 부정 샘플 단어로서 무작위로 선택하는 단계를 포함하는 방법.
제1항에 있어서, 상기 단어 세그먼테이션, 상기 단어 벡터 및 상기 스트로크 벡터 이후에 얻어진 상기 코퍼스에 따라 상기 단어 벡터 및 상기 스트로크 벡터를 트레이닝하는 단계는 구체적으로,
단어 세분화 후에 얻은 코퍼스를 가로 지르고, 단어 세분화 후에 얻은 코퍼스의 각 단어에 대해 다음 작업을 수행한다.
상기 단어 세분화 후에 획득된 상기 코퍼스 내의 상기 단어의 하나 이상의 컨텍스트 단어를 결정하는 단계; 과
각 컨텍스트 단어에 따라 다음 작업을 수행한다.
상기 단어와 상기 문맥 단어의 유사도를 결정하는 단계는, 상기 단어 및 상기 문맥 단어의 단어 벡터에 대응하는 n 그램 스트로크의 스트로크 벡터에 따라 상기 유사도를 결정하는 단계; 과
상기 단어와 상기 컨텍스트 단어 사이의 유사도에 따라 상기 컨텍스트 단어의 단어 벡터 및 상기 단어에 대응하는 상기 n 그램 스트로크의 스트로크 벡터를 업데이트하는 단계를 더 포함하는 방법.
제9항에 있어서, 상기 단어 세분화 후에 획득된 상기 코퍼스 내의 단어의 하나 이상의 컨텍스트 단어를 결정하는 단계는 특히,
이 단어를 중심으로, 단어 세분화 후에 획득된 코퍼스 내의 지정된 수의 단어의 거리만큼 왼쪽 및/또는 오른쪽으로 슬라이딩하여 윈도우를 확립하는 단계; 과
창에서이 단어를 제외한 단어를이 단어의 문맥 단어로 결정한다.
제1항 내지 제10항 중 어느 한 항에 있어서, 단어는 중국어 단어이고, 단어 벡터는 중국어 단어의 단어 벡터이다.
제1항에 있어서, 상기 단어 벡터 및 상기 스트로크 벡터를 학습하는 것이 반복적으로 수행되는 방법.
단어 벡터 처리 장치로서,
단어들을 얻기 위해 스트로크들을 특징으로하는 언어의 단어들의 코퍼스에 대해 단어 세그멘테이션을 수행하도록 구성된 단어 세그멘테이션 모듈;
상기 단어에 대응하는 n 그램 스트로크를 결정하도록 구성된 결정 모듈 - 대응하는 단어의 n 개의 연속 스트로크를 나타내는 n 그램 스트로크;
상기 단어들의 단어 벡터 및 상기 단어들에 대응하는 상기 n 그램 스트로크의 스트로크 벡터들을 확립하고 초기화하도록 구성된 초기화 모듈; 과
단어 분할, 단어 벡터 및 스트로크 벡터 후에 얻어진 코퍼스에 따라 단어 벡터 및 스트로크 벡터를 트레이닝하도록 구성된 트레이닝 모듈;
상기 단어 벡터 처리 장치는 제1 항 내지 제12 항 중 어느 한 항의 방법을 수행하도록 구성되는 것을 특징으로하는 단어 벡터 처리 장치.