KR20220011082A

KR20220011082A - 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체

Info

Publication number: KR20220011082A
Application number: KR1020210089985A
Authority: KR
Inventors: 쑤안 오우양; 슈오환 왕; 위 순
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-07-20
Filing date: 2021-07-08
Publication date: 2022-01-27
Also published as: JP7293543B2; JP2022020582A; KR102549972B1; US20220019736A1; CN112001190A; EP3944128A1

Abstract

본 발명은 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체를 개시하였는 바, 인공 지능에 기반한 자연 언어 처리 분야에 관한 것이다. 구체적으로 실현 방안은, 소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하는 단계 - 각각의 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함함 -; 각각의 트레이닝 코퍼스 쌍을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 양성 샘플 및 음성 샘플을 인식하는 능력을 학습하도록 하는 단계; 및 각각의 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하는 단계를 포함한다. 본 발명은 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 모델 구축을 실현하여, 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 향상시킬 수 있으며, 자연 언어 처리 모델의 기능을 풍부히 하여, 자연 언어 처리 모델의 실용성을 강화한다.

Description

자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체 {NATURAL LANGUAGE PROCESSING MODEL TRAINING METHOD, DEVICE, ELECTRIC EQUIPMENT AND STORAGE MEDIUM}

본 발명은 컴퓨터 기술 분야에 관한 것인 바, 특히 인공 지능에 기반한 자연 언어 처리 분야에 관한 것이다. 구체적으로는 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.

자연 언어 처리(Natural Language Processing; NLP) 태스크에 있어서, 대량의 지칭 관계 해결 태스크의 수요가 존재한다.

예를 들면, 독해에서는 각각의 대명사가 지칭하는 명사가 무엇인지를 알아야만 문장을 정확하고 전면적으로 이해할 수 있다. 기계 번역에서는, 터키 어의 대명사 중에서는 남자의 "그 이"와 여자의 "그 이"를 구분하지 않기에, 영어로 번역할 때 대명사의 뜻을 정확하게 해석할 수 없으므로, 기계 번역 효과에 대한 영향이 심각하다. 지칭 관계 해결 태스크(coreference resolution task, 또는 referential resolution task)에 대한 모델 구축을 더 잘 실행하여, 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 향상시키는 것은, 시급히 해결해야 할 기술적 문제로 되고 있다.

상기 문제를 해결하기 위하여, 본 발명은 자연 언어 처리 모델의 트레이닝, 장치, 전자 기기 및 기록 매체를 제공한다.

본 발명의 일 측면에 있어서, 자연 언어 처리 모델의 트레이닝 방법을 제공하는 바, 상기 방법은,

소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하는 단계 - 각각의 상기 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함함 -;

각 상기 트레이닝 코퍼스 쌍을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 상기 양성 샘플 및 상기 음성 샘플을 인식하는 능력을 학습하도록 하는 단계; 및

각 상기 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하는 단계를 포함한다.

본 발명의 다른 일 측면에 있어서, 자연 언어 처리 모델의 트레이닝 장치를 제공하는 바, 상기 장치는,

소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하기 위한 구축 모듈 - 각각의 상기 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함함 -;

각 상기 트레이닝 코퍼스 쌍을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 상기 양성 샘플 및 상기 음성 샘플을 인식하는 능력을 학습하도록 하기 위한 제1 트레이닝 모듈; 및

각 상기 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하기 위한 제2 트레이닝 모듈을 구비한다.

본 발명의 또 다른 일 측면에 있어서, 전자 기기를 제공하는 바, 상기 전자 기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어 상기 적어도 하나의 프로세서로 하여금 상기의 방법을 실행하도록 한다.

본 발명의 기타 측면에 있어서, 컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 제공하는 바,

상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기의 방법을 실행하도록 한다.

본 발명의 기술에 따르면, 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 모델 구축을 실현하여, 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 향상시킬 수 있으며, 자연 언어 처리 모델의 기능을 풍부히 하여, 자연 언어 처리 모델의 실용성을 강화한다.

여기에 설명된 내용은 본 발명의 실시예의 키 포인트 또는 중요한 특징을 나타냄을 의도하지 않으며, 본 발명의 범위를 한정하려는 것도 아님을 이해해야 한다. 본 발명의 기타 특징은 아래의 명세서를 통해 이해가 용이해질 것이다.

도면은 본 방안을 더 잘 이해하도록 하기 위한 것이며, 본 발명에 대한 한정을 이루지 않는다.
도 1은 본 발명에 따른 제1 실시예의 순서도이다.
도 2는 본 발명에 따른 제2 실시예의 순서도이다.
도 3은 본 실시예의 구축한 트레이닝 코퍼스 쌍의 예시도이다.
도 4는 본 실시예의 자연 언어 처리 모델의 사전 트레이닝의 모식도이다.
도 5는 본 발명에 따른 제3 실시예의 구성도이다.
도 6은 본 발명에 따른 제4 실시예의 구성도이다.
도 7은 본 발명은 실시예를 실현하기 위한 자연 언어 처리 모델의 트레이닝 방법의 전자 기기의 블럭도이다.

이하, 도면을 참조하여 본 발명의 시범적인 실시예를 설명하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 설명에서는 잘 알려진 기능 및 구조의 설명을 생략하였다.

도 1은 본 발명에 따른 제1 실시예의 순서도이다. 도 1에 나타낸 바와 같이, 본 실시예에 의해 제공되는 자연 언어 처리 모델의 트레이닝 방법은 구체적으로 아래의 단계를 포함할 수 있다.

S101, 소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍(training corpus pair)을 구축하되, 각각의 트레이닝 코퍼스 쌍은 양성 샘플(positive sample) 및 음성 샘플(negative sample)을 포함한다.

S102, 각각의 트레이닝 코퍼스 쌍을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 양성 샘플 및 음성 샘플을 인식하는 능력을 학습하도록 한다.

S103, 각각의 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크(referential resolution task)를 수행하는 능력을 학습하도록 한다.

본 실시예의 자연 언어 처리 모델의 트레이닝 방법의 수행 주체는 자연 언어 처리 모델의 트레이닝 장치이며, 상기 자연 언어 처리 모델의 트레이닝 장치는 물리적 전자 기기, 예를 들면 컴퓨터와 같은 디바이스일 수 있다. 또는 소프트웨어 통합을 채용하는 애플리케이션일 수도 있으며, 사용 시 컴퓨터 상에서 운행되어, 자연 언어 처리 모델에 대한 트레이닝을 구현한다.

본 실시예의 목적은 자연 언어 처리 모델을 트레이닝 하여 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행할 수 있도록 하는 것이다. 상기 지칭 관계 해결 태스크는, 구체적으로, 하나의 문장 내에 대명사가 존재하는 동시에, 또한 적어도 2개의 서로 다른 명사가 존재할 경우, 상기 대명사가 구체적으로 지칭하는 것이 문장 내의 어느 명사인지를 어떻게 인식하는가를 의미한다. 본 실시예의 자연 언어 처리 모델은 정보 엔티티 강화에 기반한 언어 표현(Enhanced Language Representation with Informative Entities; ERNIE) 모델을 이용하여 트레이닝 될 수 있다.

본 실시예에 있어서, 소정의 코퍼스 세트는 사전에 수집한 무수히 많은 코퍼스를 포함하는 집합이다. 상기 코퍼스 세트의 언어는 트레이닝 하려는 지칭 관계 해결 태스크를 수행하기 위한 자연 언어 처리 모델이 응용하는 언어일 수 있다. 예를 들면 영어, 중국어, 일본어, 터키어 등일 수 있으며, 각각의 언어에 대해 대응하는 자연 언어 처리 모델을 트레이닝 하여, 대응하는 지칭 관계 해결 태스크를 수행할 수 있다.

본 실시예에 있어서, 소정의 코퍼스 세트 중의 각각의 코퍼스에 기반하여, 하나의 지칭 관계 해결 태스크의 트레이닝 코퍼스 쌍을 구축할 수 있다. 본 실시예의 각각의 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함할 수 있다. 여기서 양성 샘플은 정확한 지칭 관계를 포함하고, 음성 샘플은 틀린 지칭 관계를 포함할 수 있다. 예를 들면 각각의 트레이닝 코퍼스 쌍은 하나의 양성 샘플 및 하나의 음성 샘플을 포함할 수도 있고, 하나의 양성 샘플 및 적어도 2개의 음성 샘플을 포함할 수 있으며, 구체적으로 음성 샘플의 수량은 대응하는 코퍼스 내의 명사의 수량에 의해 결정된다. 또는 각각의 트레이닝 코퍼스 쌍이 하나의 양성 샘플 및 하나의 음성 샘플만을 포함할 경우, 코퍼스 세트 중의 하나의 코퍼스에 기반하여, 복수의 트레이닝 코퍼스 쌍을 생성할 수도 있다. 예를 들면, 어느 하나의 코퍼스 S가 a, b, c 3개의 명사 및 하나의 대명사 it를 포함하고, 또한 대명사 it가 명사 c를 지칭하는 것을 이미 알 경우, 2개의 트레이닝 코퍼스 쌍을 생성할 수 있다. 첫 번째 트레이닝 코퍼스 쌍은 it가 c를 지칭하는 양성 샘플 S 및 it가 a를 지칭하는 음성 샘플 S를 포함할 수 있고; 두 번째 트레이닝 코퍼스 쌍은 it가 c를 지칭하는 양성 샘플 S 및 it가 b를 지칭하는 음성 샘플 S를 포함할 수 있다. 상기 방식에 따라, 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 무수히 많은 트레이닝 코퍼스 쌍을 구축할 수 있다.

본 실시예에 있어서, 자연 언어 처리 모델에 대한 트레이닝은 2개의 단계로 나뉘며, 제1 단계에서는 각각의 트레이닝 코퍼스 쌍을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 양성 샘플 및 음성 샘플을 인식하는 능력을 학습하도록 하는 바, 상기 단계의 트레이닝은 먼저 자연 언어 처리 모델로 하여금 양성 샘플 및 음성 샘플에 대한 인식을 학습하도록 하는 것이며, 어떠한 지칭 관계가 정확하고, 어떠한 지칭 관계가 틀린 지를 알게 한다. 상기 단계에서는, 대량의 트레이닝 코퍼스 쌍을 이용하여 상기 자연 언어 처리 모델이 상기 인식 능력을 갖도록 트레이닝 할 수 있다.

제1 단계의 학습을 통해 자연 언어 처리 모델은 이미 어떠한 지칭 관계가 정확하고, 어떠한 지칭 관계가 틀린 지를 인식할 수 있도록 조정되었다. 이어서, 제2 단계의 트레이닝에서, 점차적으로 심화시키는 방식에 따라 학습 난이도를 증가시켜, 각각의 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 함으로써, 즉 상기 언어 처리 모델로 하여금 문장 내의 대명사가 지칭하는 것이 문장 내의 어느 명사인지를 인식하는 능력을 학습할 수 있도록 함으로써, 지칭 관계 해결 태스크를 수행하는 능력을 실현한다. 상기 과정은 제1 단계의 학습의 기초 상에서, 자연 언어 처리 모델로 하여금 매개 변수를 미세 조정하여, 태스크가 있고 목적이 있는 학습을 실행하도록 함으로써, 지칭 관계 해결 태스크를 수행하는 능력을 습득하도록 한다. 본 실시예의 제1 단계의 학습에 있어서, 상기 자연 언어 처리 모델은 ERNIE 모델을 이용하여 사전 트레이닝(pre-training) 단계에서 모델 매개 변수에 대한 초기 조정을 완성할 수 있다. 제2 단계의 학습에 있어서, 제1 단계 트레이닝 하여 얻은 자연 언어 처리 모델을 이용하여, 계속하여 각각의 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 미세 조정(fine-tuning) 단계에서 모델의 매개 변수에 대한 궁극적인 조정을 실현함으로써, 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 한다.

본 실시예에서 트레이닝 하는 자연 언어 처리 모델은 지칭 관계 해결 태스크가 존재하는 임의의 시나리오에 사용될 수 있으며, 예를 들면, 독해에 사용되어 문장 내의 각각의 대명사의 정확한 지칭 관계를 이해하여, 전문을 철저히 이해하도록 지원한다.

본 실시예의 자연 언어 처리 모델의 트레이닝 방법에 따르면, 소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하되, 각각의 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함하고; 각각의 트레이닝 코퍼스 쌍을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 양성 샘플 및 음성 샘플을 인식하는 능력을 학습하도록 하며; 각각의 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 한다. 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 모델 구축을 실현하여, 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 향상시킬 수 있으며, 자연 언어 처리 모델의 기능을 풍부히 하여, 자연 언어 처리 모델의 실용성을 강화한다.

도 2는 본 발명에 따른 제2 실시예의 순서도이다. 본 실시예의 자연 언어 처리 모델의 트레이닝 방법은 상기 도 1에 나타낸 실시예의 기술 방안의 기초 상에서, 본 발명의 기술 방안을 더 상세하게 설명한다. 도 2에 나타낸 바와 같이, 본 실시예의 자연 언어 처리 모델의 트레이닝 방법은 구체적으로 아래의 단계를 포함할 수 있다.

S201에 있어서, 소정의 코퍼스 세트 중의 각각의 코퍼스에 대해 대응하는 코퍼스 중의 처음으로 나타난 것이 아닌 목표 명사(target noun)를 대명사로 교체하여, 트레이닝 코퍼스로 설정한다.

본 실시예에 있어서, 코퍼스 세트 중의 수집된 코퍼스는 모두 명사를 사용하는 바, 대명사의 코퍼스의 사용을 회피함으로써, 매우 편리하게 이러한 코퍼스에 기반하여 본 실시예의 지칭 관계 해결 태스크의 트레이닝 코퍼스 쌍을 구축할 수 있음을 설명할 필요가 있다. 구체적으로, 문장의 표현 특성에 따라, 문장 내의 대명사가 처음으로 나타난 것이 아닌 위치에 출현함으로써, 다른 하나의 이미 출현한 명사를 지칭할 수 있다. 따라서, 본 실시예에 있어서, 처음으로 나타난 것이 아닌 목표 명사를 대명사로 교체할 수 있다.

S202에 있어서, 트레이닝 코퍼스 중에서 기타 명사(other noun)를 취득한다.

S203에 있어서, 트레이닝 코퍼스 및 대명사가 목표 명사를 지칭하는 지칭 관계를 트레이닝 코퍼스 쌍의 양성 샘플로 설정한다.

S204에 있어서, 트레이닝 코퍼스 및 대명사가 기타 명사를 지칭하는 지칭 관계를 트레이닝 코퍼스 쌍의 음성 샘플로 설정하며; 합계 복수 개의 트레이닝 코퍼스 쌍을 얻을 수 있다.

상기 단계에서 목표 명사를 대명사를 이용하여 교체하였으므로, 상기 트레이닝 코퍼스 중에서 상기 대명사가 목표 명사를 지칭하는 지칭 관계는 정확한 지칭 관계인 바, 양성 샘플로 설정한다. 반면에, 대명사 지칭 트레이닝 코퍼스 중의 기타 명사의 지칭 관계는 틀린 지칭 관계인 바, 음성 샘플로 설정한다.

상기 단계 S201-S204는 상기 도 1에 나타낸 실시예의 단계 S101의 일종의 실현 방식이다. 상기 방식을 통해 무수히 많은 지칭 관계 해결 태스크의 트레이닝 코퍼스 쌍을 정확하고 효과적으로 구축할 수 있으며, 구축한 트레이닝 코퍼스 쌍에 기반하여, 자연 언어 처리 모델에 대해 양성 샘플 및 음성 샘플의 인식하는 능력을 학습시킬 수 있다.

예를 들면, 도 3은 본 실시예의 구축한 트레이닝 코퍼스 쌍의 예시도이다. 도 3에 나타낸 바와 같이, 코퍼스인 "The troph7 didn’t fit into the suitcase because the suitcase was too small"에 대해, 문장 내의 명사를 라벨링 할 수 있으며, 처음으로 나타난 것이 아닌 명사인 "the suitcase"를 대명사 "it"로 교체함으로써, 하나의 트레이닝 코퍼스를 얻을 수 있다. 이어서 상기 트레이닝 코퍼스에 기반하여 트레이닝 코퍼스 쌍의 양성 샘플 및 음성 샘플을 생성할 수 있다. 상기 과정으로부터 알 수 있듯이, 상기 "it"가 지칭하는 것은 "the suitcase"이므로, 양성 샘플 중에서 "it"가 "the suitcase"를 지칭하는 지칭 관계를 기록할 수 있으며, 반면에 음성 샘플 중에서 음성 샘플 자신이 틀린 샘플을 나타내므로, 상기 “it”가 상기 트레이닝 코퍼스 중의 "the suitcase" 이외의 기타 명사를 지칭하는 지칭 관계를 기록할 수 있다. 예를 들면, 본 실시예에 있어서, 상기 음성 샘플 중에서 상기 “it”가 "The troph7"를 지칭하는 지칭 관계를 기록할 수 있다.

S205에 있어서, 각각의 트레이닝 코퍼스 쌍을 자연 언어 처리 모델에 입력함으로써, 자연 언어 처리 모델로 하여금 양성 샘플 및 음성 샘플 중의 지칭 관계가 정확한지 여부를 각각 예측하는 능력을 학습하도록 한다.

구체적으로, 상기 단계는 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍의 생성을 완성한 후, 다중 태스크 학습의 방식을 채용하여 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 모델 구축 능력을 강화할 수 있는 것으로 이해할 수 있다. 예를 들면, 여기서 자연 언어 처리 모델을 하나의 이진 분류 태스크로 모델 구축을 실행하고, 생성한 각각의 트레이닝 코퍼스 쌍을 Sent [대명사] [Candidatepos] 및 Sent [대명사] [Candidateneg]를 자연 언어 처리 모델에 송신한다. 여기서 Candidatepos는 대명사가 정확한 명사를 지칭하는 것을 나타내고, Candidateneg는 대명사가 틀린 명사를 지칭하는 것을 나타낸다. 상기 트레이닝 과정에서 자연 언어 처리 모델의 최적화 목표는 Candidate가 상기 대명사에 의해 지칭된 명사인지 여부를 판단하는 것이며, 이러한 방식으로 지칭 관계 해결 태스크에 대한 초기 모델 구축을 실현한다.

예를 들면, 각각의 트레이닝 코퍼스 쌍을 자연 언어 처리 모델에 입력할 때, 트레이닝 코퍼스 및 양성 샘플 중의 지칭 관계를 하나의 데이터로 입력하며, 입력할 때 각각의 부분의 콘텐츠를 각각 하나의 세그먼트로 입력하는 바, 지칭 관계 중의 대명사 및 명사를 2개의 세그먼트로 분해할 수 있다. 마찬가지로, 트레이닝 코퍼스, 음성 샘플 중의 지칭 관계도 하나의 데이터로 입력할 수 있다. 예를 들면, 도 4는 본 실시예의 자연 언어 처리 모델의 사전 트레이닝의 모식도이다. 도 4에 나타낸 바와 같이, 트레이닝 할 때, 각각의 데이터를 입력할 때 앞에 시작 문자인 CLS를 추가하며, 각각의 세그먼트 사이를 SEP 문자를 이용하여 분할한다. 상기 과정의 트레이닝은 자연 언어 처리 모델로 하여금 양성 샘플 중의 정확한 지칭 관계 및 음성 샘플 중의 틀린 지칭 관계를 인식할 수 있도록 한다.

S206에 있어서, 예측이 정확한지 여부를 판단하며; 틀렸을 경우, 단계 S207을 수행하고; 정확할 경우, 단계 S208을 수행한다.

자연 언어 처리 모델은 예측할 때, 양성 샘플과 음성 샘플을 틀리게 인식할 가능성이 있는 바, 즉 양성 샘플 중의 지칭 관계를 틀린 것으로 인식하고, 인식 음성 샘플 중의 지칭 관계를 정확한 것으로 인식할 가능성이 있음을 설명할 필요가 있다. 이때 자연 언어 처리 모델의 예측이 틀렸다고 간주한다.

S207에 있어서, 자연 언어 처리 모델의 매개 변수를 조정함으로써, 자연 언어 처리 모델로 하여금 양성 샘플 및 음성 샘플 중의 지칭 관계를 정확하게 예측하는 방향을 향하도록 조정하도록 하며; 단계 S205로 돌아가서 다음의 하나의 트레이닝 코퍼스 쌍을 이용하여 계속하여 트레이닝을 실행한다.

S208에 있어서, 자연 언어 처리 모델이 연속적인 소정의 횟수의 트레이닝에서 예측한 정확도가 소정의 임계 값에 달했는지 여부를 판단하며, 도달하지 않았을 경우, 단계 S205로 돌아가서 다음의 하나의 트레이닝 코퍼스 쌍을 이용하여 계속하여 트레이닝을 실행하고; 도달했을 경우, 자연 언어 처리 모델의 초기 매개 변수를 결정하고; 단계 S209를 수행한다.

여기서 소정의 임계 값은 실제 수요에 따라 설정할 수 있는 바, 예를 들면 80%, 90% 또는 기타 백분비일 수 있다. 정확도가 상기 소정의 임계 값에 도달했을 경우, 상기 자연 언어 처리 모델이 사전 트레이닝 단계에서 이미 요구 사항을 기본적으로 충족시켰다고 간주할 수 있으며, 이 경우 사전 트레이닝 단계의 트레이닝을 종료할 수 있다.

상기 단계 S205-S208은 상기 도 1에 나타낸 실시예의 단계 S102의 일종의 실현 방식이다. 상기 과정은 사전 트레이닝(pre-training) 단계에서 실행되며, 초기 자연 언어 처리 모델의 매개 변수를 조정함으로써, 자연 언어 처리 모델로 하여금 양성 샘플과 음성 샘플을 인식하는 능력을 갖도록 한다.

S209에 있어서, 각각의 트레이닝 코퍼스 쌍의 양성 샘플의 트레이닝 코퍼스 중의 대명사를 마스킹 한다.

상기 단계는 구체적으로 상기 단계 S203에서 얻은 각각의 트레이닝 코퍼스 쌍의 양성 샘플의 트레이닝 코퍼스를 이용할 수 있다. 본 실시예에 있어서, 마스킹 할 때, 하나의 특수 문자를 이용하여 마스킹을 실행할 수 있는 바, OPT 문자를 이용하여 마스킹을 실행할 수 있다.

S210에 있어서, 대명사를 마스킹 한 후의 트레이닝 코퍼스를 자연 언어 처리 모델에 입력함으로써, 자연 언어 처리 모델로 하여금 대명사가 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률을 예측하도록 한다.

본 실시예에 있어서, 마스킹 한 후의 트레이닝 코퍼스를 자연 언어 처리 모델에 입력한 후, 상기 자연 언어 처리 모델을 이용하여 상기 트레이닝 코퍼스 중의 마스킹 된 대명사의 문맥 정보에 기반하여, 상기 대명사가 트레이닝 코퍼스 중의 기타 각각의 명사를 지칭하는 확률을 예측할 수 있다.

S211에 있어서, 자연 언어 처리 모델을 이용하여 대명사가 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률 및 양성 샘플 중의 라벨링 된 대명사가 지칭하는 목표 명사를 예측하여, 목표 손실 함수를 생성한다.

예를 들면, 본 실시예에 있어서, 목표 손실 함수를 생성하는 단계는 구체적으로 아래의 단계를 포함할 수 있다.

(a)양성 샘플 중의 라벨링 된 대명사가 지칭하는 목표 명사에 기반하여 자연 언어 처리 모델이 대명사가 목표 명사에 속하는 것으로 예측하는 확률을 취득한다.

여기의 목표 명사는 it가 정확한 명사를 지칭함을 나타낸다.

(b)자연 언어 처리 모델을 이용하여 대명사가 목표 명사에 속하는 확률을 예측하고, 제1 손실 함수를 구축한다.

(c)자연 언어 처리 모델을 이용하여 대명사가 목표 명사 이외의 기타 명사에 속하는 확률을 예측하고, 제2 손실 함수를 구축한다.

반면에, 기타 명사는 it가 틀리게 지칭한 명사이다. 구체적으로, 하나의 문장 내에 하나의 기타 명사가 존재할 가능성이 있으며, 2개 또는 복수의 기타 명사가 존재할 가능성도 있다.

(d)제1 손실 함수 및 제2 손실 함수에 기반하여 목표 손실 함수를 생성한다.

예를 들면, 상기 실시예의 "The troph7 didn’t fit into the suitcase because it was too small"의 경우, "it"가 "the suitcase"를 지칭하는 것이 양성 샘플인 예를 들면, 본 실시예에 있어서, "it"가 정확한 목표 명사를 지칭하는 것을 c₁로 기록하고, "it"가 틀린 기타 명사를 지칭하는 것을 c₂로 기록하며, 문장을 s로 표현하면, 자연 언어 처리 모델이 대명사가 목표 명사에 속하는 것으로 예측하는 확률은

로 나타낼 수 있으며, 상기 확률이 하나의 조건 확률이다. 마찬가지로, 자연 언어 처리 모델 대명사가 목표 명사 이외의 기타 명사에 속하는 것으로 예측하는 확률은

로 나타낼 수 있다. 실제 응용에 있어서, 하나의 문장 내에 기타 명사인 c₃, c₄가 등이 더 존재하면, 이와 대응하게

,

등이 존재할 수 있다.

이 경우, 이와 대응하게 제1 손실 함수는

로 나타낼 수 있다.

c₂와 같은 하나의 기타 명사만 존재하면, 이와 대응하게 제2 손실 함수는 아래와 같이 나타낼 수 있다.

여기서 alpha 및 beta는 하이퍼 파라미터인 바, 실제 수요에 따라 설정할 수 있다.

또한, 선택적으로, c₃, c₄ 등 기타 명사가 더 존재하면, 제2 손실 함수는 아래와 같이 나타낼 수 있다.

본 실시예의 목표 손실 함수는 직접 제1 손실 함수 Lossloss와 제2 손실 함수 Rankloss의 합으로 취해질 수 있으며, 즉

를 지칭 관계 해결 태스크의 최적화 목표로 설정할 수 있다. 이렇게 모델의 후보 항목 예측의 정확성을 유지하는 동시에, 모델로 하여금 서로 다른 후보 항목 사이의 차이에 주의를 기울이도록 한다.

또는 실제 응용에 있어서 목표 손실 함수는 2개의 손실 함수의 선형 또는 비선형의 중첩으로 취해지거나, 또는 기타 수학 방식을 채용하여 조합될 수 있다.

S212에 있어서, 목표 손실 함수가 수렴되었는지 여부를 판단하며; 수렴되지 않았을 경우, 단계 S213을 수행하고; 수렴되었을 경우, 단계 S214를 수행한다.

S213에 있어서, 경사 하강 법을 통해 자연 언어 처리 모델의 매개 변수를 조정함으로써, 단계 S209로 돌아가서 다음의 하나의 트레이닝 코퍼스 쌍의 양성 샘플의 트레이닝 코퍼스를 이용하여 계속하여 트레이닝을 실행한다.

S214에 있어서, 연속적인 소정의 횟수의 트레이닝에서 줄곧 수렴되었는지 여부를 판단하며, 줄곧 수렴되었을 경우, 트레이닝 종료하고, 자연 언어 처리 모델의 매개 변수를 결정하며, 또한 자연 언어 처리 모델을 결정하여, 종료되며; 줄곧 수렴되지 않았을 경우, 단계 S209로 돌아가서 다음의 하나의 트레이닝 코퍼스 쌍의 양성 샘플의 트레이닝 코퍼스를 이용하여 계속하여 트레이닝을 실행한다.

본 실시예의 연속적인 소정의 횟수는 연속적인 100회, 200회일 수 있으며, 또는 실제 수요에 따라 설정한 기타 수량의 횟수일 수도 있다.

본 실시예의 단계 S209-S215는 상기 도 1에 나타낸 실시예의 단계 S103의 일종의 실현 방식이다. 상기 과정은 미세 조정(fine-tuning) 단계의 트레이닝 단계에서 실행되며, 초기 조정한 자연 언어 처리 모델의 매개 변수에 기반하여, 계속하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 한다.

본 실시예의 자연 언어 처리 모델의 트레이닝 방법, 대량의 비지도(unsupervised) 코퍼스를 이용하여 반지도(semi-supervised)의 지칭 관계 해결 태스크의 트레이닝 코퍼스 쌍을 생성함으로써, 모델의 지칭 관계 해결 태스크에 대한 모델 구축 능력을 효과적으로 향상시킬 수 있다. 또한, 본 실시예에 있어서, 제1 손실 함수 및 제2 손실 함수에 기반하여 생성한 목표 손실 함수를 이용하여 지칭 관계 해결 태스크에 대해 모델 구축을 실행함으로써, 모델로 하여금 대명사가 지칭하는 것이 어느 정확한 목표 명사인지를 예측하도록 하는 동시에, 서로 다른 기타 명사 사이의 차이점에도 주의를 기울이도록 한다. 따라서 모델로 하여금 지칭 관계 해결 태스크에 대해 모델 구축을 더 잘 실행하도록 하며, 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 효과적으로 향상시키고, 또한 자연 언어 처리 모델의 기능을 효과적으로 풍부히 할 수 있으며, 자연 언어 처리 모델의 실용성을 강화한다.

도 5는 본 발명에 따른 제3 실시예의 구성도이다. 도 5에 나타낸 바와 같이, 본 실시예에 의해 제공되는 자연 언어 처리 모델의 트레이닝 장치(500)는,

소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하기 위한 구축 모듈(501) - 각각의 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함함 -;

각 트레이닝 코퍼스 쌍을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 양성 샘플 및 음성 샘플을 인식하는 능력을 학습하도록 하기 위한 제1 트레이닝 모듈(502) ; 및

각 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하기 위한 제2 트레이닝 모듈(503)을 구비한다.

본 실시예의 자연 언어 처리 모델의 트레이닝 장치(500)가 상기 모듈을 이용하여 실현하는 자연 언어 처리 모델의 트레이닝의 실현 원리 및 기술 효과는 상기 관련 방법 실시예의 실현과 동일하므로, 상세한 내용은 상기 관련 방법 실시예의 기재를 참고할 수 있는 바, 여기서 반복적으로 설명하지 않는다.

도 6은 본 발명에 따른 제4 실시예의 구성도이다. 도 6에 나타낸 바와 같이, 본 실시예의 자연 언어 처리 모델의 트레이닝 장치(500)는 상기 도 5에 나타낸 실시예의 기술 방법의 기초 상에서 본 발명의 기술 방안을 더 상세히 설명한다.

도 6에 나타낸 바와 같이, 본 실시예의 자연 언어 처리 모델의 트레이닝 장치(500)에 있어서, 구축 모듈(501)은,

소정의 코퍼스 세트 중의 각각의 코퍼스에 대해 대응하는 코퍼스 중의 처음으로 나타난 것이 아닌 목표 명사를 대명사로 교체하여, 트레이닝 코퍼스로 설정하기 위한 교체 유닛(5011);

트레이닝 코퍼스 중에서 기타 명사를 취득하기 위한 취득 유닛(5012); 및

트레이닝 코퍼스 및 대명사가 목표 명사를 지칭하는 지칭 관계를 트레이닝 코퍼스 쌍의 양성 샘플로 설정하기 위한 설정 유닛(5013)을 구비하며,

설정 유닛(5013)은 또한 트레이닝 코퍼스 및 대명사가 기타 명사를 지칭하는 지칭 관계를 트레이닝 코퍼스 쌍의 음성 샘플로 설정한다.

또한 선택적으로, 도 6에 나타낸 바와 같이, 본 실시예의 자연 언어 처리 모델의 트레이닝 장치(500)에 있어서, 제1 트레이닝 모듈(502)은,

각 트레이닝 코퍼스 쌍을 자연 언어 처리 모델에 입력함으로써, 자연 언어 처리 모델로 하여금 양성 샘플 및 음성 샘플 중의 지칭 관계가 정확한지 여부를 각각 예측하는 능력을 학습하도록 하기 위한 제1 예측 유닛(5021); 및

예측이 틀렸을 경우, 자연 언어 처리 모델의 매개 변수를 조정함으로써, 자연 언어 처리 모델로 하여금 양성 샘플 및 음성 샘플 중의 지칭 관계를 정확하게 예측하는 방향을 향하도록 조정하도록 하기 위한 제1 조정 유닛(5022)을 구비한다.

또한 선택적으로, 도 6에 나타낸 바와 같이, 본 실시예의 자연 언어 처리 모델의 트레이닝 장치(500)에 있어서, 제2 트레이닝 모듈(503)은,

각 트레이닝 코퍼스 쌍의 양성 샘플의 트레이닝 코퍼스 중의 대명사를 마스킹 하기 위한 마스킹 유닛(5031);

대명사를 마스킹 한 후의 트레이닝 코퍼스를 자연 언어 처리 모델에 입력함으로써, 자연 언어 처리 모델로 하여금 대명사가 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률을 예측하도록 하기 위한 제2 예측 유닛(5032);

자연 언어 처리 모델을 이용하여 대명사가 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률 및 양성 샘플 중의 라벨링 된 대명사가 지칭하는 목표 명사를 예측하여, 목표 손실 함수를 생성하기 위한 생성 유닛(5033);

목표 손실 함수가 수렴되었는지 여부를 판단하기 위한 검출 유닛(5034); 및

수렴되지 않았을 경우, 경사 하강 법(gradient descent method)을 통해 자연 언어 처리 모델의 매개 변수를 조정하기 위한 제2 조정 유닛(5035)을 구비한다.

또한 선택적으로, 생성 유닛(5033)은,

양성 샘플 중의 라벨링 된 대명사가 지칭하는 목표 명사에 기반하여 자연 언어 처리 모델이 대명사가 목표 명사에 속하는 것으로 예측하는 확률을 취득하며;

자연 언어 처리 모델을 이용하여 대명사가 목표 명사에 속하는 확률을 예측하고, 제1 손실 함수를 구축하고;

자연 언어 처리 모델을 이용하여 대명사가 목표 명사 이외의 기타 명사에 속하는 확률을 예측하고, 제2 손실 함수를 구축하며;

제1 손실 함수 및 제2 손실 함수에 기반하여 목표 손실 함수를 생성한다.

본 발명의 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능 기록 매체를 더 제공한다.

도 7은 본 발명에 따른 실시예의 자연 언어 처리 모델의 트레이닝 방법을 실현하는 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 설명하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다.

도 7에 나타낸 바와 같이, 상기 전자 기기는 하나 또는 복수의 프로세서(701), 메모리(702) 및 각각의 구성 요소를 연결하기 위한 인터페이스를 구비하며, 상기 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치(예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 7에서는 하나의 프로세서(701)의 예를 들었다.

메모리(702)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기억 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 자연 언어 처리 모델의 트레이닝 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기억 매체는 컴퓨터 명령을 기억하며, 상기 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 자연 언어 처리 모델의 트레이닝 방법을 수행하도록 한다.

메모리(702)는 일종의 비 일시적 컴퓨터 판독 가능 기억 매체로서, 비 일시적 소프트웨어 프로그램을 기억하는데 사용될 수 있는 바, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예 중의 자연 언어 처리 모델의 트레이닝 방법 대응하는 프로그램 명령/모듈 (예를 들면, 도 5 및 도 6에 나타낸 관련 모듈)을 기억하는데 사용될 수 있다. 프로세서(701)는 메모리(702) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예 중의 자연 언어 처리 모델의 트레이닝 방법을 실현한다.

메모리(702)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 자연 언어 처리 모델의 트레이닝 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(702)는 선택적으로 프로세서(701)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 자연 언어 처리 모델의 트레이닝 방법을 실현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

자연 언어 처리 모델의 트레이닝 방법을 실현하는 전자 기기는 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 7에서는 버스를 통해 연결하는 예를 들었다.

입력 장치(703)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 자연 언어 처리 모델의 트레이닝 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(704)는 디스플레이 기기, 보조 조명 장치(예를 들면 LED) 및 촉각 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실례는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 상기 기억 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 계산 프로그램 (프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 (예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 상기 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 (예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 상기 키보드 및 상기 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 (예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.

여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템(예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템(예를 들면 응용 서버), 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템(예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 상기 그래픽 유저 인터페이스 또는 상기 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 (예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.

본 발명의 실시예의 기술 방안에 따르면, 소정의 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하되, 각각의 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함하고; 각각의 트레이닝 코퍼스 쌍을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 양성 샘플 및 음성 샘플을 인식하는 능력을 학습하도록 하며; 각각의 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 한다. 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 모델 구축을 실현하여, 자연 언어 처리 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 향상시킬 수 있으며, 자연 언어 처리 모델의 기능을 풍부히 하여, 자연 언어 처리 모델의 실용성을 강화한다.

본 발명의 실시예의 기술 방안에 따르면, 대량의 비지도 코퍼스를 이용하여 반지도의 지칭 관계 해결 태스크의 트레이닝 코퍼스 쌍을 생성함으로써, 모델의 지칭 관계 해결 태스크에 대한 모델 구축 능력을 효과적으로 향상시킬 수 있다. 또한, 본 실시예에 있어서, 제1 손실 함수 및 제2 손실 함수에 기반하여 생성한 목표 손실 함수를 이용하여 지칭 관계 해결 태스크에 대해 모델 구축을 실행함으로써, 모델로 하여금 대명사가 지칭하는 것이 어느 정확한 목표 명사인지를 예측하도록 하는 동시에, 서로 다른 기타 명사 사이의 차이점에도 주의를 기울이도록 한다. 따라서 모델로 하여금 지칭 관계 해결 태스크에 대해 모델 구축을 더 잘 실행하도록 하며, 모델의 지칭 관계 해결 태스크에 대한 처리 능력을 효과적으로 향상시키고, 또한 자연 언어 처리 모델의 기능을 효과적으로 풍부히 할 수 있으며, 자연 언어 처리 모델의 실용성을 강화한다.

상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정열, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각각의 단계는 병열로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

자연 언어 처리 모델의 트레이닝 방법에 있어서,
미리 설정된 코퍼스 세트에 기반하여 지칭 관계 해결 태스크(coreference resolution task)의 각각의 트레이닝 코퍼스 쌍(training corpus pair)을 구축하는 단계 - 각각의 상기 트레이닝 코퍼스 쌍은 양성 샘플(positive sample) 및 음성 샘플(negative sample)을 포함함 -;
각각의 상기 트레이닝 코퍼스 쌍을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 상기 양성 샘플 및 상기 음성 샘플을 인식하는 능력을 학습하도록 하는 단계; 및
각각의 상기 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하는 단계;
를 포함하는,
자연 언어 처리 모델의 트레이닝 방법.
제1항에 있어서,
상기 미리 설정된 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하는 단계는,
상기 미리 설정된 코퍼스 세트 중의 각각의 코퍼스에 대해, 대응하는 상기 코퍼스 중의 처음으로 나타난 것이 아닌 목표 명사(target noun)를 대명사로 교체하여, 트레이닝 코퍼스로 설정하는 단계;
상기 트레이닝 코퍼스 중에서 기타 명사(other noun)를 취득하는 단계;
상기 트레이닝 코퍼스 및 상기 대명사가 상기 목표 명사를 지칭하는 지칭 관계(referential relationship)를 상기 트레이닝 코퍼스 쌍의 양성 샘플로 설정하는 단계; 및
상기 트레이닝 코퍼스 및 상기 대명사가 상기 기타 명사를 지칭하는 지칭 관계를 상기 트레이닝 코퍼스 쌍의 음성 샘플로 설정하는 단계;
를 포함하는,
자연 언어 처리 모델의 트레이닝 방법.
제1항 또는 제2항에 있어서,
각각의 상기 트레이닝 코퍼스 쌍을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 상기 양성 샘플 및 상기 음성 샘플을 인식하는 능력을 학습하도록 하는 단계는,
각각의 상기 트레이닝 코퍼스 쌍을 상기 자연 언어 처리 모델에 입력함으로써, 상기 자연 언어 처리 모델로 하여금 상기 양성 샘플 및 상기 음성 샘플 중의 지칭 관계가 정확한지 여부를 각각 예측하는 능력을 학습하도록 하는 단계; 및
예측이 틀렸을 경우, 상기 자연 언어 처리 모델의 매개 변수를 조정함으로써, 상기 자연 언어 처리 모델로 하여금 상기 양성 샘플 및 상기 음성 샘플 중의 지칭 관계를 정확하게 예측하는 방향을 향해 조정하도록 하는 단계;
를 포함하는,
자연 언어 처리 모델의 트레이닝 방법.
제1항 또는 제2항에 있어서,
각각의 상기 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하는 단계는,
각각의 상기 트레이닝 코퍼스 쌍의 상기 양성 샘플의 트레이닝 코퍼스 중의 대명사를 마스킹 하는 단계;
상기 대명사를 마스킹 한 후의 상기 트레이닝 코퍼스를 상기 자연 언어 처리 모델에 입력함으로써, 상기 자연 언어 처리 모델로 하여금 상기 대명사가 상기 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률을 예측하도록 하는 단계;
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률 및 상기 양성 샘플 중의 라벨링 된 상기 대명사가 지칭하는 목표 명사를 예측하여, 목표 손실 함수를 생성하는 단계;
상기 목표 손실 함수가 수렴되었는지 여부를 판단하는 단계; 및
수렴되지 않았을 경우, 경사 하강 법을 통해 상기 자연 언어 처리 모델의 매개 변수를 조정하는 단계;
를 포함하는,
자연 언어 처리 모델의 트레이닝 방법.
제4항에 있어서,
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률 및 상기 양성 샘플 중의 라벨링 된 상기 대명사가 지칭하는 목표 명사를 예측하여, 목표 손실 함수를 생성하는 단계는,
상기 양성 샘플 중의 라벨링 된 상기 대명사가 지칭하는 목표 명사에 기반하여, 상기 자연 언어 처리 모델이 상기 대명사가 상기 목표 명사에 속하는 것으로 예측하는 확률을 취득하는 단계;
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 목표 명사에 속하는 확률을 예측하여, 제1 손실 함수를 구축하는 단계;
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 목표 명사 이외의 기타 명사에 속하는 확률을 예측하여, 제2 손실 함수를 구축하는 단계; 및
상기 제1 손실 함수 및 상기 제2 손실 함수에 기반하여 상기 목표 손실 함수를 생성하는 단계;
를 포함하는,
자연 언어 처리 모델의 트레이닝 방법.
자연 언어 처리 모델의 트레이닝 장치에 있어서,
미리 설정된 코퍼스 세트에 기반하여 지칭 관계 해결 태스크의 각각의 트레이닝 코퍼스 쌍을 구축하기 위한 구축 모듈 - 각각의 상기 트레이닝 코퍼스 쌍은 양성 샘플 및 음성 샘플을 포함함 -;
각각의 상기 트레이닝 코퍼스 쌍을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 대응하는 상기 양성 샘플 및 상기 음성 샘플을 인식하는 능력을 학습하도록 하기 위한 제1 트레이닝 모듈; 및
각각의 상기 트레이닝 코퍼스 쌍의 양성 샘플을 이용하여 상기 자연 언어 처리 모델을 트레이닝 함으로써, 상기 자연 언어 처리 모델로 하여금 지칭 관계 해결 태스크를 수행하는 능력을 학습하도록 하기 위한 제2 트레이닝 모듈;
을 구비하는,
자연 언어 처리 모델의 트레이닝 장치.
제6항에 있어서,
상기 구축 모듈은,
상기 미리 설정된 코퍼스 세트 중의 각각의 코퍼스에 대해, 대응하는 상기 코퍼스 중의 처음으로 나타난 것이 아닌 목표 명사를 대명사로 교체하여, 트레이닝 코퍼스로 설정하기 위한 교체 유닛;
상기 트레이닝 코퍼스 중에서 기타 명사를 취득하기 위한 취득 유닛; 및
상기 트레이닝 코퍼스 및 상기 대명사가 상기 목표 명사를 지칭하는 지칭 관계를 상기 트레이닝 코퍼스 쌍의 양성 샘플로 설정하기 위한 설정 유닛;
을 구비하며,
상기 설정 유닛은 또한 상기 트레이닝 코퍼스 및 상기 대명사가 상기 기타 명사를 지칭하는 지칭 관계를 상기 트레이닝 코퍼스 쌍의 음성 샘플로 설정하는,
자연 언어 처리 모델의 트레이닝 장치.
제6항 또는 제7항에 있어서,
상기 제1 트레이닝 모듈은,
각각의 상기 트레이닝 코퍼스 쌍을 상기 자연 언어 처리 모델에 입력함으로써, 상기 자연 언어 처리 모델로 하여금 상기 양성 샘플 및 상기 음성 샘플 중의 지칭 관계가 정확한지 여부를 각각 예측하는 능력을 학습하도록 하기 위한 제1 예측 유닛; 및
예측이 틀렸을 경우, 상기 자연 언어 처리 모델의 매개 변수를 조정함으로써, 상기 자연 언어 처리 모델로 하여금 상기 양성 샘플 및 상기 음성 샘플 중의 지칭 관계를 정확하게 예측하는 방향을 향해 조정하도록 하기 위한 제1 조정 유닛;
을 구비하는,
자연 언어 처리 모델의 트레이닝 장치.
제6항 또는 제7항에 있어서,
상기 제2 트레이닝 모듈은,
각각의 상기 트레이닝 코퍼스 쌍의 상기 양성 샘플의 트레이닝 코퍼스 중의 대명사를 마스킹 하기 위한 마스킹 유닛;
상기 대명사를 마스킹 한 후의 상기 트레이닝 코퍼스를 상기 자연 언어 처리 모델에 입력함으로써, 상기 자연 언어 처리 모델로 하여금 상기 대명사가 상기 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률을 예측하도록 하기 위한 제2 예측 유닛;
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 트레이닝 코퍼스 중의 각각의 명사에 속하는 확률 및 상기 양성 샘플 중의 라벨링 된 상기 대명사가 지칭하는 목표 명사를 예측하여, 목표 손실 함수를 생성하기 위한 생성 유닛;
상기 목표 손실 함수가 수렴되었는지 여부를 판단하기 위한 검출 유닛; 및
수렴되지 않았을 경우, 경사 하강 법을 통해 상기 자연 언어 처리 모델의 매개 변수를 조정하기 위한 제2 조정 유닛;
을 구비하는,
자연 언어 처리 모델의 트레이닝 장치.
제9항에 있어서,
상기 생성 유닛은,
상기 양성 샘플 중의 라벨링 된 상기 대명사가 지칭하는 목표 명사에 기반하여, 상기 자연 언어 처리 모델이 상기 대명사가 상기 목표 명사에 속하는 것으로 예측하는 확률을 취득하고;
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 목표 명사에 속하는 확률을 예측하여, 제1 손실 함수를 구축하며;
상기 자연 언어 처리 모델을 이용하여 상기 대명사가 상기 목표 명사 이외의 기타 명사에 속하는 확률을 예측하여, 제2 손실 함수를 구축하고;
상기 제1 손실 함수 및 상기 제2 손실 함수에 기반하여 상기 목표 손실 함수를 생성하는,
자연 언어 처리 모델의 트레이닝 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
전자 기기.
컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
기록 매체.
비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 프로그램에 있어서,
상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 프로그램.