KR102330061B1

KR102330061B1 - 자연 언어 처리 방법, 장치, 기기 및 컴퓨터 판독 가능 저장매체

Info

Publication number: KR102330061B1
Application number: KR1020197035003A
Authority: KR
Inventors: 주앙 치안
Original assignee: 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2019-07-29
Filing date: 2019-10-12
Publication date: 2021-11-26
Also published as: US20210034966A1; CN110413756B; WO2021017173A1; CN110413756A; US11501078B2; EP3772012A1; KR20210016262A; JP7101706B2; RU2726739C1; JP2021535411A

Abstract

본 발명의 실시예는 인간-기계 대화 시스템의 대화 로봇에 응용되는 자연 언어 처리 방법, 장치 및 기기에 관한 것이고, 상기 자연 언어 처리 방법은 사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계; 상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 단계; 및 상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행하는 단계를 포함한다.

Description

자연 언어 처리 방법, 장치, 기기 및 컴퓨터 판독 가능 저장매체

본원 발명은 출원번호가 CN 201910687763.0이고 출원일이 2019년 7월 29일인 중국 특허 출원에 기반하여 제출하였고 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 본원 발명에 원용된다.

본 발명의 실시예는 인간-기계 대화 기술 분야에 관한 것으로, 특히 자연 언어 처리 방법, 장치 및 기기에 관한 것이다.

자연 언어 처리는 언어학, 컴퓨터 과학, 수학이 융합된 과학으로서 사람과 컴퓨터 사이에서 자연 언어를 사용하여 효과적인 통신을 진행하는 것을 실현하는 이론 및 방법을 연구한다. 자연 언어 처리에서 시퀀스 레이블링 모델은 흔히 사용되는 모델로서 텍스트 처리 등 관련 분야에 광범위하게 적용되고 있다.

현재 시퀀스 레이블링 문제를 해결하기 위해 흔히 사용하는 방법은 은닉 마르코프 모델(HMM), 조건부 랜덤 필드(CRFs) 및 순환 신경망(RNNs)을 포함하는데, 상기 모델은 모두 모델 능력이 제한되고 자가 학습이 불가능한 문제가 존재한다.

관련 기술에 존재하는 문제를 해결하기 위해, 본 발명의 실시예는 자연 언어 처리 방법, 장치 및 기기를 제공한다.

본 발명의 실시예의 제1 양태에 따르면, 인간-기계 대화 시스템의 대화 로봇에 응용되는 자연 언어 처리 방법을 제공하고, 상기 자연 언어 처리 방법은,

사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계;

상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 단계; 및

상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행하는 단계를 포함한다.

선택적으로, 상기 인간-기계 대화 시스템은 중앙 제어 모듈을 더 포함하고,

사용하는 상기 BiLSTM-CRF 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계이후에, 상기 자연 언어 처리 방법은,

상기 대화 로봇이 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 상기 중앙 제어 모듈에 출력하는 단계;

상기 중앙 제어 모듈이 수신된 상기 대화 데이터에 대한 슬롯 인식 결과 집합으로부터 결정한 타겟 슬롯 인식 결과를 획득하는 단계를 더 포함하고,

상기 슬롯 인식 결과 집합은 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과 및 다른 대화 로봇이 출력한 슬롯 인식 결과를 포함하며, 상기 타겟 슬롯 인식 결과를 상기 인간-기계 대화 시스템이 사용자에 대한 답변 결과로 출력한다.

선택적으로, 상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 단계는,

상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 불일치한 것에 응답하여, 상기 불일치한 피드백 정보를 음의 피드백 정보로 결정하는 단계; 및

상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 일치한 것에 응답하여, 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정하는 단계를 포함한다.

선택적으로, 상기 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정하는 단계는,

사용자의 순방향 피드백률이 기설정 임계값보다 크거나 같은 것에 응답하여, 상기 피드백 정보를 양의 피드백 정보로 결정하는 단계; 및

상기 순방향 피드백률이 기설정 임계값보다 작은 것에 응답하여, 상기 피드백 정보를 음의 피드백 정보로 결정하는 단계를 포함하고,

상기 순방향 피드백률은 소정 시간 내에 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 결정한 것이다.

선택적으로, 상기 피드백 정보에 따라 모델 강화 학습을 진행하는 단계는,

상기 피드백 정보를 상기 BiLSTM-CRF 모델 중의 CRF 계층에 피드백하여, 상기 CRF 계층에 의해 상기 피드백 정보에 따라 모델 강화 트레이닝을 진행하는 단계를 포함한다.

본 발명의 실시예의 제2 양태에 따르면, 인간-기계 대화 시스템의 대화 로봇에 응용되는 자연 언어 처리 장치를 제공하고, 상기 자연 언어 처리 장치는,

사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 슬롯 인식 결과 결정 모듈;

상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 피드백 정보 결정 모듈; 및

상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행하는 모델 강화 학습 모듈을 포함한다.

상기 자연 언어 처리 장치는,

상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 상기 중앙 제어 모듈에 출력하는 슬롯 인식 결과 출력 모듈; 및

상기 중앙 제어 모듈이 수신된 상기 대화 데이터에 대한 슬롯 인식 결과 집합으로부터 결정한 타겟 슬롯 인식 결과를 획득하는 타겟 슬롯 인식 결과 결정 모듈을 더 포함하며,

상기 슬롯 인식 결과 집합은 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과 및 다른 대화 로봇이 출력한 슬롯 인식 결과를 포함하고, 상기 타겟 슬롯 인식 결과를 상기 인간-기계 대화 시스템이 사용자에 대한 답변 결과로 출력한다.

선택적으로, 상기 피드백 정보 결정 모듈은,

상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 불일치한 것에 응답하여, 상기 불일치한 피드백 정보를 음의 피드백 정보로 결정하는 제1 피드백 정보 결정 서브 모듈; 및

상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 일치한 것에 응답하여, 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정하는 제2 피드백 정보 결정 서브 모듈을 포함한다.

선택적으로, 상기 제2 피드백 정보 결정 서브 모듈은 구체적으로,

사용자의 순방향 피드백률이 기설정 임계값보다 크거나 같은 것에 응답하여, 상기 피드백 정보를 양의 피드백 정보로 결정하고;

상기 순방향 피드백률이 기설정 임계값보다 작은 것에 응답하여, 상기 피드백 정보를 음의 피드백 정보로 결정하며,

선택적으로, 상기 모델 강화 학습 모듈은 구체적으로,

상기 피드백 정보를 상기 BiLSTM-CRF 모델 중의 CRF 계층에 피드백하여, 상기 CRF 계층에 의해 상기 피드백 정보에 따라 모델 강화 트레이닝을 진행한다.

본 발명의 실시예의 제3 양태에 따르면, 대화 로봇을 포함하는 인간-기계 대화 기기를 제공하고, 상기 인간-기계 대화 기기는,

프로세서;

프로세서에 의해 실행 가능한 명령어가 저장된 메모리를 포함하고,

상기 프로세서는,

사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하고;

상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하며;

상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행한다.

본 발명의 실시예의 제4 양태에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 저장매체를 제공하고, 상기 프로그램이 프로세서에 의해 실행될 경우 상기 자연 언어 처리 방법의 단계를 수행한다.

본 발명의 실시예가 제공하는 기술적 해결수단은 하기와 같은 유리한 효과를 포함할 수 있다.

본 발명의 실시예에서, BiLSTM-CRF 모델을 기본 프레임으로 하여 BiLSTM-CRF 모델이 외부에 슬롯 인식 결과를 출력한 후 대화 로봇이 상기 슬롯 인식 결과에 따라 대응되는 피드백 정보를 획득하고, 상기 피드백 정보에 따라 BiLSTM-CRF 모델에 대해 강화 학습을 진행하여 모델의 동적인 자가 학습을 실현함으로써 인위적인 레이블링 과정을 감소하고 슬롯 인식 효율 및 정확성을 향상시킨다.

상술한 일반적인 설명 및 후술하는 구체적인 설명은 모두 예시적이고 해석적인 것일 뿐 본 발명을 한정하기 위한 것이 아니다.

아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 원리를 해석하기 위한 것이다.
도 1은 본 발명의 일 예시적 실시예에 따라 도시한 자연 언어 처리 방법 실시예의 단계 흐름도이다.
도 2는 본 발명의 일 예시적 실시예에 따라 도시한 다른 자연 언어 처리 방법 실시예의 단계 흐름도이다.
도 3은 본 발명의 일 예시적 실시예에 따라 도시한 BiLSTM-CRF 모델 모식도이다.
도 4는 본 발명의 일 예시적 실시예에 따라 도시한 자연 언어 처리 장치 실시예의 블록도이다.
도 5는 본 발명의 일 예시적 실시예에 따라 도시한 인간-기계 대화 기기의 블록도이다.

여기서 예시적인 실시예를 상세하게 설명하고, 그 예시는 도면에 도시된다. 아래 도면에 관한 설명에서, 다르게 설명하지 않는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 표시한다. 아래 예시적인 실시예에서 설명되는 실시 형태는 본 발명과 일치한 모든 실시 형태를 대표하지 않는다. 반대로, 이들은 단지 첨부된 특허 청구 범위에 상세하게 설명된 본 발명의 일부 양태와 일치한 장치와 방법의 예일 뿐이다.

본 발명의 실시예에서 사용하는 용어는 특정 실시예를 설명하기 위해 사용된 것으로, 문맥상 다른 의미를 명확하게 나타내지 않는 한, 본 발명의 실시예를 한정하려는 것은 아니다. 본 발명의 실시예 및 첨부된 특허 청구 범위에서 사용되는 단수 형식의 "일종", "상기" 및 "당해"는 복수 형식도 포함한다. 본 발명에 사용되는 용어 "및/또는"은 하나 또는 복수의 관련된 나열 항목의 임의의 또는 모든 가능한 조합을 가리키고 포함하는 것으로 이해되어야 한다.

본 발명의 실시예에서 제1, 제2, 제3 등의 용어를 사용하여 다양한 정보를 설명할 수 있지만, 이러한 정보는 상기 용어에 한정되지 않는다는 것을 이해해야 한다. 상기 용어는 동일 타입의 정보를 서로 구별하기 위해서만 사용된다. 예를 들어, 본 발명의 실시예의 범위를 벗어나지 않는 조건에서, 제1 정보를 제2 정보로 지칭할 수도 있고, 유사하게, 제2 정보를 제1 정보로 지칭할 수도 있다. 문맥에 따라, 본 발명에 사용되는 단어 "만약"은 "...일 때" 또는 "..일 경우" 또는 "... 결정에 응답하여"라고 해석될 수 있다.

도 1을 참조하면, 도 1은 본 발명의 일 예시적 실시예에 따라 도시한 자연 언어 처리 방법 실시예의 단계 흐름도이다. 본 발명의 실시예의 방법은 인간-기계 대화 시스템의 대화 로봇에 응용될 수 있고, 구체적으로 아래 단계를 포함할 수 있다.

단계101에 있어서, 사용하는 BiLSTM-CRF 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정한다.

상기 단계에서, 본 대화 로봇이 사용자가 입력한 대화 데이터를 수신할 경우, 양방향 장단기 메모리 네트워크 알고리즘(Bi-directional Long Short-Term Memory, BiLSTM)-조건부 랜덤 필드 알고리즘(Conditional Random Field algorithm, CRF) 모델을 사용하여 상기 대화 데이터에 대해 슬롯 인식을 진행하고, BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 획득할 수 있다. 여기서, 슬롯 인식은 시퀀스 레이블링 문제를 해결하는 시퀀스 레이블링 서비스로 이해할 수 있다.

단계102에 있어서, 상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정한다.

상기 단계에서, 대화 로봇이 슬롯 인식 결과를 획득한 후, 상기 슬롯 인식 결과의 피드백 정보를 추가로 결정할 수 있고, 예시적으로, 상기 피드백 정보는 사용자가 상기 슬롯 인식 결과에 대한 피드백을 포함할 수 있다.

단계103에 있어서, 상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행한다.

상기 단계에서, 대화 로봇은 획득한 상기 슬롯 인식 결과의 피드백 정보에 따라, BiLSTM-CRF 모델에 대해 강화 학습을 진행하여 모델의 동적인 자가 학습을 실현함으로써 인위적인 레이블링 과정을 감소하고 슬롯 인식 효율 및 정확성을 향상시킨다.

도 2를 참조하면 본 발명의 일 예시적 실시예에 따라 도시한 다른 자연 언어 처리 방법 실시예의 단계 흐름도이다. 본 발명의 실시예의 방법은 인간-기계 대화 시스템의 대화 로봇에 응용될 수 있고, 구체적으로 아래 단계를 포함할 수 있다.

단계201에 있어서, 사용하는 BiLSTM-CRF 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정한다.

슬롯 인식(Slot tagging)은 자연 언어 이해(Natural Language Understanding, NLU) 모듈의 중요 구성 부분이고, NLU 모듈은 인간-기계 대화 시스템의 핵심적인 부분이며, 전반 NLU 모듈의 기능은 주로, 사용자 의도(Intent)에 대한 이해, 및 사용자가 표달하고자 하는 문장에서 핵심적인 슬롯 위치(slot, 즉 슬롯)에 대한 해석 등 두가지를 포함한다. 의도(Intent)는 하나의 분류기로서 사용자가 표달하고자 하는 문장의 타입을 결정하고 나아가 결정된 타입에 대응되는 프로그램(즉 Bot(음성 로봇))에 의해 전문적인 해석을 진행한다. 예를 들어 사용자가 "즐거운 음악 틀어줘요"라고 말하면 사용자의 의도 분류는 음악이라고 판단할 수 있기 때문에 음악 로봇(Bot)이 사용자를 위해 노래 하나를 추천하여 재생하게 된다. 사용자가 들어 보고 마음에 들지 않을 경우 "다른 노래 바꿔요"라고 말하면 사용자가 다른 문제를 표달할 때까지 당해 음악 로봇이 계속하여 사용자를 위해 서비스하게 된다. 의도가 더이상 음악이 아닐 경우 다른 로봇으로 전환하여 사용자를 위해 서비스하게 된다.

인간-기계 대화 시스템은 NLU 모듈과 통신하는 하나의 중앙 제어 모듈을 더 포함하고, NLU 모듈이 하나의 대화 문장에 대해 하나 이상의 의도를 해석해낼 경우 중앙 제어 모듈이 사용자의 대화 문장을 사용자의 의도를 처리할 수 있는 Bot(즉 ChatBot, 대화 로봇)에 송신하고 이러한 Bot에 의해 자체 처리 완료한 결과로 리턴한다.

Bot은 대화 문자 중의 내용을 이해해야 하는데, 편의를 위해 가장 핵심적이고 중요한 부분을 선택하여 이해하고 다른 비핵심적인 내용은 생략할 수 있는데 이러한 가장 핵심적이고 중요한 부분을 슬롯 위치(Slot), 즉 슬롯이라고 한다.

본 발명의 실시예 중의 대화 로봇 Bot은 BiLSTM-CRF 모델을 사용하여 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한다. 여기서 슬롯 인식은 시퀀스 레이블링 문제를 해결하는 시퀀스 레이블링 서비스로 이해할 수 있다.

아래 중국어 구절을 예로 들면 BiLSTM-CRF 모델을 사용하여 슬롯 인식을 진행하는 과정을 아래와 같다.

N 개의 글자를 포함하는 하나의 구절(글자의 시퀀스)이 아래와 같을 경우,

X = (X₁, X₂, ..., X_n)

여기서 X_i는 구절의 i 번째 글자가 자전에서의 id이므로 각 글자의 원-핫 인코딩(one-hot) 벡터를 얻을 수 있고 차원은 자전 크기이다.

도 3의 BiLSTM-CRF 모델 모식도에 도시된 바와 같이,

모델의 제1 계층은 룩업 계층(look-up layer)이고, 프리트레이닝(Pre-training) 또는 랜덤 초기화 임베딩(embedding) 매트릭스는 구절 중의 각 글자를 one-hot 벡터에 의해 저차원 밀집 글자 벡터로 매핑하고, 다음 계층을 입력하기 전에 dropout(드롭아웃, 딥 구조를 구비하는 신경망에 대해 최적화를 진행하는 방법이며, 러닝 과정에서 숨겨진 계층의 일부 가중치 또는 출력을 랜덤 제로 복귀함으로써, 노드 사이의 상호 의존성을 감소하여 신경망의 정칙화를 실현하고 신경망의 과적합을 방지함)을 설정하여 과적합을 완화시킨다.

모델의 제2 계층은 양방향 장단기 메모리 네트워크(Long Short-Term Memory, LSTM) 계층이고, 정방향 장단기 메모리 네트워크(forward LSTM) 및 역방향 장단기 메모리 네트워크(backward LSTM)를 포함한다. 하나의 구절의 각 글자의 char embedding(문자부호 임베딩) 시퀀스(X₁, X₂, ..., X_n)를 양방향 LSTM 각 시간 단계의 입력으로 하고, 정방향 LSTM이 출력한(

) 숨겨진 상태 시퀀스와 역방향 LSTM의 (

)가 각 위치에서 출력한 숨겨진 상태를 위치에 따라 이어 붙혀 완전한 숨겨진 상태 시퀀스를 얻는다.

Dropout을 설정한 후, 하나의 선형 계층에 액세스하여 숨겨진 상태 벡터를 m 차원으로부터 k 차원으로 매핑하고, k는 레이블링 집합의 태그 개수이며, 이로써 출력 계층(LSTM's output)이 자동으로 추출된 구절 특징을 출력하고 매트릭스 P = (p₁, p₂, ..., p_n)라고 기재한다.

모델의 제3 계층은 CRF 계층이고, 구절 레벨의 시퀀스 레이블링을 진행하며 CRF 계층의 파라미터는 하나의

의 매트릭스 A이고, A_ij는 i번째 태그로부터 j번째 태그까지의 전이 스코어이고, 하나의 위치에서 레이블링 진행 시 그 전에 이미 레이블링된 태그를 이용할 수 있으며, 2를 더하는 이유는 구절 시작 부분에 하나의 초기 상태를 추가하고 문장 끝부분에 하나의 종료 상태를 추가하기 위함이다.

도 3에 도시된 바와 같이, "중국크다"라는 구절에 대해 BiLSTM-CRF 모델이 최종 출력한 슬롯 인식 결과는 아래와 같다.

중 국 크 다

B-LOC I-LOC O O

여기서, BIO 레이블링 집합에서 B-PER, I-PER는 각각 사람 이름 이니셜, 사람 이름 이니셜이 아닌 글자, 기관 이름의 이니셜이 아닌 글자를 표시하고, O는 상기 글자가 명명 엔티티의 일부분에 속하지 않음을 표시한다. 물론 특정 분야에서 분야 내의 각 엔티티 타입, 예를 들면 영화 타입(video), 날씨 타입(weather) 등 타입을 상응하게 자체적으로 정의할 수 있다.

단계202에 있어서, 상기 대화 로봇이 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 상기 중앙 제어 모듈에 출력한다.

단계203에 있어서, 상기 중앙 제어 모듈이 수신된 상기 대화 데이터에 대한 슬롯 인식 결과 집합으로부터 결정한 타겟 슬롯 인식 결과를 획득한다.

상기 실시예에서, 대화 로봇이 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 획득한 후 상기 슬롯 인식 결과를 중앙 제어 모듈에 출력할 수 있다. 중앙 제어 모듈은 상이한 대화 로봇 Bot이 송신한 동일한 대화 데이터에 대한 슬롯 인식 결과를 수신하여 슬롯 인식 결과 집합을 구성할 수 있고, 슬롯 인식 결과 집합은 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과 및 다른 대화 로봇이 출력한 슬롯 인식 결과를 포함할 수 있다.

실제 응용에서, NLU 모듈이 하나의 대화 구절에 대해 하나 이상의 의도를 해석해낼 경우 중앙 제어 모듈이 결정을 진행하여 여러가지 의도 중에서 하나의 의도를 사용자 의도로 결정하고 사용자 의도에 대응되는 적어도 하나의 Bot을 결정하여 각각 해석 처리를 진행함으로써 처리 후의 슬롯 인식 결과 집합을 얻는다. 다음, 중앙 제어 모듈은 슬롯 인식 결과 집합으로부터 사용자 의도에 가장 매칭되는 타겟 슬롯 인식 결과를 결정하고, 상기 타겟 슬롯 인식 결과는 인간-기계 대화 시스템이 사용자에 대한 답변 결과로 출력될 수 있다.

단계204에 있어서, 상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 불일치한 것에 응답하여, 상기 불일치한 피드백 정보를 음의 피드백 정보로 결정한다.

본 실시예는 타겟 슬롯 결과와 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과의 비교 결과를 결부하여 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과의 피드백 정보를 결정할 수 있다.

일 구현예로서, 상기 피드백 정보는 양의 피드백 정보 및 음의 피드백 정보를 포함할 수 있다. 예를 들면 양의 피드백 정보는 수치 1로 표시하고, 음의 피드백 정보는 수치 -1로 표시할 수 있다.

상기 단계에서, BiLSTM-CRF 모델이 출력한 슬롯 인식 결과와 타겟 슬롯 인식 결과가 불일치하면, 피드백 정보를 음의 피드백 정보로 결정할 수 있다.

일 실시 형태에서, 본 대화 로봇에 보상 계산기(Reward Calculator)를 설치하여 현재 슬롯 인식 결과의 피드백 정보를 기록할 수 있다. 예를 들면 상기 피드백 정보를 음의 피드백 정보로 결정하면 Reward Calculator의 기록은 reward = -1이다.

단계205에 있어서, 상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 일치한 것에 응답하여, 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정한다.

상기 단계에서, BiLSTM-CRF 모델이 출력한 슬롯 인식 결과와 타겟 슬롯 인식 결과가 일치하면, 사용자가 답변 결과에 대한 피드백 조작을 결부하여 피드백 정보를 결정할 수 있다.

다시 말하면, BiLSTM-CRF 모델이 출력한 슬롯 인식 결과와 타겟 슬롯 인식 결과가 일치하면, 사용자가 답변 결과에 대한 피드백 조작을 결부하여 피드백 정보를 결정할 수도 있으며, 이는 답변 결과가 합리한지의 여부에 대한 진정한 판단은 사용자가 하기 때문이다.

본 발명의 실시예의 가능한 일 실시 형태에서, 단계205는 아래 서브 단계를 포함할 수 있다.

서브 단계S11에 있어서, 사용자의 순방향 피드백률이 기설정 임계값보다 크거나 같은 것에 응답하여, 상기 피드백 정보를 양의 피드백 정보로 결정한다.

서브 단계S12에 있어서 상기 순방향 피드백률이 기설정 임계값보다 작은 것에 응답하여, 상기 피드백 정보를 음의 피드백 정보로 결정한다.

순방향 피드백률은 소정 시간 내에 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 결정한 것이다.

실제 응용에서, 일 시간대 내에 복수의 사용자가 인간-기계 대화 시스템에 동일하거나 유사한 대화 데이터를 송신할 수 있는데, 상기 대화 데이터에 대해 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 답변 결과로 하면 상기 시간대 내에 복수의 사용자가 상기 답변 결과에 대한 피드백 조작(예를 들면 "클릭" 또는 "좋아요" 등 조작)을 통계할 수 있다. 순방향 피드백률이 기설정 임계값보다 크거나 같으면 사용자의 피드백이 긍정적인 피드백임을 의미하고, 이때 상기 슬롯 인식 결과의 피드백 정보를 양의 피드백 정보로 결정할 수 있고, 즉 reward = 1이다. 아니면, 순방향 피드백률이 기설정 임계값보다 작으면 사용자의 피드백이 부정적인 피드백임을 의미하고, 이때 상기 슬롯 인식 결과의 피드백 정보를 음의 피드백 정보로 결정할 수 있고 즉 reward = -1이다.

피드백 정보를 결정한 후 상기 피드백 정보를 버퍼 영역에 저장하여 추후 사용할 수도 있다.

단계206에 있어서 상기 피드백 정보를 상기 BiLSTM-CRF 모델 중의 CRF 계층에 피드백하여, 상기 CRF 계층에 의해 상기 피드백 정보에 따라 모델 강화 트레이닝을 진행한다.

상기 단계에서, Reward Calculator가 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과의 피드백 정보를 결정한 후, 기록된 피드백 정보를 BiLSTM-CRF 모델의 CRF 계층에 피드백하고, CRF 계층은 각 슬롯 인식 결과 및 대응되는 피드백 정보를 트레이닝 데이터로 하여 모델의 강화 학습 트레이닝을 진행하며, 강화 학습을 통해 전반 러닝의 폐쇄 루프를 완성함으로써 트레이닝을 거쳐 얻은 BiLSTM-CRF 모델이 더 정확한 슬롯 인식 결과를 얻을 수 있도록 한다.

일례로, BiLSTM-CRF 모델이 강화 학습을 진행하는 4가지 요소는 아래와 같은 것을 포함할 수 있다.

Action： 슬롯 인식 결과Y

State： 인식할 시퀀스X

Policy： p(y|x), 즉 시퀀스X 조건에서 결과 Y의 발생 확률

Reward： 피드백 정보

본 실시예에서, BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 획득한 후, 중앙 제어 모듈과 사용자가 상기 슬롯 인식 결과에 대한 피드백을 결부하여 피드백 정보를 결정함으로써 사용자 레이블링의 번거로움을 해소하고, 상기 피드백 정보를 BiLSTM-CRF 모델에 피드백하는 CRF 계층이 강화 학습을 진행하여 BiLSTM-CRF 모델의 정확성을 향상시킬 수 있다.

본 기술 분야의 통상의 기술자가 본 발명의 실시예를 더 잘 이해하도록, 아래 구체적인 예를 들어 본 발명의 실시예를 예시적으로 설명한다.

예를 들면, 사용자가 입력한 대화 데이터가 "내일의 날씨"이면 "내일의 날씨"는 영화 제목이기 때문에 BiLSTM-CRF 모델이 "내일의 날씨"에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과는 내일의 날씨/video이다. 중앙 제어 모듈이 복수의 Bot이 송신한 슬롯 인식 결과를 수신한 후 최종 결정한 상기 대화 데이터의 사용자 의도는 날씨이기 때문에 최종 획득한 타겟 슬롯 인식 결과는 "내일/date 날씨/weather"이다. Reward Calculator는 중앙 제어 모듈이 결정한 타겟 슬롯 인식 결과를 획득한 후, 이를 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과와 매칭시키면 양자가 불일치(하나는 video 결과, 다른 하나는 weather 결과)하다고 판단되기 때문에, 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과의 피드백 정보를 reward = -1로 설정한다.

반대로, 중앙 제어 모듈이 최종 결정한 상기 대화 데이터의 의도가 video이면 최종 획득한 타겟 슬롯 인식 결과는 "내일의 날씨/video"이다. Reward Calculator는 중앙 제어 모듈이 결정한 타겟 슬롯 인식 결과를 획득한 후, 이를 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과와 매칭시키면 양자가 일치(모두 video 결과임)하다고 판단되기 때문에, 이때 Reward Calculator는 소정 시간 내에 사용자가 상기 답변 결과에 대한 대응되는 답변 결과(예를 들면 중앙 제어 모듈이 사용자에게 내일의 날씨라는 영화 리소스를 답변)의 클릭률을 통계한다. 클릭률이 낮으면(기설정 임계값보다 낮음) 상기 답변 결과가 사용자를 만족시키지 못했다고 볼 수 있고, 상기 슬롯 인식 결과의 피드백 정보를 reward = -1로 설정한다. 반대로 클릭률이 높으면(기설정 임계값보다 높음) 상기 답변 결과가 사용자를 만족시켰다고 볼 수 있고, 상기 슬롯 인식 결과의 피드백 정보를 reward = 1로 설정한다.

Reward Calculator는 피드백 정보를 BiLSTM-CRF 모델에 피드백하고, 모델에 의해 동적인 자가 학습을 진행한다. reward = -1라고 가정하면 다음에 모델이 다시 "내일의 날씨"라는 대화 데이터를 수신할 경우 이를 video에 속하지 않는 레이블링 결과로 판정하고 weather에 속하는 레이블링 결과로 판정한다. 출력한 인식 결과는 "내일/date 날씨/weather"이므로 학습 목적을 달성한다.

전술한 실시 형태의 각 기술적 특징은 특징 사이의 조합이 충돌되거나 모순되지 않으면 임의로 조합될 수 있고, 편폭의 제한으로 인해 일일히 설명하지 않는다. 상기 실시 형태 중의 각 기술적 특징의 임의의 조합도 본 명세서에 공개된 범위에 속한다.

전술한 자연 언어 처리 방법 실시예와 대응되게 본 발명의 실시예는 자연 언어 처리 장치 실시예를 더 제공한다.

도 4에 도시된 바와 같이, 도 4는 본 발명의 일 예시적 실시예에 따라 도시한 자연 언어 처리 장치 실시예의 블록도이다. 본 발명의 실시예의 장치는 인간-기계 대화 시스템의 대화 로봇에 응용될 수 있고, 상기 자연 언어 처리 장치는 구체적으로 아래 모듈을 포함할 수 있다.

슬롯 인식 결과 결정 모듈(401)은 사용하는 BiLSTM-CRF 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정한다.

피드백 정보 결정 모듈(402)은 상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정한다.

모델 강화 학습 모듈(403)은 상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행한다.

상기 실시예에 따르면, 본 발명의 실시예는 슬롯 인식 결과 결정 모듈(401)을 통해 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 획득하고, 피드백 정보 결정 모듈(402)을 통해 상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하여 인위적인 레이블링 량을 감소한다. 다음 모델 강화 학습 모듈(403)을 통해 상기 피드백 정보에 따라 BiLSTM-CRF 모델에 대해 강화 학습을 진행하여 모델의 동적인 자가 학습을 실현함으로써 모델의 슬롯 인식 효율 및 정확성을 향상시킨다.

본 발명의 실시예의 한 가지 가능한 실시예에 있어서, 인간-기계 대화 시스템은 중앙 제어 모듈을 더 포함하고, 상기 자연 언어 처리 장치는,

상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 상기 중앙 제어 모듈에 출력하는 슬롯 인식 결과 출력 모듈;

본 발명의 실시예의 가능한 다른 일 실시예에 있어서, 상기 피드백 정보 결정 모듈(402)은 아래 서브 모듈을 더 포함할 수 있다.

제1 피드백 정보 결정 서브 모듈은 상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 불일치한 것에 응답하여, 상기 불일치한 피드백 정보를 음의 피드백 정보로 결정한다.

제2 피드백 정보 결정 서브 모듈은 상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 일치한 것에 응답하여, 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정한다.

상기 실시예에 따르면, 피드백 정보는 중앙 제어 모듈의 피드백 정보 및 사용자의 피드백 정보를 포함할 수 있어 피드백 정보의 정확한 차원을 풍부하게 하고 레이블링의 정확성을 향상시킨다.

본 발명의 실시예의 한 가지 가능한 실시예에 있어서, 상기 제2 피드백 정보 결정 서브 모듈은 구체적으로,

상기 실시예에 따르면, 피드백 정보의 레이블링 시, 중앙 제어 모듈 및 사용자의 피드백 정보를 결부하여 분석함으로써 레이블링 정확성을 향상시킬 수 있다.

본 발명의 실시예의 한 가지 가능한 실시예에 있어서, 상기 모델 강화 학습 모듈(403)은 구체적으로,

상기 실시예에 따르면, 모델 강화 학습 모듈(403)을 통해 피드백 정보에 대해 모델 강화 학습을 진행하여 모델의 동적인 자가 학습을 실현함으로써 모델의 슬롯 인식 정확성을 향상시킬 수 있다.

상기 장치 중 각 모듈의 기능 및 작용의 구현 과정은 상기 시스템 실시예 중의 구체적인 설명을 참조할 수 있기 때문에, 여기에서는 상세한 설명을 하지 않는다.

장치 실시예는 기본적으로 시스템 실시예에 대응되기 때문에 관련된 부분은 시스템 실시예의 부분 설명을 참조할 수 있다. 앞에서 설명된 장치 실시예는 단지 예시적인 것이며, 여기서, 분리 부재로 설명한 유닛은 물리적으로 분리되거나 분리되지 않을 수도 있으며, 유닛으로 나타내는 부재는 물리적인 유닛일 수 있고 아닐 수도 있으며, 즉, 하나의 위치에 위치하거나 복수의 네트워크 유닛에 분포될 수도 있다. 실제 필요에 따라 모듈의 일부 또는 전부를 선택하여 본 발명의 실시예의 해결 수단의 목적을 구현할 수 있다. 본 기술 분야에서 통상의 지식을 가진 자는 진보성 창출에 힘쓸 필요없이 이해하고 실시할 수 있을 것이다.

도 5에 도시된 바와 같이, 도 5는 본 발명의 일 예시적 실시예에 따라 도시한 인간-기계 대화 기기(500)의 블록도이다.

도 5를 참조하면, 기기(500)는 프로세싱 컴포넌트(502), 메모리(504), 전원 컴포넌트(506), 멀티미디어 컴포넌트(508), 오디오 컴포넌트(510), 입/출력(I/O) 인터페이스(512), 센서 컴포넌트(514) 및 통신 컴포넌트(516) 중 하나 또는 복수의 컴포넌트를 포함할 수 있다.

프로세싱 컴포넌트(502)는 일반적으로 기기(500)의 전체 동작을 제어한다. 프로세싱 컴포넌트(502)는, 상기 방법의 전부 또는 일부 단계를 완료하도록 하나 또는 복수의 프로세서(520)를 포함하여 명령어를 실행한다. 이외에, 프로세싱 컴포넌트(502)는, 프로세싱 컴포넌트(502)와 다른 컴포넌트 사이의 인터랙션을 진행하도록 하나 또는 복수의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 컴포넌트(502)는, 멀티미디어 모듈(508)과 프로세싱 컴포넌트(502) 사이의 인터랙션을 편리하게 진행하도록 멀티미디어 모듈을 포함할 수 있다.

메모리(504)는 다양한 타입의 데이터를 저장하여 기기(500)에서의 동작을 지원한다. 이러한 데이터의 예시는 기기(500)에서 동작하는 임의의 응용 프로그램 또는 방법의 명령어를 포함한다. 메모리(504)는, 정적 랜덤 액세스 메모리(SRAM), 전기적으로 소거 가능한 프로그램 가능 판독 전용 메모리(EEPROM), 소거 가능한 프로그램 가능 판독 전용 메모리(EPROM), 프로그램 가능 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크와 같은 임의의 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.

전원 컴포넌트(506)는 기기(500)의 다양한 컴포넌트에게 전력을 제공한다. 전원 컴포넌트(506)는 전원 관리 시스템, 하나 또는 복수의 전원, 및 기기(500)의 생성, 관리, 및 전원 할당과 관련된 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(508)는 상기 기기(500)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서, 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함할 수 있다. 만약, 스크린이 터치 패널을 포함하면, 사용자로부터 입력 신호를 수신하도록 스크린은 터치 스크린으로 구현될 수 있다. 터치 패널은, 패널에서의 터치, 슬라이드, 터치 패널의 제스처를 감지하기 위한 하나 또는 복수의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 슬라이드에 관련된 지속 시간 및 압력을 감지할 수 있다. 오디오 컴포넌트(510)는 오디오 신호를 출력하는 것 및 입력하는 것 중 적어도 하나를 진행한다. 예를 들어, 오디오 컴포넌트(510)는 하나의 마이크(MIC)를 포함하고 기기(500)가 통화 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드일 경우, 마이크는 외부 오디오 신호를 수신한다. 수신된 오디오 신호는 메모리(504)에 저장되거나 통신 컴포넌트(516)를 통해 발송될 수 있다. 일부 실시예에서, 오디오 컴포넌트(510)는 오디오 신호를 출력하기 위한 스피커를 포함한다.

I/O 인터페이스(512)는 프로세싱 컴포넌트(502)와 주변 장치 인터페이스 모듈 사이의 인터페이스를 제공하며, 상기 주변 장치 인터페이스 모듈은 키보드, 클릭 휠(Click Wheel), 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지는 않는다.

센서 컴포넌트(514)는 다양한 양태의 상태 평가를 기기(500)에 제공하기 위한 하나 또는 복수의 센서를 포함한다. 예를 들어, 센서 컴포넌트(514)는 기기(500)의 온/오프 상태, 컴포넌트의 상대적 위치를 감지할 수 있고, 예를 들어, 상기 컴포넌트는 기기(500)의 디스플레이 및 키패드이고 센서 컴포넌트(514)는 기기(500) 또는 기기(500)의 컴포넌트의 위치 변화, 사용자와 기기(500) 사이의 접촉 여부, 기기(500) 방위 또는 가속/감속 및 기기(500)의 온도 변화를 감지할 수 있다. 센서 컴포넌트(514)는 물리적 접촉없이 주변 물체의 존재를 감지하는 근접 센서를 포함할 수 있다. 센서 컴포넌트(514)는 이미징 애플리케이션에 사용하기 위한 CMOS 또는 CCD 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에서, 상기 센서 컴포넌트(514)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 컴포넌트(516)는 기기(500)와 다른 기기 사이의 유선 또는 무선 방식의 통신이 용이하도록 구성된다. 기기(500)는 WiFi, 2G 또는 5G, 또는 이들의 조합과 같은 통신 표준에 기반한 무선 네트워크에 액세스할 수 있다. 예시적인 일 실시예에서, 통신 컴포넌트(516)는 방송 채널을 통해 외부 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 예시적인 일 실시예에서, 상기 통신 컴포넌트(516)는 근거리 통신을 촉진하는 근거리 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별(RFID) 기술, 적외선 통신 규격(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술 기반으로 구현될 수 있다.

예시적인 실시예에서, 기기(500)는 하나 또는 복수의 주문형 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디티절 신호 프로세서 기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 상기 방법을 실행할 수 있다.

예시적인 실시예에서, 상기 방법을 수행하기 위해 기기(500)의 프로세서(520)에 의해 실행 가능한 명령어를 포함하는 메모리(504)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능한 기록매체를 더 제공한다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능한 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 기기 등일 수 있다.

상기 저장매체에 저장된 명령어가 상기 프로세서에 의해 실행될 경우, 기기(500)는 사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계; 상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 단계; 및 상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행하는 단계를 포함하는 자연 언어 처리 방법을 구현할 수 있다.

본 기술분야에 속하는 통상의 지식을 가진 자는 본 발명의 명세서를 고려하여 개시된 발명을 실시한 후, 개시된 실시예의 다른 실시 형태를 용이하게 생각해낼 수 있을 것이다. 본 발명은 본 발명의 실시예의 일반적인 원리에 따른 본 발명의 실시예의 임의의 변형, 용도 또는 적응성 변화를 포함하고, 또한 본 발명의 실시예에서 개시되지 않은 본 기술 분야의 일반적 상식 또는 공통 기술 수단을 포함한다. 명세서와 실시예는 단지 예시적인 것으로 간주되어야 하고, 본 발명의 실시예의 진정한 범위 및 정신은 권리 요구에 의해 결정된다.

본 발명의 실시예는 이상의 서술 및 도면에서 도시된 정밀 구조에 한정되지 않으며, 본 발명을 벗어나지 않는 범위에서 다양한 수정 및 변화를 진행할 수 있음에 유의해야 한다. 본 발명의 실시예의 범위는 첨부된 청구 범위에 의해 한정된다.

상술한 내용은 본 발명의 실시예의 바람직한 실시예일 뿐 본 발명의 실시예를 한정하기 위한 것이 아니다. 본 발명의 실시예의 사상 및 원칙 내에서 진행한 모든 수정, 등가 교환, 개선 등은 모두 본 발명의 실시예의 보호 범위에 속해야 할 것이다.

Claims

인간-기계 대화 시스템의 대화 로봇에 응용되는 자연 언어 처리 방법으로서,
사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계;
상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 단계; 및
상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행하는 단계를 포함하며,
상기 인간-기계 대화 시스템은 중앙 제어 모듈을 더 포함하고,
사용하는 상기 BiLSTM-CRF 모델이 상기 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계 이후에,
상기 자연 언어 처리 방법은,
상기 대화 로봇이 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 상기 중앙 제어 모듈에 출력하는 단계; 및
상기 중앙 제어 모듈이 수신된 상기 대화 데이터에 대한 슬롯 인식 결과 집합으로부터 결정한 상기 대화 데이터에 대한 사용자 의도에 가장 매칭되는 타겟 슬롯 인식 결과를 획득하는 단계를 더 포함하고,
상기 슬롯 인식 결과 집합은 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과 및 상기 사용자 의도에 대응하는 적어도 하나의 대화 로봇이 출력한 슬롯 인식 결과를 포함하며, 상기 타겟 슬롯 인식 결과를 상기 인간-기계 대화 시스템이 사용자에 대한 답변 결과로 출력하는 것을 특징으로 하는 자연 언어 처리 방법.
삭제
제1항에 있어서,
상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 단계는,
상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 불일치한 것에 응답하여, 상기 불일치한 피드백 정보를 음의 피드백 정보로 결정하는 단계; 및
상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 일치한 것에 응답하여, 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정하는 단계를 포함하는 것을 특징으로 하는 자연 언어 처리 방법.
제3항에 있어서,
상기 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정하는 단계는,
사용자의 순방향 피드백률이 기설정 임계값보다 크거나 같은 것에 응답하여, 상기 피드백 정보를 양의 피드백 정보로 결정하는 단계; 및
상기 순방향 피드백률이 기설정 임계값보다 작은 것에 응답하여, 상기 피드백 정보를 음의 피드백 정보로 결정하는 단계를 포함하고,
상기 순방향 피드백률은 소정 시간 내에 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 결정한 것임을 특징으로 하는 자연 언어 처리 방법.
제1항, 제3항 및 제4항 중 어느 한 항에 있어서,
상기 피드백 정보에 따라 모델 강화 학습을 진행하는 단계는,
상기 피드백 정보를 상기 BiLSTM-CRF 모델 중의 CRF 계층에 피드백하여, 상기 CRF 계층에 의해 상기 피드백 정보에 따라 모델 강화 트레이닝을 진행하는 단계를 포함하는 것을 특징으로 하는 자연 언어 처리 방법.
인간-기계 대화 시스템의 대화 로봇에 응용되는 자연 언어 처리 장치로서,
사용하는 양방향 장단기 메모리 네트워크 알고리즘 및 조건부 랜덤 필드 알고리즘(BiLSTM-CRF) 모델이 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 슬롯 인식 결과 결정 모듈;
상기 슬롯 인식 결과 및 사용자가 상기 슬롯 인식 결과에 대한 피드백에 기반하여 피드백 정보를 결정하는 피드백 정보 결정 모듈; 및
상기 피드백 정보에 따라 상기 BiLSTM-CRF 모델에 대해 강화 학습을 진행하는 모델 강화 학습 모듈을 포함하며,
상기 인간-기계 대화 시스템은 중앙 제어 모듈을 더 포함하고,
사용하는 상기 BiLSTM-CRF 모델이 상기 사용자가 입력한 대화 데이터에 대해 슬롯 인식을 진행한 후 출력한 슬롯 인식 결과를 결정하는 단계 이후에,
상기 자연 언어 처리 장치는,
상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과를 상기 중앙 제어 모듈에 출력하는 슬롯 인식 결과 출력 모듈; 및
상기 중앙 제어 모듈이 수신된 상기 대화 데이터에 대한 슬롯 인식 결과 집합으로부터 결정한 상기 대화 데이터에 대한 사용자 의도에 가장 매칭되는 타겟 슬롯 인식 결과를 획득하는 타겟 슬롯 인식 결과 결정 모듈을 더 포함하며,
상기 슬롯 인식 결과 집합은 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과 및 상기 사용자 의도에 대응하는 적어도 하나의 대화 로봇이 출력한 슬롯 인식 결과를 포함하며, 상기 타겟 슬롯 인식 결과를 상기 인간-기계 대화 시스템이 사용자에 대한 답변 결과로 출력하는 것을 특징으로 하는 자연 언어 처리 장치.
삭제
제6항에 있어서,
상기 피드백 정보 결정 모듈은,
상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 불일치한 것에 응답하여, 상기 불일치한 피드백 정보를 음의 피드백 정보로 결정하는 제1 피드백 정보 결정 서브 모듈; 및
상기 타겟 슬롯 인식 결과와 상기 BiLSTM-CRF 모델이 출력한 슬롯 인식 결과가 일치한 것에 응답하여, 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 피드백 정보를 결정하는 제2 피드백 정보 결정 서브 모듈을 포함하는 것을 특징으로 하는 자연 언어 처리 장치.
제8항에 있어서,
상기 제2 피드백 정보 결정 서브 모듈은 구체적으로,
사용자의 순방향 피드백률이 기설정 임계값보다 크거나 같은 것에 응답하여, 상기 피드백 정보를 양의 피드백 정보로 결정하고;
상기 순방향 피드백률이 기설정 임계값보다 작은 것에 응답하여, 상기 피드백 정보를 음의 피드백 정보로 결정하며,
상기 순방향 피드백률은 소정 시간 내에 사용자가 상기 답변 결과에 대한 피드백 조작에 따라 결정한 것임을 특징으로 하는 자연 언어 처리 장치.
제6항, 제8항 및 제9항 중 어느 한 항에 있어서,
상기 모델 강화 학습 모듈은 구체적으로,
상기 피드백 정보를 상기 BiLSTM-CRF 모델 중의 CRF 계층에 피드백하여, 상기 CRF 계층에 의해 상기 피드백 정보에 따라 모델 강화 트레이닝을 진행하는 것을 특징으로 하는 자연 언어 처리 장치.
대화 로봇을 포함하는 인간-기계 대화 기기로서,
프로세서;
프로세서에 의해 실행 가능한 명령어가 저장된 메모리를 포함하고,
상기 프로세서는,
제1항, 제3항 및 제4항 중 어느 한 항에 따른 자연 언어 처리 방법의 단계를 실행하도록 구성된 것을 특징으로 하는 인간-기계 대화 기기.
컴퓨터 판독가능 저장매체로서,
컴퓨터 프로그램이 저장되어 있으며, 상기 프로그램이 프로세서에 의해 실행될 경우 제1항, 제3항 및 제4항 중 어느 한 항에 따른 자연 언어 처리 방법의 단계를 수행하는 것을 특징으로 하는 컴퓨터 판독가능 저장매체.