KR102368064B1

KR102368064B1 - 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Info

Publication number: KR102368064B1
Application number: KR1020200106719A
Authority: KR
Inventors: 김남수; 조원익; 곽동현
Original assignee: 서울대학교산학협력단; 네이버 주식회사; 라인 가부시키가이샤
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-02-25
Also published as: JP7190146B2; JP2022037862A

Abstract

텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체가 개시된다. 음성인식 모델과 자연어이해 모델이 연결된 종단형 구조의 음성언어이해(spoken language understanding) 모델을 학습함에 있어 텍스트 기반의 사전 학습된 언어모델을 이용한 교차 모달 지식 증류(cross-modal knowledge distillation)를 통해 상기 음성언어이해 모델을 학습할 수 있다.

Description

텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체{METHOD, SYSTEM, AND COMPUTER READABLE RECORD MEDIUM FOR KNOWLEDGE DISTILLATION OF END-TO-END SPOKEN LANGUAGE UNDERSTANDING USING TEXT-BASED PRETRAINED MODEL}

아래의 설명은 음성언어이해(SLU, spoken language understanding) 기술에 관한 것이다.

음성언어이해(SLU)는 전통적으로 음성인식(ASR: automatic speech recognition)과 자연어이해(NLU: natural language understanding)의 파이프라인 구조로 구현된다. 음성인식(ASR)은 음성을 텍스트로 전사하는 기술이며, 자연어이해(NLU)는 전사된 텍스트를 바탕으로 의도(intent)를 추출하고 수행할 행동을 정확히 인식하는 기술이다.

일례로, 한국공개특허 제10-2017-0107015호(공개일 2017년 09월 22일)에는 음성전사를 위한 전사 모델을 학습하는 기술이 개시되어 있다.

그러나, 파이프라인 구조의 경우 음성인식(ASR)의 오류가 자연어이해(NLU)에도 부정적인 영향을 미칠 수 있고, 구조 자체에서 발생하는 딜레이도 존재한다.

따라서, 최근에는 음성 데이터를 입력하여 하여 의도 파악 및 슬롯 필링(slot-filling)과 같은 태스크를 직접 수행하는 시스템을 한번에 학습하는 종단형 방식이 연구되고 있다.

의도 파악, 슬롯 필링 등을 위한 종단형 음성언어이해(SLU)에 있어 텍스트 기반으로 비교사 사전 학습된 언어모델(LM: language model)을 파인 튜닝하여 활용할 수 있는 기술을 제공한다.

파인 튜닝된 언어모델의 예측치를 증류할 수 있고 언어모델의 예측 단 정보를 일종의 사고 과정으로서 증류할 수 있는 기술을 제공한다.

컴퓨터 시스템에서 실행되는 방법에 있어서, 상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 방법은, 상기 적어도 하나의 프로세서에 의해, 음성인식 모델과 자연어이해 모델이 연결된 종단형 구조의 음성언어이해(spoken language understanding) 모델을 학습하는 단계를 포함하고, 상기 학습하는 단계는, 텍스트 기반의 사전 학습된 언어모델을 이용한 교차 모달 지식 증류(cross-modal knowledge distillation)를 통해 상기 음성언어이해 모델을 학습하는 것을 특징으로 하는 방법을 제공한다.

일 측면에 따르면, 상기 학습하는 단계는, 상기 음성언어이해 모델의 출력 확률을 상기 언어모델의 출력 확률과 맞추는 방식으로 상기 언어모델의 지식을 상기 음성언어이해 모델로 증류할 수 있다.

다른 측면에 따르면, 상기 음성인식 모델은 주어진 음성의 특정 단어들의 연속될 확률을 출력하고, 상기 자연어이해 모델은 상기 확률을 입력으로 하여 상기 음성에 대한 의도를 추출하고, 상기 음성언어이해 모델은 상기 음성을 입력으로 하여 상기 음성에 대한 의도를 추출할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 상기 음성언어이해 모델의 학습에 사용되는 손실 함수에 상기 음성언어이해 모델의 출력 확률과 상기 언어모델의 출력 확률 간의 평균 제곱 오차(MSE) 또는 평균 절대 오차(MAE)를 반영하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 상기 음성언어이해 모델의 예측치와 응답 레이블 사이의 제1 손실 함수, 및 상기 음성언어이해 모델의 예측치와 상기 언어모델 사이의 제2 손실 함수를 기초로 상기 음성언어이해 모델을 학습할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 상기 언어모델로서 전체 문장에 대한 공통 토큰을 사용하는 제1 모델 및 상기 공통 토큰과 함께 각 워드 별 개별 토큰을 사용하는 제2 모델 중 적어도 하나를 이용하여 상기 음성언어이해 모델을 학습할 수 있다.

또 다른 측면에 따르면, 상기 학습하는 단계는, 상기 제1 모델과 상기 제2 모델의 손실을 혼합하는 하이브리드 구조의 경우 상기 제1 모델과 상기 제2 모델의 손실 비율을 스케줄링하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 스케줄링하는 단계는, 배치(batch) 당 학습 의도 오류율에 따라 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절할 수 있다.

또 다른 측면에 따르면, 상기 스케줄링하는 단계는, 지수함수형 붕괴형태(exponential decay)로 에포크(epoch)에 따라 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절할 수 있다.

또 다른 측면에 따르면, 상기 스케줄링하는 단계는, 트라이앵글 스케줄링(triangular scheduling)을 통해 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절할 수 있다.

상기 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록 매체를 제공한다.

컴퓨터 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 음성인식 모델과 자연어이해 모델이 연결된 종단형 구조의 음성언어이해 모델을 학습하는 것으로, 텍스트 기반의 사전 학습된 언어모델을 이용한 교차 모달 지식 증류를 통해 상기 음성언어이해 모델을 학습하는 것을 특징으로 하는 컴퓨터 시스템을 제공한다.

본 발명의 실시예들에 따르면, 종단형 음성언어이해(SLU)가 파이프라인 구조에 비해 가지는 장점들을 유지하면서도 텍스트 기반 자연어이해(NLU) 모듈들이 가지는 정확성 및 데이터 유연성을 보장할 수 있다.

본 발명의 실시예들에 따르면, 적은 양의 가공된 음성 데이터가 있는 상황에서도 텍스트 데이터를 통해 학습된 고성능의 모듈을 음성 기반의 시스템에 지식 증류(knowledge distillation)함으로써 표현의 공유와 리소스의 효율적인 활용을 가능하게 한다.

본 발명의 실시예들에 따르면, 가공되거나 레이블된 음성 데이터가 부족하더라도 같은 태스크를 다른 입력 형태로 활용하여 수행하는 자연어 데이터를 충분히 확보할 수 있는 상황에서 유용한 사용환경을 제공할 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예에 있어서 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서 교차 모달 지식 증류를 통해 종단형 음성언어이해(SLU) 모델을 학습하는 프로세스를 설명하기 위한 예시 도면이다.
도 4는 본 발명의 일실시예에 있어서 지식 증류 방법론을 설명하기 위한 예시 도면이다.
도 5는 본 발명에 대한 실험 결과로 교사 모델과 교수 모델의 성능을 나타낸 실험 결과 테이블이다.
도 6은 본 발명에 대한 실험 결과로 전체 데이터 시나리오에서의 지식 증류 영향에 대한 실험 결과를 나타낸 것이다.
도 7은 본 발명에 대한 실험 결과로 데이터 부족 시나리오에서의 지식 증류 영향에 대한 실험 결과를 나타낸 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 음성언어이해(SLU) 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 교차 모달 지식 증류(cross-modal knowledge distillation) 방법론에 기초하여 텍스트 기반 사전 학습된 언어모델에서 데이터 부족에 직면할 수 있는 종단형 음성언어이해(SLU) 모듈로 지식을 전달할 수 있다.

도 1은 본 발명의 일실시예에 따른 컴퓨터 시스템의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 종단형 음성언어이해 학습 시스템은 도 1을 통해 도시된 컴퓨터 시스템(100)에 의해 구현될 수 있다.

도 1에 도시된 바와 같이 컴퓨터 시스템(100)은 본 발명의 실시예들에 따른 종단형 음성언어이해 학습 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 시스템(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 시스템(100)의 메모리(110)에 로딩될 수 있다.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(130)은 네트워크(160)를 통해 컴퓨터 시스템(100)이 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 시스템(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 시스템(100)의 통신 인터페이스(130)를 통해 컴퓨터 시스템(100)으로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 시스템(100)이 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 시스템(100)과 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

음성언어이해(SLU)에 사용되는 음성인식(ASR)-자연어이해(NLU)의 파이프라인 구조는 각 모듈을 순차적으로 개선하는 방식으로 전체 시스템의 정확도를 올릴 수 있다는 측면에서 유용하게 사용되고 있다.

그러나, 음성인식(ASR)과 자연어이해(NLU)는 그 입력의 성질이 각각 음성과 텍스트로 다르기 때문에 음성인식 과정에서 오류가 생겨 텍스트 단에서 다른 발화로 이산화되어 전달된다면 기존 파인 튜닝 과정에서 학습했던 내용이 음성인식 오류를 미처 상쇄하지 못하여 성능의 저하를 가져올 여지가 있다. 또한, 음성인식(ASR)과 자연어이해(NLU)를 별도로 고도화하다 보면 두 모듈을 연결하는 데에 딜레이가 발생할 수 있으며, 음성이 텍스트로 전사되는 과정에서 프로소디와 톤과 같은 비언어적 정보가 간과될 수 있는 등의 문제가 발생할 수 있다.

이러한 배경에서 최근 음성언어이해(SLU)에서는 음성인식(ASR)과 자연어이해(NLU)를 연결한 종단형 학습 방식으로 많이 사용되고 있다. 종단형 음성언어이해(SLU)는 레이블된 음성 자원의 부족을 다루기 위해 단어 사후 레벨(word posterior-level) 또는 음소 사후 레벨(phoneme posterior level)의 사전 학습된 모듈을 사용한다.

또한, 최근에는 순환 신경망(RNN)이나 트랜스포머(transformer) 기반의 사전 학습된 언어모델(LM)이 각종 태스크에서 강력한 성능을 보이고 있으며, 사전 학습된 모듈 상에 학습 가능한 레이어를 추가하여 파인 튜닝을 수행하면 태스크 상 학습이 가능하다.

본 실시예에서는 종단형 학습 방식이 기존의 파이프라인 구조에 비해 가지는 장점들(오류확산 방지, 딜레이 제거, 비언어적 정보 보존)을 유지하면서 사전 학습된 언어모델(LM)이 가진 정확성 및 데이터 유연성을 보장할 수 있는 음성언어이해(SLU) 기술을 제공한다.

본 발명의 핵심 내용은 교차 모델 파인 튜닝을 통해 사전 학습된 언어모델(LM)을 음성언어이해(SLU)로 레버리징(leveraging)하는 것으로, 여기서 튜닝은 증류 형태로 이루어질 수 있다.

도 2는 본 발명의 일실시예에 있어서 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이다.

도 2를 참조하면, 프로세서(120)는 음성인식 모듈(210), 의도 학습 모듈(220), 종단형 모듈(230), 및 자연어 처리 모듈(240)을 포함할 수 있다.

이러한 프로세서(120)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(120)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.

프로세서(120) 및 프로세서(120)의 구성요소들은 종단형 음성언어이해 학습 방법이 포함하는 단계들을 수행할 수 있다. 예를 들어, 프로세서(120) 및 프로세서(120)의 구성요소들은 메모리(110)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 종단형 음성언어이해 학습 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

프로세서(120)는 종단형 음성언어이해 학습 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(110)에 로딩할 수 있다. 예를 들어, 종단형 음성언어이해 학습 방법을 위한 프로그램 파일은 메모리(110)와는 구분되는 영구 저장 장치에 저장되어 있을 수 있고, 프로세서(120)는 버스를 통해 영구 저장 장치에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(110)에 로딩되도록 컴퓨터 시스템(100)을 제어할 수 있다. 이때, 프로세서(120) 및 프로세서(120)가 포함하는 음성인식 모듈(210), 의도 학습 모듈(220), 종단형 모듈(230), 및 자연어 처리 모듈(240) 각각은 메모리(110)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들을 실행하기 위한 프로세서(120)의 서로 다른 기능적 표현들일 수 있다. 종단형 음성언어이해 학습 방법에 포함된 단계들의 실행을 위해, 프로세서(120) 및 프로세서(120)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.

음성인식 모듈(210)은 사전에 학습된 음성인식(ASR) 모델을 포함하는 것으로, 음성인식의 결과로 텍스트를 직접 사용하기보다는 특정 단어들의 연속이 될 확률 값을 표현해주는 계층을 추출하여 사용한다. 이를 통해 정보가 명확히 이산화됨으로써 모호함을 보완해줄 수 있는 불확실성이 없어지는 것을 방지할 수 있다. 음성인식 모듈(210)로는 음향 처리 모듈(예를 들어, sincNet 등)과 음소열/단어열 추론 모듈(예를 들어, RNN 등)이 활용될 수 있다.

의도 학습 모듈(220)은 자연어이해(NLU) 모델을 포함하는 것으로, 음성인식 모듈(210)의 출력인 확률 값을 입력으로 하여 의도를 학습하는 역할을 한다. 의도 학습 모듈(220)은 음성인식 모듈(210)의 확률 출력을 입력으로 삼는다는 점에서 텍스트 기반 자연어이해(NLU) 모듈과는 차이가 있으나 결과적으로 수행하는 태스크는 동일하다. 의도 학습 모듈(220)로는 RNN이나 트랜스포머 등의 seq2seq 모델이 활용될 수 있다.

음성인식 모듈(210)과 의도 학습 모듈(220)은 음성언어이해(SLU) 시스템을 구성하는 것으로, 음성인식 모듈(210)이 사전 학습된 모델이라는 가정 하에 서로 연결하여 학습 가능하다. 음성인식 모듈(210)과 의도 학습 모듈(220)이 연결된 음성언어이해(SLU) 모듈로서 종단형 모듈(230)을 구성할 수 있으며, 이때 종단형 모듈(230)은 텍스트 기반 자연어이해(NLU) 모듈과 달리 음성을 입력으로 받아 의도를 추측하는 역할을 한다.

자연어 처리 모듈(240)은 비교사 사전 학습된 언어모델(LM)에 종단형 모듈(230)의 의도 추측 결과(텍스트)를 파인 튜닝한 고성능의 자연어 처리 모듈에 해당된다. 자연어 처리 모듈(240)은 음성이나 음성인식 모듈(210)의 확률 출력이 아닌, 텍스트를 입력으로 받는다는 점에서 의도 학습 모듈(220)이나 종단형 모듈(230)과 차이가 있지만 의도 파악이라는 자연어처리 태스크를 수행한다는 점에서는 그 목적을 같이 한다. 자연어 처리 모듈(240)로는 BERT(bidirectional encoder representation from Transformers) 등 대용량 코퍼스로 사전 학습된 RNN 및 Transformer 기반의 오픈소스 모듈이 활용될 수 있다.

본 실시예에서는 종단형 모듈(230)을 학습하는 과정에서 자연어 처리 모듈(240)의 출력 확률을 종단형 모듈(230)의 출력 확률 부분과 맞춰 주는 방식의 지식 증류 방식을 적용한다. 보다 상세하게는, 학습 과정에서 사용되는 손실 함수(loss function)에 양 측의 출력 확률 부분의 평균 제곱 오차(mean square error)를 측정하여 더해 줌으로써 종단형 모듈(230)과 자연어 처리 모듈(240) 간의 차이가 학습 과정에 반영되어 학습을 통해 줄여 나갈 수 있도록 한다. 자연어 처리 모듈(240)은 같은 태스크를 수행하며 더 성능이 좋고 사전 학습 및 파인 튜닝을 이미 마친 상태이므로 별도의 학습을 더 거칠 필요가 없다. 이와 같이, 적은 음성 데이터를 학습함에 있어 많은 텍스트 데이터로 사전 학습된 모듈의 정확한 정답 예측의 과정을 교사함으로써 데이터 부족 문제를 상쇄함과 동시에 서로 다른 모달리티(modality) 간의 지식 공유를 확인할 수 있다.

사전 학습된 언어모델(LM)을 이용한 증류 방식의 종단형 음성언어이해(SLU) 학습 과정을 상세히 설명하면 다음과 같다.

본 실시예의 종단형 음성언어이해(SLU) 학습은 서로 다른 모달리티의 통합이 음성 기반 분석에 긍정적인 영향을 미친다는 점과, 지식 공유가 가능한 형태를 통해 음성 처리가 자연어이해(NLU)에 의해 촉진될 수 있다는 점을 고려한 것으로, STT(speech to text) 변환 과정 없이 언어모델(LM)의 암묵적 언어 처리를 음성언어이해(SLU) 모듈로 전송하는 것을 목표로 한다.

본 실시예에서는 음성언어이해(SLU)에 대한 두 가지 접근방식, 즉 음성인식(ASR)-자연어이해(NLU)의 파이프라인 구조와 종단형 학습 방식을 교차 모달 관점에서 결합할 수 있다.

도 3을 참조하면, 본 발명에 따른 종단형 음성언어이해(SLU) 학습 프로세스(300)는 원본 음성(original audio), 실측자료(ground truth) 스크립트, 목적 의도(target intent)가 주어지면 사전 학습된 언어모델(LM)(301)의 추론 과정에서 종단형 음성언어이해(SLU) 모델(302)로 지식을 전달한다. 여기서, 핵심은 음향 데이터와 디지털화 된 텍스트, 즉 음성 및 어휘 데이터가 의미론적 측면에서 일치하는 표현을 위한 지점을 설정하는 것이라 할 수 있다.

음성과 텍스트가 서로 다른 모달리티로 간주되나 태스크에서는 음성과 텍스트 모두 동일한 유형의 추론을 이끌어 낸다는 점에서, 학생 음성 번역 모델(student speech translation model)을 교사 기계 번역 모듈(teacher machine translation module)의 예측으로부터 학습하는 경우 본 발명의 종단형 음성언어이해(SLU) 모델(302)은 파인 튜닝된 트랜스포머 기반 언어모델(LM)(301)의 로짓(logit) 추론에 유리하다.

본 프로세스에서는 모델 아키텍처와 손실 함수에 관련하여 트랜스포머 언어모델(LM)의 상세한 압축 절차를 적용한다. 첫 번째 단계에서는 트랜스포머(BERT)의 양방향 인코더 표현과 같은 사전 학습된 언어모델(LM)(301)이 스크립트와 파인 튜닝되어 결국 교사 모델을 구성한다. 결과적으로, 종단형 음성언어이해(SLU) 모델(302)을 학습하는 과정에서 손실 함수는 교사로부터 증류된 지식으로 업데이트될 수 있다. 여기서, 지식은 로짓 계층에 관한 두 모듈의 차이를 나타내는 손실을 의미한다. 마지막으로, 사전 학습된 언어모델(LM)(301)을 종단형 음성언어이해(SLU)에 활용하는 것은 사전 학습된 언어모델(LM)(301)의 파인 튜닝과 사전 학습된 언어모델(LM)(301)에서 종단형 음성언어이해(SLU) 모델(302)로 증류하는 것을 포함한다.

종단형 음성언어이해(SLU) 학습을 위한 지식 증류의 구체적인 구조는 다음과 같다.

교사 모델은 사전 학습된 언어모델(LM)을 텍스트 입력으로 활용한다. 학생 모델은 음성 인스턴스를 채택하는 반면에 교사 모델과 유형의 예측을 공유한다.

이러한 과정에서 주어진 구조와 학습 자원을 최대한 효율적으로 활용하기 위해 다음의 경험 법칙(rules of thumb)을 정한다. 1) 백본 학생 모델은 음성인식(ASR) 사전 학습 모듈과 RNN 기반 의도 분류기를 채택하여 각각 단어 사후 시퀀스 및 슬롯과 같은 예측을 산출한다. 2) 교사 모델의 경우 사전 학습된 BERT를 추가 수정 없이 활용하고 파인 튜닝은 자유롭게 이용할 수 있는 벤치마크를 활용한다. 3) 종단형 음성언어이해(SLU) 모듈의 손실로 사용되는 교차 엔트로피 함수 외에도 지식 증류 손실이 전체 손실로 확대되어 학생 모델의 학습 단계에서 교사 모델의 영향력을 이전한다.

상기한 바와 같이, 지식을 공유함에 있어서 학습 지도(guidance)는 학생 모델이 텍스트 입력에서 나오는 표현과 일치하도록 파인 튜닝된 BERT 로짓 계층의 상위 구성요소로부터 전달된다. 언어모델(LM)의 텍스트에 친숙한 입력 계층(raw-text-friendly input layers)과 달리, 상위 계층은 추상화된 텍스트 정보가 음성 특성과 가장 적합한 부분에 해당될 수 있다.

구체적으로는, 공유지식을 학습 단계에서 교사 모델이 학생 모델에게 주는 규정(손실함수)으로 나타날 수 있어 학생 모델을 바람직한 방향으로 이끈다.

도 4를 참조하면, 지식 증류는 미리 학습된 큰 네트워크, 즉 교사 모델(41)의 지식을 실제로 사용하고자 하는 작은 네트워크, 즉 학생 모델(42)에게 전달하는 것이다. 다시 말해, 학생 모델(42)로도 교사 모델(41)의 성능을 낼 수 있도록 학습 과정에서 교사 모델(41)의 지식을 학생 모델(42)에게 전달하여 학생 모델(42)의 성능을 높이고자 하는 방법론이다.

학생 모델(42)의 분류 성능에 대한 손실로 학생 모델(42)의 분류 결과와 실측자료(스크립트) 간의 차이를 교차 엔트로피 손실 함수를 계산할 수 있다. 또한, 교사 모델(41)의 분류 결과와 학생 모델(42)의 분류 결과 간의 차이를 포함할 수 있으며, 다시 말해 교사 모델(41)과 학생 모델(42)의 출력 로짓을 소프트맥스로 변환한 값의 차이를 교차 엔트로피 손실로 계산할 수 있다.

교사 모델(41)과 학생 모델(42)의 분류 결과를 비교함에 있어 소프트 레벨을 적용함으로써 정보 손실 없이 교사 모델(41)의 분류 결과를 학생 모델(42)의 분류 결과와 비교하여 학생 모델(42)이 교사 모델(41)을 모방하도록 학습시킬 수 있다.

따라서, 지식 증류는 교사 모델(41)의 출력을 학생 모델(42)이 모방하여 학습함으로써 학생 모델(42)이 상대적으로 적은 파라미터를 가지고 있더라도 모델의 성능을 높일 수 있다.

전체 손실함수(L)의 표기법은 수학식 1과 같다.

[수학식 1]

여기서, t는 스케줄링 인자이고,

와

는 지식 증류 가중치를 의미하고

와

의 합은 1이다.

와

는 각각 고정 또는 동적으로 업데이트될 수 있는

와

의 영향을 결정하는 하이퍼 파라미터에 해당된다.

는 수학식 2와 같이 음성언어이해(SLU) 구성요소의 응답 레이블과 예측 로짓 사이의 CE(교차 엔트로피)이며, 여기서 f(·)는 로짓 표현이고 Y는 목적 레이블을 의미한다.

[수학식 2]

는 수학식 3과 같이 음성언어이해(SLU) 구성요소의 예측 로짓과 파인 튜닝된 BERT 사이의 평균 제곱 오차(MSE) 또는 평활화된 L1 손실(MAE)이며, 여기서 D는 거리 유형을 결정한다.

[수학식 3]

는 최상위 단에 있는 SLU 모델과 BERT 최상위 계층의 히든(hidden)이 같아지도록 하는 함수이다.

BERT 파인 튜닝에서는 다양한 퍼포먼스의 교사 모델을 조사하기 위해 두 종류의 방식을 채택한다. 한 가지는 BERT 모델의 [CLS] 표현 상단에 FC(fully connected) 계층을 구축하고, 다른 한 가지는 BERT 모델의 모든 출력 표현에 대해 FC 계층을 설정한 다음 풀링을 적용한다. 양자의 학습 정확도 차이를 고려하여 전자를 교사 모델로, 후자 모델을 교수 모델로 칭한다.

다른 예로, 교사 모델과 교수 모델의 동시적 이익을 얻기 위해 수학식 4와 같이 각 네트워크로부터 오는 손실을 혼합해 하이브리드 구조를 구성할 수 있다.

[수학식 4]

여기서,

=0은 교사 모델만을 나타낸 것이고,

=1은 교수 모델만을 나타낸 것이다. 0<

<1의 경우 하이브리드 모델을 나타낸 것으로, 배치별 의도 에러율(batch-wise intent error rate)(

=err)을 적용한다. 이는 교수 모델이 도전적인 샘픔에 대해 교사 모델 이상으로 가르치는 것을 의미한다.

교사 모델은 전체 문장을 요약한 공통 토큰을 사용하여 학습하는 모델이고, 교수 모델은 좀더 많은 정보를 예측하는 모델로 공통 토큰과 각 워드에 대한 개별 토큰을 함께 사용하여 학습하는 모델이라 할 수 있다.

본 실시예에 대한 실험을 위해 1) FSC(Fluent Speech Command) 데이터셋을 이용하는 완전한 종단형 음성언어이해(SLU) 모듈, 2) 사전 학습된 BERT 모델, 3) 태스크별로 BERT를 BiLSTM로 증류하는 프로세스를 구현한다. 1)를 백본으로 하여 학습 단계에서 1)의 RNN 인코더-디코더에 2)의 지식을 증류하는 것으로, 전체적으로 3)과 같이 BERT와 BiLSTM 간 증류를 수행한다.

이때, 세 가지 유형의 시스템이 고려되며, 첫 번째 유형은 실측자료 스크립트로 파인 튜닝된 사전 학습된 언어모델(LM)(BERT)로 정확한 스크립트가 입력으로 필요한 교사 모델들이다. 교사 모델 학습은 전체 FSC 스크립트로 이루어지고, 워드피스(word piece) 모델 토큰화를 통해 토큰화된다. 모든 교사 모델에 대해 50에포크(epoch) 이전에 수렴이 이루어진다. 두 번째 유형으로는 음성인식(ASR)의 출력 기록이 입력이 되는 교사 모델로, 다시 말해 공통 베이스라인인 음성인식(ASR)-자연어이해(NLU) 파이프라인이다. 음성인식(ASR)은 FSC를 대신하여 최근에 배포된 Jasper 모델을 사용하여 시스템이 단어 오류에 어떻게 민감하게 반응하는지 점검한다. 마지막 유형의 모델은 음성 기반 모델이다. 즉, 단어 레벨 사후를 이용하는 RNN 기반 종단형 모델과 순열 언어 모델을 가진 음소 사후 기반 모델이다. 이러한 모델의 시험에는 음성 발언만 사용된다.

상기한 유형의 시스템을 본 발명에 따른 시스템과 비교하면 다음과 같다. 누가 가르치고, 손실은 얼마나 되고, 학습 지도가 얼마나 영향을 미치는지 등 세가지 요소가

를 결정한다. 첫 번째는 증류 소스, 즉 교사 모델과 교수 모델에 대한 것이다. 두 번째는 MSE나 MAE 중 D에 관한 것이다. 마지막은

와

의 스케줄을 나타낸다.

/

가 지식 증류(KD) 가중치를 설정하며, 시간 요인과 관련하여 세 가지 지식 증류 가중 전략을 수행한다.

[수학식 5]

다시 말해, 교사 모델과 교수 모델의 비율을 동적으로 조절하는 스케줄링 방식을 적용한다. 첫 번째는 정확도(accuracy)를 이용한 스케줄링 방식으로 학습하고자 하는 음성언어이해(SLU) 모델의 성능이 좋아질수록 가중치가 교사 모델에서 교수 모델로 옮겨가는 방식이다. 즉, 수학식 5의 (a)와 같이 배치 당 학습 의도 오류율에 따라 달라진다. 두 번째는 점진적으로 일관되게 교사 모델과 교수 모델의 비율을 조절하는 방식으로, 수학식 5의 (b)와 같이 지수함수형 붕괴형태(exponential decay)(exp.)로 에포크(epoch)에 따라 교사 모델의 영향력이 지수적으로 떨어진다. 세 번째는 트라이앵글 스케줄링 방식(Tri.)으로 최대 에포크 수 μ=T/2 및 T에 대해 수학식 5의 (c)와 같이 정의된다. 교사 모델은 초기 단계에서 변수를 웜업(warm up)하는 exp 스케줄링과 달리, 트라이앵글 스케줄링에서는 처음에는 학생 모델이 스스로 학습하고 중간에 교사 모델이 개입한다.

도 5는 교사 모델과 교수 모델의 성능을 나타낸 것으로,

는 고성능(low word error rate)의 음성인식(ASR) 모델이다. 전체적으로 BERT 모델이 실측자료(GT) 텍스트와 함께 중요성을 나타내는 것으로 확인된다. BERT 모델을 활용한 모델 성능은 물론이고, 교수 모델이 학습 정확도 측면에서 교사 모델보다 높은 성능을 보이는 것을 확인할 수 있다.

도 6은 전체 데이터 시나리오의 실험 결과를 나타낸 것이다. 교사 모델과 하이브리드 모델에서 기존 모델의 성능을 넘어서는 수준을 보이고 있음을 알 수 있다.

도 7은 다양한 스케줄링 방식으로 데이터 부족 시나리오에서 지식 증류가 영향을 받는 결과를 나타낸 것이다. 학습 단계에서 음성 텍스트 쌍의 사용을 10%와 1%로 제한함으로써 텍스트 데이터의 양이 음성을 지배하는 경우에도 본 발명에 따른 학습 방법이 효과적임을 확인할 수 있다. 모든 시나리오에 대해 동일한 테스트 집합을 고려할 때 데이터가 감소함에 따라 오류 감소량이 더욱 가시화됨을 알 수 있다. 더욱이, 스케줄링이 전체 데이터 시나리오의 경우보다 더 많을 영향을 미치는 것을 알 수 있으며, 특히 exp 스케줄링이 다른 시나리오와 비교했을 때 성과를 보이고 있다. 이는 exp 스케줄링 방식이 자원이 충분하지 않은 경우 조기 영향력과 소멸이 학생 모델들을 더 나은 방향으로 이끌 수 있다는 것을 의미한다.

따라서, 본 실시예에서는 텍스트 기반의 파인 튜닝된 언어 모델(LM)의 고성능 추론을 교차 모달 지식 증류를 통해 종단형 음성언어이해(SLU)에 활용할 수 있다.

본 실시예에 따른 종단형 음성언어이해 학습 방법은 의도 파악 및 슬롯 필링 태스크는 물론이고, 화행(언어행위) 파악, 감정 인식 등 음성으로 표현할 수 있는 자연어를 활용한 다양한 태스크에 적용할 수 있으며, 더 나아가 이미지를 포함한 다중 모달 태스크에도 적용 가능하다.

이처럼 본 발명의 실시예들에 따르면, 종단형 음성언어이해(SLU)가 파이프라인 구조에 비해 가지는 장점들을 유지하면서도 텍스트 기반 자연어이해(NLU) 모듈들이 가지는 정확성 및 데이터 유연성을 보장할 수 있다. 특히, 적은 양의 가공된 음성 데이터가 있는 상황에서도 텍스트 데이터를 통해 학습된 고성능의 모듈을 음성 기반의 시스템에 지식 증류함으로써 표현의 공유와 리소스의 효율적인 활용을 가능하게 한다. 가공되거나 레이블된 음성 데이터가 부족하더라도 같은 태스크를 다른 입력 형태로 활용하여 수행하는 자연어 데이터를 충분히 확보할 수 있는 상황에서 유용한 사용환경을 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에서 실행되는 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 방법은,
상기 적어도 하나의 프로세서에 의해, 음성인식 모델과 자연어이해 모델이 연결된 종단형 구조의 음성언어이해(spoken language understanding) 모델을 학습하는 단계
를 포함하고,
상기 학습하는 단계는,
텍스트 기반의 사전 학습된 언어모델을 이용한 교차 모달 지식 증류(cross-modal knowledge distillation)를 통해 상기 음성언어이해 모델을 학습하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 학습하는 단계는,
상기 음성언어이해 모델의 출력 확률을 상기 언어모델의 출력 확률과 맞추는 방식으로 상기 언어모델의 지식을 상기 음성언어이해 모델로 증류하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 음성인식 모델은 주어진 음성의 특정 단어들의 연속될 확률을 출력하고,
상기 자연어이해 모델은 상기 확률을 입력으로 하여 상기 음성에 대한 의도를 추출하고,
상기 음성언어이해 모델은 상기 음성을 입력으로 하여 상기 음성에 대한 의도를 추출하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 학습하는 단계는,
상기 음성언어이해 모델의 학습에 사용되는 손실 함수에 상기 음성언어이해 모델의 출력 확률과 상기 언어모델의 출력 확률 간의 평균 제곱 오차(MSE) 또는 평균 절대 오차(MAE)를 반영하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 학습하는 단계는,
상기 음성언어이해 모델의 예측치와 응답 레이블 사이의 제1 손실 함수, 및 상기 음성언어이해 모델의 예측치와 상기 언어모델 사이의 제2 손실 함수를 기초로 상기 음성언어이해 모델을 학습하는 것
을 특징으로 하는 방법.
제1항에 있어서,
상기 학습하는 단계는,
상기 언어모델로서 전체 문장에 대한 공통 토큰을 사용하는 제1 모델 및 상기 공통 토큰과 함께 각 워드 별 개별 토큰을 사용하는 제2 모델 중 적어도 하나를 이용하여 상기 음성언어이해 모델을 학습하는 것
을 특징으로 하는 방법.
제6항에 있어서,
상기 학습하는 단계는,
상기 제1 모델과 상기 제2 모델의 손실을 혼합하는 하이브리드 구조의 경우 상기 제1 모델과 상기 제2 모델의 손실 비율을 스케줄링하는 단계
를 포함하는 방법.
제7항에 있어서,
상기 스케줄링하는 단계는,
배치(batch) 당 학습 의도 오류율에 따라 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절하는 것
을 특징으로 하는 방법.
제7항에 있어서,
상기 스케줄링하는 단계는,
지수함수형 붕괴형태(exponential decay)로 에포크(epoch)에 따라 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절하는 것
을 특징으로 하는 방법.
제7항에 있어서,
상기 스케줄링하는 단계는,
트라이앵글 스케줄링(triangular scheduling)을 통해 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절하는 것
을 특징으로 하는 방법.
제1항 내지 제10항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록 매체.
컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
음성인식 모델과 자연어이해 모델이 연결된 종단형 구조의 음성언어이해 모델을 학습하는 것으로,
텍스트 기반의 사전 학습된 언어모델을 이용한 교차 모달 지식 증류를 통해 상기 음성언어이해 모델을 학습하는 것
을 특징으로 하는 컴퓨터 시스템.
제12항에 있어서,
상기 음성인식 모델은 주어진 음성의 특정 단어들의 연속될 확률을 출력하고,
상기 자연어이해 모델은 상기 확률을 입력으로 하여 상기 음성에 대한 의도를 추출하고,
상기 음성언어이해 모델은 상기 음성을 입력으로 하여 상기 음성에 대한 의도를 추출하고,
상기 적어도 하나의 프로세서는,
상기 음성언어이해 모델의 출력 확률을 상기 언어모델의 출력 확률과 맞추는 방식으로 상기 언어모델의 지식을 상기 음성언어이해 모델로 증류하는 것
을 특징으로 하는 컴퓨터 시스템.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
상기 음성언어이해 모델의 학습에 사용되는 손실 함수에 상기 음성언어이해 모델의 출력 확률과 상기 언어모델의 출력 확률 간의 평균 제곱 오차(MSE) 또는 평균 절대 오차(MAE)를 반영하는 것
을 특징으로 하는 컴퓨터 시스템.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
상기 음성언어이해 모델의 예측치와 응답 레이블 사이의 제1 손실 함수, 및 상기 음성언어이해 모델의 예측치와 상기 언어모델 사이의 제2 손실 함수를 기초로 상기 음성언어이해 모델을 학습하는 것
을 특징으로 하는 컴퓨터 시스템.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
상기 언어모델로서 전체 문장에 대한 공통 토큰을 사용하는 제1 모델 및 상기 공통 토큰과 함께 각 워드 별 개별 토큰을 사용하는 제2 모델 중 적어도 하나를 이용하여 상기 음성언어이해 모델을 학습하는 것
을 특징으로 하는 컴퓨터 시스템.
제16항에 있어서,
상기 적어도 하나의 프로세서는,
상기 제1 모델과 상기 제2 모델의 손실을 혼합하는 하이브리드 구조의 경우 상기 제1 모델과 상기 제2 모델의 손실 비율을 스케줄링하는 것
을 특징으로 하는 컴퓨터 시스템.
제17항에 있어서,
상기 적어도 하나의 프로세서는,
배치 당 학습 의도 오류율에 따라 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절하는 것
을 특징으로 하는 컴퓨터 시스템.
제17항에 있어서,
상기 적어도 하나의 프로세서는,
지수함수형 붕괴형태로 에포크에 따라 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절하는 것
을 특징으로 하는 컴퓨터 시스템.
제17항에 있어서,
상기 적어도 하나의 프로세서는,
트라이앵글 스케줄링을 통해 상기 제1 모델과 상기 제2 모델의 손실 비율을 조절하는 것
을 특징으로 하는 컴퓨터 시스템.