KR20190046631A

KR20190046631A - 자연어 프로세싱을 위한 시스템 및 방법

Info

Publication number: KR20190046631A
Application number: KR1020180117334A
Authority: KR
Inventors: 리안준 치; 지안준 마
Original assignee: 하만인터내셔날인더스트리스인코포레이티드
Priority date: 2017-10-26
Filing date: 2018-10-02
Publication date: 2019-05-07
Also published as: EP3477635B1; US10395647B2; EP3477635A1; CN109710727B; CN109710727A; US20190130895A1

Abstract

복수의 음성 인식 엔진, 복수의 음성 인식 엔진으로부터 올바른 결과를 식별하기 위한 데이터 융합 모델 및 올바른 결과를 프로세싱하기 위한, 음성 인식 모델과 별개이며 구별되는 의미 이해 모델을 이용해 자연어 프로세싱의 정확도를 개선하기 위한 시스템 및 방법. 올바른 결과를 이용해 말뭉치가 형성되며 상기 말뭉치는 데이터 융합 모델 및 의미 이해 모델을 훈련하는 데 사용된다.

Description

자연어 프로세싱을 위한 시스템 및 방법{SYSTEM AND METHOD FOR NATURAL LANGUAGE PROCESSING}

본 발명은 자동 음성 인식을 위한 자연어 프로세싱과 관련되며 더 구체적으로 자연어 프로세싱의 정확도를 개선하는 것과 관련된다.

연결성이 흔한 일이 되고 있는 세계에서, 사용자와 연결된 장치 사이에 존재하는 인간-기계 인터페이스를 개선하기 위한 음성 인식 기술이 통합된 많은 장치가 존재한다. 예를 들어, 차량에서, 내비게이션 시스템, 인포테인먼트 시스템(infotainment system), 기후 제어 시스템, 또는 그 밖의 다른 차량 운영이 모두 음성 인식 기술을 이용해 제어될 수 있다. 커넥티드 홈(connected home)에서, 가전 아이템, 가령, 텔레비전, 시계, 가전기기, 조명 스위치, 온도조절장치(thermostat) 및 진공 청소기에 음성 인식 기술이 통합될 수 있다. 그 밖의 다른 휴대용 장치, 가령, 개인 어시스턴트, 스마트 시계, 태블릿, 모바일 폰 등에 또한 음성 인식 기술이 통합된다.

현재의 장치 실무에서, 단일 음성 인식 엔진이 자동 음성 인식과 의미 이해 기능을 수행한다. 그러나 음성 인식 엔진은 완벽하지 못하게 덜 정확하며 종종 자연어 프로세싱에서의 에러를 인식하거나 식별하지 못한다.

음성 인식 기술에서 사용되는 자연어 프로세싱의 정확도를 개선할 필요가 있다.

도 1은 자연어 프로세싱을 위한 시스템의 시스템 아키텍처의 블록도이다.
도 2는 자연어 프로세싱을 위한 방법의 흐름도이다.
도 3은 올바른 결과를 결정하기 위한 방법의 흐름도이다.
도면에서 요소 및 단계가 단순성과 명료성을 위해 도시되며 반드시 임의의 특정 순서에 따라 렌더링될 필요는 없다. 예를 들어, 본 발명의 실시예의 이해를 향상시키는 데 도움이 되도록 동시에 또는 상이한 순서로 수행될 수 있는 단계가 도면에 도시된다.

본 발명의 다양한 양태가 특정 예시적 실시예를 참조하여 기재되지만, 본 발명은 이러한 실시예에 한정되지 않고, 추가 변경, 응용, 및 실시예가 본 발명의 범위 내에서 구현될 수 있다. 도면에서, 유사한 도면부호가 동일한 구성요소를 나타내기 위해 사용될 것이다. 해당 분야의 통상의 기술자라면 본 명세서에 제공된 다양한 구성요소가 본 발명의 범위 내에서 변경될 수 있음을 알 것이다.

기존에는, 장치가 단 하나의 음성 인식 엔진(음성 인식 엔진)을 이용했다. 이러한 단일 엔진이 자동 음성 인식 기능과 의미 이해 기능을 모두 수행한다. 도 1은 장치, 가령, 휴대용 또는 모바일 폰 또는 태블릿, 컴퓨터, 인포테인먼트 시스템, 또는 음성 인식 기술을 구현하는 그 밖의 다른 임의의 장치 상에서의 자연어 프로세싱을 위한 시스템(100)의 블록도이다. 시스템은 다양한 프로그래밍 언어 및/또는 기술을 이용해 컴퓨터 프로그램으로부터 컴파일 또는 번역될 수 있는 컴퓨터 실행형 명령을 포함한다. 일반적으로, 프로세서(가령, 마이크로프로세서)는 가령 메모리, 컴퓨터 판독형 매체 등으로부터 명령을 수신하고 명령을 실행시킨다. 상기 프로세서는 소프트웨어 프로그램의 명령을 실행시킬 수 있는 비-일시적 컴퓨터 판독형 저장 매체를 포함한다. 컴퓨터 판독형 저장 매체는, 전자 저장 장치, 자기 저장 장치, 광학 저장 장치, 전자기 저장 장치, 반도체 저장 장치, 또는 이들의 임의의 적합한 조합일 수 있으나, 이에 한정되지는 않는다. 통신 수단, 가령, 프로세서와 통신하기 위한 데이터 버스가 또한 포함된다.

입력 장치(102), 가령, 마이크로폰이 자연어 입력, 가령, 사용자로부터의 구두 명령어(verbal command)를 수신하고, 구두 입력 명령어를 프로세서에 의해 액세스 가능한 복수의 음성 인식 엔진(104a-n)으로 제공한다. 음성 인식 엔진(104a-n)은 상용화된 엔진, 가령, iFlyTek, Baidu, Hound, Siri, Amazon Alexa 및 Microsoft Cortana 등이다. 복수의 음성 인식 엔진(104a-n)의 각각의 음성 인식 엔진(104)은 자연어 프로세싱의 자동 음성 인식 부분만 수행한다. 의미 이해 부분은 본 명세서에서 차후 설명될 의미 이해 모델(106)에서 따로 수행된다.

복수의 음성 인식 엔진(104a-n)의 각각의 음성 인식 엔진(104)이 하나씩의 결과(108)를 제공함으로써, 복수의 결과(108a-n)가 생성된다. 구두 입력 명령어의 경우, 음성 인식 엔진(104a-n) 간에 서로 다른 결과가 생성될 것이다. 데이터 융합 모델(data fusion model)(110)은 복수의 결과(108a-n)를 포함하여 올바른 결과를 선택할 수 있다. 의미 이해 모델(106)이 장치에 의해 사용될 올바른 결과를 수신한다. 복수의 음성 인식 엔진의 각각의 음성 인식 엔진(104)의 방식의 세부사항은 본 명세서에서 언급되지 않을 것이다. 각각의 음성 인식 엔진이 자신의 대응하는 결과(108)에 도달하는 방법에 대해 몇 가지 방식이 존재하며, 선택할 어떠한 올바른 결과도 존재하지 않는 경우에 올바른 결과를 선택할 때 또는 올바른 결과를 결정할 때 이러한 다양성은 데이터 융합 모델(106)에 본질적으로 유용하다.

또한, 시스템(100)은 입력 신호를 향상시키기 위해 입력(102)에서 수신되는 오디오 신호를 디지털 프로세싱하는 프로세서를 포함할 수 있다. 예를 들어, 입력(102)에서 수신된 구두 명령어가 디지털화되고 필터링되어 배경 노이즈가 제거될 수 있다.

도 2를 참조하면, 방법(200)의 흐름도가 도시되어 있다. 음성, 또는 오디오 입력이 입력부, 가령, 마이크로폰에서 수신되고(202) 복수의 음성 인식 엔진으로 전송된다(204). 각각의 음성 인식 엔진이 결과를 생성하며 상기 결과는 데이터 융합 모델에 의해 수신되고 결과의 세트(206)로 컴파일된다. 올바른 결과가 식별되고(208), 올바른 결과가 의미 이해 모델로 전송되어(210) 장치에 의해 프로세싱된다. 각각의 음성 인식 엔진으로부터의 결과들이 서로 동일할 때 올바른 결과가 쉽게 식별된다. 그러나 결과가 서로 다를 때, 올바른 결과를 식별하기 위해 추가 개발이 필요하다.

많은 시나리오에서 발생할 가능성이 높은, 복수의 음성 인식 엔진으로부터의 결과가 동일하지 않을 때, 통계적 언어 모델링에 의해 올바른 결과의 결정이 이뤄진다. 문장, 즉, 구두 명령어의 확률을 계산하는 데 통계적 언어 모델링이 사용된다. 이용 가능한 많은 통계적 언어 모델링 방법이 존재한다. 한 가지 예로는 N-그램 모델(N-gram model)이 있다.

도 3을 참조하여, 복수의 음성 인식 엔진으로부터 수집된 올바른 결과를 이용해 말뭉치(corpus)를 개발함으로써 이뤄지는 올바른, 또는 최적의 결과의 결정 및 언어 모델의 훈련을 설명하기 위해 더 상세한 흐름도(300)가 나타난다. 복수의 음성 인식 결과로부터의 각각의 결과가 컴파일되고(302) 서로 비교된다(304). 모든 결과가 동일한 경우(306), 올바른 결과가 식별된다(308). 결과가 모두 동일한 것은 아닌 경우(310), 언어 모델(314)을 적용하고 각각의 결과에 확률을 할당함으로써 결과가 선택된다(312). 결과는 올바른 결과일 확률을 기초로 선택된다(312). 선택(312)된 결과는 결과 세트 중에서 올바른 결과일 가장 높은 확률을 가질 것이다. 즉, 올바른 결과인 확률이 가장 높은 결과 세트가 선택된다.

결과의 확률은 적용된 언어 모델(314)을 이용해 결정될 때 현재의 애플리케이션 또는 맥락에서의 문장, 또는 구두 명령어를 기초로 한다. 올바른 결과가 기록되고(316) 말뭉치(318)에 포함된다. 모델, 가령, N-그램 모델이 올바른 말뭉치를 선택하도록 적용되고 언어 모델(314)을 훈련하도록 사용될 수 있다(320). 예를 들어, Viterbi 알고리즘이 적용되어 올바른 결과일 가장 높은 확률을 갖는 결과를 선택할 수 있고(312), 선택된 결과가 올바른 결과로서 식별된다(312). 요컨대, 데이터 융합 모델에서 발생하는 데이터 융합이 복수의 식별된 결과로부터 올바른 결과를 선택하거나, 통계적으로 더 정확한 결과를 생성하도록 조합된 결과로부터 최적의 결과를 선택하게 할 수 있다.

예를 들어, 사용자가 구두 명령어 "I want to go to Mike's house(나는 마이크의 집에 가기를 원한다)"를 입력한다. 음성 인식 엔진 1이 결과 1 "I want to go to Mike's house(나는 마이크의 집에 가기를 원한다)"을 반환한다. 음성 인식 엔진 2가 결과 2 "I want to go to Mike's horse(나는 마이크의 말로 가기를 원한다)"를 반환한다. 음성 인식 엔진 3이 결과 3 "I won't to go to Mike's house(나는 마이크의 집에 가지 않을 것이다)"를 반환한다. 자명하게도, 결과 1이 보통의 표현을 나타내고 이것이 올바른 결과일 더 높은 결합 확률(결합 확률)을 가질 것이다. 또 다른 예시에서, 사용자가 구두 명령어 "Start Music(음악 시작)"를 입력한다. 음성 인식 엔진 1이 결과 1 "Music start(음악 시작)"을 반환하고, 음성 인식 엔진 2가 결과 2 "Music star(뮤직 스타)"를 반환한다. 이 예시는 더 복잡한데, 왜냐하면 두 문장 모두 보통의 표현일 수 있기 때문이다. 그러나 "대화" 대상 장치인 차량 환경을 고려하여, "Music start(음악 시작)"이 더 가능성이 높기 때문에 올바른 결과로서 식별될 더 높은 결합 확률을 도출할 것이다.

음성 인식 모델을 통해, 음성이 텍스트로 인식된다. 데이터 융합 모델을 통해, 올바른 결과가 식별된다. 의미 이해 모델을 통해, 올바른 또는 최적의 결과가 논리적인 방식으로 제공되도록 데이터가 구조화된다. 복수의 음성 인식 엔진의 결과를 통합시키는 것이 올바른 결과가 식별될 확률을 높인다. 마찬가지로, 정확도 개선이 의미 이해 모델에 적용될 것이다. 예를 들어, 입력 문장 "I need to go to the store(나는 상점에 가야 한다)"가 음성 인신 모델에 의해 프로세싱되고 올바른 결과가 "I need to go to the store(나는 상점에 가야 한다)"로 식별된다. 의미 이해 모델이 도착지가 "(the store)상점"이도록 "내비게이션(navigation)"에서의 동작을 식별할 것이다. 앞서 언급된 바와 같이, 이 모델에 적용될 수 있는 많은 기법이 존재하며, 동작, 즉, 내비게이션을 식별하기 위해 텍스트 분류를 이용하고, 그 후 대응하는 파라미터, 즉, 상점 도착지를 식별하기 위해 정보 추출 방법을 이용한다. 지원 벡터 머신(SVM: support vector machine)이 텍스트 카테고리화를 구현하는 데 사용될 수 있으며 조건부 랜덤 필드(CRM: conditional random field)가 정보 추출을 구현하는 데 사용될 수 있다.

문장 입력이 복수의 음성 인식 엔진으로 전송되기 때문에, 복수의 음성 인식 엔진의 결과가 컴파일된다. 따라서 언어 모델(314)이라고도 알려진 의미 이해 모델을 훈련시키는 데 사용되는 더 많은 말뭉치를 수집함으로써 시스템(100) 및 방법(200, 300)의 정확도가 개선된다.

데이터 융합 모델(110) 및 의미 이해 모델(106)이 올바른 음성 인식 결과를 획득함으로써 지속적으로 개선되는 중이다. 데이터 융합 모델을 위한 더 많은 말뭉치는 더 우수한 훈련을 의미하며, 따라서 올바른 결과를 식별할 확률이 증가함을 의미한다. 마찬가지로, 의미 이해 모델의 경우, 더 많은 말뭉치가 더 우수한 훈련을 의미하고 올바른 결과를 인식할 확률의 증가를 의미한다. 말뭉치는 음성 인식 엔진의 모든 결과를 기록함으로써 수집된다. 말뭉치는 낮은 결합 확률을 갖는 입력 문장을 선택함으로써 배열된다. 입력 문장이 정규 표현인지 여부를 수동으로 결정하는 것이 필요할 수 있다. 이러한 결정 후, 입력 문장이 말뭉치에 추가된다. 말뭉치가 지정 크기에 도달할 때 모델이 재훈련될 수 있다. 그 후 재훈련된 모델은 장치 상에서 사용 중인 또는 장치에 의해 사용되는 시스템의 업데이트로서 적용된다.

앞서, 본 발명의 주제는 특정 예시적 실시예를 참조하여 기재되었다. 그러나 다양한 수정 및 변경이 청구항으로 제공된 본 발명의 범위 내에서 이뤄질 수 있다. 명세서 및 도면은 제한이 아니라 예시이며, 수정이 본 발명의 범위 내에 포함되는 것으로 의도된다. 따라서 본 발명의 범위는 기재된 예시에 의해서가 아니라 청구항 및 이의 적법한 균등물에 의해 결정되어야 한다.

예를 들어, 임의의 방법 또는 프로세스 청구항에서 언급된 단계들은 임의의 순서로 실행될 수 있으며 청구항에서 제공되는 특정 순서에 한정되서는 안 된다. 덧붙여, 임의의 장치 청구항에서 언급된 구성요소 및/또는 요소가 다양한 순열로 조합 또는 그 밖의 다른 방식으로 동작 가능하게 구성될 수 있기 때문에 청구항에서 언급된 특정 구성에 한정되지 않는다.

혜택, 그 밖의 다른 이점 및 문제 해결책이 앞서 특정 실시예와 관련하여 기재되었지만, 임의의 혜택, 이점, 문제 해결책, 또는 임의의 특정 혜택, 이점 또는 해결책이 발생하게 할 수 있거나 더 두드러지게 만들 수 있는 임의의 요소가 임의의 또는 모든 청구항의 요구되는 또는 필수 특징부 또는 구성요소로 해석되지 않아야 한다.

용어 "포함하다(comprise)", "포함하다(comprises)", "포함하는(comprising)", "갖는(having)", "포함하는(including)", "포함하다(includes)" 또는 이들의 임의의 변형이 비-배제적 포함을 지칭하도록 의도되며, 이로써, 요소들의 리스트를 포함하는 프로세서, 방법, 물품, 조성 또는 장치가 언급된 요소들만 포함하는 것이 아니라 명시적으로 나열되지 않거나 이러한 프로세스, 방법, 물품, 조성, 또는 장치에 내재적인 다른 요소까지 포함할 수 있다. 본 발명의 주제 사항을 실시할 때 사용되는 앞서 기재된 구조, 배열, 응용, 비율, 요소, 물질 또는 성분의 그 밖의 다른 조합 및/또는 수정이, 구체적으로 언급되지 않은 것에 추가로, 이의 일반적인 원리에서 벗어나지 않고 변형되거나 특정 환경, 제조 규격, 설계 파라미터 또는 그 밖의 다른 동작 요건에 그 밖의 다른 방식으로 특정하게 적응될 수 있다.

Claims

자연어 프로세싱의 정확도를 개선하기 위한 시스템으로서, 상기 시스템은
자연어 입력 장치,
자동 음성 인식 기능만을 위한 복수의 음성 인식 엔진 - 상기 복수의 음성 인식 엔진은 입력 장치에 연결되고, 복수의 음성 인식 엔진은 입력 장치로부터 입력을 수신하며 음성 인식 결과를 음성 인식 결과 세트의 일부로서 제공함 - ,
음성 인식 결과 세트를 수신하고 상기 음성 인식 결과 세트로부터 올바른 결과를 식별하기 위한 데이터 융합 모델, 및
올바른 결과를 프로세싱하기 위한, 복수의 음성 인식 엔진과 별개이며 구별되는 의미 이해 모델
을 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
제1항에 있어서, 상기 데이터 융합 모델이 음성 인식 결과 세트로부터 올바른 결과를 식별하는 것은 음성 인식 결과 세트의 각각의 결과가 동일할 때 올바른 결과가 식별되는 것을 더 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
제1항에 있어서, 상기 데이터 융합 모델이 음성 인식 결과 세트로부터 올바른 결과를 식별하는 것은 음성 인식 결과 세트 내에서 올바른 결과일 확률이 가장 높은 결과로서 올바른 결과가 식별되는 것을 더 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
제1항에 있어서, 데이터 융합 모델 및 의미 이해 모델을 훈련시키는 데 사용되는 말뭉치(corpora)를 형성하는 복수의 음성 인식 결과의 모든 결과의 모음을 더 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
자연어 입력 장치, 복수의 음성 인식 엔진, 데이터 융합 모델 및 의미 이해 모델을 포함하는 시스템에서의 자연어 프로세싱을 위한 방법으로서, 상기 방법은
자연어 입력 장치에서 입력 문장을 수신하는 단계,
복수의 음성 인식 엔진에서 입력 문장을 프로세싱하는 단계 - 복수의 음성 인식 엔진의 각각의 음성 인식 엔진은 모든 음성 인식 엔진에 대한 결과 세트의 일부인 결과를 생성함 - ,
결과 세트로부터 올바른 결과를 식별하도록 데이터 융합 모델을 적용하는 단계, 및
의미 이해 모델에서 올바른 결과를 프로세싱하는 단계
를 수행하기 위한 컴퓨터 실행 명령을 갖는 프로세서에서 수행되는, 자연어 프로세싱을 위한 방법.
제5항에 있어서, 올바른 결과를 식별하기 위해 데이터 융합 모델을 적용하는 단계는 음성 인식 결과 세트 내 각각의 결과가 동일함으로써 올바른 결과가 식별되는 단계를 더 포함하는, 자연어 프로세싱을 위한 방법.
제5항에 있어서, 음성 인식 결과 세트로부터 올바른 결과를 식별하기 위해 데이터 융합 모델을 적용하는 단계는 음성 인식 결과 세트 내에서 올바른 결과일 확률이 가장 높은 결과로서 올바른 결과를 식별하는 단계를 더 포함하는, 자연어 프로세싱을 위한 방법.
제5항에 있어서,
복수의 음성 인식 엔진으로부터의 모든 결과를 기록하여 말뭉치(corpora)를 형성하는 단계, 및
개발된 말뭉치를 이용해 데이터 융합 모델 및 의미 이해 모델을 훈련하는 단계를 더 포함하는, 자연어 프로세싱을 위한 방법.
제8항에 있어서, 복수의 음성 인식 엔진의 결과를 기록하여 말뭉치를 형성하는 단계는
올바른 결과일 확률이 낮은 입력 문장에 대해 결과 세트로부터 하나 이상의 결과를 선택하는 단계,
입력 문장이 정규 표현임을 수동으로 결정하는 단계, 및
입력 문장을 형성된 말뭉치에 추가하는 단계
를 더 포함하는, 자연어 프로세싱을 위한 방법.
컴퓨터 판독형 매체로서, 하나 이상의 프로세서에 의해 실행될 때
복수의 음성 인식 엔진을 이용해 입력 장치에 의해 수신된 입력 문장을 프로세싱하는 동작,
복수의 음성 인식 엔진의 각각의 음성 인식 엔진에 대한 모든 결과를 포함하는 결과 세트를 생성하는 동작,
결과 세트로부터 올바른 결과를 식별하기 위해 결과 세트에 데이터 융합 모델을 적용하는 동작, 및
의미 이해 모델에서 올바른 결과를 프로세싱하는 동작
을 수행하게 하는 프로그램을 포함하는 컴퓨터 판독형 매체.
제10항에 있어서, 프로그램이 결과 세트로부터 올바른 결과를 식별하기 위해 결과 세트에 데이터 융합 모델을 적용하는 동작을 수행하는 것은 결과 세트 내 모든 결과가 동일할 때 올바른 결과가 식별되는 것을 더 포함하는, 컴퓨터 판독형 매체.
제10항에 있어서, 프로그램이 결과 세트로부터 올바른 결과를 식별하기 위해 결과 세트에 데이터 융합 모델을 적용하는 동작을 수행하는 것은 음성 인식 결과 세트 내에서 올바른 결과일 확률이 가장 높은 결과로서 올바른 결과가 식별되는 것을 더 포함하는, 컴퓨터 판독형 매체.
제10항에 있어서, 프로그램은
말뭉치를 형성하기 위해 복수의 음성 인식 엔진으로부터의 모든 결과를 기록하는 것, 및
형성된 말뭉치를 이용해 데이터 융합 모델 및 의미 이해 모델을 훈련시키는 것
을 포함하는 동작을 수행하는, 컴퓨터 판독형 매체.
제13항에 있어서, 말뭉치를 형성하기 위해 복수의 음성 인식 엔진의 결과를 기록하는 것을 포함하는 동작은
올바른 결과일 확률이 낮은 입력 문장에 대해 결과 세트로부터 하나 이상의 결과를 선택하는 것,
입력 문장이 정규 표현임을 수동으로 결정하는 것, 및
입력 문장을 형성된 말뭉치에 추가하는 것
을 포함하는 동작을 더 포함하는, 컴퓨터 판독형 매체.