KR20210120936A

KR20210120936A - 음성 인터랙션 방법, 장치, 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품

Info

Publication number: KR20210120936A
Application number: KR1020210124461A
Authority: KR
Inventors: 왕 지지안; 취안 셍
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-12-01
Filing date: 2021-09-17
Publication date: 2021-10-07
Also published as: CN112466280A; JP2021192114A; JP7264957B2; US20220068277A1; CN112466280B

Abstract

본 출원은 음성 인터랙션 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 관한 것으로 음성 처리, 딥 러닝 기술 분야에 관한 것이다. 본 출원이 음성 인터랙션을 진행할 경우 사용하는 구현 방식은, 인식될 오디오를 획득하기 위한 것, 오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하는 것, 상기 인식 특징에 따라 응답 신뢰도를 획득하는 단계, 상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답하는 것을 포함한다.

Description

음성 인터랙션 방법, 장치, 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품{Voice interaction method, apparatus, electronic device, readable storage medium and computer program product}

본 출원은 컴퓨터 기술 분야에 관한 것이며, 특히 음성 처리, 딥 러닝 기술 분야 중의 음성 인터랙션 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 관한 것이다.

종래 기술에서 음성 인터랙션을 진행 시, 오디오에 대한 응답 오류를 방지하기 위해, 오디오의 신뢰도를 통해 오디오에 대해 응답하는지를 결정한다. 종래 기술에서, 오디오의 신뢰도를 획득 시, 통상적으로 오디오 자체의 특징 또는 오디오에 대응되는 텍스트의 특징을 통해 신뢰도를 획득하는 것을 사용한다. 그러나, 오디오 또는 오디오에 대응되는 텍스트를 통해서만 신뢰도를 획득할 경우, 일반적으로 획득된 신뢰도의 정확성이 낮음으로 인해, 오디오의 응답 오류를 초래하게 되어 음성 인터랙션할 시의 응답 정확성이 떨어지게 된다.

본 출원은 기술적 과제를 해결하기 위해 사용한 해결 수단은 음성 인터랙션 방법을 제공하는 것이며, 상기 음성 인터랙션 방법은, 인식될 오디오를 획득하는 것, 오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하는 것, 상기 인식 특징에 따라 응답 신뢰도를 획득하는 것, 및 상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답하는 것을 포함한다.

본 출원은 기술적 과제를 해결하기 위해 사용한 해결 수단은 음성 인터랙션 장치를 제공하는 것이며, 상기 음성 인터랙션 장치는 인식될 오디오를 인식하기 위한 획득 유닛, 오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하기 위한 인식 유닛, 상기 인식 특징에 따라 응답 신뢰도를 획득하기 위한 처리 유닛, 및 상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답하기 위한 응답 유닛을 포함한다.

전자 기기는 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리,를 포함하며, 여기서 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 상기에 따른 방법을 수행하게 한다.

컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨터 명령어는 상기 컴퓨터로 하여금 상기에 따른 방법을 수행하게 하기 위한 것을 특징으로 한다.

컴퓨터 프로그램 제품은 프로세서에 의해 실행될 때 상기의 음성 인터랙션 방법을 구현하는 컴퓨터 프로그램을 포함한다.

상기 출원 중의 일 실시예는 아래와 같은 장점 및 유익한 효과를 구비한다. 본 출원은 음성 인터랙션 시의 응답 정확성을 향상할 수 있다. 오디오 인식 과정에서 생성되는 인식 특징을 추출하는 것을 통해 응답 신뢰도를 획득하는 기술수단을 사용하므로 종래기술 중의 오디오 또는 텍스트만 이용하여 신뢰도를 획득함으로 인해 초래되는 신뢰도의 정확성이 떨어지는 기술적 문제를 극복할 수 있으며, 더욱 정확한 응답 신뢰도를 획득할 수 있음으로 인해 음성 인터랙션 시의 응답 정확성을 향상하는 기술적 효과를 실현했다.

상기 바람직한 방식이 구비하는 기타 효과는 아래의 문맥에서 구체적인 실시예를 결합하여 설명한다.

첨부된 도면은 본 해결 수단을 더 잘 이해하기 위한 것이며, 본 출원에 대해 한정하지 않는다. 여기서,
도 1은 본 출원의 제1실시예에 따른 설명도이며,
도 2는 본 출원의 제2실시예에 따른 설명도이며,
도 3은 본 출원의 제3실시예에 따른 설명도이며,
도 4는 본 출원의 실시예에 따른 음성 인터랙션 방법을 구현하기 위한 전자 기기의 블록도이다.

아래에서는 본 출원의 예시적 실시예에 대해 첨부된 도면을 결합하여 설명하도록 하며, 여기서 이해를 돕기 위해 본 출원의 실시예의 다양한 세부 내용을 포함하며, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 당해 분야의 통상적인 기술자는 본 출원의 범위 및 사상을 벗어나는 것이 없이, 여기서 설명한 실시예에 대해 다양한 변형 및 수정을 할 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략한다.

도 1은 본 출원의 제1실시예에 따른 설명도이다. 도 1에서 도시한 바와 같이, 본 실시예의 음성 인터랙션 방법은 구체적으로 아래와 같은 단계를 포함한다.

S101에서, 인식될 오디오를 획득한다.

S102에서, 오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 한다.

S103에서, 상기 인식 특징에 따라 응답 신뢰도를 획득한다.

S104에서, 상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답한다.

본 실시예에 따른 음성 인터랙션 방법은, 오디오 인식 모델이 인식될 오디오를 인식하는 과정에서 생성된 인식 특징을 획득하는 것을 통해 인식될 오디오의 응답 신뢰도를 획득하며, 상기 획득된 인식 특징 중에 풍부한 정보가 포함되므로 더욱 정확한 응답 신뢰도를 획득할 수 있으며, 응답 신뢰도의 정확성이 향상된 기초에 인식될 오디오에 대한 응답 오류를 최대적으로 방지함으로써, 음성 인터랙션 시의 응답 정확성을 향상시켰다.

본 실시예의 실행 주체는 단말 장치일 수 있으며, 단말 장치는 스마트폰, 스마트 가전, 스마트 스피커 또는 차량용 음성 인터랙션 기기 등일 수 있으며; 본 실시예의 실행 주체는 또한 단말 장치와 클라우드 서버를 포함할 수 있으며, 단말 장치가 인식될 오디오를 클라우드 서버로 발송한 후, 클라우드 서버에 의해 오디오 인식을 진행하고, 인식 특징에 따라 획득한 응답 신뢰도를 단말 장치로 피드백하고, 단말 장치에 의해 상기 응답 신뢰도에 따라 인식될 오디오에 대해 응답하는지를 결정한다.

본 실시예가 단계S101을 실행하여 획득한 인식될 오디오는 사용자가 단말 장치와 음성 인터랙션을 진행할 때 내는 오디오이며, 예를 들어 인식될 오디오는 사용자가 단말 장치로 내는 조회 오디오일 수 있으며, 사용자가 단말 장치로 내는 제어 오디오일 수도 있다.

본 실시예가 S101을 실행하여 인식될 오디오를 획득한 후, S102를 실행하여 오디오 인식 모델을 이용하여 인식될 오디오의 인식 결과를 획득하고, 인식 과정에서의 오디오 인식 모델의 출력층의 입력을 추출하여 인식 특징으로 한다.

여기서, 본 실시예에서의 오디오 인식 모델은 딥 러닝 모델이며, 입력된 오디오에 따라 텍스트를 출력하기 위한 복수의 신경망층을 포함한다. 따라서, 본 실시예는 S102를 실행하여 오디오 인식 모델을 이용하여 획득한 인식될 오디오의 인식 결과는 텍스트이다.

구체적으로, 본 실시예는 S102를 실행하여 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 할 때에, 사용할 수 있는 바람직한 구현 방식은 아래와 같다. 오디오 인식 모델은 입력층, 어텐션층(Attention Layor) 및 출력층을 포함하며, 여기서 입력층은 입력된 오디오를 특징 벡터로 전환하기 위한 것이며, 어텐션층은 입력층의 특징 벡터에 대해 어텐션 메커니즘 계산을 진행하기 위한 것이며, 출력층은 어텐션층의 계산 결과를 텍스트로 맵핑하기 위한 것이다. 오디오 인식 모델 중의 출력층 이전에 위치하는 어텐션층의 인식 과정에서의 출력을 추출하여 인식 특징으로 한다.

여기서, 본 실시예의 오디오 인식 모델 중의 어텐션층은 어텐션 메커니즘의 계산을 1회만 진행할 수 있고, 복수회 진행할 수도 있다. 또한, 본 실시예는 오디오 인식 모델의 망 구조에 대해 한정하지 않으며, 상기 입력층, 어텐션층 및 출력층의 망 구조 외에， 입력층, 풀링층, 합성곱층 및 출력층의 망 구조일 수도 있으며, 입력층, 풀링층, 합성곱층, 어텐션층 및 출력층의 망 구조일 수도 있다.

다시 말하면, 본 실시예가 추출한 인식 특징은 오디오 인식 모델 중의 마지막 두번째 층에 위치하는 신경망층의 출력이며, 마지막 두번째 층의 신경망층의 출력은 출력층으로 하여금 텍스트를 획득하도록 하기 위한 것이므로, 이 층의 출력은 오디오가 텍스트로 전환되기 전의 가장 전면적인 정보를 커버하며, 오디오 또는 텍스트에서만 특징을 추출하는 경우와 비교하면, 본 실시예가 추출한 인식 특징은 더욱 풍부한 정보를 포함하며, 추출된 인식 특징의 정확성을 향상시켰다.

본 실시예는 S102를 실행하여 오디오 인식 모델을 이용하여 인식 결과 및 인식 특징을 획득한 후, S103을 실행하여 인식 특징에 따라 응답 신뢰도를 획득하고, 본 실시예에 의해 획득된 응답 신뢰도는 인식될 오디오에 대해 응답하는지를 결정하기 위한 것이다.

본 실시예는 S103을 실행할 때에, 인식 특징에만 따라 응답 신뢰도를 획득할 수 있으며, 예를 들어, 인식 특징을 사전에 훈련된 딥 러닝 모델에 입력하며, 이 딥 러닝 모델의 출력을 응답 신뢰도로 하거나, 또는 기타 정보를 결합하여 응답 신뢰도를 획득할 수도 있다.

본 실시예는 S103을 실행하여 인식 특징에 따라 응답 신뢰도를 획득한 후, S104를 실행하여 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 인식될 오디오에 대해 응답한다. 여기서, 본 실시예에 따른 인식될 오디오에 대해 응답하는 것은, 인식될 오디오에 대응되는 조회 결과를 획득하는 것일 수 있으며, 인식될 오디오에 대응되는 동작을 실행하는 것일 수도 있다.

본 실시예는 S104를 실행하여 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 때에, 응답 신뢰도가 소정의 임계값을 초과하는지를 결정하며, 초과하면 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정하고, 초과하지 않으면 만족하지 않는 것으로 결정할 수 있다.

또한, 본 실시예는 S104를 실행하여 응답 신뢰도가 소정의 응답 조건을 만족하지 않는 것으로 결정되면, 인식될 오디오에 대해 응답하지 않고 사용자가 다시 오디오를 입력하는 것을 대기할 수 있으며, 사용자에게 알림 정보를 피드백하여 사용자에게 오디오를 재입력하는 것을 리마인드할 수도 있다.

본 실시예가 제공한 상기 방법에 따르면, 오디오 인식 모델이 인식될 오디오를 인식하는 과정에서 생성된 인식 특징을 획득하는 것을 통해 인식될 오디오의 응답 신뢰도를 획득하고, 나아가 응답 신뢰도에 따라 인식될 오디오에 대해 응답하는지를 결정하며, 인식 특징 중에 더욱 풍부한 정보를 포함하므로, 더욱 정확한 응답 신뢰도를 획득할 수 있어 인식될 오디오에 대한 응답 오류를 방지할 수 있고 음성 인터랙션 시의 응답 정확성을 향상시켰다.

도 2는 본 출원의 제2실시예에 따른 설명도이다. 도 2에서 도시한 바와 같이, 본 실시예의 음성 인터랙션 방법은 구체적으로 아래와 같은 단계들을 포함한다.

S201에서, 인식될 오디오를 획득한다.

S202에서, 오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 한다.

S203에서, 상기 인식 결과의 분야 정보를 결정하고, 상기 분야 정보와 상기 인식 특징에 따라 응답 신뢰도를 획득한다.

S204에서, 상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답한다.

다시 말하면, 본 실시예의 음성 인터랙션 방식은 아래와 같다. 즉, 오디오 인식 모델이 인식될 오디오를 인식하는 과정에서 생성된 인식 특징을 획득하고, 인식될 오디오의 인식 결과에 대응되는 분야 정보를 결합하여, 인식될 오디오의 응답 신뢰도를 획득하며, 응답 신뢰도의 정보를 획득하기 위한 정보는 더욱 풍부하며, 획득된 응답 신뢰도의 정확성을 더 향상시킴으로써 음성 인터랙션 시의 응답 정확성을 향상시켰다.

본 실시예는 S203을 실행하여 인식 결과의 분야 정보를 결정하고, 결정된 분야 정보는 인식 결과가 속하는 분야를 표시하기 위한 것이며, 해당 분야는 예를 들어 금융, 과학 기술, 음악 등 분야이다.

구체적으로, 본 실시예가 S203을 실행하여 인식 결과의 분야 정보를 결정할 때에 사용할 수 있는 구현 방식은, 인식 결과를 사전에 훈련된 분야 인식 모델에 입력하고, 분야 인식 모델의 출력 결과를 인식 결과의 분야 정보로 하는 것이다. 여기서, 본 실시예는 사전 훈련을 통해 분야 인식 모델을 획득하고, 이 분야 인식 모델은 입력된 텍스트에 따라 상기 텍스트에 대응되는 분야 정보를 출력할 수 있다.

또한, 본 실시예는 S204를 실행하여 분야 정보와 인식 특징에 따라 응답 신뢰도를 획득할 때에 사용할 수 있는 구현 방식은, 분야 정보와 인식 특징을 사전에 훈련된 신뢰 모델에 입력하고, 신뢰 모델의 출력 결과를 응답 신뢰도로 하는 것이다. 여기서, 본 실시예는 사전 훈련을 통해 신뢰 모델을 획득하고, 이 신뢰 모델은 입력된 분야 정보와 인식 특징에 따라 오디오에 대응되는 응답 신뢰도를 출력할 수 있다.

따라서, 본 실시예는 분야 정보와 인식 특징의 두 부분을 결합하여 인식될 오디오의 응답 신뢰도를 획득하여 응답 신뢰도의 정확성을 향상시켰다.

도 3은 본 출원의 제3실시예에 따른 설명도이다. 도 3에서 도시한 바와 같이, 본 실시예의 음성 인터랙션 장치는

인식될 오디오를 인식하기 위한 획득 유닛(301),

오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하기 위한 인식 유닛(302),

상기 인식 특징에 따라 응답 신뢰도를 획득하기 위한 처리 유닛(303),

상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우 상기 인식될 오디오에 대해 응답하기 위한 응답 유닛(304),을 포함한다.

본 실시예는 획득 유닛(301)에 의해 획득된 인식될 오디오는, 사용자가 단말 장치와 음성 인터랙션을 진행할 때 내는 오디오이다. 예를 들어, 획득 유닛(301)은 사용자가 단말 장치로 내는 조회 오디오를 획득할 수 있으며, 사용자가 단말 장치로 내는 제어 오디오를 획득할 수도 있다.

본 실시예는 획득 유닛(301)에 의해 인식될 오디오를 획득한 후, 인식 유닛(302)에 의해 오디오 인식 모델을 이용하여 인식될 오디오의 인식 결과를 획득하며, 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 한다.

여기서, 본 실시예에서의 오디오 인식 모델은 딥 러닝 모델이며, 복수의 신경망층을 포함하며, 입력된 오디오에 따라 텍스트를 출력하기 위한 것이다. 따라서, 인식 유닛(302)은 오디오 인식 모델을 이용하여 획득한 인식될 오디오의 인식 결과는 텍스트이다.

구체적으로, 본 실시예는 인식 유닛(302)에 의해 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 할 때에 사용할 수 있는 구현 방식은 아래와 같다. 오디오 인식 모델은 입력층, 어텐션층 및 출력층을 포함하며, 오디오 인식 모델 중의 출력층 이전에 위치하는 어텐션층의 인식 과정에서의 출력을 추출하여 인식 특징으로 한다.

여기서, 본 실시예에 따른 오디오 인식 모델 중의 어텐션층은 어텐션 메커니즘 계산을 1회만 진행할 수 있고, 복수회 진행할 수도 있다. 또한, 본 실시예는 오디오 인식 모델의 망 구조에 대해 한정하지 않으며, 상기 입력층, 어텐션층 및 출력층의 망 구조 외에, 입력층, 풀링층, 합성곱층 및 출력층의 망 구조일 수도 있으며, 입력층, 풀링층, 합성곱층, 어텐션층 및 출력층의 망 구조일 수도 있다.

본 실시예는 인식 유닛(302)에 의해 오디오 인식 모델을 이용하여 인식 결과와 인식 특징을 획득한 후, 처리 유닛(303)에 의해 인식 특징에 따라 응답 신뢰도를 획득하고, 본 실시예에 의해 획득된 응답 신뢰도는 인식될 오디오에 대해 응답하는지를 결정하기 위한 것이다.

본 실시예에서의 처리 유닛(303)은 인식 특징에만 따라 응답 신뢰도를 획득할 수 있으며, 예를 들어, 인식 특징을 사전에 훈련된 딥 러닝 모델에 입력하며, 상기 딥 러닝 모델의 출력을 응답 신뢰도로 하거나, 기타 정보를 결합하여 응답 신뢰도를 획득할 수도 있다.

본 실시예에서의 처리 유닛(303)은 인식 특징에 따라 응답 신뢰도를 획득할 때에 사용할 수 있는 구현 방식은 인식 결과의 분야 정보를 결정하고, 분야 정보와 인식 특징에 따라 응답 신뢰도를 획득한다.

본 실시예에서, 처리 유닛(303)에 의해 인식 결과에 따라 결정된 분야 정보는 인식 결과가 속하는 분야를 표시하기 위한 것이며, 예를 들어 금융, 과학 기술, 음악 등 분야이다.

구체적으로, 본 실시예에서의 처리 유닛(303)은 인식 결과의 분야 정보를 결정할 때에 사용할 수 있는 구현 방식은, 인식 결과를 사전에 훈련된 분야 인식 모델에 입력하고, 분야 인식 모델의 출력 결과를 인식 결과의 분야 정보로 한다. 여기서, 본 실시예는 사전 훈련을 통해 분야 인식 모델을 획득하고, 이 분야 인식 모델은 입력된 텍스트에 따라 상기 텍스트에 대응되는 분야 정보를 출력 가능하다.

또한, 본 실시예에서의 처리 유닛(303)은 분야 정보와 인식 특징에 따라 응답 신뢰도를 획득할 때에 사용할 수 있는 구현 방식은, 분야 정보와 인식 특징을 사전에 훈련된 신뢰 모델에 입력하고, 신뢰 모델의 출력 결과를 응답 신뢰도로 한다. 여기서, 본 실시예는 사전 훈련을 통해 신뢰 모델을 획득하고, 상기 신뢰 모델은 입력된 분야 정보와 인식 특징에 따라 오디오에 대응되는 응답 신뢰도를 출력할 수 있다.

본 실시예는 처리 유닛(303)에 의해 응답 신뢰도를 획득한 후, 응답 유닛(304)에 의해 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우 인식될 오디오에 대해 응답한다. 여기서, 본 실시예에 따른 인식될 오디오에 대해 응답하는 것은, 인식될 오디오에 대응되는 조회 결과를 획득하는 것일 수 있으며, 인식될 오디오에 대응되는 동작을 실행하는 것일 수도 있다.

본 실시예에서의 응답 유닛(304)은 응답 신뢰도가 소정의 응답 조건을 만족하는지를 결정할 때에, 응답 신뢰도가 소정의 입계값을 초과하는지를 결정할 수 있으며, 초과하면 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정하고, 초과하지 않으면 만족하지 않는 것으로 결정한다.

또한, 본 실시예에서의 응답 유닛(304)에 의해 응답 신뢰도가 소정의 응답 조건을 만족하지 않는 것으로 결정되면, 인식될 오디오에 대해 응답하지 않으며, 사용자가 다시 오디오를 입력하는 것을 대기할 수 있으며, 사용자에게 알림 정보를 피드백하여 사용자에게 오디오를 재입력하는 것을 리마인드할 수도 있다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 더 제공한다.

도 4에 도시된 바와 같이, 본 출원의 실시예의 예시적 실시예를 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인 휴대 정보 단말기, 셀룰러폰, 스마트폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 기재된 부품, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시일 뿐이며, 본문에서 설명 및/또는 요구되는 본 출원의 구현을 제한하려는 것이 아니다.

도 4에서 도시한 바와 같이, 상기 전자 기기는 하나 또는 복수의 프로세서(401), 메모리(402) 및 각 부품을 연결하기 위한 인터페이스를 포함하며, 상기 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 부품은 상이한 버스를 통해 서로 연결되며, 공통 메인보드에 설치되거나 필요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령어를 처리할 수 있으며, 이는 메모리에 저장되어 외부 입력/출력 장치（예를 들어, 인터페이스에 결합되는 디스플레이 장치)에서 GUI를 표시하는 이미지 정보 명령어를 포함한다. 기타 실시 형태에서, 필요에 따라 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 필요한 동작(예를 들어, 서버 어레이, 1그룹의 블레이드 서버 또는 멀티 프로세서 시스템으로 함)을 부분적으로 제공한다. 도 4에서는 하나의 프로세서(401)의 경우를 예로 한다.

메모리(402)는 본 출원에 의해 제공하는 비휘발성 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 따라 실행되는 명령어가 저장되어 있어, 상기 적어도 하나의 프로세서로 하여금 본 출원에 따라 제공되는 음성 인터랙션 방법을 실행하도록 한다. 본 출원의 비휘발성 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령어를 저장하며, 상기 컴퓨터 명령어는 컴퓨터로 하여금 본 출원에서 제공하는 음성 인터랙션 방법을 실행하기 위한 것이다.

메모리(402)는 비휘발성 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 음성 인터랙션 방법에 대응되는 프로그램 명령어/모듈(예를 들어, 도 3에서 도시한 바와 같은 획득 유닛(301), 인식 유닛(302), 처리 유닛(303) 및 응답 유닛(304))과 같은 비휘발성 소프트웨어 프로그램, 비휘발성 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(401)는 메모리(402)에 저장된 비휘발성 소프트웨어 프로그램, 명령어 및 모듈을 작동시킴으로써, 서버의 여러 가지 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법 실시예에서의 음성 인터랙션 방법을 구현한다.

메모리(402)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있으며, 여기서, 프로그램 저장 영역은 오에스, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있으며; 데이터 저장 영역은 상기 전자 기기의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비휘발성 메모리, 예를 들어 적어도 하나의 디스크 메모리, 플래시 메모리 또는 기타 비휘발성 솔리드 스테이트 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(402)는 프로세서(401)에 대해 원격 설치되는 메모리를 선택적으로 포함할 수 있으며, 이러한 원격 메모리들은 네트워크를 통해 음성 인터랙션의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예로는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

음성 인터랙션 방법의 전자 기기는 입력 장치(403) 및 출력 장치(404)를 더 포함할 수 있다. 프로세서(401), 메모리(402), 입력 장치(403) 및 출력 장치(404)는 버스 또는 기타 방식을 통해 연결될 수 있지만, 도 4에서는 버스를 통해 연결되는 것을 예로 한다.

입력 장치(403)는 입력된 숫자 또는 문자 부호 정보를 수신할 수 있으며, 음성 인터랙션 방법의 전자 기기의 사용자 설치 및 기능 제어와 관련되는 키 신호 입력을 발생하며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 지시바, 하나 또는 복수의 마우스버튼, 트랙볼, 조이스틱 등 입력 장치이다. 출력 장치(404)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린일 수 있다.

여기서 설명하는 시스템 및 기술의 여러 가지 실시 형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현할 수 있다. 이러한 여러 가지 실시 형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있으며, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 수행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)들은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이 컴퓨터 프로그램들을 실시할 수 있다. 본 명세서에서 사용한 용어인 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 시디롬, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하며, 기계 판독 가능 신호로서의 기계 명령어를 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 신호를 의미한다.

사용자와의 인터렉션을 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 상기 키보드와 상기 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 인터렉션에 사용될 수 있으며, 예를 들어 사용자에게 제공된 피드백은 임의의 형식의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있으며, 임의의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함)으로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명한 시스템 및 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버) 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버) 또는 프론트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해, 여기서 설명한 시스템 및 기술의 실시 형태와 인터렉션할 수 있음), 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 프론트 엔드 부품을 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시로는 근거리 통신망 (LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀러 떨어져 있으며, 일반적으로 통신 네트워크를 통해 서로 인터렉션한다. 대응되는 컴퓨터에서 작동되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 구비함으로써, 클라이언트와 서버의 관계를 발생한다. 서버는 클라우드 서버일 수 있으며, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 불어되며, 클라우드 컴퓨팅 서버 체계 중의 하나의 호스트 제품으로서, 기존의 물리적 호스트 및 VPS 서버(가상 사설 서버("Virtual Private Server"), 또는 "VPS"로 약칭)에 존재하는 관리 난이도가 크고 업무 확장성이 약한 단점을 해결한다. 서버는 분산 시스템의 서버이거나 블록 체인과 결합된 서버일 수도 있다.

본 출원의 실시예에 따른 음성 인터랙션 방법은, 오디오 인식 모델이 인식될 오디오를 인식하는 과정에서 생성하는 인식 특징을 획득하는 것을 통해 인식될 오디오의 응답 신뢰도를 획득하며, 상기 획득된 인식 특징 중에 풍부한 정보가 포함되므로 더욱 정확한 응답 신뢰도를 획득할 수 있으며, 응답 신뢰도의 정확성이 향상된 기초에 인식될 오디오에 대한 응답 오류를 최대적으로 방지했으므로, 음성 인터랙션 시의 응답 정확성을 향상시켰다.

이해해야 할 점은, 이상에서 설명한 여러 가지 형태의 과정을 사용하여, 단계를 다시 순서 배열, 증가 또는 삭제하할 수 있다. 예를 들어, 본 출원에서 기재된 각 단계들은 병행적으로 수행할 수도 있고 순차적으로 수행할 수도 있으며 상이한 순서로 수행할 수도 있는 바, 본 출원에서 개시된 기술적 해결 수단에서 기대하는 결과를 구현할 수만 있으면, 본문은 이에 대해 한정하지 않는다.

상기 구체적인 실시 형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술 분야에서 통상의 지식을 가진 자들은 설계 요구와 기타 요소에 근거하여 다양한 수정, 결합, 하위 결합 및 교체를 할 수 있다는 것을 이해해야 한다. 본 출원의 사상 및 원칙 내에서 진행한 임의의 수정, 균등한 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

인식될 오디오를 획득하는 것,
오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하는 것,
상기 인식 특징에 따라 응답 신뢰도를 획득하는 것,
상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답하는 것,을 포함하는
음성 인터랙션 방법.
제1항에 있어서,
상기 오디오 인식 모델은 입력층, 어텐션층 및 출력층을 포함하며,
상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하는 것은,
상기 오디오 인식 모델 중의 출력층 이전에 위치하는 어텐션층의 인식 과정에서의 출력을 추출하여 상기 인식 특징으로 하는 것,을 포함하는
음성 인터랙션 방법.
제1항에 있어서,
상기 인식 특징에 따라 응답 신뢰도를 획득하는 것은,
상기 인식 결과의 분야 정보를 결정하는 것,
상기 분야 정보와 상기 인식 특징에 따라 응답 신뢰도를 결정하는 것,을 포함하는
음성 인터랙션 방법.
제3항에 있어서,
상기 인식 결과의 분야 정보를 결정하는 것은,
상기 인식 결과를 사전에 훈련된 분야 인식 모델에 입력하고 상기 분야 인식 모델의 출력 결과를 상기 인식 결과의 분야 정보로 하는 것,을 포함하는
음성 인터랙션 방법.
제3항에 있어서,
상기 분야 정보와 상기 인식 특징에 따라 응답 신뢰도를 결정하는 것은,
상기 분야 정보와 상기 인식 특징을 사전에 훈련된 신뢰 모델에 입력하고, 상기 신뢰 모델의 출력 결과를 상기 응답 신뢰도로 하는 것,을 포함하는
음성 인터랙션 방법.
인식될 오디오를 인식하기 위한 획득 유닛,
오디오 인식 모델을 이용하여 상기 인식될 오디오의 인식 결과를 획득하고, 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 하기 위한 인식 유닛,
상기 인식 특징에 따라 응답 신뢰도를 획득하기 위한 처리 유닛, 및
상기 응답 신뢰도가 소정의 응답 조건을 만족하는 것으로 결정될 경우, 상기 인식될 오디오에 대해 응답하기 위한 응답 유닛,을 포함하는
음성 인터랙션 장치.
제6항에 있어서,
상기 오디오 인식 모델은 입력층, 어텐션층 및 출력층을 포함하며,
상기 인식 유닛은 상기 오디오 인식 모델의 출력층의 인식 과정에서의 입력을 추출하여 인식 특징으로 할 때에, 구체적으로
상기 오디오 인식 모델 중의 출력층 이전에 위치하는 어텐션층의 인식 과정에서의 출력을 추출하여 상기 인식 특징으로 하는 것을 실행하는
음성 인터랙션 장치.
제6항에 있어서,
상기 처리 유닛은 상기 인식 특징에 따라 응답 신뢰도를 획득할 때에, 구체적으로
상기 인식 결과의 분야 정보를 결정하는 것,
상기 분야 정보와 상기 인식 특징에 따라 응답 신뢰도를 결정하는 것을 실행하는
음성 인터랙션 장치.
제8항에 있어서,
상기 처리 유닛은 상기 인식 결과의 분야 정보를 결정할 때에, 구체적으로
상기 인식 결과를 사전에 훈련된 분야 인식 모델에 입력하고 상기 분야 인식 모델의 출력 결과를 상기 인식 결과의 분야 정보로 하는 것을 실행하는
음성 인터랙션 장치.
제8항에 있어서,
상기 처리 유닛은 상기 분야 정보와 상기 인식 특징에 따라 응답 신뢰도를 결정할 때에, 구체적으로
상기 분야 정보와 상기 인식 특징을 사전에 훈련된 신뢰 모델에 입력하고, 상기 신뢰 모델의 출력 결과를 상기 응답 신뢰도로 하는 것을 실행하는
음성 인터랙션 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리,를 포함하는 전자 기기에 있어서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 음성 인터랙션 방법을 수행하게 하는 것인 전자 기기.
컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨터 명령어는 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 음성 인터랙션 방법을 수행하게 하기 위한 것인 비휘발성 컴퓨터 판독가능 저장 매체.
프로세서에 의해 실행될 때 제1항 내지 제5항 중 어느 한 항에 따른 음성 인터랙션 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품.