KR20220130739A

KR20220130739A - 스피치 인식

Info

Publication number: KR20220130739A
Application number: KR1020227028444A
Authority: KR
Inventors: 파디 비아드시; 멘기바 페드로 제이. 모레노
Original assignee: 구글 엘엘씨
Priority date: 2020-01-30
Filing date: 2021-01-20
Publication date: 2022-09-27
Also published as: WO2021154563A1; JP2023073393A; US20230169983A1; US11580994B2; JP7255032B2; US20210241777A1; US11823685B2; JP2023503718A; EP4085452A1; CN115023761A

Abstract

방법(400)은 일반적 스피치로 말하는 제1 사용자(102)가 말한 제1 발언(108)의 음향 피처(205)를 수신하는 단계 및 제1 발언의 제1 전사(218)를 생성하기 위해 일반적 스피치 인식기(124)를 사용하여 제1 발언의 음향 피처를 프로세싱하는 단계를 포함한다. 또한 동작은 상기 제1 전사에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언의 제1 전사(218)를 분석하는 단계 및 하나 이상의 편향 용어에 대해 대체 스피치 인식기(132)를 편향시키는 단계를 포함한다. 또한 동작은 비정형 스피치로 말하는 제2 사용자가 말한 제2 발언의 음향 피처를 수신하는 단계 및 상기 제1 전사에서 식별된 하나 이상의 용어에 편향된 대체 스피치 인식기를 사용하여, 상기 제2 발언의 제2 전사(230)를 생성하기 위해 상기 제2 전사(230)의 음향 피처를 프로세싱하는 단계를 포함한다.

Description

스피치 인식

본 명세서는 일반적으로 스피치 프로세싱에 관한 것이다.

스피치 프로세싱은 스피치 신호 및 신호 프로세싱 방법에 대한 연구이다. 신호는 일반적으로 디지털 표현으로 프로세싱되므로, 스피치 프로세싱은 스피치 신호에 적용되는 디지털 신호 프로세싱의 경우라고 볼 수 있다. 스피치 프로세싱의 양태는 스피치 신호의 획득, 조작, 저장, 전송 및 출력을 포함한다.

비정형 스피치(예: 언어 실행증, 난청, 속화증, 발달 언어 장애, 구음 장애, 억양장애, 조음음운장애, 불분명발음, 말더듬, 음성장애 또는 혀 짧은 발음 등)를 가진 화자가 다른 사람이 화자가 말하는 내용을 이해하게 하는 것은 어려울 수 있다. 화자의 스피치를 전사하고 상기 전사를 사용자 인터페이스 또는 합성 스피치를 통해 출력함으로써 다른 사람을 돕기 위해 스피치 인식 기술을 활용하는 것이 도움이 될 것이다. 그러나 청자가 비정형 스피치를 사용하는 화자를 이해하는 데 어려움을 겪을 수 있는 것처럼, 스피치 인식기는 비정형 스피치를 전사할 때 정확도가 떨어질 수 있다.

이 문제를 극복하기 위해 비정형 스피치를 사용하는 화자와 일반적 스피치를 사용하는 다른 화자 간의 대화 맥락을 파악하는 것이 도움이 될 수 있다. 시스템은 다수의 스피치 인식기를 사용하고 시스템이 비정형 스피치 또는 일반적 스피치를 검출하는지 여부에 따라 그 중 하나를 선택적으로 활성화할 수 있다.

시스템은 일반적 스피치 인식기를 사용하여 일반적 스피치를 사용하는 화자로부터의 스피치의 전사를 생성할 수 있다. 시스템은 대체 스피치 인식기를 편향시키기 위해 대화의 맥락을 결정하기 위해 해당 전사를 사용할 수 있다. 시스템은 비정형 스피치를 사용하는 화자의 스피치를 전사할 때 편향된 대체 스피치 인식기를 사용할 수 있다. 대체 스피치 인식기를 편향시킴으로써 시스템은 일반적 스피치를 사용하는 화자로부터의 스피치의 전사의 정확도를 향상시킬 수 있다.

이것은 다양한 상황에서 도움이 될 수 있다. 일례는 한 사람은 비정형 스피치로 말하고 다른 한 사람은 일반적 스피치로 말하는 두 사람 사이의 전화 대화를 포함할 수 있다. 시스템은 대체 스피치 인식기를 편향시키기 위해 일반적 스피치로 말하는 화자의 대화의 전사를 사용할 수 있다. 시스템은 편향된 대체 스피치 인식기를 사용하여 비정형 스피치로 말하는 화자의 대화에 대해 스피치 인식을 수행한다. 시스템은 비정형 스피치로 말하는 화자의 대화의 전사를 출력하거나 합성된 스피치를 출력할 수 있으므로 일반적 스피치로 말하는 화자가 비정형 스피치로 말하는 화자를 더 잘 이해하게 할 수 있다.

본 개시의 일 양태는 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하여금 동작들을 수행하게 하는 컴퓨터로 구현되는 방법으로서, 상기 동작들은: 일반적 스피치로 말하는 제1 사용자가 말한 제1 발언의 음향 피처를 수신하는 동작; 일반 스피치 인식기를 사용하여, 상기 제1 발언의 제1 전사를 생성하기 위해 제1 발언의 음향 피처를 프로세싱하는 동작; 대체 스피치 인식기를 편향시키기 위해 상기 제1 전사에서 하나 이상의 편향 용어를 식별하기 위해 상기 제1 발언의 제1 전사를 분석하는 동작; 및 상기 제1 전사에서 식별된 하나 이상의 편향 용어에 대해 대체 스피치 인식기를 편향시키는 동작을 포함한다. 또한 동작은 비정형 스피치로 말하는 제2 사용자가 말한 제2 발언의 음향 피처를 수신하는 동작; 및 상기 제1 전사에서 식별된 하나 이상의 편향 용어에 편향된 대체 스피치 인식기를 사용하여, 상기 제2 발언의 제2 전사를 생성하기 위해 상기 제2 전사(230)의 음향 피처를 프로세싱하는 동작을 포함한다.

본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 실시예에서, 상기 동작들은 제1 사용자와 연관된 사용자 디바이스의 디스플레이에 제2 발언의 제2 전사를 디스플레이하는 동작 및/또는 제2 발언의 제2 전사에 대한 합성 스피치 표현을 생성하는 동작; 및 상기 제1 사용자와 연관된 사용자 디바이스로부터의 가청 출력을 위한 합성 스피치 표현을 제공하는 동작을 더 포함한다. 일부 예에서, 동작들은 또한, 비정형 스피치로 말하는 제2 사용자가 말한 제2 발언의 음향 피처를 수신한 후: 제2 발언의 화자를 비정형 스피치로 말하는 제2 사용자로서 식별하기 위해 제2 발언의 음향 피처에 대해 화자 인식을 수행하는 동작; 및 상기 제2 사용자를 상기 제2 발언의 화자로서 식별하는 제2 발언의 음향 피처에 대해 수행된 화자 인식에 기초하여, 상기 제2 발언의 음향 피처에 대한 스피치 인식을 수행할 대체 스피치 인식기를 선택하는 동작을 더 포함한다.

일부 다른 예에서, 동작들은 또한, 비정형 스피치로 말하는 제2 사용자가 말한 제2 발언의 음향 피처를 수신한 후: 스피치 분류기 모델을 사용하여, 제2 발언의 음향 피처가 비정형 스피치로 화자가 말한 발언과 연관됨을 나타내는 출력을 생성하는 동작; 및 상기 제2 발언의 음향 피처가 비정형 스피치로 화자가 말한 발언과 연관됨을 나타내는 상기 스피치 분류기 모델에 의해 생성된 출력에 기초하여 상기 제2 발언(134)의 음성 피처에 대해 스피치 인식을 수행할 대체 스피치 인식기를 선택하는 동작을 더 포함한다. 이러한 다른 예에서, 상기 스피치 분류기 모델은 상기 비정형 트레이닝 발언에 대해 트레이닝되며, 상기 비정형 트레이닝 발언은 상기 비정형 트레이닝 발언이 비정형 스피치로 화자에 의해 말해졌다는 것을 나타내는 각각의 라벨을 포함한다. 여기서, 상기 비정형 트레이닝 발언은 언어 실행증, 난청, 속화증, 발달 언어 장애, 구음 장애, 억양장애, 조음음운장애, 불분명발음, 말더듬, 음성장애 또는 혀 짧은 발음 중 적어도 하나를 갖는 화자가 말한 발언을 포함한다. 상기 스피치 분류기 모델은 일반적 트레이닝 발언에 대해 트레이닝되며, 상기 일반적 트레이닝 발언은 상기 일반적 트레이닝 발언이 일반적 스피치로 화자에 의해 말해졌다는 것을 나타내는 각각의 라벨을 포함한다.

일부 구현예에서, 상기 제1 전사에서 하나 이상의 편향 용어를 식별하기 위해 상기 제1 발언의 제1 전사(218)를 분석하는 동작은 상기 제1 전사에서 비기능성 용어를 식별함으로써 하나 이상의 편향 용어를 식별하는 것을 포함한다. 상기 제1 전사에서 하나 이상의 편향 용어를 식별하기 위해 상기 제1 발언의 제1 전사(218)를 분석하는 동작은 상기 하나 이상의 편향 용어를 식별하기 위한 제1 전사에 대한 용어 빈도-역 문서 빈도(tf-idf) 분석을 수행하는 것을 포함한다. 추가적으로 또는 대안적으로, 상기 제1 전사에서 하나 이상의 편향 용어를 식별하기 위해 상기 제1 발언의 제1 전사 포함할 수 있다 분석하는 동작은 상기 제1 사용자와 상기 제2 사용자 사이의 진행 중인 대화 동안 일반 스피치 인식기에 의해 생성된 다수의 전사에 포함된 상호 정보를 식별하는 것을 포함한다.

제1 발언은 제1 사용자와 연관된 제1 사용자 디바이스에 의해 캡처될 수 있고 데이터 프로세싱 하드웨어는 제1 사용자 디바이스에 상주할 수 있다. 다른 구성에서, 상기 데이터 프로세싱 하드웨어는 상기 제1 사용자 디바이스와 통신하는 원격 컴퓨팅 디바이스에 상주한다.

본 개시의 다른 양태는 데이터 프로세싱 하드웨어 및 상기 데이터 프로세싱 하드웨어와 통신하고 명령어를 저장하는 메모리 하드웨어를 포함하며 상기 명령어는 상기 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 시스템을 제공하며, 상기 동작들은: 일반적 스피치로 말하는 제1 사용자가 말한 제1 발언의 음향 피처를 수신하는 동작; 일반 스피치 인식기를 사용하여, 상기 제1 발언의 제1 전사를 생성하기 위해 제1 발언의 음향 피처를 프로세싱하는 동작; 대체 스피치 인식기를 편향시키기 위해 상기 제1 전사에서 하나 이상의 편향 용어를 식별하기 위해 상기 제1 발언의 제1 전사를 분석하는 동작; 및 상기 제1 전사에서 식별된 하나 이상의 편향 용어에 대해 대체 스피치 인식기를 편향시키는 동작을 포함한다. 또한 동작은 비정형 스피치로 말하는 제2 사용자가 말한 제2 발언의 음향 피처를 수신하는 동작; 및 상기 제1 전사에서 식별된 하나 이상의 편향 용어에 편향된 대체 스피치 인식기를 사용하여, 상기 제2 발언의 제2 전사를 생성하기 위해 상기 제2 전사(230)의 음향 피처를 프로세싱하는 동작을 포함한다.

본 양태는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 실시예에서, 상기 동작들은 제1 사용자와 연관된 사용자 디바이스의 디스플레이에 제2 발언의 제2 전사를 디스플레이하는 동작 및/또는 제2 발언의 제2 전사에 대한 합성 스피치 표현을 생성하는 동작; 및 상기 제1 사용자와 연관된 사용자 디바이스로부터의 가청 출력을 위한 합성 스피치 표현을 제공하는 동작을 더 포함한다. 일부 예에서, 동작들은 또한, 비정형 스피치로 말하는 제2 사용자가 말한 제2 발언의 음향 피처를 수신한 후: 제2 발언의 화자를 비정형 스피치로 말하는 제2 사용자로서 식별하기 위해 제2 발언의 음향 피처에 대해 화자 인식을 수행하는 동작; 및 상기 제2 사용자를 상기 제2 발언의 화자로서 식별하는 제2 발언의 음향 피처에 대해 수행된 화자 인식에 기초하여, 상기 제2 발언의 음향 피처에 대한 스피치 인식을 수행할 대체 스피치 인식기를 선택하는 동작을 더 포함한다.

본 개시의 하나 이상의 구현예의 세부 내용이 첨부 도면과 아래의 설명에서 기술된다. 다른 양태, 구성, 객체 및 이점은 아래의 설명, 도면 및 청구항으로부터 명백해질 것이다.

도 1은 컴퓨팅 디바이스가 비정형 스피치로 말하는 사용자에 대한 사용자 스피치의 전사를 출력하는, 대화를 나누는 두 사용자의 예시적 환경의 개략도이다.
도 2는 일반적 스피치 및 비정형 스피치에 대해 스피치 인식을 수행하는 예시적 자동 스피치 인식(ASR) 시스템의 개략도이다.
도 3은 스피치 분류기 모델을 트레이닝하기 위한 예시적 트레이닝 절차의 개략도이다.
도 4는 일반적 스피치와 비정형 스피치에 대해 스피치 인식을 수행하는 방법에 대한 동작들의 예시적 구성의 흐름도이다.
도 5는 본 명세서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 개략도이다.
다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 컴포넌트를 표시한다.

도 1은 대화를 나누는 두 사용자(102a, 102b)의 예시적 환경(100)을 도시하며, 여기서 컴퓨팅 디바이스(106)는 비정형 스피치로 말하는 사용자(102b)가 말한 스피치의 전사(146, 146a-b)를 출력한다. 간략하게, 그리고 아래에 더 상세히 설명되는 바와 같이, 일반적 스피치로 말하는 사용자(102a)는 비정형 스피치로 말하는 사용자(102b)와 대화를 나누고 있다. 사용자(102a)가 사용자(102b)를 이해하는 것을 돕기 위해, 컴퓨팅 디바이스(106)는 사용자(102b)가 말한 발언(134, 142)의 전사(146a, 146b)를 포함하는 그래픽 인터페이스(150)를 제공한다. 컴퓨팅 디바이스(106)는 비정형 스피치를 인식하도록 구성된 대체 스피치 인식기(132)를 편향시킴으로써 사용자(102)로부터 비정형 스피치에 대해 수행된 스피치 인식의 정확도를 개선한다. 대화는 각각의 사용자 디바이스(106, 106a-b)(예를 들어, 스마트폰)를 통한 전화 대화를 포함할 수 있다. 다른 예에서, 사용자들(102a, 102b)은 단일 사용자 디바이스(106)가 두 사용자들(102a, 102b)이 말한 발언들(108, 134, 138, 142)을 캡처하고 있는 대면 대화를 가질 수 있다.

보다 상세하게는, 사용자(102b)는 때때로 다른 사람들이 사용자(102b)를 이해하는 것을 어렵게 할 수 있는 비정형 스피치로 말하는 반면, 사용자(102a)는 비정형 스피치로 말하지 않는다. 사용자(102)는 사용자 디바이스(106)를 사용하여 비정형 스피치로 사용자(102b)를 이해하는 것을 도울 수 있다. 사용자 디바이스(106)는 다수의 스피치 인식기(124, 132)를 갖는 컴퓨팅 디바이스에 대응할 수 있다. 예를 들어, 사용자 디바이스(106)는 비정형 스피치를 포함하지 않는 스피치에 대한 스피치 인식을 수행하기 위해 일반 스피치 인식기(124)를 사용하고 그리고 비정형 스피치에 대한 스피치 인식을 수행하기 위해 대체 스피치 인식기(132)를 사용할 수 있다. 보다 구체적으로, 일반 스피치 인식기(124)는 일반 스피치 인식기(124)가 비정형 스피치로 사용자가 말한 음성을 정확하게 인식하는 것을 어렵게 만드는, 일반적 스피치로 말하는 화자에 의해 지배되는 스피치에 대해 트레이닝될 수 있다. 대체 스피치 인식기(132)는 제한없이, 언어 실행증, 난청, 속화증, 발달 언어 장애, 구음 장애, 억양장애, 조음음운장애, 불분명발음, 말더듬, 음성장애 또는 혀 짧은 발음 또는 다른 사람이 이해하기 힘들게 하는 임의의 기타 유사한 언어 장애와 같은 다양한 유형의 언어 장애를 갖는 화자가 말한 스피치 발언에 대해 트레이닝된다.

단계 A에서, 사용자(102a)는 "Did you see the game last night?"라는 발언(108)를 말한다. 사용자 디바이스(106)는 발언(108)을 캡처하는 마이크로폰(204)(도 2)을 포함할 수 있다. 사용자 디바이스(106)는 캡처된 발언(108)를 말한 사용자(102a)가 비정형 스피치로 말했는지 여부를 결정하도록 구성된 스피치 인식기 선택기(110)를 포함한다. 발언(108)이 비정형 스피치를 포함하지 않는다는 결정(120)에 기초하여, 스피치 인식기 선택기(110)는 일반 스피치 인식기(124)를 선택하도록 지시하는 결정(114)에 도달한다.

사용자 디바이스(106)는 일반 스피치 인식기(124)를 사용하여 발언(108)을 특징짓는 오디오 데이터에 대한 스피치 인식을 수행한다. 일반 스피치 인식기(124)는 발언(108)에 대한 ASR 결과(218)를 출력하고(도 2), 발언(108)에 대한 ASR 결과(218)를 스피치 인식 편향기(222)에 제공한다. 스피치 인식 편향기(222)는 대체 스피치 인식기(132)를 편향시키기 위해 용어(224) 및 클래스를 선택하도록 구성된다. 이 예에서, 스피치 인식 편향기(222)는 발언(108)이 스포츠와 관련되어 있다고 결정하고, 대체 스피치 인식기(132)를 스포츠와 관련된 용어(224a)의 클래스로 편향시킨다. 스피치 인식 편향기는 또한 "게임"이라는 용어를 대체 스피치 인식기(132)를 편향시키기 위한 적절한 용어(224a)로 식별한다.

단계 B에서, 사용자(102b)는 발언(134), "I did. That last play was great. Are you going tonight?"을 말한다. 사용자(102b)의 스피치는 비정형적이며, 이는 사용자(102a)가 사용자(102b)가 말하는 것을 이해하는 것을 어렵게 만들 수 있다. 비정형 스피치로 말하는 것은 또한 일반 스피치 인식기(124)가 발언(104)의 오디오 데이터에 대해 스피치 인식을 정확하게 수행하는 것을 어렵게 만들 수 있다. 사용자 디바이스(106)의 마이크로폰은 발언(134)을 캡처하고, 발언(132)을 오디오 데이터(예를 들어, 음향 피처(205)(도 2))로 변환하여 발언(132)을 디지털 형식으로 특징짓는다. 스피치 인식기 선택기(110)는 발언(134)의 오디오 데이터를 분석하고 발언(134)이 결정(136)에 의해 도시된 비정형 스피치를 포함한다고 결정한다.

스피치 인식기 선택기(110)가 발언(134)이 비정형 스피치를 포함한다고 결정하는 것에 기초하여, 스피치 인식기 선택기(110)는 대체 스피치 인식기(132)를 사용하여 오디오 데이터에 대한 스피치 인식을 수행하도록 사용자 디바이스(106)에 지시한다. 대체 스피치 인식기(132)는 "게임"이라는 용어 및 스포츠 클래스와 관련된 용어 세트를 포함하는 용어(224a)에 대해 대체 스피치 인식기(132)를 편향시키는데 사용하기 위해 편향기(222)에 의해 식별된 편향 용어(224)에 액세스/수신할 수 있다. 대체 스피치 인식기(132)는 "I did. That last play was great. Are you going tonight?"라는 전사(146)를 생성한다.

사용자(102a)가 사용자(102b)의 이해를 돕기 위해, 사용자 디바이스(106)는 전사(146)를 포함하는 그래픽 인터페이스(150)를 생성한다. 사용자 디바이스(106)는 그래픽 인터페이스(150)를 사용자 디바이스(106)의 디스플레이에 출력한다. 사용자(102a)는 사용자 디바이스(106)의 디스플레이에서 "I did. That last play was great. Are you going tonight?"를 볼 수 있다. 사용자 디바이스(106)는 전사(146)의 합성된 스피치 표현을 추가적으로 또는 대안적으로 청각적으로 출력할 수 있다.

단계 C에서, 사용자(102a)와 사용자(102b) 사이의 대화는 사용자(102a)가 발언(138), "I want to, but I don’t have a ticket."로 응답하는 것으로 계속된다. 사용자 디바이스(106)의 마이크로폰은 발언(138)을 캡처하고, 발언(138)을 오디오 데이터(예를 들어, 음향 피처(205)(도 2))로 변환하여 발언(138)을 디지털 형식으로 특징짓는다. 스피치 인식기 선택기(110)는 발언(138)의 오디오 데이터를 분석한다. 스피치 인식기 선택기(110)는 발언(138)이 결정(140)에 의해 도시된 바와 같이 비정형 스피치로 말하지 않는 사용자에 의해 발언되었다고 결정한다.

스피치 인식기 선택기(110)는 일반 스피치 인식기(124)에 지시를 제공하여 발언(138)의 오디오 데이터에 대해 스피치 인식을 수행한다. 일부 구현예에서, 컴퓨팅 디바이스(106)는 일반 스피치 인식기(124)를 편향시키지 않는다. 일반 스피치 인식기(124)는 발언(138)의 ASR 결과(218)를 생성하고, 발언(138)의 ASR 결과(218)를 스피치 인식 편향기(222)에 제공한다. 이 예에서, 스피치 인식 편향기(222)는 발언(138)이 대체 스피치 인식기(132)를 편향시키기 위해 용어 "티켓"을 용어(224, 224b)로서 식별한다고 결정한다. 스피치 인식 편향기(222)는 편향 용어(224)가 이제 용어 "게임" 및 "티켓" 및 "스포츠" 클래스와 관련된 용어 세트를 포함하도록 대체 스피치 인식기(132)를 편향시키하는 용어(224b)로서 용어 "티켓"을 추가한다.

일부 구현예에서, 스피치 인식 편향기(222)는 사용자(102a)가 말한 누적 발언을 분석하여, 대체 스피치 인식기(132)를 편향시키는 용어(224)를 결정한다. 예를 들어, 스피치 인식 편향기(222)는 임의의 후속 발언에 대한 편향된 용어(224)를 결정하기 위해 발언(108) 및 발언(138)에 대한 ASR 결과(218) 둘 모두를 분석할 수 있다. 이 경우, 스피치 인식 편향기(222)는 일반적 스피치로 화자(102a)가 말한 발언(108, 138)에 대한 ASR 결과(218)를 분석하는 것에 기초하여, "게임" 및 "티켓"이라는 용어 및 "스포츠" 클래스와 관련된 용어 세트를 식별할 수 있다.

일부 구현예에서, 스피치 인식 편향기(222)는 이전에 식별된 용어(224)에 추가할 용어(224) 및 식별된 클래스와 관련된 용어 세트를 결정하기 위해 사용자(102a)가 말한 가장 최근의 발언을 분석한다. 예를 들어, 스피치 인식 편향기(222)는 발언(138)를 분석하여 추가적인 편향된 용어(224b)를 결정할 수 있다. 이 경우, 스피치 인식 편향기(222)는 발언(138)에 대한 ASR 결과(224) 분석에 기초하여 용어 "티켓"을 식별할 수 있다. 스피치 인식 편향기(222)는 사용자 디바이스(106)에 상주하는 메모리 하드웨어에 새로운 용어 "티켓"(224b)과 함께 이전에 식별된 용어(224a)를 저장할 수 있다. 스피치 인식 편향기(222)는 편향된 용어(224, 224a-b)를 사용하여 대체 스피치 인식기(132)를 편향시킬 수 있다.

단계 D에서, 사용자(102b)는 "I have an extra one if you want it."라는 발언(142)을 말한다. 사용자(102b)는 계속해서 비정형 스피치로 말한다. 사용자 디바이스(106)의 마이크로폰은 발언(142)을 캡처하고, 발언(142)을 발언(142)을 특징짓는 오디오 데이터로 변환한다. 스피치 인식기 선택기(110)는 발언(142)의 오디오 데이터를 분석하고 결정(144)에 의해 도시된 바와 같이 발언(142)을 사용자가 비정형 스피치로 말했다고 결정한다.

스피치 인식기 선택기(110)가 발언(142)을 사용자가 비정형 스피치로 말했다고 결정하는 것에 기초하여, 스피치 인식기 선택기(110)는 오디오 데이터에 대한 스피치 인식을 수행하도록 사용자 디바이스(106)에 지시한다. 대체 스피치 인식기(132)는 편향된 용어(224)에 액세스/수신하고, "티켓"이라는 용어를 포함하는 편향된 용어(224b)는 물론 "게임" 및 "스포츠" 클래스와 관련된 용어 세트를 포함하는 편향된 용어(224a) 쪽으로 대체 스피치 인식기(132)를 편향시킨다. 대체 스피치 인식기(132)는 "I have an extra one if you want it."의 전사(148)를 생성한다.

사용자 디바이스(106)는 전사(148)를 포함하도록 그래픽 인터페이스(150)를 업데이트한다. 사용자 디바이스(106)는 그래픽 인터페이스(150)를 사용자 디바이스(106)의 디스플레이에 출력한다. 사용자(102)는 컴퓨팅 디바이스(106)의 디스플레이에서 "I have an extra one if you want it"을 볼 수 있다. 사용자 디바이스(106)는 전사(148)의 합성된 스피치 표현을 추가적으로 또는 대안적으로 청각적으로 출력할 수 있다.

도 2는 일반적 스피치 및 비정형 스피치에 대해 스피치 인식을 수행하는 예시적 자동 스피치 인식(ASR) 시스템을 도시한다. 일부 구현예에서, ASR 시스템(100)은 사용자(102, 104)의 사용자 디바이스(106) 및/또는 사용자 디바이스(102)와 통신하는 원격 컴퓨팅 디바이스(201)(예를 들어, 클라우드 컴퓨팅 환경에서 실행되는 분산 시스템의 하나 이상의 서버)에 상주한다. 일부 예에서, ASR 시스템(200)의 컴포넌트 중 일부는 사용자 디바이스(106)에 상주하고, 컴포넌트의 나머지 부분은 원격 컴퓨팅 디바이스(201)에 상주한다. 사용자 디바이스(106)가 모바일 컴퓨팅 디바이스(예: 스마트폰)로 도시되어 있지만, 사용자 디바이스(106)는 제한 없이 태블릿 디바이스, 랩톱/데스크톱 컴퓨터, 웨어러블 디바이스, 디지털 어시스턴트 디바이스, 스마트 스피커/디스플레이, 스마트 기기, 자동차 인포테인먼트 시스템 또는 사물 인터넷(IoT) 디바이스와 같은 임의의 유형의 컴퓨팅 디바이스에 대응할 수 있다.

ASR 시스템(200)은 사용자 디바이스(106) 상에 구현되는 오디오 서브시스템(202)을 포함하고, 시스템(200)의 다른 컴포넌트는 사용자 디바이스(106) 및/또는 원격 시스템(201)에 상주할 수 있다. 오디오 서브시스템(202)은 하나 이상의 마이크로폰(204), 아날로그-디지털(A-D) 변환기(206), 버퍼(208) 및 다양한 다른 오디오 필터들을 포함할 수 있다. 하나 이상의 마이크로폰(204)은 사용자(102)가 말한 스피치와 같은 오디오를 캡처하도록 구성되고, A-D 변환기(206)는 오디오를 ASR 시스템(200)의 다양한 컴포넌트에 의해 프로세싱될 수 있는 입력 음향 피처(205)와 연관된 대응하는 디지털 형식으로 변환하도록 구성된다. 일부 예시에서, 음향 피처(110)는 80차원 log-Mel 피처들을 각각 포함하고 짧은, 예를 들어, 25ms의 윈도우로 계산되고 수 초, 예를 들어 10밀리초마다 시프트되는 일련의 파라미터화된 입력 음향 프레임일 수 있다. 버퍼(208)는 ASR 시스템(200)에 의한 추가 프로세싱을 위해 하나 이상의 마이크로폰(204)에 의해 캡처된 대응하는 오디오로부터 샘플링된 가장 최근의 음향 피처(205)(예를 들어, 마지막 10초)을 저장할 수 있다. ASR 시스템(200)의 다른 컴포넌트는 추가 프로세싱을 위해 버퍼(208)의 음향 피처(205)에 액세스하고 저장할 수 있다.

일부 구현예에서, ASR 시스템(200)은 오디오 서브시스템(202)으로부터 음향 피처(205)를 수신하고, 음향 피처(205)가 비정형 스피치로 화자가 말한 발언 또는 일반적 스피치로 화자가 말한 발언과 연관되는지 여부를 결정하도록 구성된 화자 식별기(210)를 포함한다. 화자 식별기(210)는 음향 피처(205)가 비정형 스피치 또는 일반적 스피치와 연관되는지 여부를 나타내는 출력(211)을 생성할 수 있다. 예를 들어, 도 1에 도시된 각각의 일반적 스피치 검출 결정(120, 140) 및 각각의 비정형 스피치 검출 결정(136, 144)은 화자 식별기(210)에 의해 생성된 대응하는 출력(211)을 포함할 수 있다. 일부 예에서, 화자 식별기(210)는 음향 피처(205)를 프로세싱함으로써 화자 인식/식별을 수행하여 화자 임베딩(예를 들어, d-벡터 또는 i-벡터)을 생성하고 화자 임베딩이 비정형 스피치 또는 일반적 스피치로 사용자에 대한 저장된 화자 임베딩과 일치하는지 여부를 결정한다. 화자 임베딩은 저장된 화자 임베딩 사이의 임베딩 거리가 거리 임계값을 만족하는 경우에 저장된 화자 임베딩과 매칭될 수 있다.

추가 예에서, 화자 식별기(210)는 음향 피처(205)를 입력으로서 수신하고 음향 피처(205)가 비정형 스피치로 또는 일반적 스피치로 화자가 말한 발언과 연관되는지 여부를 나타내는 출력(211)을 생성하도록 트레이닝된 스피치 분류기 모델(310)을 포함한다. 예를 들어, 도 3은 스피치 분류기 모델(310)을 트레이닝하기 위한 예시적 트레이닝 절차(300)를 도시한다. 스피치 분류기 모델(310)은 신경 네트워크 기반 모델일 수 있다. 트레이닝 절차(300)는 비정형 스피치로 화자가 말한 발언을 포함하는 비정형 트레이닝 발언(302)에 대해 스피치 분류기 모델(310)을 트레이닝한다. 비정형 트레이닝 발언(302)은 제한없이, 언어 실행증, 난청, 속화증, 발달 언어 장애, 구음 장애, 억양장애, 조음음운장애, 불분명발음, 말더듬, 음성장애 또는 혀 짧은 발음 또는 다른 사람이 이해하기 힘들게 하는 임의의 기타 유사한 언어 장애와 같은 다양한 유형의 언어 장애를 갖는 화자가 말한 발언을 포함할 수 있다. 비정형 트레이닝 발언(302)는 비정형 화자가 말한 발언을 비정형 발언으로 분류하기 위해 스피치 분류기 모델(310)을 가르치기 위해 라벨링될 수 있다. 일부 시나리오에서, 모델(310)은 발언이 특정 유형의 비정형 스피치로 화자가 말했는지 여부를 나타내는 출력(211)을 생성하도록 트레이닝된다. 예를 들어, 출력(211)은 구음 장애가 있는 화자가 말한 발언과 연관된 음향 피처가 구음 장애를 포함한다는 것을 나타낼 수 있고, 출력(211)은 난청인 다른 화자가 말한 다른 발언과 연관된 다른 음향 피처가 난청 스피치를 포함한다는 것을 나타낼 수 있다. 이러한 시나리오에서, 모델(310)은 구음 장애 비정형 스피치를 포함하는 것으로 명시적으로 라벨링된 비정형 트레이닝 발언(302) 및 난청 스피치를 포함하는 것으로 명시적으로 라벨링된 비정형 트레이닝 발언(302)에 대해 트레이닝된다. 모델(310)은 더 많은 세분화를 제공하기 위해 임의의 수의 상이한 특정 유형의 비정형 스피치를 나타내는 출력(211)을 생성하도록 트레이닝될 수 있다. 이러한 방식으로, 비정형 스피치의 각각의 유형은 비정형 스피치의 특정 유형을 인식하도록 개인화되는 각각의 대체 스피치 인식기(132)와 연관될 수 있다.

추가적으로 또는 대안적으로, 트레이닝 절차(300)는 일반적 스피치로 화자가 말한 발언을 포함하는 일반적 트레이닝 발언(304)에 대해 스피치 분류기 모델(310)을 트레이닝할 수 있다. 비정형 트레이닝 발언(302)와 같이, 일반적 트레이닝 발언(304)은 일반적 화자가 말한 발언을 일반적 스피치로 분류하기 위해 스피치 분류기 모델(310)을 가르치도록 라벨링될 수 있다.

시스템(200)은 또한 스피치 인식기 선택기(112)를 포함한다. 스피치 인식기 선택기(112)는 음향 피처(205)가 일반적 스피치 또는 비정형 스피치를 가진 화자가 말한 발언을 포함하는지 여부를 나타내는 화자 식별자(210)에 의해 생성된 출력(211)을 수신하도록 구성된다. 스피치 인식기 선택기(112)에 의해 수신된 출력(211)이 음향 피처(205)가 비정형 스피치로 화자가 말한 발언을 포함한다는 것을 나타내는 경우, 스피치 인식기 선택기(112)는 음향 피처(205)에 대해 스피치 인식을 수행하기 위해 (예를 들어, 결정(118)을 통해) 대체 스피치 인식기(132)를 선택한다. 스피치 인식기 선택기(112)가 오디오 피처(205)가 비정형 스피치로 화자가 말한 발언을 포함하지 않는다는 것을 나타내는 출력(211)을 수신하는 경우, 스피치 인식기 선택기(112)는 음향 피처(205)에 대해 스피치 인식을 수행하기 위해 (예를 들어, 결정(114)을 통해) 일반 스피치 인식기(124)를 선택한다.

일부 구현예에서, 화자 식별기(210)는 상이한 유형의 비정형 스피치를 식별하도록 구성된다. 예를 들어, 화자 식별기(210)는 화자가 비정형 스피치 없이 말하는지, 구음 장애로 말하는지 또는 언어 실행증으로 말하는지를 결정하도록 구성될 수 있다. 즉, 화자 식별기(210)는 화자 분류기 모델(310)을 구현하여 상이한 유형의 비정형 스피치 및 일반적 스피치를 나타내는 출력(211)을 생성할 수 있고 및/또는 화자 식별기(210)는 수신된 음향 피처(205)에 대해 단순히 화자 인식을 수행하여 화자 임베딩이 특정 유형의 비정형 스피치 또는 일반적 스피치로 말하는 것으로 알려진 화자에 대해 저장된 화자 임베딩과 일치하는지 결정한다. 예에서, ASR 시스템(200)은 3개의 스피치 인식기를 포함할 수 있다: 일반적 스피치를 인식하기 위한 일반적 스피치 인식기(124); 구음 장애 스피치를 인식하도록 트레이닝된 제1 대체 스피치 인식기(132); 및 언어 실행증을 인식하도록 트레이닝된 제2 대체 스피치 인식기(132)를 포함한다. 스피치 인식기 선택기(110)는 화자 식별기(210)가 화자가 비정형 스피치로 말하지 않는다는 출력(211)을 생성하는 경우 일반적 스피치 인식기(124)를 선택할 수 있다. 스피치 인식기 선택기(110)는 화자 식별기(110)가 화자가 구음 장애 스피치가 있음을 나타내는 출력(211)을 생성하는 경우 구음 장애를 가진 화자를 위한 제1 대체 스피치 인식기(132)를 선택할 수 있다. 스피치 인식기 선택기(110)는 화자 식별기(210)가 화자가 언어 실행증을 가지고 있음을 나타내는 출력(211)을 생성하는 경우, 언어 실행증을 가진 화자를 위한 제2 대체 스피치 인식기(132)를 선택할 수 있다.

스피치 인식기 선택기(110)가 결정(114)을 통해 일반적 스피치 인식기(124)를 선택하는 경우에, 일반 스피치 인식기(124)는 오디오 서브시스템(202) 또는 오디오 서브시스템(202)으로부터 수신된 음향 피처(205)를 저장하는 저장 디바이스로부터 음향 피처(205)를 수신한다. 일반 스피치 인식기(124)는 음향 피처(205)에 대한 스피치 인식을 수행하여 일반적 스피치로 화자가 말한 발언에 대한 ASR 결과(218)를 생성한다.

스피치 인식기 편향기(222)는 일반 스피치 인식기(124)에 의해 생성된 ASR 결과(218)에 액세스/수신하고 ASR 결과(218)를 사용하여 대체 스피치 인식기(132)를 편향시킨다. 구체적으로, 스피치 인식기 편향기(222)는 ASR 결과(218)에서 가장 현저한 용어(224)를 식별하고, 대체 스피치 인식기(132)를 이러한 용어(224)로 편향시키도록 구성된다. 따라서, 편향기(222)에 의해 ASR 결과(217)에서 식별된 현저한 용어(224)는 대체 스피치 인식기(132)를 편향시키기 위한 편향 용어(224)로 지칭될 수 있다. 일부 구현예에서, 스피치 인식기 편향기(222)는 ASR 결과(218)에서 가장 반복되는 비기능성 용어를 식별함으로써 현저한 용어들을 식별한다. 추가적인 구현예에서, 스피치 인식기 편향기(222)는 ASR 결과(218)에 대한 용어 빈도-역 문서 빈도(tf-idf) 분석을 수행함으로써 현저한 용어들(224)을 식별한다. 추가적으로 또는 대안적으로, 스피치 인식기 편향기(222)는 진행 중인 대화 동안 일반적 스피치 인식기(124)에 의해 생성된 다수의 ASR 결과(218)에 포함된 상호 정보를 식별함으로써 현저한 용어를 식별할 수 있다.

일부 구현예에서, 스피치 인식기 편향기(222)는 대체 스피치 인식기(132)를 편향시키기 위해 현저한 용어들(224)을 결정하기 위해 감쇠 함수를 사용한다. 이 경우에, 스피치 인식기 편향기(222)는 각각의 용어(224)에 가중치를 할당하고 ASR 시스템(200)이 이전에 식별된 용어를 포함하지 않는 추가 발언을 수신함에 따라 그 가중치를 감소시킨다. 예를 들어, 스피치 인식기 편향기(222)가 제1 발언에서 용어 "눈" 및 "얼음"을 식별한 다음, 후속 발언에서 용어 "비"를 식별하는 경우, 스피치 인식기 편향기(222)는 대체 스피치 인식기(132)를 '눈'과 '비'보다 "비" 쪽으로 더 편향시킬 수 있다.

일부 추가 구현예에서, 스피치 인식기 편향기(222)는 또한 편향, 언어 모델 적응, 및/또는 빔 검색의 임의의 조합을 사용하여 대체 스피치 인식기(132)를 조정한다. 스피치 인식기 편향기(222)는 또한 대체 스피치 인식기(132)가 대화의 주제성, 도메인 및/또는 언어적 맥락을 더 잘 인식하도록 대체 스피치 인식기(132)를 업데이트하기 위해 공급을 사용할 수 있다. 스피치 인식기 편향기(222)는 대체 스피치 인식기(132)에 의한 빔 검색 디코딩 동안 특정 단어 또는 문구를 부스트하도록 구성될 수 있다. 스피치 인식기 편향기(222)는 대체 스피치 인식기(132)에 의한 제1 패스 또는 제2 패스를 위해 즉석에서 언어 모델을 구축 및/또는 적응하도록 구성될 수 있다. 스피치 인식기 편향기(222)는 대체 스피치 인식기(132)를 수정하여 순환 신경 네트워크 언어 모델 인코더 은닉 상태에 대한 주의를 사용하도록 구성될 수 있다.

스피치 인식기 선택기(110)가 결정(118)을 통해 대체 스피치 인식기(132)를 선택하는 경우에, 대체 스피치 인식기(132)는 오디오 서브시스템(202) 또는 오디오 서브시스템(202)으로부터 수신된 음향 피처(205)를 저장하는 저장 디바이스로부터 음향 피처(205)를 수신한다. 대체 스피치 인식기(132)는 발언에 대응하는 음향 피처(205)에 대해 스피치 인식을 수행하고, 전사(230)(예를 들어, 도 1의 전사(146, 146))를 메모리 하드웨어에 저장한다. 여기서, 음향 피처(205)에 대한 스피치 인식을 수행할 때, 대체 스피치 인식기(132)는 일반적 스피치로 화자가 말한 대화의 이전 발언으로부터 일반 스피치 인식기(124)에 의해 생성된 ASR 결과(들)(218)로부터 스피치 인식기 편향기(222)에 의해 식별된 편향 용어(224)에 의해 편향될 수 있다.

사용자 인터페이스 생성기(232)는 대체 스피치 인식기(132)로부터 전사(들)(230)에 액세스/수신하고 대체 스피치 인식기 전사(230)를 포함하는 사용자 인터페이스(150)를 생성한다. ASR 시스템(200)은 시스템(200)과 통신하는 디스플레이에 사용자 인터페이스(150)를 출력한다. 예를 들어, ASR 시스템(200)은 일반적 스피치로 말하는 도 1의 사용자(102a)와 연관된 사용자 디바이스(106a)의 디스플레이 상에 사용자 인터페이스(150)를 출력할 수 있다. 특히, 제2 전사(230)는 표준 텍스트이므로 제1 사용자(102a)는 제2 사용자(102b)가 비정형 스피치로 말한 제2 발언(134)를 이해할 수 있다.

일부 구현예에서, ASR 시스템(200)은 대체 스피치 인식기(132)에 의해 생성된 전사(230)의 합성된 스피치(236)를 생성하는 음성 합성기(234)를 포함한다. 합성기(234)는 텍스트-투-스피치 모듈/시스템을 포함할 수 있다. ASR 시스템(200)은 합성된 스피치(236)를 스피커 또는 다른 오디오 출력 디바이스를 통해 출력할 수 있다. 예를 들어, ASR 시스템(200)은 일반적 스피치로 말하는 도 1의 사용자(102a)와 연관된 사용자 디바이스(106a)의 스피커를 통해 합성된 스피치(236)를 출력할 수 있다. 여기서, 합성 스피치 표현(236)은 비정형 스피치로 말하는 제2 사용자(102b)가 말한 발언(134, 142)을 전달하는 표준 스피치에 대응한다.

ASR 시스템(200)이 일반 스피치 인식기(124)를 사용하여 스피치 인식을 수행하는 경우, ASR 시스템(200)은 대체 스피치 인식기(132)에 대한 스피치 인식 수행을 비활성화하거나 우회한다. ASR 시스템(200)이 대체 스피치 인식기(132) 중 하나를 사용하는 경우, ASR 시스템(200)은 일반 스피치 인식기(124) 및 임의의 다른 대체 스피치 인식기(132)에 대한 스피치 인식 수행을 비활성화하거나 우회할 수 있다.

도 4는 대체 스피치 인식기(132를 편향시키는 방법(400)에 대한 예시적 동작 구성의 흐름도이다. 대체 스피치 인식기(132)는 비정형 스피치를 가진 사용자가 말한 스피치에 대해 자동화된 스피치 인식(ASR)을 수행하도록 트레이닝될 수 있다. 데이터 프로세싱 하드웨어(510)(도 5) 메모리 하드웨어(520)에 저장된 명령어를 실행하여 방법(400)에 대한 동작을 수행한다. 데이터 프로세싱 하드웨어(510) 및 메모리 하드웨어(520)는 사용자(102)와 연관된 사용자 디바이스(106) 또는 사용자 디바이스(106)와 통신하는 원격 컴퓨팅 디바이스(예를 들어, 서버)에 상주할 수 있다. 방법(400)은 도 1 및 2를 참조하여 설명될 수 있다.

동작(402)에서, 방법(400)은 일반적 스피치로 말하는 제1 사용자(102a)가 말한 제1 발언(108)의 음향 피처(205)를 수신하는 단계를 포함하고, 동작(404)에서, 방법(400)은 일반 스피치 인식기(124)를 사용하여 제1 발언(108)의 제1 전사(즉, ASR 결과)(218)를 생성하기 위해 제1 발언(108)의 음향 피처를 프로세싱하는 단계를 포함한다.

동작(406)에서, 방법(400)은 대체 스피치 인식기(132)를 편향시키기 위해 상기 제1 전사(218에서 하나 이상의 편향 용어(224를 식별하기 위해 상기 제1 발언(108의 제1 전사(218)를 분석하는 단계를 포함한다. 동작(408)에서, 방법(400)은 상기 제1 전사(218)에서 식별된 하나 이상의 편향 용어(224)에 대해 대체 스피치 인식기(132)를 편향시키는 단계를 포함한다. 하나 이상의 편향 용어(224)의 적어도 일부는 제1 전사(218)에서 식별된 토픽 또는 클래스와 관련된 편향 용어와 연관될 수 있다. 예를 들어, 일반 스피치 인식기(124)에 의해 생성된 전사(218)가 정치와 관련된 경우, 방법(400)은 정치와 관련된 하나 이상의 편향 용어(224)의 세트에 대해 대체 스피치 인식기(132)를 편향시킬 수 있다.

동작(410)에서, 방법(400)은 비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신하는 단계를 포함한다. 동작(412)에서, 방법(400)은 상기 제1 전사(224)에서 식별된 하나 이상의 용어(224)에 편향된 대체 스피치 인식기(132)를 사용하여, 상기 제2 발언(134)의 제2 전사(230)를 생성하기 위해 상기 제2 전사(230)의 음향 피처(205)를 프로세싱하는 단계를 포함한다.

일부 예에서, 컴퓨팅 디바이스(106)는 그래픽 사용자 인터페이스(150)에 제2 발언(134)의 제2 전사(146)를 디스플레이한다. 특히, 제2 전사(230)는 표준 텍스트이므로 제1 사용자(102a)는 제2 사용자(102b)가 비정형 스피치로 말한 제2 발언(134)를 이해할 수 있다. 추가적으로 또는 대안적으로, 방법(400)은 합성기(예를 들어, 텍스트-투-스피치 모듈)(234)를 사용하여 제2 전사(230)에 대한 합성 스피치 표현(236)을 추가로 생성하고, 컴퓨팅 디바이스(106)로부터 합성 스피치 표현(236)을 청각적으로 출력할 수 있다. 여기서, 합성 스피치 표현(236)은 비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)을 전달하는 표준 스피치에 대응한다.

도 5는 본 문서에 기술된 시스템(예: 스피치 인식기(200)) 및 방법(예: 방법(400))을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스(500)의 개략도이다. 컴퓨팅 디바이스(500)는 랩톱, 데스크톱, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 본 명세서에 기술된 및/또는 청구된 발명의 구현을 제한하는 것을 의미하지는 않는다.

컴퓨팅 디바이스(500)는 프로세서(510)(예: 데이터 프로세싱 하드웨어), 메모리(520)(예: 메모리 하드웨어), 저장 디바이스(530), 메모리(520) 및 고속 확장 포트(540)에 연결되는 고속 인터페이스/제어기(540) 및 저속 버스(570) 및 저장 디바이스(530)에 연결되는 저속 인터페이스/제어기(560)를 포함한다. 컴포넌트들(510, 520, 530, 540, 550 및 560) 각각은 다양한 버스들을 사용하여 상호 연결되고, 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(510)는 메모리(520) 또는 저장 디바이스(530)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(500) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(540)에 연결된 디스플레이(580)와 같은 외부 입/출력 디바이스상에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(500)은 필요한 동작의 부분들을 제공하는 각 디바이스와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).

메모리(520)는 컴퓨팅 디바이스(500) 내에 비일시적으로 정보를 저장한다. 메모리(520)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들), 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(520)는 컴퓨팅 디바이스(500)에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.

저장 디바이스(530)는 컴퓨팅 디바이스(500)에 대한 대형 스토리지를 제공할 수 있다. 일부 구현예에서, 저장 디바이스(530)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예에서, 저장 디바이스(530)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이일 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록된다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(520), 저장 디바이스(530) 또는 프로세서(510)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.

고속 제어기(540)는 컴퓨팅 디바이스(500)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 제어기(560)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 제어기(540)는 메모리(520), 디스플레이(580)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(550)에 연결된다. 일부 구현예에서, 저속 제어기(560)는 저장 디바이스(530) 및 저속 확장 포트(590)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(590)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.

컴퓨팅 디바이스(500)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(500a)로서 또는 그러한 서버(500a)의 그룹에서 여러 번, 랩톱 컴퓨터(500b)로서 또는 랙 서버 시스템(500c)의 일부로서 구현될 수 있다.

본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.

이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 디바이스 예를 들어, 자기 디스크, 광학 디스크, 메모리, 비일시적 컴퓨터 판독가능 매체, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적절한 프로세서들은, 예시로서, 범용 및 전용 마이크로프로세서들과 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하기 위한 프로세서 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야하는 것은 아니다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.

사용자와의 인터렉션을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 또는 터치 스크린과 같은 디스플레이 디바이스 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서를 송수신함으로써 예를 들어, 웹브라우저로부터 수신된 요청에 응답하여, 사용자의 사용자 디바이스상의 웹브라우저에 웹페이지를 전송함으로써 사용자와 인터렉션할 수 있다.

다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims

데이터 프로세싱 하드웨어(510)에서 실행될 때 상기 데이터 프로세싱 하드웨어(510)로 하여금 단계들을 수행하게 하는 컴퓨터로 구현되는 방법(400)으로서,
일반적 스피치로 말하는 제1 사용자(102a)가 말한 제1 발언(108)의 음향 피처(205)를 수신하는 단계;
일반 스피치 인식기(124)를 사용하여, 상기 제1 발언(108)의 제1 전사(218)를 생성하기 위해 제1 발언(108)의 음향 피처(205)를 프로세싱하는 단계;
대체 스피치 인식기(132)를 편향시키기 위해 상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 단계;
상기 제1 전사(218)에서 식별된 하나 이상의 편향 용어(224)에 대해 대체 스피치 인식기(132)를 편향시키는 단계;
비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신하는 단계; 및
상기 제1 전사(218)에서 식별된 하나 이상의 용어(224)에 편향된 대체 스피치 인식기(132)를 사용하여, 상기 제2 발언(134)의 제2 전사(230)를 생성하기 위해 상기 제2 전사(230)의 음향 피처(205)를 프로세싱하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 제1 사용자(102a)와 연관된 사용자 디바이스(106)의 디스플레이 상에 상기 제2 발언(134)의 제2 전사(230)를 디스플레이하는 단계를 더 포함하는 컴퓨터로 구현되는 방법.
청구항 1 또는 2에 있어서,
제2 발언(134)의 제2 전사(230)에 대한 합성 스피치 표현(236)을 생성하는 단계; 및
상기 제1 사용자(102a)와 연관된 사용자 디바이스(106)로부터의 가청 출력을 위한 합성 스피치 표현(236)을 제공하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신한 후:
제2 발언(134)의 화자를 비정형 스피치로 말하는 제2 사용자(102b)로서 식별하기 위해 제2 발언(134)의 음향 피처(205)에 대해 화자 인식을 수행하는 단계; 및
상기 제2 사용자(102b)를 상기 제2 발언(134)의 화자로서 식별하는 제2 발언(134)의 음향 피처(205)에 대해 수행된 화자 인식에 기초하여, 상기 제2 발언(134)의 음향 피처(205)에 대한 스피치 인식을 수행할 대체 스피치 인식기(132)를 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 4 중 어느 한 항에 있어서, 비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신한 후:
스피치 분류기 모델(310)을 사용하여, 제2 발언(134)의 음향 피처(205)가 비정형 스피치로 화자가 말한 발언과 연관됨을 나타내는 출력(211)을 생성하는 단계; 및
상기 제2 발언(134)의 음향 피처(205)가 비정형 스피치로 화자가 말한 발언과 연관됨을 나타내는 상기 스피치 분류기 모델(310)에 의해 생성된 출력(211)에 기초하여 상기 제2 발언(134)의 음성 피처(205)에 대해 스피치 인식을 수행할 대체 스피치 인식기(132)를 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
청구항 5에 있어서,
상기 스피치 분류기 모델(310)은 상기 비정형 트레이닝 발언(302)에 대해 트레이닝되며, 상기 비정형 트레이닝 발언은 상기 비정형 트레이닝 발언(302)이 비정형 스피치로 화자에 의해 말해졌다는 것을 나타내는 각각의 라벨을 포함하는, 컴퓨터로 구현되는 방법.
청구항 6에 있어서,
상기 비정형 트레이닝 발언(302)은 언어 실행증, 난청, 속화증, 발달 언어 장애, 구음 장애, 억양장애, 조음음운장애, 불분명발음, 말더듬, 음성장애 또는 혀 짧은 발음 중 적어도 하나를 갖는 화자가 말한 발언을 포함하는, 컴퓨터로 구현되는 방법.
청구항 6 또는 7에 있어서,
상기 스피치 분류기 모델(310)은 일반적 트레이닝 발언(304)에 대해 트레이닝되며, 상기 일반적 트레이닝 발언은 상기 일반적 트레이닝 발언(304)이 일반적 스피치로 화자에 의해 말해졌다는 것을 나타내는 각각의 라벨을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 8 중 어느 한 항에 있어서,
상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 단계는 상기 제1 전사(218)에서 비기능성 용어(224)를 식별함으로써 하나 이상의 편향 용어(224)를 식별하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 9 중 어느 한 항에 있어서,
상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 단계는 상기 하나 이상의 편향 용어(224)를 식별하기 위한 제1 전사(218)에 대한 용어 빈도-역 문서 빈도(tf-idf) 분석을 수행하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 10 중 어느 한 항에 있어서,
상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 단계는 상기 제1 사용자(102a)와 상기 제2 사용자(102b) 사이의 진행 중인 대화 동안 일반 스피치 인식기(124)에 의해 생성된 다수의 전사에 포함된 상호 정보를 식별하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 11 중 어느 한 항에 있어서,
제1 발언(108)은 제1 사용자(102a)와 연관된 제1 사용자 디바이스(102a)에 의해 캡처되고; 그리고
상기 데이터 프로세싱 하드웨어(510)는 상기 제1 사용자 디바이스(102a)에 상주하는, 컴퓨터로 구현되는 방법.
청구항 1 내지 12 중 어느 한 항에 있어서,
제1 발언(108)은 제1 사용자(102a)와 연관된 제1 사용자 디바이스(102a)에 의해 캡처되고; 그리고
상기 데이터 프로세싱 하드웨어(510)는 상기 제1 사용자 디바이스(102a)와 통신하는 원격 컴퓨팅 디바이스(201)에 상주하는, 컴퓨터로 구현되는 방법.
시스템(500)으로서,
데이터 프로세싱 하드웨어(510); 및
상기 데이터 프로세싱 하드웨어(510)와 통신하는 메모리 하드웨어(520)를 포함하며, 상기 메모리 하드웨어(126)는 상기 데이터 프로세싱 하드웨어(510)에 의해 실행될 때 상기 데이터 프로세싱 하드웨어(510)로 하여금 동작들을 수행하게 하는 명령어를 저장하며, 상기 동작들은:
일반적 스피치로 말하는 제1 사용자(102a)가 말한 제1 발언(108)의 음향 피처(205)를 수신하는 동작;
일반 스피치 인식기(124)를 사용하여, 상기 제1 발언(108)의 제1 전사(218)를 생성하기 위해 제1 발언(108)의 음향 피처(205)를 프로세싱하는 단계;
대체 스피치 인식기(132)를 편향시키기 위해 상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 동작;
상기 제1 전사(218)에서 식별된 하나 이상의 편향 용어(224)에 대해 대체 스피치 인식기(132)를 편향시키는 동작;
비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신하는 동작; 및
상기 제1 전사(218)에서 식별된 하나 이상의 용어(224)에 편향된 대체 스피치 인식기(132)를 사용하여, 상기 제2 발언(134)의 제2 전사(230)를 생성하기 위해 상기 제2 전사(230)의 음향 피처(205)를 프로세싱하는 동작을 포함하는, 시스템.
청구항 14에 있어서,
상기 제1 사용자(102a)와 연관된 사용자 디바이스(106)의 디스플레이 상에 상기 제2 발언(134)의 제2 전사(230)를 디스플레이하는 동작을 더 포함하는, 시스템.
청구항 14 또는 15에 있어서,
제2 발언(134)의 제2 전사(230)에 대한 합성 스피치 표현(236)을 생성하는 동작; 및
상기 제1 사용자(102a)와 연관된 사용자 디바이스(106)로부터의 가청 출력을 위한 합성 스피치 표현(236)을 제공하는 동작을 더 포함하는, 시스템.
청구항 14 내지 16 중 어느 한 항에 있어서, 비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신한 후:
제2 발언(134)의 화자를 비정형 스피치로 말하는 제2 사용자(102b)로서 식별하기 위해 제2 발언(134)의 음향 피처(205)에 대해 화자 인식을 수행하는 동작; 및
상기 제2 사용자(102b)를 상기 제2 발언(134)의 화자로서 식별하는 제2 발언(134)의 음향 피처(205)에 대해 수행된 화자 인식에 기초하여, 상기 제2 발언(134)의 음향 피처(205)에 대한 스피치 인식을 수행할 대체 스피치 인식기(132)를 선택하는 동작을 더 포함하는, 시스템.
청구항 14 내지 17 중 어느 한 항에 있어서, 비정형 스피치로 말하는 제2 사용자(102b)가 말한 제2 발언(134)의 음향 피처(205)를 수신한 후:
스피치 분류기 모델(310)을 사용하여, 제2 발언(134)의 음향 피처(205)가 비정형 스피치로 화자가 말한 발언과 연관됨을 나타내는 출력(211)을 생성하는 동작; 및
상기 제2 발언(134)의 음향 피처(205)가 비정형 스피치로 화자가 말한 발언과 연관됨을 나타내는 상기 스피치 분류기 모델(310)에 의해 생성된 출력(211)에 기초하여 상기 제2 발언(134)의 음성 피처(205)에 대해 스피치 인식을 수행할 대체 스피치 인식기(132)를 선택하는 동작을 더 포함하는, 시스템.
청구항 18에 있어서,
상기 스피치 분류기 모델(310)은 상기 비정형 트레이닝 발언(302)에 대해 트레이닝되며, 상기 비정형 트레이닝 발언은 상기 비정형 트레이닝 발언(302)이 비정형 스피치로 화자에 의해 말해졌다는 것을 나타내는 각각의 라벨을 포함하는, 시스템.
청구항 19에 있어서,
상기 비정형 트레이닝 발언(302)은 언어 실행증, 난청, 속화증, 발달 언어 장애, 구음 장애, 억양장애, 조음음운장애, 불분명발음, 말더듬, 음성장애 또는 혀 짧은 발음 중 적어도 하나를 갖는 화자가 말한 발언을 포함하는, 시스템.
청구항 19 또는 20에 있어서,
상기 스피치 분류기 모델(310)은 일반적 트레이닝 발언(304)에 대해 트레이닝되며, 상기 일반적 트레이닝 발언은 상기 일반적 트레이닝 발언(304)이 일반적 스피치로 화자에 의해 말해졌다는 것을 나타내는 각각의 라벨을 포함하는, 시스템.
청구항 14 내지 21 중 어느 한 항에 있어서,
상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 동작은 상기 제1 전사(218)에서 비기능성 용어(224)를 식별함으로써 하나 이상의 편향 용어(224)를 식별하는 것을 포함하는, 시스템.
청구항 14 내지 22 중 어느 한 항에 있어서,
상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 동작은 상기 하나 이상의 편향 용어(224)를 식별하기 위한 제1 전사(218)에 대한 용어 빈도-역 문서 빈도(tf-idf) 분석을 수행하는 것을 포함하는, 시스템.
청구항 14 내지 23 중 어느 한 항에 있어서,
상기 제1 전사(218)에서 하나 이상의 편향 용어(224)를 식별하기 위해 상기 제1 발언(108)의 제1 전사(218)를 분석하는 동작은 상기 제1 사용자(102a)와 상기 제2 사용자(102b) 사이의 진행 중인 대화 동안 일반 스피치 인식기(124)에 의해 생성된 다수의 전사에 포함된 상호 정보를 식별하는 것을 포함하는, 시스템.
청구항 14 내지 24 중 어느 한 항에 있어서,
제1 발언(108)은 제1 사용자(102a)와 연관된 제1 사용자 디바이스(102a)에 의해 캡처되고; 그리고
상기 데이터 프로세싱 하드웨어(510)는 상기 제1 사용자 디바이스(102a)에 상주하는, 시스템.
청구항 14 내지 25 중 어느 한 항에 있어서,
제1 발언(108)은 제1 사용자(102a)와 연관된 제1 사용자 디바이스(102a)에 의해 캡처되고; 그리고
상기 데이터 프로세싱 하드웨어(510)는 상기 제1 사용자 디바이스(102a)와 통신하는 원격 컴퓨팅 디바이스(201)에 상주하는, 시스템.