KR101942521B1

KR101942521B1 - 음성 엔드포인팅

Info

Publication number: KR101942521B1
Application number: KR1020160117524A
Authority: KR
Inventors: 시디 타드파트리카; 마이클 뷰캐넌; 프라비르 쿠마르 굽타
Original assignee: 구글 엘엘씨
Priority date: 2015-10-19
Filing date: 2016-09-12
Publication date: 2019-01-28
Also published as: EP4414977A3; JP6541630B2; US20210312903A1; CN107068147A; EP4414977A2; JP6420306B2; CN107068147B; US11062696B2; JP2017078848A; US11710477B2; KR20170045709A; JP2017078869A; US20190318721A1

Abstract

음성 엔드포인팅에 대한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들이 기술된다. 일 양태에서, 방법은 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 액세스하는 동작을 포함한다. 상기 동작들은 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 것을 더 포함한다. 상기 동작들은 상기 특정 사용자로부터, 발언을 수신하는 것을 더 포함한다. 상기 동작들은 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것을 더 포함한다. 상기 동작들은 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것에 기초하여, 음성 쿼리로서 상기 발언을 처리하는 것을 포함한다.

Description

음성 엔드포인팅{SPEECH ENDPOINTING}

[관련 출원에 대한 상호 참조]

본 출원은 2015년 10월 19일자로 출원된 미국 가출원 제62/243,463호의 우선권을 주장한다. 상기 출원의 내용들은 참조로서 포함된다.

[기술 분야]

본 발명은 일반적으로 음성 인식(speech recognition)과 관련되고, 하나의 특정 구현예가 음성을 엔드포인팅(endpointing)하는 것과 관련된다.

자연 언어 처리 시스템(natural language processing system)들은 사용자가 말하는 것을 시작하고 끝내는 때를 결정하기 위해 일반적으로 엔드포인터들을 사용한다. 일부 전통적인 엔드포인터들은 발언(untterance)이 시작하거나 종료할 때를 결정하는데 있어서, 단어들 사이의 포즈 지속시간(duration of pause)을 평가한다. 예를 들면, 만일 사용자가 "what is<긴 포즈>for dinner"라고 말하면, 전통적인 엔드포인터는 긴 포즈에서 음성 입력을 분할하고, 자연 언어 처리 시스템에게 완전한 구 "what is for dinner" 대신 불완전한 구 "what is" 를 처리하는 것을 시도하도록 지시할 것이다. 만일 엔드포인터가 음성 입력에 대한 잘못된 시작점 또는 종료점을 지정하는 경우, 자연 언어 처리 시스템을 이용하여 음성 입력을 처리한 결과는 부정확하거나 바람직하지 않을 수 있다.

서로 다른 사용자들은 그들의 모바일 디바이스 상에서 음성 음성 입력을 사용하며, 서로 다른 컴포트 레벨(comfort level)을 가질 수 있다. 일부 사용자들은 빈번하게 음성 입력 구성들을 사용할 수 있고, 말하는 동안 주저함 없이 음성 쿼리들을 형성할 수 있다. 다른 사용자들은 음성 입력 구성들을 자주 사용하지 않을 수 있거나, 주저함 없이 쿼리들을 빠르게 만들지 않을 수 있다. 더 많은 경험을 가진 사용자일수록, 사용자의 음성 내 짧은 포즈를 측정한 후 사용자의 음성 쿼리들을 처리하는 것을 시작하는 시스템으로부터 이점을 얻을 수 있다. 더 적은 경험을 가진 사용자일수록, 더 적은 경험을 가진 사용자가 말하는 것을 끝냈음을 보장하기 위해 사용자의 음성 내 더 긴 포즈를 측정한 후 사용자의 음성 쿼리들을 처리하는 것을 시작하는 시스템으로부터 이점을 얻을 수 있다.

특정 사용자의 음성 쿼리들에 적용할 포즈 길이를 결정하기 위해, 시스템은 특정 사용자의 이전 음성 쿼리들을 분석한다. 특정 사용자에 대해, 시스템은 음성 쿼리 빈도, 이전 음성 쿼리들의 단어들 사이의 포즈 길이, 이전 음성 쿼리들의 완전도 및 이전 음성 쿼리들의 길이를 본다. 음성 쿼리들을 빈번하게 말하지 않는 사용자와 비교하여, 사용자의 음성 쿼리들에 적용되기 위해 더 빈번하게 음성 쿼리들을 말하는 사용자는 더 짧은 포즈 길이로부터 이점을 얻을 수 있다. 이전 음성 쿼리들의 단어들 사이에 짧은 평균 포즈 길이를 가진 사용자는, 단어들 사이에 더 긴 평균 포즈 길이를 가진 사용자보다 더 짧은 포즈 길이로부터 이점을 얻을 수 있다. 완전한 음성 쿼리들을 말하는 사용자는, 덜 빈번하게 완전한 쿼리들을 말하는 사용자보다, 덜 빈번하게 완전한 쿼리들을 말하는 사용자보다 더 짧은 포즈 길이로부터 더 자주 이점을 얻을 수 있다. 더 긴 음성 쿼리들을 말하는 사용자는, 더 짧은 음성 쿼리들을 말하는 사용자보다 더 짧은 포즈 길이로부터 이점을 얻을 수 있다. 일단 시스템이 특정 사용자의 음성 쿼리들에 적용하기 위해 적합한 포즈 길이를 계산하면, 시스템은 특정 사용자의 포즈 길이를 사용하여 특정 사용자의 장래 발언들 동안 엔드포인트를 생성한다.

일반적으로, 본 명세서에 기술된 본 발명의 다른 혁신적인 양태는 특성 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 액세스하는 것; 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 것; 상기 특정 사용자로부터, 발언을 수신하는 것; 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것; 그리고 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것에 기초하여, 음성 쿼리로서 상기 발언을 처리하는 것의 동작들을 포함하는 방법들에서 구현될 수 있다.

이들 및 다른 실시예들은 각각 임의로 후술하는 구성들 중 하나 이상을 포함할 수 있다. 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 동작은 상기 특정 사용자를 음성 인식 시스템의 숙련 사용자(expert user) 또는 상기 음성 인식 시스템의 초보 사용자(novice user)로서 분류하는 것; 그리고 상기 특정 사용자를 음성 인식 시스템의 숙련 사용자 또는 상기 음성 인식 시스템의 초보 사용자로서 분류하는 것에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함한다. 상기 음성 쿼리 로그 데이터는 각 음성 쿼리와 관련된 타임스탬프(timestamp), 각 음성 쿼리가 완전한지 여부를 표시하는 데이터, 및 각 음성 쿼리와 관련된 음성 포즈 인터벌들을 포함한다. 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 동작은 각 음성 쿼리와 관련된 상기 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 상기 데이터, 및 각 음성 쿼리와 관련된 상기 음성 포즈 인터벌들에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함한다.

상기 동작들은 상기 음성 쿼리 로그 데이터에 기초하여, 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수를 결정하는 것을 더 포함한다. 상기 포즈 임계치를 결정하는 동작은 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수에 더 기초한다. 상기 동작들은 상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이를 결정하는 것을 더 포함한다. 상기 포즈 임계치를 결정하는 동작은 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이에 더 기초한다. 상기 동작들은 상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들에 대한 평균 포즈 인터벌을 결정하는 것을 더 포함한다. 상기 포즈 임계치를 결정하는 동작은 상기 특정 사용자에 의해 말해진 음성 쿼리들에 대한 평균 포즈 인터벌에 더 기초한다.

본 양태의 다른 실시예들은 방법들의 동작들을 수행하도록 각각 구성되는 대응하는 시스템들, 장치들 및 컴퓨터 저장 디바이스들 상에 기록된 컴퓨터 프로그램들을 포함한다.

본 명세서에 기술된 본 발명의 특정 실시예들은 후술하는 이점들 중 하나 이상을 실현하기 위해 구현될 수 있다. 사용자는 컴퓨팅 디바이스의 음성 입력 기능을 사용할 수 있고, 상기 사용자에게 편안한 페이스로 말할 수 있다. 더 정확하거나 바람직한 자연 언어 처리 출력들 및 자연 언어 처리 시스템에 의한 더 빠른 처리로 이어지면서, 발언은 상기 발언의 의도된 종료지점에서 엔드포인트 될 수 있다.

본 명세서에서 기술된 본 발명의 하나 이상의 실시예들의 세부사항은 첨부 도면들 및 아래의 서술로 설명된다. 다른 구성들, 양태들 및 본 발명의 이점들은 서술, 도면들 및 청구범위들로부터 명확해질 것이다.

도 1은 특정 사용자에 대해, 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하는 데 사용되는 예시적인 발언들 및 신호들의 다이어그램이다.
도 2는 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하는 예시적인 시스템의 다이어그램이다.
도 3은 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하고 특정 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하기 위한 예시적인 프로세스의 다이어그램이다.
도 4는 본 명세서에서 기술된 프로세스들 또는 그들의 부분들 상에서 구현될 수 있는 컴퓨팅 디바이스들의 블록 다이어그램이다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.

도 1은 특정 사용자에 대해, 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하는 데 사용되는 예시적인 발언들 및 신호들의 다이어그램(100)이다. 일반적으로, 다이어그램(100)은 컴퓨팅 디바이스(121)가 들어오는 오디오 입력을 처리 할 때, 상기 컴퓨팅 디바이스(121)에 의해 생성되거나 검출되는 신호들(103 내지 118)을 도시한다. 컴퓨팅 디바이스(121)는 마이크로폰 또는 컴퓨팅 디바이스(121)의 다른 오디오 입력 디바이스를 통해 발언(124)에 대응하는 오디오 데이터를 수신하고, 사용자(127)에게 할당된 사용자 프로필에 따라 발언(124)의 표기(transcription)를 생성한다.

발언 타이밍(130)은 발언(124)(도 1에서, "Text Mom love you")을 말하는 사용자(127)의 다양한 단어들의 타이밍을 나타낸다. 사용자(127)는 각 단어들 사이의 증가하는 포즈 길이와 함께 각 단어를 말한다. 각 단어 사이에 점들의 수는 각 단어 사이의 포즈 길이에 비례한다. 각 점은 예컨데 백 밀리 초와 같은, 특정 시간의 기간을 나타낼 수 있다. 제1 단어(133) "Text"는 3백 밀리 초에 대응할 수 있는 3개의 점들인 포즈(136)에 의해 이어진다. 제2 단어(139) "Mom"은 8백 밀리 초에 대응할 수 있는 8개의 점들인 포즈(142)에 의해 이어진다. 제3 단어(145) "love"는 1.2초에 대응할 수 있는 12개의 점들인 포즈(148)에 의해 이어진다. 제4 단어(151) "you"는 포즈(154)에 의해 이어진다. 도 1에서 포즈(154)는 2초에 대응할 수 있는 20개의 점들이다. 단어(151)가 발언(124)의 끝에 있기 때문에, 단어(151) 이후 포즈는 사용자(127)가 말하는 것을 멈추었기 때문에 포즈(154)보다 훨씬 길 것이다. 하기 기술된 이러한 포즈들 및 다른 포즈들은 두 단어들 사이에 자연적인 침묵 기간(natural period of silence)을 나타내며, 사용자가 실제로 말하기를 멈추었다는 것을 나타내지 않는다.

일부 구현예들에서, 컴퓨팅 디바이스(121)는, 사용자(127)의 임의의 특성들을 고려함이 없이, 일반적인 엔드포인트 신호(103) 및 완전한 쿼리 신호(106)를 생성한다. 완전한 쿼리 신호(106)는 컴퓨팅 디바이스(121)에 의해 수행된 추정치를 나타내고, 발언의 생성된 표기(130)는 완전한 발언을 나타낸다. 컴퓨팅 디바이스(121)는 상기 생성된 표기와 사용자(127) 및 다른 사용자들이 이전에 말한 하나 이상의 완전한 발언들을 비교한다. 컴퓨팅 디바이스(121)는 컴퓨팅 디바이스(121)의 음성 인식기가 새로운 단어를 식별한 후, 생성된 표기와 완전한 발언들을 비교할 수 있다. 예를 들면, 사용자(127)가 단어(133)를 말한 후, 컴퓨팅 디바이스(121)의 음성 인식기는 표기 "text"를 생성한다. 컴퓨팅 디바이스(121)는 "text"와 다른 완전한 발언들을 비교하고, "text"가 완전한 발언이 아님을 결정한다. 사용자(127)가 단어(139)를 말한 후, 음성 인식기는 컴퓨팅 디바이스(121)가 완전한 것으로 식별하는 표기 "text mom"을 생성한다. 단어(151) 이후 유사한 결정이 이루어진다. 사용자(127)가 단어(145)를 말한 후, 음성 인식기는 컴퓨팅 디바이스(121)가 불완전한 것으로 식별하는 표기 "text mom love"를 생성한다.

일반적인 엔드포인트 신호(103)는 컴퓨팅 디바이스(121)에 의해 수행된 추정치를 나타내고, 사용자(127)는 말하기를 끝낸다. 컴퓨팅 디바이스(121)는 음성 오디오 사이의 포즈들의 길이에 기초하여 일반적인 엔드포인트 신호(103)를 생성한다. 컴퓨팅 디바이스(121)는 발언(124)의 표기를 생성함이 없이 일반적인 엔드포인트 신호(103)를 생성한다. 예를 들면, 컴퓨팅 디바이스(121)는 단어(133)에 대응하는 오디오 데이터를 수신한다. 포즈(136) 동안, 컴퓨팅 디바이스(121)는 포즈(136) 동안 경과한 시간을 측정한다. 상기 포즈(136)는 단지 3백 밀리 초 동안 지속될 수 있다. 만일 일반적인 엔드포인트 임계치(endpoint threshold)가 3백 밀리 초 보다 길다면, 예컨데 6백 밀리 초와 같이, 컴퓨팅 디바이스(121)는 일반적인 엔드포인터를 트리거(trigger)하지 않을 것이다. 컴퓨팅 디바이스(121)가 단어(139)에 대응하는 오디오 데이터를 수신한 후, 컴퓨팅 디바이스(121)들은 포즈(142)의 시간을 측정한다. 포즈(142)의 6백 밀리 초가 경과한 후, 컴퓨팅 디바이스(121)는 일반적인 엔드포인터를 트리거하고, 상기 일반적인 엔드포인트 신호(103)는 엔드포인트가 도달되었음을 표시한다. 발언(124)의 엔드포인트를 표시하는 일반적인 엔드포인트 신호(103) 및 발언(124)이 완전함을 표시하는 완전한 쿼리 신호(106)와 함께, 컴퓨팅 디바이스는 발언(124)에 대해 표기(157) "text mom"을 생성한다.

일부 구현예들에서, 컴퓨팅 디바이스(121)는 발언(124)의 엔드포인트를 식별할 때, 사용자(127)의 특성들을 고려한다. 한편으로, 초보 사용자는 컴퓨팅 디바이스(121)에 말하기 가장 좋은 용어들이 무엇인지 익숙하지 않을 수 있기 때문에, 아마도 상기 초보 사용자는 단어들 사이에 더 긴 포즈들을 가지고 말할 수 있다. 다른 한편으로, 숙련 사용자는 컴퓨팅 디바이스(121)의 음성 입력 기술에 대해 좀 더 편안하고 익숙할 수 있기 때문에, 상기 숙련 사용자는 단어들 사이에 더 짧은 포즈들을 가지고 말할 수 있다. 따라서, 컴퓨팅 디바이스(121)가 사용자를 어떻게 분류하는가에 따라, 컴퓨팅 디바이스(121)는 컴퓨팅 디바이스(121)가 포즈를 식별하기 전, 시간의 양을 길게 하거나 짧게 할 수 있다.

초보자 포즈 검출기 신호(109)는 발언(124)에 대응하는 오디오 데이터 내 포즈를 검출하는 컴퓨팅 디바이스(121)를 도시하고, 상기 검출된 포즈 길이는 일반적인 엔드포인터에 대응하는 포즈 길이보다 길다. 예를 들면, 컴퓨팅 디바이스(121)는 사용자(127)가 초보 사용자로서 분류된 경우, 1초의 길이를 가진 포즈들을 검출할 수 있다. 이 포즈 임계치(pause threshold)를 발언(124)에 적용하면, 포즈들(136 및 142)은 각각 3백 밀리 초 및 8백 밀리 초이기 때문에, 컴퓨팅 디바이스(121)는 포즈들(136 및 142) 동안 초보자 길이 포즈들을 검출하지 않을 것이다. 컴퓨팅 디바이스(121)는 포즈들(148 및 154) 동안 초보자 길이 포즈들을 검출한다. 초보자 포즈 검출기 신호(109)에서 도시된 바와 같이, 컴퓨팅 디바이스(121)는 사용자(127)가 단어(145)를 말하고 난 후, 포즈(148) 동안 1초의 포즈를 검출한다. 또한 컴퓨팅 디바이스(121)는 사용자가 단어(151)을 말하고 난 후, 포즈(154) 동안 1초의 포즈를 검출한다.

컴퓨팅 디바이스(121)는 컴퓨팅 디바이스가 사용자를 초보자로서 분류한 경우, 초보자 포즈 검출기 신호(109) 및 완전한 쿼리 신호(106)에 기초하여, 발언(124)에 대한 음성 엔드포인트를 결정한다. 컴퓨팅 디바이스(121)가 포즈를 검출한 경우, 예컨데 포즈(148) 동안 초보자 포즈 검출기 신호(109)의 포즈와 같이, 컴퓨팅 디바이스(121)는 발언(124)이 완전한지 여부를 결정한다. 포즈(148) 동안, 완전한 쿼리 신호(106)는 발언(124)가 완전하지 않음을 표시한다. 비록 컴퓨팅 디바이스(121)가 초보자 길이 포즈를 검출했었더라도, 발언(124)은 완전하지 않고, 따라서 컴퓨팅 디바이스(121)는 발언(124)의 오디오 데이터를 처리하는 것을 계속한다. 포즈(154) 동안, 컴퓨팅 디바이스(121)는 초보자 길이 포즈를 검출하고, 완전한 쿼리 신호(106)는 상기 발언이 완전함을 표시하고, 그러므로, 초보자 엔드포인트 신호(112)에 의해 표시된 것과 같이 발언(124)의 엔드포인트를 생성한다. 사용자(127)가 초보자로서 분류된 경우, 발언(124)의 엔드포인트는 발언(151) 이후이며, 발언(124)의 표기(160)는 "Text Mom love you"이다.

숙련자 포즈 검출기 신호(115)는 발언(124)에 대응하는 오디오 데이터 내 포즈를 검출하는 컴퓨팅 디바이스(121)를 도시하며, 상기 검출된 포즈 길이는 일반적인 엔드포인터에 대응하는 포즈 길이 보다 짧다. 예를 들면, 컴퓨팅 디바이스(121)는 사용자(127)가 숙련 사용자로서 분류된 경우, 3백 밀리 초의 길이를 가진 포즈들을 검출할 수 있다. 이 포즈 임계치를 발언(124)에 적용하면, 컴퓨팅 디바이스(121)는 포즈들(136, 142, 148 및 165) 동안 숙련자 길이 포즈들을 검출한다. 3백 밀리 초보자다 짧은 포즈들이 없기 때문에, 발언(124) 내 모든 포즈들은 숙련자 길이 포즈 검출을 포함한다.

컴퓨팅 디바이스(121)는 컴퓨팅 디바이스가 사용자를 숙련자로서 분류한 경우, 발언(124)에 대한 음성 엔드포인트를 결정하기 위해 숙련자 포즈 검출기 신호(115) 및 완전한 쿼리 신호(106)를 결합한다. 컴퓨팅 디바이스(121)가 포즈를 검출한 경우, 예컨데 포즈(136) 동안 숙련자 포즈 검출기 신호(115)의 포즈와 같이, 컴퓨팅 디바이스(121)는 발언(124)이 완전한지 여부를 결정한다. 포즈(136) 동안, 완전한 쿼리 신호(106)는 발언(124)가 완전하지 않음을 표시한다. 비록 컴퓨팅 디바이스(121)가 숙련자 길이 포즈를 검출했었더라도, 발언(124)은 완전하지 않고, 따라서 컴퓨팅 디바이스(121)는 발언(124)의 오디오 데이터를 처리 하는 것을 계속한다. 포즈(142) 동안, 컴퓨팅 디바이스(121)는 숙련자 길이 포즈를 검출하고, 완전한 쿼리 신호(106)는 상기 발언이 완전함을 표시하고, 그러므로, 숙련자 엔드포인트 신호(118)에 의해 표시된 것과 같이 발언(124)의 엔드포인트를 생성한다. 사용자(127)가 숙련자로서 분류된 경우, 발언(124)의 엔드포인트는 발언(139) 이후이며, 발언(124)의 표기(163)는 "Text Mom"이다.

도 2는 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하는 예시적인 시스템(200)의 다이어그램이다. 일부 구현예들에서, 시스템(200)은, 컴퓨팅 디바이스(121)와 같은, 특정 사용자가 음성 입력을 위해 사용하는 컴퓨팅 디바이스 내에 포함될 수 있다. 일부 구현예들에서, 상기 시스템은 음성 입력의 표기들을 처리하는 서버 내에 포함될 수 있다.

시스템(200)은 음성 쿼리들(205)을 포함한다. 음성 쿼리 로그(205)는 사용자들이 시스템(200)에 제공한 이전 음성 쿼리들을 저장한다. 음성 쿼리 로그(205)는 탐색 쿼리(예를 들어, "cat videos")들 및 명령 쿼리(예를 들어, "call mom")들을 포함할 수 있다. 음성 쿼리 로그(205)는 각 저장된 음성 쿼리에 대해, 타임스탬프(timestamp), 단어들 사이의 각 포즈 지속시간을 표시하는 데이터, 및 다른 음성 쿼리들과의 비교에 기초하여 음성 쿼리가 완전한지 또는 불완전한지 여부를 표시하는 데이터를 포함할 수 있다.

쿼리 로그(210)는 사용자 Bob에 의해 제공된 음성 쿼리들을 도시한다. 쿼리 로그(210) 내 음성 쿼리들은 3개의 음성 쿼리들을 포함하고, 각각은 완전한 표시자 "[C]" 또는 불완전한 표시자 "[I]"를 포함한다. 각 음성 쿼리는 Bob이 음성 쿼리를 말한 날짜 및 시간을 표시한 타임스탬프를 포함한다. 각 음성 쿼리는 말해진 단어들 사이에 포즈 인터벌(pause interval)들을 표시하는 데이터를 포함한다. 예를 들면, "cat videos"는 Bob이 "cat"과 "video" 사이에 2백 밀리 초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다. "Call...mom"은 Bob이 "call"과 "mom" 사이에 1초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다.

쿼리 로그(215)는 사용자 Alice에 의해 제공된 음성 쿼리들을 도시한다. 쿼리 로그(215) 내 음성 쿼리들은 5개의 음성 쿼리들을 포함하고 각각은 완전한 표시자 "[C]" 또는 불완전한 표시자 "[I]"를 포함한다. 각 음성 쿼리는 Alice가 음성 쿼리를 말한 날짜 및 시간을 표시한 타임스탬프를 포함한다. 각 음성 쿼리는 말해진 단어들 사이에 포즈 인터벌들을 표시하는 데이터를 포함한다. 예를 들면, "Text Sally that I'll be ten minutes late"는 다른 단어들 사이의 포즈 인터벌들뿐만 아니라, Alice가 "text"와 "Sally"사이에 1밀리 초를 포즈 하였음, "Sally"와 "that"사이에 3백 밀리 초를 포즈 하였음, 그리고 "that"과 "I'll"사이에 1.5 초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다. "Call mom"은 Alice가 "call"과 "mom"사이에 3밀리 초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다.

음성 쿼리 프로세서(220)는 음성 쿼리 로그(205)로부터 수신한 음성 쿼리들을 처리한다. 음성 쿼리 프로세서(220)는 각 사용자에 대해 음성 쿼리 경험 스코어를 생성한다. 상기 음성 쿼리 경험 스코어는 특정 사용자가 음성 쿼리들을 가진 경험의 레벨을 표시한다. 더 높은 음성 쿼리 경험 스코어는 특정 사용자가 음성 쿼리들을 말하는 경험을 더 가지는 것을 표시한다. 예를 들어, Bob에 대한 음성 쿼리 경험 스코어를 생성하기 위해, 음성 쿼리 프로세서(220)는 쿼리 로그(210)를 처리한다.

음성 쿼리 프로세서(220)는 쿼리 완전도 프로세서(225)를 포함한다. 상기 쿼리 완전도 프로세서(225)는, 각 사용자에 대해, 각 음성 쿼리에 대한 완전도 데이터에 액세스(access)하고, 사용자의 음성 쿼리 경험 스코어를 조절한다. 만일 특정 사용자가 완전한 음성 쿼리들을 더 많이 가지고 불완전한 음성 쿼리들을 더 조금 가지면, 쿼리 완전도 프로세서(225)는 음성 쿼리 경험 스코어를 증가시킨다. 만일 특정 사용자가 불완전한 음성 쿼리들을 더 많이 가지고 완전한 음성 쿼리들을 더 조금 가지면, 쿼리 완전도 프로세서(225)는 음성 쿼리 경험 스코어를 감소시킨다. 쿼리 완전도 프로세서(225)는 음성 쿼리 경험 스코어를 증가 또는 감소시킬지 여부를 결정하는데 있어, 불완전한 쿼리들에 대한 완전한 쿼리들의 비율과 완전도 비율 임계치를 비교한다. 예를 들면, Bob은 하나의 불완전한 음성 쿼리와 2개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Bob의 음성 쿼리 경험 스코어를 감소시킬 수 있다. Alice는 불완전한 음성 쿼리들이 없고, 5개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Alice의 음성 쿼리 경험 스코어를 증가시킨다.

음성 쿼리 프로세서(220)는 쿼리 길이 프로세서(230)를 포함한다. 상기 쿼리 길이 프로세서(230)는, 각 사용자에 대해, 각 음성 쿼리의 길이를 계산하고, 사용자의 음성 쿼리 경험 스코어를 조절한다. 만일 특정 사용자가 긴 음성 쿼리들을 더 많이 가지고 짧은 음성 쿼리들을 더 조금 가지면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 증가시킨다. 만일 특정 사용자가 짧은 음성 쿼리들을 더 많이 가지고 긴 음성 쿼리들을 더 조금 가지면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 감소시킨다. 쿼리 길이 프로세서(230)는 음성 쿼리가 길거나 또는 짧은지 여부를 결정하기 위해 임계치를 사용한다. 쿼리 길이 프로세서(230)는 음성 쿼리 경험 스코어를 증가 또는 감소시킬지 여부를 결정하는데 있어, 짧은 쿼리들에 대한 긴 쿼리들의 비율과 길이 비율 임계치를 비교한다. 예를 들면, Bob은 하나의 불완전한 음성 쿼리와 2개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Bob의 음성 쿼리 경험 스코어를 감소시킬 수 있다. Alice는 불완전한 음성 쿼리들이 없고, 5개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Alice의 음성 쿼리 경험 스코어를 증가시킨다.

음성 쿼리 프로세서(220)는 포즈 인터벌 프로세서(235)를 포함한다. 상기 포즈 인터벌 프로세서(235)는, 각 사용자에 대해, 사용자의 음성 쿼리들에 대한 단어들 사이의 평균 포즈 길이를 계산한다. 포즈 인터벌 프로세서(235)는 사용자의 음성 쿼리 경험 스코어를 증가 또는 감소시킬지 여부를 결정하기 위해, 각 사용자에 대한 평균 포즈 길이를 포즈 임계치와 비교한다. 포즈 임계치 이상의 평균 포즈 길이는 음성 쿼리 경험 스코어를 감소시킨다. 포즈 임계치 이하의 평균 포즈 길이는 음성 쿼리 경험 스코어를 증가시킨다. 예를 들면, Bob은 1.2 초의 평균 포즈 길이를 가질 수 있다. Alice는 2백 밀리 초의 평균 포즈 길이를 가질 수 있다. 만일 포즈 임계치가 1초라면, 포즈 인터벌 프로세서(235)는 Alice에 대한 음성 쿼리 경험 스코어를 증가시키고, Bob에 대한 음성 쿼리 경험 스코어를 감소시킨다.

음성 쿼리 프로세서(220)는 쿼리 카운터(240)를 포함한다. 상기 쿼리 카운터(240)는, 각 사용자에 대해, 제출된 음성 쿼리들의 수를 계산하고, 음성 쿼리 경험 스코어를 조절한다. 만일 특정 사용자가 많은 음성 쿼리들을 제공하였다면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 증가시킨다. 만일 특정 사용자가 적은 음성 쿼리들을 제공하였다면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 감소시킨다. 음성 길이 프로세서(230)는 사용자가 많거나 또는 적은 음성 쿼리들을 제출하였는지 여부를 결정하기 위해, 일일 음성 쿼리 임계치를 사용하고, 상기 임계치를 음성 쿼리들의 평균 일일 수와 비교한다. 예를 들면, 일일 음성 쿼리 임계치는 하루에 1개의 쿼리이다. 쿼리 로그(210)에 기초하여, Bob은 하루에 1개의 쿼리보다 적게 제출하였다. 그러므로, 쿼리 카운터(240)는 Bob의 음성 쿼리 경험 스코어를 감소시킨다. Alice는 쿼리 로그(215)에 기초하여 하루에 1개의 쿼리보다 많이 가진다. 그러므로, 쿼리 카운터(240)는 Alice의 음성 쿼리 경험 스코어를 증가시킨다.

음성 쿼리 프로세서(220) 내에 포함된 프로세서들 각각은 임계치와 대응하는 사용자의 값 사이의 차이에 비례하는 양으로 사용자의 음성 쿼리 경험 스코어를 증가 또는 감소시킨다. 예를 들면, Alice는 평균하면 하루에 2.5개의 음성 쿼리들이고, Bob은 평균하면 하루에 0.125개의 쿼리들이다. 하루에 1개의 쿼리인 일일 음성 쿼리 임계치에 있어서, Alice는 임계치 이상 1.5이고, Bob은 임계치 이하 0.875이다. 쿼리 카운터(240)는 1.5가 곱해진 일부 요인에 의해 Alice의 음성 쿼리 경험 스코어를 증가시키고, 0.875가 곱해진 동일한 요인에 의해 Bob의 음성 쿼리 경험 스코어를 감소시킨다.

음성 쿼리 프로세서(220)는 사용자 프로파일러(245)에 각 사용자의 음성 쿼리 경험 스코어를 제공한다. 상기 사용자 프로파일러(245)는 사용자의 음성 쿼리 경험 스코어에 기초하여 음성 쿼리 경험 프로필을 각 사용자에게 할당한다. 사용자 프로파일러(245)는 각 사용자의 음성 쿼리 경험 스코어를 음성 쿼리 경험 프로필에 매치(match)시키기 위해 프로필 임계치들(250)에 액세스한다. 각 음성 쿼리 경험 프로필은 음성 쿼리 경험 스코어의 범위에 대응한다. 예를 들면, 숙련자 프로필은 80에서 100의 범위에 대응할 수 있다. 초보자 프로필은 0에서 20의 범위에 대응할 수 있다. 다른 프로필들은 20의 음성 쿼리 경험 스코어와 80의 음성 쿼리 경험 스코어 사이에 존재할 수 있다. 도 2의 예시에서, Bob은 18의 음성 쿼리 경험 스코어를 가질 것이고, Alive는 88의 음성 쿼리 경험 스코어를 가질 것이다. 그러므로, Bob은 초보자로서 분류되고, Alice는 숙련자로서 분류된다. 그 후 사용자 프로파일러(245)는 프로필 저장(255) 내에 각 사용자에 대한 음성 쿼리 경험 프로필을 저장한다. 프로필들(260)은 프로필 저장(255) 내에 저장된 Alice와 Bob의 프로필들을 도시한다.

각 음성 쿼리 경험 프로필은 서로 다른 포즈 길이 임계치에 대응하고, 상기 임계치는 시스템(200)이 장래의 발언에 대해 엔드포인트를 생성하는 때 후속적으로 사용한다. 도 1에 도시되고 상기 기술된 바와 같이, 숙련자 프로필은 발언을 엔드포인트 하기 위해 사용되는 3백 밀리 초의 포즈 길이 임계치에 대응한다. 초보자 프로필은 1초의 포즈 길이 임계치에 대응한다. 시스템(200)은 6백 밀리 초의 포즈 길이 임계치로, 예컨데 중급자 프로필과 같은, 다른 프로필들을 정의할 수 있다. 일부 구현예들에서, 시스템(200)은 사용자에게 프로필을 할당함이 없이 사용자에게 포즈 길이 임계치를 할당한다. 시스템은 음성 쿼리 경험 스코어를 생성하고, 음성 쿼리 경험 스코어와 반비례하는 포즈 길이 임계치를 계산한다.

도 3은 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하고 특정 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하기 위한 예시적인 프로세스(300)의 다이어그램이다. 상기 프로세스(300)는 도 1의 컴퓨팅 디바이스(121) 또는 도 2의 컴퓨팅 디바이스(200)와 같은 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(300)는 사용자가 장래의 쿼리들을 말하는 것을 끝내는 때를 결정하는데 사용하기 위해, 포즈 임계치를 결정하고자 사용자의 이전 음성 쿼리들을 분석한다.

컴퓨팅 디바이스는 음성 쿼리 로그 데이터에 액세스(310)한다. 컴퓨팅 디바이스는, 특정 사용자에 대해, 포즈 임계치를 결정(320)한다. 컴퓨팅 디바이스는, 특정 사용자로부터, 발언을 수신(330)한다. 컴퓨팅 디바이스는 포즈 임계치에 대해 특정 사용자가 말하기를 멈추었다는 것을 결정(340)한다. 컴퓨팅 디바이스는 음성 쿼리로서 발언을 처리(350)한다.

도 4 는 클라이언트 또는 하나의 서버 혹은 복수의 서버들로서 본 명세서에서 기술되는 구현 시스템들 및 방법들에 사용될 수 있는 컴퓨팅 디바이스들(400)의 블록 다이어그램이다. 상기 컴퓨팅 디바이스(400)는 예컨데, 랩탑들, 데스탑들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인 프레임들 및 다른 적합한 컴퓨터들을 나타내도록 의도된다.

컴퓨팅 디바이스(400)는 프로세서(402), 메모리(404), 저장 디바이스(406), 메모리(404) 및 고속 확장 포트들(410)과 연결되는 고속 인터페이스(408) 및 저속 버스(414) 및 저장 디바이스(406)과 연결되는 저속 인터페이스(412)를 포함한다. 컴포넌트들(402, 404, 406, 408, 410 및 412) 각각은 다양한 버스들을 사용하여 상호연결되고, 공통의 마더보트 상에 또는 적합한 다른 방식들로 장착될 수 있다. 상기 프로세서(402)는 예컨데, 고속 인터페이스(408)에 연결된 디스플레이(416)와 같은, 외부 입력/출력 디바이스 상의 GUI에 대한 그래픽 정보를 디스플레이 하기 위해 메모리(404) 내에 저장되거나 또는 저장 디바이스(406) 상에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(400) 내에서 실행을 위한 명령어들을 처리할 수 있다. 다른 구현예들에서, 다수의 프로세서들 및/또는 다수의 버스들은, 다수의 메모리들 및 메모리의 타입들에 따라, 적합하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(400)은 필요한 동작들의 부분들을 제공하는 각 디바이스와, 예를 들어, 서버 뱅크, 블레이트 서버들의 그룹 또는 멀티-프로세서 시스템으로서 연결될 수 있다.

컴퓨팅 디바이스(400)는, 도면에서 도시된 것처럼, 복수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 표준 서버(420)로서 또는 이러한 서버들의 그룹으로 여러 번 구현될 수 있다. 또한, 컴퓨팅 디바이스(400)는 랙 서버 시스템(424)의 일부로서 구현될 수 있다. 추가적으로, 컴퓨팅 디바이스(400)는 랩탑 컴퓨터(422)와 같은 개인용 컴퓨터로 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(400)의 컴포넌트들은 모바일 디바이스(미도시) 내의 다른 컴포넌트들과 결합될 수 있다. 그와 같은 디바이스들 각각은 하나 이상의 컴퓨텅 디바이스(400)를 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들(400)로 구성될 수 있다.

본 명세서에서 기술되는 시스템들 및 방법들의 다양한 구현들은 디지털 전자 회로, 집적 회로, 특정하게 설계된 ASIC(application specific integrated circuits)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그것들의 조합으로 실현될 수 있다. 이러한 다양한 구현들은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행가능하고 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있고, 상기 적어도 하나의 프로그래밍 가능한 프로세서는 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 그것들에 데이터 및 명령어들을 전송하기 위해 연결된 특수용 또는 범용인 프로세서일 수 있다.

본 명세서에서 기술되는 시스템들 및 기법들은 백 엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나 또는 미들웨어 컴포넌트(예를 들어, 어플리케이션 서버)를 포함하거나 또는 프론트 엔드 컴포넌트(예를 들어, 사용자가 본 명세서에서 기술되는 시스템들 및 기법들의 구현과 인터렉션 할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가지는 클라이언트 컴퓨터) 또는 그와 같은 백 엔드, 미들웨어 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 디지털 데이터 통신의 매체(예를 들어, 통신 네트워크)에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 근거리 통신망("LAN"), 광역 네트워크("WAN") 및 인터넷을 포함한다.

다수의 실시예들이 기술되었다. 그럼에도 불구하고, 다양한 변형들이 본 발명의 사항 및 범위를 벗어남이 없이 이루어질 수 있음이 이해될 것이다. 추가적으로, 본 도면들에서 도시된 논리 흐름들은 원하는 결과들을 얻기 위해, 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 추가적으로, 다른 단계들이 기술된 흐름들로부터 제공될 수 있거나 제거될 수 있으며, 다른 컴포넌트들이 기술된 시스템들에 추가될 수 있거나 기술된 시스템들로부터 제거될 수 있다. 따라서, 다른 실시예들은 후술하는 청구 범위 내에 있다.

청구된 것:

Claims

음성 인식을 위한 컴퓨터로 구현 방법으로서,
특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리(voice query)들을 포함하는 음성 쿼리 로그 데이터에 액세스(access)하는 단계;
상기 음성 쿼리 로그 데이터에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 단계, 상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들에 기초하여 생성되고;
상기 특정 사용자에 의해 말해진 상기 여러 개의 서로 다른 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 단계;
상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여, 상기 특정 사용자에 대한 포즈 임계치(pause threshold)를 결정하는 단계;
상기 특정 사용자에 의해 말해진 발언(utterance)에 대응하는 오디오 데이터를 수신하는 단계;
상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했음을 결정하는 단계;
상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했다는 결정에 기초하여, 상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅(endpointing) 신호를 생성하는 단계; 및
상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅 신호를 생성함에 응답하여, 상기 특정 사용자에 의해 말해진 발언에 대응하는 상기 오디오 데이터에 대해 자동 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
삭제
청구항 1에 있어서,
상기 음성 쿼리 로그 데이터는 각 음성 쿼리와 관련된 타임스탬프 (timestamp), 각 음성 쿼리가 완전한지 여부를 표시하는 데이터, 및 각 음성 쿼리와 관련된 음성 포즈 인터벌들을 포함하고, 그리고
상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 단계는 각 음성 쿼리와 관련된 상기 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 상기 데이터, 및 각 음성 쿼리와 관련된 상기 음성 포즈 인터벌들에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 음성 쿼리 로그 데이터에 기초하여, 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수를 결정하는 단계를 더 포함하고,
상기 포즈 임계치를 결정하는 단계는 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수에 더 기초하며,
상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들의 단어들 간의 평균 포즈 인터벌(average pause interval)에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이를 결정하는 단계를 더 포함하고,
상기 포즈 임계치를 결정하는 단계는 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이에 더 기초하며,
상기 음성 쿼리 경험 스코어는 하루에 특정 사용자에 의해 이전에 말해진 음성 쿼리들의 평균 수에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
삭제
음성 인식을 위한 시스템에 있어서,
하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
상기 동작들은:
특정 사용자에 의해 이전에 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 액세스하는 동작;
상기 음성 쿼리 로그 데이터에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 단계, 상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들에 기초하여 생성되고;
상기 특정 사용자에 의해 말해진 상기 여러 개의 서로 다른 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 동작;
상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여, 상기 특정 사용자에 대한 포즈 임계치를 결정하는 동작;
상기 특정 사용자에 의해 말해진 발언에 대응하는 오디오 데이터를 수신하는 동작;
상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했음을 결정하는 동작;
상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했다는 결정에 기초하여, 상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅 신호를 생성하는 동작; 및
상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅 신호를 생성함에 응답하여, 상기 특정 사용자에 의해 말해진 발언에 대응하는 상기 오디오 데이터에 대해 자동 음성 인식을 수행하는 동작을 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
삭제
청구항 7에 있어서,
상기 음성 쿼리 로그 데이터는 각 음성 쿼리와 관련된 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 데이터, 및 각 음성 쿼리와 관련된 음성 포즈 인터벌들을 포함하고, 그리고
상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 동작은 각 음성 쿼리와 관련된 상기 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 상기 데이터, 및 각 음성 쿼리와 관련된 상기 음성 포즈 인터벌들에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
청구항 7에 있어서,
상기 음성 쿼리 로그 데이터에 기초하여, 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수를 결정하는 동작을 더 포함하고,
상기 포즈 임계치를 결정하는 동작은 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수에 더 기초하며,
상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들의 단어들 간의 평균 포즈 인터벌(average pause interval)에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 시스템.
청구항 7에 있어서,
상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이를 결정하는 동작을 더 포함하고,
상기 포즈 임계치를 결정하는 동작은 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이에 더 기초하며,
상기 음성 쿼리 경험 스코어는 하루에 특정 사용자에 의해 이전에 말해진 음성 쿼리들의 평균 수에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 시스템.
삭제
음성 인식을 위한 컴퓨터로 구현되는 방법에 있어서,
특정 사용자에 의해 이전에 말해진 음성 쿼리들의 집합(collection)에 액세스하는 단계와;
상기 음성 쿼리들의 집합에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 단계와;
상기 특정 사용자에 의해 말해진 상기 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 단계와;
상기 특정 사용자의 분류에 기초하여, 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈 지속시간(duration of pause)에 기초하여 지속시간 값(duration value)을 결정하는 단계와;
상기 특정 사용자가 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값 보다 길게 포즈하고, 그 후 하나 이상의 다른 단어들을 말하는 발언에 대응하는 오디오 데이터를 수신하는 단계와;
상기 오디오 데이터의 세그먼트를 생성하는 단계와, 상기 세그먼트는 상기 특정 사용자가 상기 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값보다 길게 포즈를 하고, 그 후 하나 이상의 다른 단어를 말하는 상기 오디오 데이터의 부분에 대응하며;
상기 오디오 데이터의 세그먼트를 처리함에 기초하여 상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기(transcription)를 획득하는 단계와; 그리고
상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기를 포함하는 음성 쿼리를 제출하는 단계를 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
삭제
청구항 13에 있어서,
상기 음성 쿼리들의 집합 내 음성 쿼리들에 기초하여, 음성 쿼리 길이(voice query length)를 결정하는 단계; 그리고
상기 음성 쿼리 길이에 기초하여, 상기 지속시간 값을 변경하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 15에 있어서,
상기 음성 쿼리 길이는 상기 음성 쿼리들의 집합 내 음성 쿼리들의 평균 지속시간인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 15에 있어서,
상기 음성 쿼리 길이는 상기 음성 쿼리들의 집합 내 음성 쿼리들에서 단어들의 평균 수인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 13에 있어서,
하루에 말해진 상기 음성 쿼리들의 집합 내 음성 쿼리들의 양들(quantities)에 기초하여, 음성 쿼리들의 양을 결정하는 단계; 그리고
상기 음성 쿼리들의 양에 기초하여, 상기 지속시간 값을 변경하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 18에 있어서,
상기 음성 쿼리들의 양은 상기 하루에 말해진 상기 음성 쿼리들의 집합 내 음성 쿼리들의 평균 수인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
청구항 13에 있어서,
상기 음성 쿼리들의 집합 내 음성 쿼리들을 완전 또는 불완전으로서 분류하는 단계; 그리고
상기 분류들에 기초하여, 상기 지속시간 값을 변경하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
삭제
삭제
청구항 13에 있어서,
상기 지속시간 값은 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈들의 평균 지속시간인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
음성 인식을 위한 시스템에 있어서,
하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
상기 동작들은:
특정 사용자에 의해 이전에 말해진 음성 쿼리들의 집합에 액세스하는 동작과;
상기 음성 쿼리들의 집합에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 동작과;
상기 특정 사용자에 의해 말해진 상기 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 동작과;
상기 특정 사용자의 분류에 기초하여, 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈 지속시간에 기초하여 지속시간 값을 결정하는 동작과;
상기 특정 사용자가 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값 보다 길게 포즈하고, 그 후 하나 이상의 다른 단어들을 말하는 발언에 대응하는 오디오 데이터를 수신하는 동작과;
상기 오디오 데이터의 세그먼트를 생성하는 동작과, 상기 세그먼트는 상기 특정 사용자가 상기 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값보다 길게 포즈를 하고, 그 후 하나 이상의 다른 단어를 말하는 상기 오디오 데이터의 부분에 대응하며;
상기 오디오 데이터의 세그먼트를 처리함에 기초하여 상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기(transcription)를 획득하는 동작과; 그리고
상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기를 포함하는 음성 쿼리를 제출하는 동작을 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
삭제
청구항 24에 있어서,
상기 음성 쿼리들의 집합 내 음성 쿼리들에 기초하여, 음성 쿼리 길이를 결정하는 동작; 그리고
상기 음성 쿼리 길이에 기초하여, 상기 지속시간 값을 변경하는 동작을 더 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
청구항 24에 있어서,
하루에 말해진 상기 음성 쿼리들의 집합 내 음성 쿼리들의 양들에 기초하여, 음성 쿼리들의 양을 결정하는 동작; 그리고
상기 음성 쿼리들의 양에 기초하여, 상기 지속시간 값을 변경하는 동작을 더 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
청구항 24에 있어서,
상기 음성 쿼리들의 집합 내 음성 쿼리들을 완전 또는 불완전으로서 분류하는 동작; 그리고
상기 분류들에 기초하여, 상기 지속시간 값을 변경하는 동작을 더 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
삭제
삭제
청구항 24에 있어서,
상기 지속시간 값은 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈들의 평균 지속시간인 것을 특징으로 하는 음성 인식을 위한 시스템.
하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램으로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 청구항 13, 15 내지 20 및 23항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램.
하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램으로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 청구항 1, 3, 4, 및 5항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램.