KR101942521B1 - 음성 엔드포인팅 - Google Patents

음성 엔드포인팅 Download PDF

Info

Publication number
KR101942521B1
KR101942521B1 KR1020160117524A KR20160117524A KR101942521B1 KR 101942521 B1 KR101942521 B1 KR 101942521B1 KR 1020160117524 A KR1020160117524 A KR 1020160117524A KR 20160117524 A KR20160117524 A KR 20160117524A KR 101942521 B1 KR101942521 B1 KR 101942521B1
Authority
KR
South Korea
Prior art keywords
voice
particular user
queries
user
query
Prior art date
Application number
KR1020160117524A
Other languages
English (en)
Other versions
KR20170045709A (ko
Inventor
시디 타드파트리카
마이클 뷰캐넌
프라비르 쿠마르 굽타
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/923,637 external-priority patent/US20170110118A1/en
Priority claimed from US15/196,663 external-priority patent/US10269341B2/en
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20170045709A publication Critical patent/KR20170045709A/ko
Application granted granted Critical
Publication of KR101942521B1 publication Critical patent/KR101942521B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성 엔드포인팅에 대한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들이 기술된다. 일 양태에서, 방법은 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 액세스하는 동작을 포함한다. 상기 동작들은 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 것을 더 포함한다. 상기 동작들은 상기 특정 사용자로부터, 발언을 수신하는 것을 더 포함한다. 상기 동작들은 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것을 더 포함한다. 상기 동작들은 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것에 기초하여, 음성 쿼리로서 상기 발언을 처리하는 것을 포함한다.

Description

음성 엔드포인팅{SPEECH ENDPOINTING}
[관련 출원에 대한 상호 참조]
본 출원은 2015년 10월 19일자로 출원된 미국 가출원 제62/243,463호의 우선권을 주장한다. 상기 출원의 내용들은 참조로서 포함된다.
[기술 분야]
본 발명은 일반적으로 음성 인식(speech recognition)과 관련되고, 하나의 특정 구현예가 음성을 엔드포인팅(endpointing)하는 것과 관련된다.
자연 언어 처리 시스템(natural language processing system)들은 사용자가 말하는 것을 시작하고 끝내는 때를 결정하기 위해 일반적으로 엔드포인터들을 사용한다. 일부 전통적인 엔드포인터들은 발언(untterance)이 시작하거나 종료할 때를 결정하는데 있어서, 단어들 사이의 포즈 지속시간(duration of pause)을 평가한다. 예를 들면, 만일 사용자가 "what is<긴 포즈>for dinner"라고 말하면, 전통적인 엔드포인터는 긴 포즈에서 음성 입력을 분할하고, 자연 언어 처리 시스템에게 완전한 구 "what is for dinner" 대신 불완전한 구 "what is" 를 처리하는 것을 시도하도록 지시할 것이다. 만일 엔드포인터가 음성 입력에 대한 잘못된 시작점 또는 종료점을 지정하는 경우, 자연 언어 처리 시스템을 이용하여 음성 입력을 처리한 결과는 부정확하거나 바람직하지 않을 수 있다.
서로 다른 사용자들은 그들의 모바일 디바이스 상에서 음성 음성 입력을 사용하며, 서로 다른 컴포트 레벨(comfort level)을 가질 수 있다. 일부 사용자들은 빈번하게 음성 입력 구성들을 사용할 수 있고, 말하는 동안 주저함 없이 음성 쿼리들을 형성할 수 있다. 다른 사용자들은 음성 입력 구성들을 자주 사용하지 않을 수 있거나, 주저함 없이 쿼리들을 빠르게 만들지 않을 수 있다. 더 많은 경험을 가진 사용자일수록, 사용자의 음성 내 짧은 포즈를 측정한 후 사용자의 음성 쿼리들을 처리하는 것을 시작하는 시스템으로부터 이점을 얻을 수 있다. 더 적은 경험을 가진 사용자일수록, 더 적은 경험을 가진 사용자가 말하는 것을 끝냈음을 보장하기 위해 사용자의 음성 내 더 긴 포즈를 측정한 후 사용자의 음성 쿼리들을 처리하는 것을 시작하는 시스템으로부터 이점을 얻을 수 있다.
특정 사용자의 음성 쿼리들에 적용할 포즈 길이를 결정하기 위해, 시스템은 특정 사용자의 이전 음성 쿼리들을 분석한다. 특정 사용자에 대해, 시스템은 음성 쿼리 빈도, 이전 음성 쿼리들의 단어들 사이의 포즈 길이, 이전 음성 쿼리들의 완전도 및 이전 음성 쿼리들의 길이를 본다. 음성 쿼리들을 빈번하게 말하지 않는 사용자와 비교하여, 사용자의 음성 쿼리들에 적용되기 위해 더 빈번하게 음성 쿼리들을 말하는 사용자는 더 짧은 포즈 길이로부터 이점을 얻을 수 있다. 이전 음성 쿼리들의 단어들 사이에 짧은 평균 포즈 길이를 가진 사용자는, 단어들 사이에 더 긴 평균 포즈 길이를 가진 사용자보다 더 짧은 포즈 길이로부터 이점을 얻을 수 있다. 완전한 음성 쿼리들을 말하는 사용자는, 덜 빈번하게 완전한 쿼리들을 말하는 사용자보다, 덜 빈번하게 완전한 쿼리들을 말하는 사용자보다 더 짧은 포즈 길이로부터 더 자주 이점을 얻을 수 있다. 더 긴 음성 쿼리들을 말하는 사용자는, 더 짧은 음성 쿼리들을 말하는 사용자보다 더 짧은 포즈 길이로부터 이점을 얻을 수 있다. 일단 시스템이 특정 사용자의 음성 쿼리들에 적용하기 위해 적합한 포즈 길이를 계산하면, 시스템은 특정 사용자의 포즈 길이를 사용하여 특정 사용자의 장래 발언들 동안 엔드포인트를 생성한다.
일반적으로, 본 명세서에 기술된 본 발명의 다른 혁신적인 양태는 특성 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 액세스하는 것; 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 것; 상기 특정 사용자로부터, 발언을 수신하는 것; 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것; 그리고 적어도 상기 포즈 임계치와 동일한 시간의 기간에 대해 상기 특정 사용자가 말하기를 멈추었다는 것을 결정하는 것에 기초하여, 음성 쿼리로서 상기 발언을 처리하는 것의 동작들을 포함하는 방법들에서 구현될 수 있다.
이들 및 다른 실시예들은 각각 임의로 후술하는 구성들 중 하나 이상을 포함할 수 있다. 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 동작은 상기 특정 사용자를 음성 인식 시스템의 숙련 사용자(expert user) 또는 상기 음성 인식 시스템의 초보 사용자(novice user)로서 분류하는 것; 그리고 상기 특정 사용자를 음성 인식 시스템의 숙련 사용자 또는 상기 음성 인식 시스템의 초보 사용자로서 분류하는 것에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함한다. 상기 음성 쿼리 로그 데이터는 각 음성 쿼리와 관련된 타임스탬프(timestamp), 각 음성 쿼리가 완전한지 여부를 표시하는 데이터, 및 각 음성 쿼리와 관련된 음성 포즈 인터벌들을 포함한다. 상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 동작은 각 음성 쿼리와 관련된 상기 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 상기 데이터, 및 각 음성 쿼리와 관련된 상기 음성 포즈 인터벌들에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함한다.
상기 동작들은 상기 음성 쿼리 로그 데이터에 기초하여, 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수를 결정하는 것을 더 포함한다. 상기 포즈 임계치를 결정하는 동작은 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수에 더 기초한다. 상기 동작들은 상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이를 결정하는 것을 더 포함한다. 상기 포즈 임계치를 결정하는 동작은 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이에 더 기초한다. 상기 동작들은 상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들에 대한 평균 포즈 인터벌을 결정하는 것을 더 포함한다. 상기 포즈 임계치를 결정하는 동작은 상기 특정 사용자에 의해 말해진 음성 쿼리들에 대한 평균 포즈 인터벌에 더 기초한다.
본 양태의 다른 실시예들은 방법들의 동작들을 수행하도록 각각 구성되는 대응하는 시스템들, 장치들 및 컴퓨터 저장 디바이스들 상에 기록된 컴퓨터 프로그램들을 포함한다.
본 명세서에 기술된 본 발명의 특정 실시예들은 후술하는 이점들 중 하나 이상을 실현하기 위해 구현될 수 있다. 사용자는 컴퓨팅 디바이스의 음성 입력 기능을 사용할 수 있고, 상기 사용자에게 편안한 페이스로 말할 수 있다. 더 정확하거나 바람직한 자연 언어 처리 출력들 및 자연 언어 처리 시스템에 의한 더 빠른 처리로 이어지면서, 발언은 상기 발언의 의도된 종료지점에서 엔드포인트 될 수 있다.
본 명세서에서 기술된 본 발명의 하나 이상의 실시예들의 세부사항은 첨부 도면들 및 아래의 서술로 설명된다. 다른 구성들, 양태들 및 본 발명의 이점들은 서술, 도면들 및 청구범위들로부터 명확해질 것이다.
도 1은 특정 사용자에 대해, 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하는 데 사용되는 예시적인 발언들 및 신호들의 다이어그램이다.
도 2는 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하는 예시적인 시스템의 다이어그램이다.
도 3은 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하고 특정 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하기 위한 예시적인 프로세스의 다이어그램이다.
도 4는 본 명세서에서 기술된 프로세스들 또는 그들의 부분들 상에서 구현될 수 있는 컴퓨팅 디바이스들의 블록 다이어그램이다.
여러 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 나타낸다.
도 1은 특정 사용자에 대해, 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하는 데 사용되는 예시적인 발언들 및 신호들의 다이어그램(100)이다. 일반적으로, 다이어그램(100)은 컴퓨팅 디바이스(121)가 들어오는 오디오 입력을 처리 할 때, 상기 컴퓨팅 디바이스(121)에 의해 생성되거나 검출되는 신호들(103 내지 118)을 도시한다. 컴퓨팅 디바이스(121)는 마이크로폰 또는 컴퓨팅 디바이스(121)의 다른 오디오 입력 디바이스를 통해 발언(124)에 대응하는 오디오 데이터를 수신하고, 사용자(127)에게 할당된 사용자 프로필에 따라 발언(124)의 표기(transcription)를 생성한다.
발언 타이밍(130)은 발언(124)(도 1에서, "Text Mom love you")을 말하는 사용자(127)의 다양한 단어들의 타이밍을 나타낸다. 사용자(127)는 각 단어들 사이의 증가하는 포즈 길이와 함께 각 단어를 말한다. 각 단어 사이에 점들의 수는 각 단어 사이의 포즈 길이에 비례한다. 각 점은 예컨데 백 밀리 초와 같은, 특정 시간의 기간을 나타낼 수 있다. 제1 단어(133) "Text"는 3백 밀리 초에 대응할 수 있는 3개의 점들인 포즈(136)에 의해 이어진다. 제2 단어(139) "Mom"은 8백 밀리 초에 대응할 수 있는 8개의 점들인 포즈(142)에 의해 이어진다. 제3 단어(145) "love"는 1.2초에 대응할 수 있는 12개의 점들인 포즈(148)에 의해 이어진다. 제4 단어(151) "you"는 포즈(154)에 의해 이어진다. 도 1에서 포즈(154)는 2초에 대응할 수 있는 20개의 점들이다. 단어(151)가 발언(124)의 끝에 있기 때문에, 단어(151) 이후 포즈는 사용자(127)가 말하는 것을 멈추었기 때문에 포즈(154)보다 훨씬 길 것이다. 하기 기술된 이러한 포즈들 및 다른 포즈들은 두 단어들 사이에 자연적인 침묵 기간(natural period of silence)을 나타내며, 사용자가 실제로 말하기를 멈추었다는 것을 나타내지 않는다.
일부 구현예들에서, 컴퓨팅 디바이스(121)는, 사용자(127)의 임의의 특성들을 고려함이 없이, 일반적인 엔드포인트 신호(103) 및 완전한 쿼리 신호(106)를 생성한다. 완전한 쿼리 신호(106)는 컴퓨팅 디바이스(121)에 의해 수행된 추정치를 나타내고, 발언의 생성된 표기(130)는 완전한 발언을 나타낸다. 컴퓨팅 디바이스(121)는 상기 생성된 표기와 사용자(127) 및 다른 사용자들이 이전에 말한 하나 이상의 완전한 발언들을 비교한다. 컴퓨팅 디바이스(121)는 컴퓨팅 디바이스(121)의 음성 인식기가 새로운 단어를 식별한 후, 생성된 표기와 완전한 발언들을 비교할 수 있다. 예를 들면, 사용자(127)가 단어(133)를 말한 후, 컴퓨팅 디바이스(121)의 음성 인식기는 표기 "text"를 생성한다. 컴퓨팅 디바이스(121)는 "text"와 다른 완전한 발언들을 비교하고, "text"가 완전한 발언이 아님을 결정한다. 사용자(127)가 단어(139)를 말한 후, 음성 인식기는 컴퓨팅 디바이스(121)가 완전한 것으로 식별하는 표기 "text mom"을 생성한다. 단어(151) 이후 유사한 결정이 이루어진다. 사용자(127)가 단어(145)를 말한 후, 음성 인식기는 컴퓨팅 디바이스(121)가 불완전한 것으로 식별하는 표기 "text mom love"를 생성한다.
일반적인 엔드포인트 신호(103)는 컴퓨팅 디바이스(121)에 의해 수행된 추정치를 나타내고, 사용자(127)는 말하기를 끝낸다. 컴퓨팅 디바이스(121)는 음성 오디오 사이의 포즈들의 길이에 기초하여 일반적인 엔드포인트 신호(103)를 생성한다. 컴퓨팅 디바이스(121)는 발언(124)의 표기를 생성함이 없이 일반적인 엔드포인트 신호(103)를 생성한다. 예를 들면, 컴퓨팅 디바이스(121)는 단어(133)에 대응하는 오디오 데이터를 수신한다. 포즈(136) 동안, 컴퓨팅 디바이스(121)는 포즈(136) 동안 경과한 시간을 측정한다. 상기 포즈(136)는 단지 3백 밀리 초 동안 지속될 수 있다. 만일 일반적인 엔드포인트 임계치(endpoint threshold)가 3백 밀리 초 보다 길다면, 예컨데 6백 밀리 초와 같이, 컴퓨팅 디바이스(121)는 일반적인 엔드포인터를 트리거(trigger)하지 않을 것이다. 컴퓨팅 디바이스(121)가 단어(139)에 대응하는 오디오 데이터를 수신한 후, 컴퓨팅 디바이스(121)들은 포즈(142)의 시간을 측정한다. 포즈(142)의 6백 밀리 초가 경과한 후, 컴퓨팅 디바이스(121)는 일반적인 엔드포인터를 트리거하고, 상기 일반적인 엔드포인트 신호(103)는 엔드포인트가 도달되었음을 표시한다. 발언(124)의 엔드포인트를 표시하는 일반적인 엔드포인트 신호(103) 및 발언(124)이 완전함을 표시하는 완전한 쿼리 신호(106)와 함께, 컴퓨팅 디바이스는 발언(124)에 대해 표기(157) "text mom"을 생성한다.
일부 구현예들에서, 컴퓨팅 디바이스(121)는 발언(124)의 엔드포인트를 식별할 때, 사용자(127)의 특성들을 고려한다. 한편으로, 초보 사용자는 컴퓨팅 디바이스(121)에 말하기 가장 좋은 용어들이 무엇인지 익숙하지 않을 수 있기 때문에, 아마도 상기 초보 사용자는 단어들 사이에 더 긴 포즈들을 가지고 말할 수 있다. 다른 한편으로, 숙련 사용자는 컴퓨팅 디바이스(121)의 음성 입력 기술에 대해 좀 더 편안하고 익숙할 수 있기 때문에, 상기 숙련 사용자는 단어들 사이에 더 짧은 포즈들을 가지고 말할 수 있다. 따라서, 컴퓨팅 디바이스(121)가 사용자를 어떻게 분류하는가에 따라, 컴퓨팅 디바이스(121)는 컴퓨팅 디바이스(121)가 포즈를 식별하기 전, 시간의 양을 길게 하거나 짧게 할 수 있다.
초보자 포즈 검출기 신호(109)는 발언(124)에 대응하는 오디오 데이터 내 포즈를 검출하는 컴퓨팅 디바이스(121)를 도시하고, 상기 검출된 포즈 길이는 일반적인 엔드포인터에 대응하는 포즈 길이보다 길다. 예를 들면, 컴퓨팅 디바이스(121)는 사용자(127)가 초보 사용자로서 분류된 경우, 1초의 길이를 가진 포즈들을 검출할 수 있다. 이 포즈 임계치(pause threshold)를 발언(124)에 적용하면, 포즈들(136 및 142)은 각각 3백 밀리 초 및 8백 밀리 초이기 때문에, 컴퓨팅 디바이스(121)는 포즈들(136 및 142) 동안 초보자 길이 포즈들을 검출하지 않을 것이다. 컴퓨팅 디바이스(121)는 포즈들(148 및 154) 동안 초보자 길이 포즈들을 검출한다. 초보자 포즈 검출기 신호(109)에서 도시된 바와 같이, 컴퓨팅 디바이스(121)는 사용자(127)가 단어(145)를 말하고 난 후, 포즈(148) 동안 1초의 포즈를 검출한다. 또한 컴퓨팅 디바이스(121)는 사용자가 단어(151)을 말하고 난 후, 포즈(154) 동안 1초의 포즈를 검출한다.
컴퓨팅 디바이스(121)는 컴퓨팅 디바이스가 사용자를 초보자로서 분류한 경우, 초보자 포즈 검출기 신호(109) 및 완전한 쿼리 신호(106)에 기초하여, 발언(124)에 대한 음성 엔드포인트를 결정한다. 컴퓨팅 디바이스(121)가 포즈를 검출한 경우, 예컨데 포즈(148) 동안 초보자 포즈 검출기 신호(109)의 포즈와 같이, 컴퓨팅 디바이스(121)는 발언(124)이 완전한지 여부를 결정한다. 포즈(148) 동안, 완전한 쿼리 신호(106)는 발언(124)가 완전하지 않음을 표시한다. 비록 컴퓨팅 디바이스(121)가 초보자 길이 포즈를 검출했었더라도, 발언(124)은 완전하지 않고, 따라서 컴퓨팅 디바이스(121)는 발언(124)의 오디오 데이터를 처리하는 것을 계속한다. 포즈(154) 동안, 컴퓨팅 디바이스(121)는 초보자 길이 포즈를 검출하고, 완전한 쿼리 신호(106)는 상기 발언이 완전함을 표시하고, 그러므로, 초보자 엔드포인트 신호(112)에 의해 표시된 것과 같이 발언(124)의 엔드포인트를 생성한다. 사용자(127)가 초보자로서 분류된 경우, 발언(124)의 엔드포인트는 발언(151) 이후이며, 발언(124)의 표기(160)는 "Text Mom love you"이다.
숙련자 포즈 검출기 신호(115)는 발언(124)에 대응하는 오디오 데이터 내 포즈를 검출하는 컴퓨팅 디바이스(121)를 도시하며, 상기 검출된 포즈 길이는 일반적인 엔드포인터에 대응하는 포즈 길이 보다 짧다. 예를 들면, 컴퓨팅 디바이스(121)는 사용자(127)가 숙련 사용자로서 분류된 경우, 3백 밀리 초의 길이를 가진 포즈들을 검출할 수 있다. 이 포즈 임계치를 발언(124)에 적용하면, 컴퓨팅 디바이스(121)는 포즈들(136, 142, 148 및 165) 동안 숙련자 길이 포즈들을 검출한다. 3백 밀리 초보자다 짧은 포즈들이 없기 때문에, 발언(124) 내 모든 포즈들은 숙련자 길이 포즈 검출을 포함한다.
컴퓨팅 디바이스(121)는 컴퓨팅 디바이스가 사용자를 숙련자로서 분류한 경우, 발언(124)에 대한 음성 엔드포인트를 결정하기 위해 숙련자 포즈 검출기 신호(115) 및 완전한 쿼리 신호(106)를 결합한다. 컴퓨팅 디바이스(121)가 포즈를 검출한 경우, 예컨데 포즈(136) 동안 숙련자 포즈 검출기 신호(115)의 포즈와 같이, 컴퓨팅 디바이스(121)는 발언(124)이 완전한지 여부를 결정한다. 포즈(136) 동안, 완전한 쿼리 신호(106)는 발언(124)가 완전하지 않음을 표시한다. 비록 컴퓨팅 디바이스(121)가 숙련자 길이 포즈를 검출했었더라도, 발언(124)은 완전하지 않고, 따라서 컴퓨팅 디바이스(121)는 발언(124)의 오디오 데이터를 처리 하는 것을 계속한다. 포즈(142) 동안, 컴퓨팅 디바이스(121)는 숙련자 길이 포즈를 검출하고, 완전한 쿼리 신호(106)는 상기 발언이 완전함을 표시하고, 그러므로, 숙련자 엔드포인트 신호(118)에 의해 표시된 것과 같이 발언(124)의 엔드포인트를 생성한다. 사용자(127)가 숙련자로서 분류된 경우, 발언(124)의 엔드포인트는 발언(139) 이후이며, 발언(124)의 표기(163)는 "Text Mom"이다.
도 2는 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하는 예시적인 시스템(200)의 다이어그램이다. 일부 구현예들에서, 시스템(200)은, 컴퓨팅 디바이스(121)와 같은, 특정 사용자가 음성 입력을 위해 사용하는 컴퓨팅 디바이스 내에 포함될 수 있다. 일부 구현예들에서, 상기 시스템은 음성 입력의 표기들을 처리하는 서버 내에 포함될 수 있다.
시스템(200)은 음성 쿼리들(205)을 포함한다. 음성 쿼리 로그(205)는 사용자들이 시스템(200)에 제공한 이전 음성 쿼리들을 저장한다. 음성 쿼리 로그(205)는 탐색 쿼리(예를 들어, "cat videos")들 및 명령 쿼리(예를 들어, "call mom")들을 포함할 수 있다. 음성 쿼리 로그(205)는 각 저장된 음성 쿼리에 대해, 타임스탬프(timestamp), 단어들 사이의 각 포즈 지속시간을 표시하는 데이터, 및 다른 음성 쿼리들과의 비교에 기초하여 음성 쿼리가 완전한지 또는 불완전한지 여부를 표시하는 데이터를 포함할 수 있다.
쿼리 로그(210)는 사용자 Bob에 의해 제공된 음성 쿼리들을 도시한다. 쿼리 로그(210) 내 음성 쿼리들은 3개의 음성 쿼리들을 포함하고, 각각은 완전한 표시자 "[C]" 또는 불완전한 표시자 "[I]"를 포함한다. 각 음성 쿼리는 Bob이 음성 쿼리를 말한 날짜 및 시간을 표시한 타임스탬프를 포함한다. 각 음성 쿼리는 말해진 단어들 사이에 포즈 인터벌(pause interval)들을 표시하는 데이터를 포함한다. 예를 들면, "cat videos"는 Bob이 "cat"과 "video" 사이에 2백 밀리 초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다. "Call...mom"은 Bob이 "call"과 "mom" 사이에 1초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다.
쿼리 로그(215)는 사용자 Alice에 의해 제공된 음성 쿼리들을 도시한다. 쿼리 로그(215) 내 음성 쿼리들은 5개의 음성 쿼리들을 포함하고 각각은 완전한 표시자 "[C]" 또는 불완전한 표시자 "[I]"를 포함한다. 각 음성 쿼리는 Alice가 음성 쿼리를 말한 날짜 및 시간을 표시한 타임스탬프를 포함한다. 각 음성 쿼리는 말해진 단어들 사이에 포즈 인터벌들을 표시하는 데이터를 포함한다. 예를 들면, "Text Sally that I'll be ten minutes late"는 다른 단어들 사이의 포즈 인터벌들뿐만 아니라, Alice가 "text"와 "Sally"사이에 1밀리 초를 포즈 하였음, "Sally"와 "that"사이에 3백 밀리 초를 포즈 하였음, 그리고 "that"과 "I'll"사이에 1.5 초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다. "Call mom"은 Alice가 "call"과 "mom"사이에 3밀리 초를 포즈 하였음을 표시하기 위한 데이터를 포함할 수 있다.
음성 쿼리 프로세서(220)는 음성 쿼리 로그(205)로부터 수신한 음성 쿼리들을 처리한다. 음성 쿼리 프로세서(220)는 각 사용자에 대해 음성 쿼리 경험 스코어를 생성한다. 상기 음성 쿼리 경험 스코어는 특정 사용자가 음성 쿼리들을 가진 경험의 레벨을 표시한다. 더 높은 음성 쿼리 경험 스코어는 특정 사용자가 음성 쿼리들을 말하는 경험을 더 가지는 것을 표시한다. 예를 들어, Bob에 대한 음성 쿼리 경험 스코어를 생성하기 위해, 음성 쿼리 프로세서(220)는 쿼리 로그(210)를 처리한다.
음성 쿼리 프로세서(220)는 쿼리 완전도 프로세서(225)를 포함한다. 상기 쿼리 완전도 프로세서(225)는, 각 사용자에 대해, 각 음성 쿼리에 대한 완전도 데이터에 액세스(access)하고, 사용자의 음성 쿼리 경험 스코어를 조절한다. 만일 특정 사용자가 완전한 음성 쿼리들을 더 많이 가지고 불완전한 음성 쿼리들을 더 조금 가지면, 쿼리 완전도 프로세서(225)는 음성 쿼리 경험 스코어를 증가시킨다. 만일 특정 사용자가 불완전한 음성 쿼리들을 더 많이 가지고 완전한 음성 쿼리들을 더 조금 가지면, 쿼리 완전도 프로세서(225)는 음성 쿼리 경험 스코어를 감소시킨다. 쿼리 완전도 프로세서(225)는 음성 쿼리 경험 스코어를 증가 또는 감소시킬지 여부를 결정하는데 있어, 불완전한 쿼리들에 대한 완전한 쿼리들의 비율과 완전도 비율 임계치를 비교한다. 예를 들면, Bob은 하나의 불완전한 음성 쿼리와 2개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Bob의 음성 쿼리 경험 스코어를 감소시킬 수 있다. Alice는 불완전한 음성 쿼리들이 없고, 5개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Alice의 음성 쿼리 경험 스코어를 증가시킨다.
음성 쿼리 프로세서(220)는 쿼리 길이 프로세서(230)를 포함한다. 상기 쿼리 길이 프로세서(230)는, 각 사용자에 대해, 각 음성 쿼리의 길이를 계산하고, 사용자의 음성 쿼리 경험 스코어를 조절한다. 만일 특정 사용자가 긴 음성 쿼리들을 더 많이 가지고 짧은 음성 쿼리들을 더 조금 가지면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 증가시킨다. 만일 특정 사용자가 짧은 음성 쿼리들을 더 많이 가지고 긴 음성 쿼리들을 더 조금 가지면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 감소시킨다. 쿼리 길이 프로세서(230)는 음성 쿼리가 길거나 또는 짧은지 여부를 결정하기 위해 임계치를 사용한다. 쿼리 길이 프로세서(230)는 음성 쿼리 경험 스코어를 증가 또는 감소시킬지 여부를 결정하는데 있어, 짧은 쿼리들에 대한 긴 쿼리들의 비율과 길이 비율 임계치를 비교한다. 예를 들면, Bob은 하나의 불완전한 음성 쿼리와 2개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Bob의 음성 쿼리 경험 스코어를 감소시킬 수 있다. Alice는 불완전한 음성 쿼리들이 없고, 5개의 완전한 쿼리들을 가진다. 본 정보에 기초하여, 쿼리 완전도 프로세서(225)는 Alice의 음성 쿼리 경험 스코어를 증가시킨다.
음성 쿼리 프로세서(220)는 포즈 인터벌 프로세서(235)를 포함한다. 상기 포즈 인터벌 프로세서(235)는, 각 사용자에 대해, 사용자의 음성 쿼리들에 대한 단어들 사이의 평균 포즈 길이를 계산한다. 포즈 인터벌 프로세서(235)는 사용자의 음성 쿼리 경험 스코어를 증가 또는 감소시킬지 여부를 결정하기 위해, 각 사용자에 대한 평균 포즈 길이를 포즈 임계치와 비교한다. 포즈 임계치 이상의 평균 포즈 길이는 음성 쿼리 경험 스코어를 감소시킨다. 포즈 임계치 이하의 평균 포즈 길이는 음성 쿼리 경험 스코어를 증가시킨다. 예를 들면, Bob은 1.2 초의 평균 포즈 길이를 가질 수 있다. Alice는 2백 밀리 초의 평균 포즈 길이를 가질 수 있다. 만일 포즈 임계치가 1초라면, 포즈 인터벌 프로세서(235)는 Alice에 대한 음성 쿼리 경험 스코어를 증가시키고, Bob에 대한 음성 쿼리 경험 스코어를 감소시킨다.
음성 쿼리 프로세서(220)는 쿼리 카운터(240)를 포함한다. 상기 쿼리 카운터(240)는, 각 사용자에 대해, 제출된 음성 쿼리들의 수를 계산하고, 음성 쿼리 경험 스코어를 조절한다. 만일 특정 사용자가 많은 음성 쿼리들을 제공하였다면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 증가시킨다. 만일 특정 사용자가 적은 음성 쿼리들을 제공하였다면, 음성 쿼리 프로세서(220)는 음성 쿼리 경험 스코어를 감소시킨다. 음성 길이 프로세서(230)는 사용자가 많거나 또는 적은 음성 쿼리들을 제출하였는지 여부를 결정하기 위해, 일일 음성 쿼리 임계치를 사용하고, 상기 임계치를 음성 쿼리들의 평균 일일 수와 비교한다. 예를 들면, 일일 음성 쿼리 임계치는 하루에 1개의 쿼리이다. 쿼리 로그(210)에 기초하여, Bob은 하루에 1개의 쿼리보다 적게 제출하였다. 그러므로, 쿼리 카운터(240)는 Bob의 음성 쿼리 경험 스코어를 감소시킨다. Alice는 쿼리 로그(215)에 기초하여 하루에 1개의 쿼리보다 많이 가진다. 그러므로, 쿼리 카운터(240)는 Alice의 음성 쿼리 경험 스코어를 증가시킨다.
음성 쿼리 프로세서(220) 내에 포함된 프로세서들 각각은 임계치와 대응하는 사용자의 값 사이의 차이에 비례하는 양으로 사용자의 음성 쿼리 경험 스코어를 증가 또는 감소시킨다. 예를 들면, Alice는 평균하면 하루에 2.5개의 음성 쿼리들이고, Bob은 평균하면 하루에 0.125개의 쿼리들이다. 하루에 1개의 쿼리인 일일 음성 쿼리 임계치에 있어서, Alice는 임계치 이상 1.5이고, Bob은 임계치 이하 0.875이다. 쿼리 카운터(240)는 1.5가 곱해진 일부 요인에 의해 Alice의 음성 쿼리 경험 스코어를 증가시키고, 0.875가 곱해진 동일한 요인에 의해 Bob의 음성 쿼리 경험 스코어를 감소시킨다.
음성 쿼리 프로세서(220)는 사용자 프로파일러(245)에 각 사용자의 음성 쿼리 경험 스코어를 제공한다. 상기 사용자 프로파일러(245)는 사용자의 음성 쿼리 경험 스코어에 기초하여 음성 쿼리 경험 프로필을 각 사용자에게 할당한다. 사용자 프로파일러(245)는 각 사용자의 음성 쿼리 경험 스코어를 음성 쿼리 경험 프로필에 매치(match)시키기 위해 프로필 임계치들(250)에 액세스한다. 각 음성 쿼리 경험 프로필은 음성 쿼리 경험 스코어의 범위에 대응한다. 예를 들면, 숙련자 프로필은 80에서 100의 범위에 대응할 수 있다. 초보자 프로필은 0에서 20의 범위에 대응할 수 있다. 다른 프로필들은 20의 음성 쿼리 경험 스코어와 80의 음성 쿼리 경험 스코어 사이에 존재할 수 있다. 도 2의 예시에서, Bob은 18의 음성 쿼리 경험 스코어를 가질 것이고, Alive는 88의 음성 쿼리 경험 스코어를 가질 것이다. 그러므로, Bob은 초보자로서 분류되고, Alice는 숙련자로서 분류된다. 그 후 사용자 프로파일러(245)는 프로필 저장(255) 내에 각 사용자에 대한 음성 쿼리 경험 프로필을 저장한다. 프로필들(260)은 프로필 저장(255) 내에 저장된 Alice와 Bob의 프로필들을 도시한다.
각 음성 쿼리 경험 프로필은 서로 다른 포즈 길이 임계치에 대응하고, 상기 임계치는 시스템(200)이 장래의 발언에 대해 엔드포인트를 생성하는 때 후속적으로 사용한다. 도 1에 도시되고 상기 기술된 바와 같이, 숙련자 프로필은 발언을 엔드포인트 하기 위해 사용되는 3백 밀리 초의 포즈 길이 임계치에 대응한다. 초보자 프로필은 1초의 포즈 길이 임계치에 대응한다. 시스템(200)은 6백 밀리 초의 포즈 길이 임계치로, 예컨데 중급자 프로필과 같은, 다른 프로필들을 정의할 수 있다. 일부 구현예들에서, 시스템(200)은 사용자에게 프로필을 할당함이 없이 사용자에게 포즈 길이 임계치를 할당한다. 시스템은 음성 쿼리 경험 스코어를 생성하고, 음성 쿼리 경험 스코어와 반비례하는 포즈 길이 임계치를 계산한다.
도 3은 음성 입력을 가진 특정 사용자의 경험에 기초하여 특정 사용자를 분류하고 특정 사용자가 음성 쿼리를 말하는 것을 끝냈는지 여부를 결정하기 위한 예시적인 프로세스(300)의 다이어그램이다. 상기 프로세스(300)는 도 1의 컴퓨팅 디바이스(121) 또는 도 2의 컴퓨팅 디바이스(200)와 같은 컴퓨팅 디바이스에 의해 수행될 수 있다. 프로세스(300)는 사용자가 장래의 쿼리들을 말하는 것을 끝내는 때를 결정하는데 사용하기 위해, 포즈 임계치를 결정하고자 사용자의 이전 음성 쿼리들을 분석한다.
컴퓨팅 디바이스는 음성 쿼리 로그 데이터에 액세스(310)한다. 컴퓨팅 디바이스는, 특정 사용자에 대해, 포즈 임계치를 결정(320)한다. 컴퓨팅 디바이스는, 특정 사용자로부터, 발언을 수신(330)한다. 컴퓨팅 디바이스는 포즈 임계치에 대해 특정 사용자가 말하기를 멈추었다는 것을 결정(340)한다. 컴퓨팅 디바이스는 음성 쿼리로서 발언을 처리(350)한다.
도 4 는 클라이언트 또는 하나의 서버 혹은 복수의 서버들로서 본 명세서에서 기술되는 구현 시스템들 및 방법들에 사용될 수 있는 컴퓨팅 디바이스들(400)의 블록 다이어그램이다. 상기 컴퓨팅 디바이스(400)는 예컨데, 랩탑들, 데스탑들, 워크스테이션들, PDA들, 서버들, 블레이드 서버들, 메인 프레임들 및 다른 적합한 컴퓨터들을 나타내도록 의도된다.
컴퓨팅 디바이스(400)는 프로세서(402), 메모리(404), 저장 디바이스(406), 메모리(404) 및 고속 확장 포트들(410)과 연결되는 고속 인터페이스(408) 및 저속 버스(414) 및 저장 디바이스(406)과 연결되는 저속 인터페이스(412)를 포함한다. 컴포넌트들(402, 404, 406, 408, 410 및 412) 각각은 다양한 버스들을 사용하여 상호연결되고, 공통의 마더보트 상에 또는 적합한 다른 방식들로 장착될 수 있다. 상기 프로세서(402)는 예컨데, 고속 인터페이스(408)에 연결된 디스플레이(416)와 같은, 외부 입력/출력 디바이스 상의 GUI에 대한 그래픽 정보를 디스플레이 하기 위해 메모리(404) 내에 저장되거나 또는 저장 디바이스(406) 상에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(400) 내에서 실행을 위한 명령어들을 처리할 수 있다. 다른 구현예들에서, 다수의 프로세서들 및/또는 다수의 버스들은, 다수의 메모리들 및 메모리의 타입들에 따라, 적합하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(400)은 필요한 동작들의 부분들을 제공하는 각 디바이스와, 예를 들어, 서버 뱅크, 블레이트 서버들의 그룹 또는 멀티-프로세서 시스템으로서 연결될 수 있다.
컴퓨팅 디바이스(400)는, 도면에서 도시된 것처럼, 복수의 서로 다른 형태들로 구현될 수 있다. 예를 들면, 표준 서버(420)로서 또는 이러한 서버들의 그룹으로 여러 번 구현될 수 있다. 또한, 컴퓨팅 디바이스(400)는 랙 서버 시스템(424)의 일부로서 구현될 수 있다. 추가적으로, 컴퓨팅 디바이스(400)는 랩탑 컴퓨터(422)와 같은 개인용 컴퓨터로 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(400)의 컴포넌트들은 모바일 디바이스(미도시) 내의 다른 컴포넌트들과 결합될 수 있다. 그와 같은 디바이스들 각각은 하나 이상의 컴퓨텅 디바이스(400)를 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들(400)로 구성될 수 있다.
본 명세서에서 기술되는 시스템들 및 방법들의 다양한 구현들은 디지털 전자 회로, 집적 회로, 특정하게 설계된 ASIC(application specific integrated circuits)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그것들의 조합으로 실현될 수 있다. 이러한 다양한 구현들은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템 상에서 실행가능하고 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있고, 상기 적어도 하나의 프로그래밍 가능한 프로세서는 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 그것들에 데이터 및 명령어들을 전송하기 위해 연결된 특수용 또는 범용인 프로세서일 수 있다.
본 명세서에서 기술되는 시스템들 및 기법들은 백 엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나 또는 미들웨어 컴포넌트(예를 들어, 어플리케이션 서버)를 포함하거나 또는 프론트 엔드 컴포넌트(예를 들어, 사용자가 본 명세서에서 기술되는 시스템들 및 기법들의 구현과 인터렉션 할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 가지는 클라이언트 컴퓨터) 또는 그와 같은 백 엔드, 미들웨어 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 디지털 데이터 통신의 매체(예를 들어, 통신 네트워크)에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 근거리 통신망("LAN"), 광역 네트워크("WAN") 및 인터넷을 포함한다.
다수의 실시예들이 기술되었다. 그럼에도 불구하고, 다양한 변형들이 본 발명의 사항 및 범위를 벗어남이 없이 이루어질 수 있음이 이해될 것이다. 추가적으로, 본 도면들에서 도시된 논리 흐름들은 원하는 결과들을 얻기 위해, 도시된 특정 순서 또는 순차적인 순서를 요구하지 않는다. 추가적으로, 다른 단계들이 기술된 흐름들로부터 제공될 수 있거나 제거될 수 있으며, 다른 컴포넌트들이 기술된 시스템들에 추가될 수 있거나 기술된 시스템들로부터 제거될 수 있다. 따라서, 다른 실시예들은 후술하는 청구 범위 내에 있다.
청구된 것:

Claims (33)

  1. 음성 인식을 위한 컴퓨터로 구현 방법으로서,
    특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리(voice query)들을 포함하는 음성 쿼리 로그 데이터에 액세스(access)하는 단계;
    상기 음성 쿼리 로그 데이터에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 단계, 상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들에 기초하여 생성되고;
    상기 특정 사용자에 의해 말해진 상기 여러 개의 서로 다른 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 단계;
    상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여, 상기 특정 사용자에 대한 포즈 임계치(pause threshold)를 결정하는 단계;
    상기 특정 사용자에 의해 말해진 발언(utterance)에 대응하는 오디오 데이터를 수신하는 단계;
    상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했음을 결정하는 단계;
    상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했다는 결정에 기초하여, 상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅(endpointing) 신호를 생성하는 단계; 및
    상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅 신호를 생성함에 응답하여, 상기 특정 사용자에 의해 말해진 발언에 대응하는 상기 오디오 데이터에 대해 자동 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 음성 쿼리 로그 데이터는 각 음성 쿼리와 관련된 타임스탬프 (timestamp), 각 음성 쿼리가 완전한지 여부를 표시하는 데이터, 및 각 음성 쿼리와 관련된 음성 포즈 인터벌들을 포함하고, 그리고
    상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 단계는 각 음성 쿼리와 관련된 상기 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 상기 데이터, 및 각 음성 쿼리와 관련된 상기 음성 포즈 인터벌들에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  4. 청구항 1에 있어서,
    상기 음성 쿼리 로그 데이터에 기초하여, 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수를 결정하는 단계를 더 포함하고,
    상기 포즈 임계치를 결정하는 단계는 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수에 더 기초하며,
    상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들의 단어들 간의 평균 포즈 인터벌(average pause interval)에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  5. 청구항 1에 있어서,
    상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이를 결정하는 단계를 더 포함하고,
    상기 포즈 임계치를 결정하는 단계는 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이에 더 기초하며,
    상기 음성 쿼리 경험 스코어는 하루에 특정 사용자에 의해 이전에 말해진 음성 쿼리들의 평균 수에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  6. 삭제
  7. 음성 인식을 위한 시스템에 있어서,
    하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
    상기 동작들은:
    특정 사용자에 의해 이전에 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터에 액세스하는 동작;
    상기 음성 쿼리 로그 데이터에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 단계, 상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들에 기초하여 생성되고;
    상기 특정 사용자에 의해 말해진 상기 여러 개의 서로 다른 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 동작;
    상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여, 상기 특정 사용자에 대한 포즈 임계치를 결정하는 동작;
    상기 특정 사용자에 의해 말해진 발언에 대응하는 오디오 데이터를 수신하는 동작;
    상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했음을 결정하는 동작;
    상기 특정 사용자의 제 1 유형의 사용자 또는 제 2 유형의 사용자로서의 분류에 적어도 기초하여 결정된 상기 특정 사용자에 대한 포즈 임계치와 동일하거나 이보다 큰 기간 동안 상기 특정 사용자가 말하기를 중단했다는 결정에 기초하여, 상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅 신호를 생성하는 동작; 및
    상기 특정 사용자가 말하기를 멈추었음을 나타내는 엔드포인팅 신호를 생성함에 응답하여, 상기 특정 사용자에 의해 말해진 발언에 대응하는 상기 오디오 데이터에 대해 자동 음성 인식을 수행하는 동작을 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
  8. 삭제
  9. 청구항 7에 있어서,
    상기 음성 쿼리 로그 데이터는 각 음성 쿼리와 관련된 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 데이터, 및 각 음성 쿼리와 관련된 음성 포즈 인터벌들을 포함하고, 그리고
    상기 특정 사용자에 의해 말해진 음성 쿼리들을 포함하는 음성 쿼리 로그 데이터로부터 포즈 임계치를 결정하는 동작은 각 음성 쿼리와 관련된 상기 타임스탬프, 각 음성 쿼리가 완전한지 여부를 표시하는 상기 데이터, 및 각 음성 쿼리와 관련된 상기 음성 포즈 인터벌들에 기초하여, 상기 포즈 임계치를 결정하는 것을 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
  10. 청구항 7에 있어서,
    상기 음성 쿼리 로그 데이터에 기초하여, 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수를 결정하는 동작을 더 포함하고,
    상기 포즈 임계치를 결정하는 동작은 하루에 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 수에 더 기초하며,
    상기 음성 쿼리 경험 스코어는 특정 사용자에 의해 이전에 말해진 여러 개의 서로 다른 음성 쿼리들의 단어들 간의 평균 포즈 인터벌(average pause interval)에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 시스템.
  11. 청구항 7에 있어서,
    상기 음성 쿼리 로그 데이터에 기초하여, 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이를 결정하는 동작을 더 포함하고,
    상기 포즈 임계치를 결정하는 동작은 상기 특정 사용자에 의해 말해진 음성 쿼리들의 평균 길이에 더 기초하며,
    상기 음성 쿼리 경험 스코어는 하루에 특정 사용자에 의해 이전에 말해진 음성 쿼리들의 평균 수에 기초하여 생성되는 것을 특징으로 하는 음성 인식을 위한 시스템.
  12. 삭제
  13. 음성 인식을 위한 컴퓨터로 구현되는 방법에 있어서,
    특정 사용자에 의해 이전에 말해진 음성 쿼리들의 집합(collection)에 액세스하는 단계와;
    상기 음성 쿼리들의 집합에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 단계와;
    상기 특정 사용자에 의해 말해진 상기 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 단계와;
    상기 특정 사용자의 분류에 기초하여, 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈 지속시간(duration of pause)에 기초하여 지속시간 값(duration value)을 결정하는 단계와;
    상기 특정 사용자가 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값 보다 길게 포즈하고, 그 후 하나 이상의 다른 단어들을 말하는 발언에 대응하는 오디오 데이터를 수신하는 단계와;
    상기 오디오 데이터의 세그먼트를 생성하는 단계와, 상기 세그먼트는 상기 특정 사용자가 상기 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값보다 길게 포즈를 하고, 그 후 하나 이상의 다른 단어를 말하는 상기 오디오 데이터의 부분에 대응하며;
    상기 오디오 데이터의 세그먼트를 처리함에 기초하여 상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기(transcription)를 획득하는 단계와; 그리고
    상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기를 포함하는 음성 쿼리를 제출하는 단계를 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  14. 삭제
  15. 청구항 13에 있어서,
    상기 음성 쿼리들의 집합 내 음성 쿼리들에 기초하여, 음성 쿼리 길이(voice query length)를 결정하는 단계; 그리고
    상기 음성 쿼리 길이에 기초하여, 상기 지속시간 값을 변경하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  16. 청구항 15에 있어서,
    상기 음성 쿼리 길이는 상기 음성 쿼리들의 집합 내 음성 쿼리들의 평균 지속시간인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  17. 청구항 15에 있어서,
    상기 음성 쿼리 길이는 상기 음성 쿼리들의 집합 내 음성 쿼리들에서 단어들의 평균 수인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  18. 청구항 13에 있어서,
    하루에 말해진 상기 음성 쿼리들의 집합 내 음성 쿼리들의 양들(quantities)에 기초하여, 음성 쿼리들의 양을 결정하는 단계; 그리고
    상기 음성 쿼리들의 양에 기초하여, 상기 지속시간 값을 변경하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  19. 청구항 18에 있어서,
    상기 음성 쿼리들의 양은 상기 하루에 말해진 상기 음성 쿼리들의 집합 내 음성 쿼리들의 평균 수인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  20. 청구항 13에 있어서,
    상기 음성 쿼리들의 집합 내 음성 쿼리들을 완전 또는 불완전으로서 분류하는 단계; 그리고
    상기 분류들에 기초하여, 상기 지속시간 값을 변경하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  21. 삭제
  22. 삭제
  23. 청구항 13에 있어서,
    상기 지속시간 값은 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈들의 평균 지속시간인 것을 특징으로 하는 음성 인식을 위한 컴퓨터로 구현되는 방법.
  24. 음성 인식을 위한 시스템에 있어서,
    하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
    상기 동작들은:
    특정 사용자에 의해 이전에 말해진 음성 쿼리들의 집합에 액세스하는 동작과;
    상기 음성 쿼리들의 집합에 기초하여, 특정 사용자가 음성 쿼리들을 말하는 경험의 레벨을 나타내는 상기 특정 사용자에 대한 음성 쿼리 경험 스코어를 생성하는 동작과;
    상기 특정 사용자에 의해 말해진 상기 음성 쿼리들에 대한 상기 음성 쿼리 경험 스코어에 기초하여 상기 특정 사용자를 제 1 유형의 사용자 또는 제 2 유형의 사용자로서 분류하는 동작과;
    상기 특정 사용자의 분류에 기초하여, 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈 지속시간에 기초하여 지속시간 값을 결정하는 동작과;
    상기 특정 사용자가 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값 보다 길게 포즈하고, 그 후 하나 이상의 다른 단어들을 말하는 발언에 대응하는 오디오 데이터를 수신하는 동작과;
    상기 오디오 데이터의 세그먼트를 생성하는 동작과, 상기 세그먼트는 상기 특정 사용자가 상기 하나 이상의 단어들을 말하고, 그 후 상기 지속시간 값보다 길게 포즈를 하고, 그 후 하나 이상의 다른 단어를 말하는 상기 오디오 데이터의 부분에 대응하며;
    상기 오디오 데이터의 세그먼트를 처리함에 기초하여 상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기(transcription)를 획득하는 동작과; 그리고
    상기 하나 이상의 단어 및 상기 하나 이상의 다른 단어들의 표기를 포함하는 음성 쿼리를 제출하는 동작을 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
  25. 삭제
  26. 청구항 24에 있어서,
    상기 음성 쿼리들의 집합 내 음성 쿼리들에 기초하여, 음성 쿼리 길이를 결정하는 동작; 그리고
    상기 음성 쿼리 길이에 기초하여, 상기 지속시간 값을 변경하는 동작을 더 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
  27. 청구항 24에 있어서,
    하루에 말해진 상기 음성 쿼리들의 집합 내 음성 쿼리들의 양들에 기초하여, 음성 쿼리들의 양을 결정하는 동작; 그리고
    상기 음성 쿼리들의 양에 기초하여, 상기 지속시간 값을 변경하는 동작을 더 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
  28. 청구항 24에 있어서,
    상기 음성 쿼리들의 집합 내 음성 쿼리들을 완전 또는 불완전으로서 분류하는 동작; 그리고
    상기 분류들에 기초하여, 상기 지속시간 값을 변경하는 동작을 더 포함하는 것을 특징으로 하는 음성 인식을 위한 시스템.
  29. 삭제
  30. 삭제
  31. 청구항 24에 있어서,
    상기 지속시간 값은 상기 음성 쿼리들의 집합 내 음성 쿼리들의 단어들 사이의 포즈들의 평균 지속시간인 것을 특징으로 하는 음성 인식을 위한 시스템.
  32. 하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램으로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 청구항 13, 15 내지 20 및 23항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램.
  33. 하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램으로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 청구항 1, 3, 4, 및 5항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 저장 디바이스 상에 기록된 컴퓨터 프로그램.
KR1020160117524A 2015-10-19 2016-09-12 음성 엔드포인팅 KR101942521B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562243463P 2015-10-19 2015-10-19
US62/243,463 2015-10-19
US14/923,637 2015-10-27
US14/923,637 US20170110118A1 (en) 2015-10-19 2015-10-27 Speech endpointing
US15/196,663 2016-06-29
US15/196,663 US10269341B2 (en) 2015-10-19 2016-06-29 Speech endpointing

Publications (2)

Publication Number Publication Date
KR20170045709A KR20170045709A (ko) 2017-04-27
KR101942521B1 true KR101942521B1 (ko) 2019-01-28

Family

ID=58666238

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160117524A KR101942521B1 (ko) 2015-10-19 2016-09-12 음성 엔드포인팅

Country Status (5)

Country Link
US (2) US11062696B2 (ko)
EP (1) EP4414977A3 (ko)
JP (2) JP6541630B2 (ko)
KR (1) KR101942521B1 (ko)
CN (1) CN107068147B (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543812A (zh) * 2017-09-22 2019-03-29 吴杰 一种特定真人行为快速建模方法
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
CN108446370B (zh) * 2018-03-15 2019-04-26 苏州思必驰信息科技有限公司 语音数据统计方法和系统
JP7096707B2 (ja) * 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109599130B (zh) * 2018-12-10 2020-10-30 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CA3105388A1 (en) * 2019-05-06 2020-11-12 Rovi Guides, Inc. Systems and methods for leveraging acoustic information of voice queries
CN110223697B (zh) * 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及系统
WO2021014612A1 (ja) * 2019-07-24 2021-01-28 日本電信電話株式会社 発話区間検出装置、発話区間検出方法、プログラム
CN110619873A (zh) 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
US11551665B2 (en) * 2019-09-12 2023-01-10 Oracle International Corporation Dynamic contextual dialog session extension
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
KR20210050901A (ko) * 2019-10-29 2021-05-10 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11715466B2 (en) * 2019-11-21 2023-08-01 Rovi Guides, Inc. Systems and methods for local interpretation of voice queries
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN112382279B (zh) * 2020-11-24 2021-09-14 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN113516994B (zh) * 2021-04-07 2022-04-26 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN114267339A (zh) * 2021-12-14 2022-04-01 上海流利说信息技术有限公司 语音识别处理方法及系统、设备以及存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149558A1 (en) * 2001-07-17 2006-07-06 Jonathan Kahn Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
JP7104676B2 (ja) * 2019-10-02 2022-07-21 株式会社三共 遊技機

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH084676B2 (ja) 1987-12-09 1996-01-24 松下電器産業株式会社 コードレスアイロン
JPH07104676B2 (ja) * 1988-02-29 1995-11-13 日本電信電話株式会社 適応形発声終了検出方法
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
US6453292B2 (en) 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
US6321197B1 (en) 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
WO2000046789A1 (fr) 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP4341111B2 (ja) 1999-08-18 2009-10-07 ソニー株式会社 記録再生装置および記録再生方法
IT1315917B1 (it) 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
US7277853B1 (en) 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7177810B2 (en) 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US20050108011A1 (en) 2001-10-04 2005-05-19 Keough Steven J. System and method of templating specific human voices
US7035807B1 (en) 2002-02-19 2006-04-25 Brittain John W Sound on sound-annotations
US7665024B1 (en) 2002-07-22 2010-02-16 Verizon Services Corp. Methods and apparatus for controlling a user interface based on the emotional state of a user
US7756709B2 (en) 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
CN100456356C (zh) * 2004-11-12 2009-01-28 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
WO2006069358A2 (en) 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking model
US7689423B2 (en) 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8756057B2 (en) 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US7603633B2 (en) 2006-01-13 2009-10-13 Microsoft Corporation Position-based multi-stroke marking menus
CA2570744C (en) 2006-04-24 2014-07-15 Bce Inc. Method, system and apparatus for conveying an event reminder
CN101197131B (zh) 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
US7881933B2 (en) 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
US8364485B2 (en) 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
US8577679B2 (en) 2008-02-13 2013-11-05 Nec Corporation Symbol insertion apparatus and symbol insertion method
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CA2680304C (en) 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
DE102008058883B4 (de) 2008-11-26 2023-07-27 Lumenvox Corporation Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
CN101872616B (zh) * 2009-04-22 2013-02-06 索尼株式会社 端点检测方法以及使用该方法的系统
WO2010124247A2 (en) 2009-04-24 2010-10-28 Advanced Brain Monitoring, Inc. Adaptive performance trainer
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8768705B2 (en) * 2009-10-27 2014-07-01 Cisco Technology, Inc. Automated and enhanced note taking for online collaborative computing sessions
KR101377459B1 (ko) 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN102884575A (zh) 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US20120089392A1 (en) 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
KR101250668B1 (ko) * 2011-05-23 2013-04-03 수원대학교산학협력단 Gmm을 이용한 응급 단어 인식 방법
US9763617B2 (en) 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
US9043413B2 (en) 2011-11-15 2015-05-26 Yahoo! Inc. System and method for extracting, collecting, enriching and ranking of email objects
CN103165127B (zh) * 2011-12-15 2015-07-22 佳能株式会社 声音分段设备和方法以及声音检测系统
KR20130101943A (ko) * 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
US9202086B1 (en) 2012-03-30 2015-12-01 Protegrity Corporation Tokenization in a centralized tokenization environment
US9445245B2 (en) * 2012-07-02 2016-09-13 At&T Intellectual Property I, L.P. Short message service spam data analysis and detection
US8600746B1 (en) 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
JP6122642B2 (ja) * 2013-01-10 2017-04-26 株式会社Nttドコモ 機能実行システム及び発話例出力方法
US20140214883A1 (en) * 2013-01-29 2014-07-31 Google Inc. Keyword trending data
US10121493B2 (en) 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US9437186B1 (en) 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
GB2519117A (en) 2013-10-10 2015-04-15 Nokia Corp Speech processing
US8775191B1 (en) * 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
CN104700830B (zh) * 2013-12-06 2018-07-24 中国移动通信集团公司 一种语音端点检测方法及装置
US9418660B2 (en) 2014-01-15 2016-08-16 Cisco Technology, Inc. Crowd sourcing audio transcription via re-speaking
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US9530412B2 (en) 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9666192B2 (en) 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10121471B2 (en) 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149558A1 (en) * 2001-07-17 2006-07-06 Jonathan Kahn Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
JP7104676B2 (ja) * 2019-10-02 2022-07-21 株式会社三共 遊技機

Also Published As

Publication number Publication date
EP4414977A3 (en) 2024-10-02
JP6541630B2 (ja) 2019-07-10
US20210312903A1 (en) 2021-10-07
CN107068147A (zh) 2017-08-18
EP4414977A2 (en) 2024-08-14
JP6420306B2 (ja) 2018-11-07
CN107068147B (zh) 2020-10-20
US11062696B2 (en) 2021-07-13
JP2017078848A (ja) 2017-04-27
US11710477B2 (en) 2023-07-25
KR20170045709A (ko) 2017-04-27
JP2017078869A (ja) 2017-04-27
US20190318721A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
KR101942521B1 (ko) 음성 엔드포인팅
US10269341B2 (en) Speech endpointing
US11127416B2 (en) Method and apparatus for voice activity detection
US10937448B2 (en) Voice activity detection method and apparatus
CN109767792B (zh) 语音端点检测方法、装置、终端和存储介质
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
EP3739583B1 (en) Dialog device, dialog method, and dialog computer program
CN108877779B (zh) 用于检测语音尾点的方法和装置
CN110875059B (zh) 收音结束的判断方法、装置以及储存装置
US20170110118A1 (en) Speech endpointing
CN111465980A (zh) 用于时延降低的自动语音辨识的得分趋势分析
Nguyen et al. Low latency asr for simultaneous speech translation
Barakat et al. Detecting offensive user video blogs: An adaptive keyword spotting approach
US20180082703A1 (en) Suitability score based on attribute scores
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
CN106920558B (zh) 关键词识别方法及装置
JP6859283B2 (ja) 好感度推定装置、好感度推定方法、プログラム
JP2008233782A (ja) パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
CN110419078A (zh) 自动语音识别系统的用户记录关键字的质量反馈
JP6645995B2 (ja) 有声休止検出装置、その方法、及びプログラム
CN115273910A (zh) 一种音频段落的标记方法、装置、设备及存储介质
CN114267339A (zh) 语音识别处理方法及系统、设备以及存储介质
GB2607992A (en) Speech processing method and apparatus
JPH02192335A (ja) 語頭検出方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant