KR20210088743A - 자동화된 스피치 발음 속성 - Google Patents

자동화된 스피치 발음 속성 Download PDF

Info

Publication number
KR20210088743A
KR20210088743A KR1020217021018A KR20217021018A KR20210088743A KR 20210088743 A KR20210088743 A KR 20210088743A KR 1020217021018 A KR1020217021018 A KR 1020217021018A KR 20217021018 A KR20217021018 A KR 20217021018A KR 20210088743 A KR20210088743 A KR 20210088743A
Authority
KR
South Korea
Prior art keywords
user
digital assistant
user profile
uttered
candidate
Prior art date
Application number
KR1020217021018A
Other languages
English (en)
Other versions
KR102493292B1 (ko
Inventor
저스틴 루이스
리사 타케하나
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20210088743A publication Critical patent/KR20210088743A/ko
Application granted granted Critical
Publication of KR102493292B1 publication Critical patent/KR102493292B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • H04L67/18
    • H04L67/24
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/54Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

방법들, 시스템들 및 장치로서 후보 사용자 프로필들을 공유 디바이스와 연관된 것으로 결정하고; 상기 후보 사용자 프로필들로부터, 상기 공유 디바이스와 연관된 것으로 결정된 상기 후보 사용자 프로필들 중 적어도 하나와 연관된 후보 발음 속성들을 식별하고; 발화된 발언을 수신하고; 상기 발화된 발언에 대응하는 수신된 오디오 데이터에 기초하여 수신된 발음 속성을 결정하고; 상기 수신된 발음 속성을 상기 후보 발음 속성들 중 적어도 하나와 비교하고; 상기 수신된 발음 속성과 상기 후보 발음 속성들 중 적어도 하나와의 비교 결과에 기초하여, 상기 후보 발음 속성들로부터 특정한 발음 속성을 선택하고; 및 상기 발화된 발언과 연관된 오디오를 출력하기 위해 상기 후보 발음 속성들로부터 선택된 상기 특정한 발음 속성을 제공하는 것을 포함한다. 설명된 구현예는 사용자 식별과 연관된 계산 부하를 감소시키고 오디오 출력에서 정확한 발음을 제공한다.

Description

자동화된 스피치 발음 속성{AUTOMATED SPEECH PRONUNCIATION ATTRIBUTION}
본 명세서는 음성 인식에 관한 것이다.
일정한 컴퓨팅 디바이스들은 음성 작동 디바이스(voice-activated device)와 같은 음성 인식 기능을 가지며, 사용자의 발언에 적절한 응답을 제공할 수 있다. 음성 인식 기능이 있는 이러한 컴퓨팅 디바이스들 중 일부는 공유 디바이스와 인터렉션하는 다수의 사용자를 가지는 공유 디바이스이다. 추가로, 특정한 사용자는 음성 인식 기능을 가진 여러 상이한 디바이스들과 인터렉션할 수 있다. 이들 각각의 경우에, 음성 인식 기능을 갖는 컴퓨팅 디바이스는 현재 컴퓨팅 디바이스와 인터렉션하고 있는 특정한 사용자를 식별하는 것을 어려울 수 있다. 따라서, 사용자의 컴퓨팅 디바이스와의 인터렉션은 종종 바람직하지 않은 결과를 낳는다.
본 발명은 사용자들이 디바이스에서 수신된 발화된 발언과 정확하게 연관되도록 한다. 또한, 본 발명은 적절한 오디오 응답을 제공하는 것과 같이, 적절한 액션을 수행함으로써 디바이스가 발화된 발언의 수신에 응답할 수 있게 한다. 결과적으로, 사용자의 계정이나 정보를 다수의 디바이스들에 연결할 수 있으며, 사용자가 인터렉션하는 모든 디바이스들에서 통합된 사용자 환경을 만들 수 있다. 공유 디바이스와 인터렉션하는 각 사용자에 대해 동일한 통합 사용자 경험이 제공된다.
본 명세서에 기술된 발명의 일 혁신적인 양태는 액션들을 포함하는 방법에 이용되며, 상기 액션들은: 후보 사용자 프로필들을 공유 디바이스와 연관된 것으로 결정하는 단계; 상기 후보 사용자 프로필들로부터, 상기 공유 디바이스와 연관된 것으로 결정된 상기 후보 사용자 프로필들 중 적어도 하나와 연관된 후보 발음 속성들을 식별하는 단계; 상기 공유 디바이스에서, 발화된 발언을 수신하는 단계; 상기 발화된 발언에 대응하는 수신된 오디오 데이터에 기초하여 수신된 발음 속성을 결정하는 단계; 상기 수신된 발음 속성을 상기 후보 발음 속성들 중 적어도 하나와 비교하는 단계; 상기 수신된 발음 속성과 상기 후보 발음 속성들 중 적어도 하나와의 비교 결과에 기초하여, 상기 후보 발음 속성들로부터 특정한 발음 속성을 선택하는 단계; 및 상기 발화된 발언과 연관된 오디오를 출력하기 위해 상기 후보 발음 속성들로부터 선택된 상기 특정한 발음 속성을 제공하는 단계를 포함한다.
이들 또는 다른 실시예들은 다음 구성들 중 하나 이상을 각각 선택적으로 포함할 수 있다. 예를 들어, 후보 사용자 프로필들을 공유 디바이스와 연관된 것으로 결정하는 단계는 복수의 사용자 프로필들 각각과 상기 공유 디바이스 간의 관계를 결정하는 것; 사용자 프로필 각각에 대해, 상기 관계가 상기 사용자 프로필과 상기 공유 디바이스 간의 연관성을 표시하는지를 결정하는 것; 및 상기 공유 디바이스와의 연관성을 표시하는 관계를 갖는 사용자 프로필 각각에 대해, 상기 사용자 프로필을 상기 공유 디바이스와 연관된 상기 후보 사용자 프로필들 중 하나인 것으로 식별하는 것을 포함할 수 있다.
본 명세서에 기술된 발명의 다른 양태에 따르면, 상기 복수의 사용자 프로필들 각각에 대해, 상기 관계는 상기 사용자 프로필이 상기 공유 디바이스에 로그인했었는지 여부 또는 상기 사용자 프로필과 연관된 적어도 하나의 사용자 디바이스가 상기 공유 디바이스와 통신했는지 여부의 기록을 포함한다.
본 명세서에 기술된 발명의 다른 양태에 따르면, 상기 복수의 사용자 프로필들 각각에 대해, 상기 관계는 상기 사용자 프로필과 연관된 적어도 하나의 사용자 디바이스와 상기 공유 디바이스의 지리적 근접성을 포함한다.
본 명세서에 기술된 발명의 다른 양태에 따르면, 상기 복수의 사용자 프로필 각각에 대해, 상기 관계는 사회적 연결성을 포함하며, 상기 사회적 연결성은 적어도 하나의 사회적 연결성 메트릭에 기초한다.
본 명세서에 기술된 발명의 다른 양태는 상기 발화된 발언에 오디오 응답을 제공하는 단계를 포함하며, 상기 오디오 응답은 상기 후보 발음 속성들로부터 선택된 상기 특정한 발음을 포함하는 액션을 포함하는 방법에 이용된다.
특정 구현예들에서, 상기 후보 사용자 프로필들 중 각 사용자 프로필은 정규 식별자(canonical identifier)와 연관된 하나 이상의 발음 속성들을 포함하고, 상기 정규 식별자는 특정한 발음을 표현한다.
이들 양태들의 다른 구현예들은 상기 방법들의 액션들을 수행하도록 구성된 대응 시스템들, 장치들 및 컴퓨터 저장 디바이스들에 인코딩된 컴퓨터 프로그램들을 포함한다.
본 발명의 구현예는 몇 가지 기술적 이점을 제공하며, 그 중 일부는 아래에서보다 상세하게 설명된다. 예를 들어, 특정한 이름, 키워드 또는 문구의 음성 인식 및 발음은 종종 계산적으로 고비용이며, 본 발명의 구현예는 사용자를 식별하고, 음성 인식을 수행하고, 오디오 출력에서 정확한 발음을 제공하는 것과 연관된 계산 부하를 감소시킨다. 다른 예로서, 본 발명에 의해 제공되는 프로세스의 간소화는 요구되는 대역폭을 감소시키고 배터리 전력 절감을 제공하는 기술적 이점을 생성한다. 또 다른 예로서, 본 발명은 예를 들어, 후보명, 단어들 또는 문구들의 수를 감소시킴으로써, 음성 인식에서 전사 정확성을 증가시키는 기술적 이점을 제공한다.
하나 이상의 구현예들의 세부 내용들이 첨부 도면과 아래의 설명에서 기술된다. 다른 구성들 및 이점들은 설명, 도면 및 청구항으로부터 명백해질 것이다.
도 1은 특정 구현예에 따른, 음성 발음 속성(speech pronunciation attribution) 시스템의 동작을 위한 예시적 도면을 도시한다.
도 2은 특정 구현예에 따른, 음성 발음 속성을 위한 예시적 시스템을 도시한다.
도 3은 특정 구현예에 따른, 음성 발음 속성 프로세스에 대한 예시적 흐름도를 도시한다.
도 4은 본 명세서에 기술된 기법들을 구현하는데 사용될 수 있는 컴퓨팅 디바이스와 모바일 컴퓨팅 디바이스의 예시를 도시한다.
다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 구성요소를 표시한다.
도 1은 특정 구현예에 따른, 음성 발음 속성(speech pronunciation attribution) 시스템의 동작을 위한 예시적 도면(100)을 도시한다. 사용자(102)는 발언(104/106)를 말할 수 있다. 사용자(102)는 모바일 디바이스와 같은 사용자 디바이스(110)를 가질 수 있다. 일 예에서, 사용자는 사용자의 이름 또는 특정한 키워드를 포함하는 발언(104)을 말할 수 있다. 다른 예에서, 사용자는 사용자의 존재를 표시하는 발언(106)을 말할 수 있다. 발언(104/106)은 공유 디바이스와 같은 컴퓨팅 디바이스(120)에서 수신될 수 있다. 컴퓨팅 디바이스(120)는 이하에서 보다 상세하게 설명되는 시스템 및 프로세스에 기초하여, 사용자 이름 또는 사용자와 연관된 다른 키워드 또는 문구의 적절한 발음을 결정하고 출력할 수 있다. 예를 들어, 사용자 이름이 "Justen"일 수 있고, "Justine"- Juss - TEEN과 유사하게, "Justin"-JUH-stin과 유사하지 않게 발음된다. 공유 디바이스(120)는 JUH-stin(122) 및 Juss-TEEN(124)으로부터 적절한 발음을 결정할 수 있다. 따라서, 공유 디바이스(120)는 적절한 발음 Juss-TEEN을 포함하는 응답(130)으로 발언에 응답할 수 있다.
일반적으로, 본 발명의 일 구현예는 사용자들이 디바이스에서 수신된 발화된 발언과 정확하게 연관되도록 한다. 또한, 본 발명의 일 구현예는 적절한 오디오 응답을 제공하는 것과 같이, 적절한 액션을 수행함으로써, 디바이스가 발화된 발언의 수신에 응답하게 한다.
예를 들어, 디바이스는 발화된 발언과 연관된 사용자(들)에게 익숙한 방식으로 발음된 하나 이상의 단어들을 포함하는 오디오 응답을 제공할 수 있다. 이로 인해 사용자가 오디오 응답을 더 쉽게 인식하고 쉽게 이해하게 한다. 음성을 이해하는데 제한된 능력을 가진 사용자에게 특히 이점이 있고, 그러한 사용자가 디바이스와 더 쉽게 인터렉션하게 한다. 추가적으로 또는 대안적으로, 디바이스는 사용자의 프로필을 대신하여 이메일을 보내는 것과 같이, 발화된 발언과 연관된 사용자(들)를 대신하여 액션을 수행할 수 있다.
본 발명의 설명된 구현예가 디바이스 및/또는 서버와 같은 다른 컴퓨팅 장치에서 구현될 때, 발화된 발언과 사용자 간의 연관성은 신뢰성있고 기술적으로 효율적인 방식으로 형성된다.
예를 들어, 일 구현예에 따르면, 디바이스 및/또는 다른 컴퓨팅 장치는 디바이스와 특별히 연관되는 사용자 프로필들의 세트를 결정할 수 있고, 디바이스에서 발화된 발언을 수신하면, 상기 결정된 프로필들의 세트로부터 적어도 하나의 사용자 프로필을 발화된 발언과 연관되는 것으로 식별할 수 있다. 이 식별은 사용자 프로필들의 세트에서 사용자 프로필들의 발음 속성과 발화된 발언의 속성들의 비교에 기초할 수 있다.
디바이스와 특별히 연관되는 사용자 프로필들의 세트의 초기 결정은 본 명세서에서 설명된 바와 같이 다양한 기술적 방식으로 수행될 수 있다. 디바이스와 연관된 사용자 프로필들의 초기 세트의 결정은 사용자 프로필들의 초기 세트가 결정되지 않았던 경우보다 발화된 발언과 사용자 프로필들의 발음 속성들과의 비교가 계산적으로 상당히 저비용임을 의미한다.
본 발명의 구현예는 발화된 발언의 수신에 응답하여 디바이스에 의해 수행되는 액션들이 적절하고 오류를 일으키지 않는 효과를 가질 수 있다. 또한, 발화된 발언과 개별 사용자들 간의 연관성은 프로세싱 및 메모리 컴포넌트들의 사용 측면에서 효율적인 방식으로 이루어진다. 이는 본 발명을 구현하는 디바이스 및/또는 다른 컴퓨팅 장치가 제한된 프로세싱 능력들 지니고 있는 경우에도 적시에 응답을 제공할 수 있게 한다.
도 1을 참조하면, 다수의 개인들을 포함하는 오디오 환경에서, 개인과 디바이스의 이력적 인터렉션, 개인의 모바일 디바이스와의 근접성 및 계정 등록과 같은 다양한 요인들에 기초하여, 이름의 특정한 발음을 링크된 계정의 개인에 귀속시키기 위한 메커니즘이 제공된다. 이러한 방식으로, 예를 들어, 사용자 이름은 예를 들어 음성 어시스턴트, 오디오 인터페이스 등으로서 동작하는 공유 디바이스에 의해 정확하게 발음된다. 본 명세서에 기술된 구현예는 특정한 사람의 이름의 발음을 정확하게 식별하고, 일부 경우에, 오디오 큐들에 기초하여 개인에 속하는 특정 계정 또는 사용자 프로필을 식별하는 복잡한 기술적 문제를 해결한다. 그렇게 하기 위해, 다수의 사용자 프로필들을 특정 디바이스에 귀속시키고 그 다음 다수의 사용자 프로필들 중 하나를 수신된 오디오 신호와 매칭시키는 메커니즘이 컴퓨팅 디바이스에서 구현된다. 사용자 프로필을 오디오 신호와 매칭시킨 후에, 시스템은 사용자 프로필 내에서 특정되거나 사용자와 연관된 적절한 발음으로 오디오 기반 응답을 사용자에게 제공할 수 있다. 따라서, 시스템은 사용자의 이름을 잘못 발음하지 않고, 사용자에게 올바르게 응답하고 관여된다.
사용자 프로필이 공유 디바이스와 관련이 있는 것으로 귀속시키는 한 가지 방법은 이전에 디바이스를 사용했던 사용자 프로필들의 저장된 리스트에 기초한다. 이러한 사용자 프로필들은 직접 디바이스에 로그인하고 액션들을 수행하거나 간접적으로 다른 디바이스를 통해 상기 디바이스와 인터렉션함으로써 시바이스를 사용했을 수 있다. 사용자 프로필들이 공유 디바이스와 관련이 있는 것으로 귀속시키는 또 다른 방법은 디바이스 근접성에 기초한다. 예를 들면, 하나 이상의 주변 디바이스들이 검출될 수 있고, 그 주변 디바이스들 각각과 연관된 사용자 프로필이 공유 디바이스와 연관될 수 있다. 공유 디바이스가 오디오 응답에서 사용자를 참조해야 하는 경우, 공유 디바이스는 사용자가 주변 디바이스들과 연관된 사용자 프로필들 중 하나에 의해 표현될 가능성이 높다고 결정할 수 있다. 디바이스 근접성을 결정하기 위한 임의의 수의 기술들이 구현될 수 있고, Wi-Fi, 블루투스, 서브-가청 사운드, 수신된 오디오 레벨, GPS등 또는 이들의 조합을 포함하나, 이에 한정되지 않는다.
사용자 프로필들이 공유 디바이스 관련이 있는 것으로 귀속시키기 위한 상기 기술된 이전 사용 및 근접성에 대안으로 또는 그에 더하여, 사회적 연결들이 사용될 수 있다. 이러한 방식으로, 공유 디바이스와 동일한 방에 제2 디바이스를 가지지 않고, 공유 디바이스와 아직 인터렉션하지 않은 잠재적 사용자들이 식별될 수 있다. 예를 들어, 그러한 잠재적 사용자들의 세트는 이미 식별되었던 사용자 프로필과 연관된 사회적 연결들의 집합으로부터 생성될 수 있다. 이러한 사회적 연결성은 사용자 인터렉션들, 소셜 그래프 등에 기초할 수 있다. 또한, 소셜 연결들의 집합을 필터링하여, 공유 디바이스의 주변에 있지 않거나 그 임계 거리 내에 있지 않은 사용자들을 제외할 수 있다.
한 세트의 후보 사용자 프로필이 식별되면, 각 프로필과 연관된 발음 속성들의 집합은 그들이 말할 때 개별 사용자의 이름을 인식하기 위한 발음 속성의 후보 리스트로서 사용될 수 있다. 예를 들어, 하나 이상의 발음 속성들에 의해 표현된 특정 발음과 사용자 이름을 갖는 오디오 세그먼트 간에 비교가 이루어질 수 있다. 본 발명의 한 기술적 이점은 사용할 이름 또는 시스템의 음성 인식 컴포넌트에 대해 후보 이름들 또는 후보 발음 속성들의 리스트를 결정함으로써, 오디오 파싱의 정확성과 속도가 상당히 개선된다는 것이다. 또 다른 기술적 이점은 예를 들어, 모든 "John Smith's"중에서 특정한 "John Smith"와 같이, 모든 사용가능한 사용자 프로필들로부터 특정한 후보 사용자 프로필들을 결정함으로써, 사용자가 그의 이름을 말하는 경우 참조되는 사용자가 결정될 수 있다는 것이다.
도 2은 음성 발음 속성을 위한 예시적 시스템(200)을 도시한다. 시스템(200)은 다수의 사용자가 직접 또는 간접적으로 인터렉션할 수 있는 컴퓨팅 디바이스일 수 있는 공유 디바이스(220)를 포함할 수 있다. 예를 들어, 공유 디바이스(220)는 오디오를 수신하기 위한 마이크로폰(230) 및 오디오를 출력하기 위한 스피커(280)를 포함할 수 있다. 마이크로폰(230)은 예를 들어 사용자 또는 다른 디바이스로부터 음성 입력(210)을 수신할 수 있다. 공유 디바이스(220)는 발화된 발언에 대응하는 오디오 데이터를 음성 입력(210)으로서 수신할 수 있다. 공유 디바이스(220)의 음성 인식 컴포넌트는 발화된 발언에 대응하는 수신된 오디오 데이터를 음성 입력(210)으로서 분석할 수 있다.
공유 디바이스(220)는 사용자 프로필 데이터베이스(240)에 액세스할 수 있다. 사용자 프로필 데이터베이스(240)는 모든 등록 된 사용자들의 리스트를 포함할 수 있다. 사용자 프로필 데이터베이스(240)는 또한 사용자 프로필 데이터베이스(240)에 저장된 각 사용자와 연관된 정보를 저장할 수 있다. 예를 들어, 각 사용자는 사용자에 관한 정보를 포함하는 사용자와 연관된 사용자 프로필을 가질 수 있다. 사용자 프로필에 포함될 수 있는 정보의 한 부분은 사용자의 이름 또는 사용자와 연관된 다른 단어 또는 문구의 발음이다. 사용자 이름의 저장된 발음에는 발음 속성들을 포함할 수 있다. 시스템은 발음 속성들에 기초하여 발음을 표현하는 정규 식별자를 설정하고 상기 정규 식별자를 사용자와 연관하여 저장한다.
공유 디바이스(220)는 저장 매체에 저장된 후보 사용자 프로필 리스트(250)를 포함하거나 액세스할 수 있다. 후보 사용자 프로필 리스트(250)는 공유 디바이스(220)와 연관된 것으로 식별되었던 사용자들의 리스트를 포함할 수 있다. 후보 사용자 프로필 리스트(250)는 사용자 프로필 데이터베이스(240)에 저장되는 것으로 상술된 모든 사용자 프로필 정보를 포함할 수 있다. 후보 사용자 프로필 리스트(250)는 또한 공유 디바이스(220)와의 사용자의 이전 인터렉션과 관련된 정보를 포함할 수 있다. 상술한 바와 같이, 후보 사용자 프로필 리스트(250)에 저장된 각 후보 사용자 프로필은 다수의 방식으로 공유 디바이스(220)와 연관되는 것으로 결정될 수 있다. 예를 들어, 사용자 프로필이 공유 디바이스(220)에 로그인되었는지 여부 또는 사용자 프로필과 연관된 적어도 하나의 사용자 디바이스가 공유 디바이스(220)와 통신했었는지 여부에 관한 기록이 결정되어 저장될 수 있다. 아래에 더 자세히 기술될 바와 같이 다른 예로서, 사용자 프로필과 연관된 적어도 하나의 사용자 디바이스와 공유 디바이스의 지리적 근접성이 결정될 수 있거나 또는 적어도 하나의 사회적 연결성 메트릭에 기초하여 사회적 연결성이 결정될 수 있다. 추가로, 이들 메커니즘의 임의의 조합이 후보 사용자 프로필 리스트(250)에 대한 사용자 프로필을 공유 디바이스(220)와 연관된 것으로 결정하는데 사용될 수 있다.
공유 디바이스(220)는 근접성 검출기(260)를 포함하거나 액세스할 수 있다. 근접성 검출기(260)는 다수의 방식들 중 임의의 방식으로 사용자와 연관된 사용자 또는 디바이스의 지리적 근접성을 결정할 수 있다. 예를 들어, 근접성 검출기(260)는 Wi-Fi 신호 또는 연결, 블루투스 신호 또는 연결, 또는 일부 다른 연결 신호 또는 연결 또는 이들의 임의의 조합을 사용하여, 사용자 또는 사용자와 연관된 디바이스와 공유 디바이스(220)의 근접성을 결정한다. 다른 예시로서, 근접성 검출기(260)는 GPS 센서 또는 신호, 일부 다른 포지셔닝 센서 또는 신호를 사용하여, 사용자 또는 사용자와 연관된 디바이스와 공유 디바이스(220)의 근접성을 결정한다. 추가적 예로서, 근접성 검출기(260)는, 예를 들어, 다른 디바이스들과 공유 디바이스(220)의 근접성을 결정하기 위해 서브-가청 토큰을 브로드캐스팅하거나 또는 수신함으로써, 공유 디바이스(220)에 대한 사용자 또는 사용자와 연관된 디바이스의 지리적 근접성을 결정하기 위해 서브-가청 사운드를 사용할 수 있다. 다른 예시로서, 근접성 검출기(260)는 근처 디바이스들에 의해 수신된 오디오 신호의 상대적 오디오 강도를 비교하여, 사용자 또는 사용자와 연관된 디바이스와 공유 디바이스(220)의 근접성을 결정한다. 예를 들어, 사용자의 음성이 가장 크다고 표시하는, 수신된 오디오 신호의 강도가 가장 높은 디바이스 또는 다수의 디바이스들은 발언을 말한 사용자와 연관될 가능성이 크고, 해당 사용자 또는 디바이스와 연관된 사용자 프로필이 식별될 수 있다.
공유 디바이스(220)는 사회적 연결성 데이터베이스(270)에 액세스할 수 있다. 사회적 연결성 데이터베이스(270)는 하나 이상의 소셜 그래프 또는 이전 사용자 인터렉션들 등을 포함할 수 있다. 또한, 각각의 사용자 간의 관계의 강도를 표시하는 친밀성 점수가 계산되어, 사회적 연결성 데이터베이스(270)에 저장될 수 있다. 상술한 바와 같이, 사회적 연결성 데이터베이스(270)의 사회적 연결성 데이터는, 이들 사용자가 공유 디바이스(220)에 가까이 있지 않거나 이전에 인터렉션하지 않았더라도, 공유 디바이스(220)와 연관된 후보 사용자 프로필을 결정하는데 사용될 수 있다. 예를 들어, 미리 결정된 임계치를 만족시키는 친밀성 점수를 갖는 모든 사용자는 공유 디바이스(220)와 연관된 후보 사용자 프로필 리스트(250)에 후보 사용자 프로필로서 포함될 수 있다.
상술한 바와 같이, 공유 디바이스(220)는 음성 입력(210)으로서의 발화된 발언에 대응하는 오디오 데이터를 마이크로폰(230)에서 수신하면, 후보 사용자 프로필 리스트(250)로부터 결정된 후보 발음 속성과 비교함으로써 수신된 오디오 데이터를 분석할 수 있다. 특정한 발음 속성은 상기 비교에 기초하여 후보 발음 속성으로부터 식별될 수 있고, 특정 발음 속성을 사용하는 적절한 발음은 스피커(280)로부터의 오디오 출력(290)으로 제공될 수 있다. 스피커(280)는 공유 디바이스(220)에 포함될 수 있거나 공유 디바이스(220)와 연관되거나 연결될 수 있다. 따라서, 공유 디바이스(220)는 식별된 특정한 발음 속성에 의해 특정된 적절한 발음을 사용하여 오디오 출력(290)으로 음성 입력(210)에 응답할 수 있다.
도 3은 음성 발음 속성 프로세스(300)에 대한 예시적 흐름도를 도시한다. 음성 발음 속성 프로세스(300)는 후보 사용자 프로필들을 공유 디바이스와 연관된 것으로 결정하는 것을 포함할 수 있다. 후보 사용자 프로필들을 공유 디바이스와 연관된 것으로 결정하는 것은 다수의 사용자 프로필들 각각과 공유 디바이스 간의 관계를 결정하는 것 및 각 사용자 프로필에 대해, 관계가 사용자 프로필 및 공유 디바이스 간의 연관성을 표시하는지 결정하는 것을 포함할 수 있다. 그 다음, 상기 공유 디바이스와의 연관성을 표시하는 관계를 갖는 사용자 프로필 각각에 대해, 상기 사용자 프로필을 상기 공유 디바이스와 연관된 상기 후보 사용자 프로필들 중 하나인 것으로 식별할 수 있다.
다수의 사용자 프로필들 각각과 공유 디바이스 간의 관계가 사용자 프로필과 공유 디바이스 간의 연관성을 표시하는지 여부를 결정하는 프로세스는 예를 들면, 사용자 프로필이 공유 디바이스에 로그인했었는지 또는 사용자 프로필과 연관된 적어도 하나의 사용자 디바이스가 공유 디바이스와 통신했는지 여부를 결정하는 것을 포함할 수 있다. 결정된 다수의 사용자 프로필들 각각과 공유 디바이스 간의 관계는 예를 들면, 사용자 프로필과 연관된 적어도 하나의 사용자 디바이스와 공유 디바이스의 지리적 근접성을 포함할 수 있다. 다른 예로서, 결정된 다수의 사용자 프로필들 각각과 공유 디바이스 간의 관계는 사회적 연결성을 포함할 수 있고, 상기 사회적 연결성은 적어도 하나의 사회적 연결성 메트릭에 기초한다. 예를 들어, 전술한 바와 같이, 사회적 연결성은 하나 이상의 소셜 그래프, 사용자 간의 하나 이상의 인터렉션들 또는 사용자 간의 계산된 친밀성 점수 등 또는 이들의 임의의 조합에 기초할 수 있다.
도 3으로 돌아가면, 320에서, 프로세스는 상기 후보 사용자 프로필들로부터, 상기 공유 디바이스와 연관된 것으로 결정된 상기 후보 사용자 프로필들 중 적어도 하나와 연관된 후보 발음 속성들을 식별하는 단계를 포함할 수 있다. 예를 들어, 후보 사용자 프로필은 이름, 문구 또는 다른 키워드의 발음을 표현하는 하나 이상의 발음 속성을 포함할 수 있다. 후보 사용자 프로필은 후보 사용자 프로필과 연관된 하나 이상의 발음 속성들을 표현하는 정규 식별자를 포함할 수 있다. 예를 들어, 사용자의 이름은 후보 사용자 프로필과 연관된 발음 속성에 기초하여, 이름의 발음에 대한 설명일 수 있는 정규 형태로 파싱될 수 있다. 따라서, 후보 사용자 프로필들 중 적어도 하나와 연관된 후보 정규 식별자들이 식별될 수 있다.
330에서, 발화된 발언은 공유 디바이스에서 발언이 수신될 수 있다. 발화된 발언은 사용자의 이름, 특정한 키워드, 특정한 문구 또는 명령 등에 대응할 수 있다. 발화된 발언은 예를 들어, 공유 디바이스의 마이크로폰 또는 공유 디바이스와 연관하여 수신될 수 있다. 340에서, 발화된 발언에 대응하는 수신된 오디오 데이터에 기초하여 수신된 발음 속성을 결정될 수 있다. 예를 들어, 음성 인식 프로세스는 발화된 발언에 대응하는 수신된 오디오 데이터에 기초하여 발음 속성을 결정하도록 호출될 수 있다.
350에서, 수신된 발음 속성이 후보 발음 속성들 중 적어도 하나와 비교될 수 있다. 예를 들어, 수신된 발음 속성은 후보 발음 속성과 비교되어, 후보 발음 속성과 수신된 발음 속성 사이에 일치 가능성이 있는지 여부를 결정할 수 있다. 수신된 발음 속성은 다수의 후보 발음 속성들 각각과 비교될 수 있고, 다수의 후보 발음 속성들의 각각과 함께 수신된 발음 속성에 대한 일치의 가능성 또는 확률이 결정될 수 있다.
360에서, 상기 수신된 발음 속성과 상기 후보 발음 속성들 중 적어도 하나와의 비교 결과에 기초하여, 상기 후보 발음 속성들로부터 특정한 발음 속성이 선택될 수 있다. 예를 들어, 특정한 발음 속성은 특정한 발음 속성과 수신된 발음 속성 간의 매칭을 식별하는 것에 기초하여 선택될 수 있다. 특정한 발음 속성은 예를 들어, 후보 발음 속성들 중 하나와 수신된 발음 속성 간의 매칭 가능성이 가장 높거나 가장 높은 확률을 식별하는 것에 기초하여 선택될 수 있다.
370에서, 상기 발화된 발언과 연관된 오디오를 출력하기 위해 상기 후보 발음 속성들로부터 선택된 상기 특정한 발음 속성을 제공될 수 있다. 예를 들어, 공유 디바이스는 특정한 발음 속성에 기초한 이름 또는 단어의 적절한 발음을 포함하는 발화된 발언에 대한 응답을 생성할 수 있다. 따라서, 프로세스(300)는 상기 발화된 발언에 오디오 응답을 제공하는 것을 더 포함하며, 상기 오디오 응답은 상기 후보 발음 속성들로부터 선택된 상기 특정한 발음을 포함한다.
일부 예에서, 수신된 오디오 데이터는 후보 사용자 프로필들로부터 다수의 사용자 프로필들과 연관되도록 결정될 수 있다. 이는 예를 들어, 다수의 사용자들이 같은 이름 또는 유사한 이름을 공유할 때 발생할 수 있다. 이러한 경우에, 선택된 사용자 프로필은 사용자에게 성, 전화 번호, 이메일 주소 등과 같은 다른 식별 정보를 요구함으로써, 다수의 사용자 프로필들을 결정할 때 보정될 수 있다. 이 보정은 사용자가 특정 액션(예: 해당 사용자의 특정적인 것을 기록)에 귀속되어야 하는 경우에만 진행될 수 있다.
다른 예에서, 다수의 사용자 프로필들이 결정되면, 표현된 사용자에 대한 정확한 사용자 프로필이 특정한 액션을 수행하기 위해 즉각적으로 필요하지 않을 때, 동일한 발음이 사용자를 적절하게 다루기 위해 사용될 수 있다. 즉, 발음은 다수의 사용자가 공유할 수 있으므로 다수의 사용자들 중 실제 어떤 사용자인지와 무관하다. 이러한 경우, 시스템은 발음 속성, 예를 들어 발음된 버전의 이름 및 수신된 오디오 데이터와 연관된 것으로 결정된 다수의 후보 사용자 프로필들을 참조하는 상태를 저장할 수 있다. 그 다음 시스템은 사용자와의 인터렉션들을 위해 저장된 상태를 참조할 수 있다. 시스템이 다수의 사용자 프로필들 중에서 특정 사용자 프로필에 대한 속성을 필요로 하는 이벤트 또는 동작을 만날 때, 시스템은 전술한 바와 같은 보정을 진행할 수 있고, 예를 들어, 발언을 말한 사용자에 대한 특정한 정보를 결정하기 위해 사용자로부터의 정보를 식별할 것을 요구한다.
이 프로세스에 따르면, 올바른 발음이 식별되면, 다수의 사용자 프로필들과 연관되어 있더라도, 사용자는 그의 이름에 의해 엔터티로서 참조될 수 있고, 사용자의 액션은 사용자 계정에 기인하지 않을 수 있다. 이러한 경우 시스템은 특정 사용자 프로필이 필요하지 않은(즉 발음된 이름 전용 상태) 사용자와 관련된 액션들의 세트 및 특정 사용자의 프로필이 필요한(즉, 사용자 특정 상태) 액션들의 제2 세트를 가진다. 시스템이 발음된 이름 전용 상태로 동작하고, 특정 사용자의 프로필을 필요로 하는 액션을 위해 사용자 특정 상태에 관여해야 하는 경우, 시스템은 어떤 계정이 사용자의 것인지 특정하기 위해 사용자에게 사용자 특정 정보를 제공하도록 요청하는 이벤트를 프로세싱할 수 있다.
이러한 방식으로, 사용자는 보다 유기적으로 공유 디바이스와 인터렉션할 수 있어, 사용자에게 오디오 응답을 진행하기 위해 사용자로부터 고유하게 식별 가능한 정보를 요청하거나 획득할 필요를 지연시킨다. 따라서 공유 디바이스는 어떤 사용자가 있는지 또는 인터렉션하는지 구분할 뿐만 아니라 정확한 발음을 사용하여 사용자에게 응답하고 참여할 수도 있다.
도 4는 본 명세서에 기술된 기법들과 사용될 수 있는 일반적 컴퓨터 디바이스(400)와 일반적 모바일 컴퓨터 디바이스(450)의 예시를 도시한다. 컴퓨팅 디바이스(400)는 랩톱, 데스크톱, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 컴퓨팅 디바이스(450)는 개인 휴대 정보 단말기, 셀룰러 전화기, 스마트폰 및 다른 유사한 컴퓨팅 디바이스들과 같은 다양한 형태의 모바일 디바이스들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 본 명세서에 기술된 및/또는 청구된 구현예를 제한하는 것을 의미하지는 않는다.
컴퓨팅 디바이스(400)는 프로세서(402), 메모리(404), 저장 디바이스(406), 메모리(404) 및 고속 확장 포트(410)에 연결되는 고속 인터페이스(408) 및 저속 버스(414) 및 저장 디바이스(406)에 연결되는 저속 인터페이스(412)를 포함한다. 컴포넌트들(402, 404, 406, 408, 410 및 412) 각각은 다양한 버스들을 사용하여 상호 연결되고, 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(402)는 메모리(404) 또는 저장 디바이스(406)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(400) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(408)에 연결된 디스플레이(416)와 같은 외부 입/출력 디바이스상에 GUI에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(400)은 필요한 동작의 부분들을 제공하는 각 디바이스와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).
메모리(404)는 컴퓨팅 디바이스(400) 내에 정보를 저장한다. 일 구현예에서, 메모리(404)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현예에서, 메모리(404)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(404)는 자기 또는 광학 디스크와 같은 컴퓨터 판독가능 매체의 다른 형태 일 수 있다.
저장 디바이스(406)는 컴퓨팅 디바이스(400)에 대한 대형 저장소를 제공할 수 있다. 일 구현예에서, 저장 디바이스(406)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이와 같은 컴퓨터 판독가능 매체이거나 컴퓨터 판독가능 매체를 포함할 수 있다. 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록될 수 있다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함할 수 있다. 정보 캐리어는 메모리(404), 저장 디바이스(406) 또는 프로세서(402)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
고속 제어기(408)는 컴퓨팅 디바이스(400)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 제어기(412)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일 구현예에서, 고속 제어기(408)는 메모리(404), 디스플레이(416)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(410)에 연결된다. 구현예에서, 저속 제어기(412)는 저장 디바이스(406) 및 저속 확장 포트(414)에 결합된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.
컴퓨팅 디바이스(400)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 그것은 표준 서버(420)로서 또는 그러한 서버들의 그룹에서 다수로 구현될 수 있다. 또한, 랙 서버 시스템(424)의 일부로서 구현될 수 있다. 또한, 랩톱 컴퓨터(422)와 같은 퍼스널 컴퓨터에서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(400)로부터의 컴포넌트들은 디바이스(450)와 같은 모바일 디바이스(도시되지 않음) 내의 다른 컴포넌트들과 결합될 수 있다. 상기 디바이스들 각각은 컴퓨팅 디바이스(400, 450) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들(400, 450)로 구성될 수 있다.
컴퓨팅 디바이스(450)는 다른 여러 컴포넌트들 중에서도 특히, 프로세서(452), 메모리(464), 디스플레이(454)와 같은 입/출력 디바이스, 통신 인터페이스(466) 및 송수신기(468)를 포함한다. 디바이스(450)에는 또한 추가적 저장을 제공하기 위해 마이크로 드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 컴포넌트들(450, 452, 464, 454, 466 및 468) 각각은 다양한 버스들을 사용하여 상호 연결되고, 몇몇 컴포넌트들은 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다.
프로세서(452)는 메모리(464)에 저장된 명령어들을 포함하는 컴퓨팅 디바이스(640) 내의 명령어들을 실행할 수 있다. 프로세서는 별개의 그리고 다수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로서 구현될 수 있다. 프로세서는 예를 들어 사용자 인터페이스들, 디바이스(450)에 의해 실행되는 어플리케이션 및 디바이스(450)에 의한 무선 통신과 같은 디바이스(450)의 다른 컴포넌트들의 조정을 제공할 수 있다.
프로세서(452)는 제어 인터페이스(648) 및 디스플레이(456)에 연결된 디스플레이 인터페이스(456)를 통해 사용자와 통신할 수 있다. 디스플레이(454)는 예를 들어, TFT LCD(박막 트랜지스터 액정 디스플레이) 또는 OLED(유기 발광 다이오드) 디스플레이 또는 다른 적절한 디스플레이 기술을 포함할 수 있다. 디스플레이 인터페이스(456)는 사용자에게 그래픽 및 다른 정보를 제공하기 위해 디스플레이(454)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(458)는 사용자로부터 명령을 수신하고, 프로세서(452)에 제출하기 위해 그들을 변환할 수 있다. 추가로, 외부 인터페이스(462)는 프로세서(452)와의 통신에 제공되어 다른 디바이스들과 디바이스(450)의 근거리 통신을 가능하게할 수 있다. 외부 인터페이스(462)는 예를 들면, 일부 구현예들에서는 유선 통신을 위해 또는 다른 구현예들에서는 무선 통신을 위해 제공될 수 있고, 다수의 인터페이스들도 사용될 수 있다.
메모리(464)는 컴퓨팅 디바이스(450) 내에 정보를 저장한다. 메모리(464)는 컴퓨터 판독가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 또한 확장 메모리(454)는 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(452)를 통해 디바이스(450)에 제공되고 접속될 수 있다. 상기 확장 메모리(454)는 디바이스(450)에 대해 추가 저장 공간을 제공할 수 있거나, 또는 어플리케이션들 또는 디바이스(450)에 대한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(454)는 전술한 프로세스들을 수행하거나 보충하는 명령어들을 포함할 수 있으며, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들면, 확장 메모리(454)는 디바이스(450)에 대한 보안 모듈로서 제공될 수 있고, 디바이스(450)의 보안 사용을 허용하는 명령어들로 프로그래밍될 수 있다. 또한, 보안 어플리케이션들은 SIMM 카드 상의 식별 정보를 해킹할 수 없는 방식으로 배치하는 것과 같이, SIMM 카드들을 통해 추가 정보와 함께 제공될 수 있다.
메모리는 예를 들어, 후술되는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록된다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 정보 캐리어는 예를 들어 송수신기(468) 또는 외부 인터페이스(462)를 통해 수신될 수 있는 메모리(464), 확장 메모리(454) 또는 프로세서(452)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
디바이스(450)는 필요에 따라 디지털 신호 처리 회로를 포함할 수 있는 통신 인터페이스(466)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(466)는 다른 것들 중에서도 GSM 보이스 콜들, SMS, EMS 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000 또는 GPRS와 같은 다양한 모드들 또는 프로토콜들 하에서의 통신을 위해 제공될 수 있다. 이러한 통신은 예를 들어, 무선 주파수 송수신기(468)를 통해 발생될 수 있다. 추가로, 블루투스, Wi-Fi 또는 다른 트랜시버(도시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생될 수 있다. 추가로, GPS(Global Positioning System) 수신기 모듈(450)은 디바이스(450)상에서 실행되는 어플리케이션들에 의해 적절히 사용될 수 있는 추가적인 네비게이션 및 위치 관련 무선 데이터를 디바이스(450)에 제공할 수 있다.
디바이스(450)는 또한 사용자로부터 발화된 정보를 수신하고 그것을 이용가능한 디지털 정보로 변환할 수 있는 오디오 코덱(460)을 사용하여 청각적으로 통신할 수 있다. 오디오 코덱(460)은 마찬가지로, 예를 들어 디바이스(450)의 핸드셋 내의 스피커를 통하는 것과 같이, 사용자를 위한 가청 사운드를 생성할 수 있다. 이러한 사운드는 보이스 전화 콜들로부터의 사운드 포함할 수 있고, 기록된 사운드(예를 들어, 음성 메시지, 음악 파일 등)를 포함할 수 있고, 또한 디바이스(450)상에서 동작하는 어플리케이션들에 의해 생성된 사운드를 포함할 수 있다.
컴퓨팅 디바이스(450)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들면, 그것은 셀룰러 전화(480)로서 구현될 수 있다. 또한 스마트폰(482), 개인 휴대 정보 단말기(PDA), 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.
다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 예를 들어, 위에 도시된 흐름의 다양한 형태가 재배열, 추가 또는 제거된 단계와 함께 사용될 수 있다.
본 발명의 구현예들과 본 명세서에 기술된 모든 기능적 동작들은 본 발명에 개시된 구조들 및 그들의 구조적 균등물들 또는 그들 중 하나 이상의 조합들을 포함하는 디지털 전자회로 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서 구현될 수 있다. 본 발명의 구현예들은 하나 이상의 컴퓨터 프로그램 물들로서 구현될 수 있다. 즉, 데이터 프로세싱 장치에 의해 실행 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 컴퓨터 판독가능 매체에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들. 컴퓨터 판독가능 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판, 메모리 디바이스, 기계 판독가능 전파된 신호를 발생시키는 물질의 복합 또는 이들 중 하나 이상의 조합일 수 있다. 용어 "데이터 프로세싱 장치"는 예시로서 프로그래머블 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 장치, 디바이스들 및 기계들을 포함한다. 장치는 하드웨어 이외에 문제의 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 전파된 신호는 인공적으로 생성된 신호, 예를 들어, 적절한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위해 생성된 기계 생성 전기적, 광학적 또는 전자기적 신호이다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 또는 코드로도 알려져 있음)은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴으로서 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 단위를 포함하는 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있지만, 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들이나 데이터, 예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트들을 가지는 파일의 부분에, 문제되는 프로그램 전용 단일의 파일에 또는 다수의 조정된 파일들, 예를 들어, 하나 이상의 모듈들, 서브프로그램 또는 코드의 일부를 저장하는 파일들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 위치되어 있거나 다수의 사이트들에 걸쳐서 분산되어 있고 통신 네트워크에 의해 상호연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.
이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 어플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 디바이스 예를 들어, 자기 디스크, 광학 디스크, 메모리, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 특수 목적 논리 회로로서 구현될 수 있다.
컴퓨터 프로그램의 실행에 적절한 프로세서들은, 예시로서, 범용 및 전용 마이크로프로세서들과 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하기 위한 프로세서 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야하는 것은 아니다. 또한, 컴퓨터는 태블릿 컴퓨터, 모바일폰, 개인 휴대정보 단말기(PDA), 모바일 오디오 플레이어, GPS(Global Positioning System) 수신기와 같은 다른 디바이스에 내장될 수 있다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.
사용자와의 인터렉션을 제공하기 위해, 본 발명의 구현예들은 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 디바이스 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
본 발명의 구현예는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 발명의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들어, 인터넷을 포함한다.
컴퓨팅 시스템은 사용자들 및 서버들을 포함할 수 있다. 사용자와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터렉션한다. 사용자와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 사용자-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.
본 명세서는 많은 세부내용을 포함하지만, 이들은 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 발명의 특정한 구현예에 특정한 구성들에 대한 설명으로 해석되어야 한다. 별개의 구현예의 맥락에서 본 명세서에서 기술되는 일정 구성들은 또한 단일 구현예에서 조합하여 구현될 수 있다. 반대로, 단일 구현예의 맥락에서 기술된 다양한 구성들은 또한 다수의 구현예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 게다가, 구성들은 일정 조합으로 동작하고 심지어 초기적으로 그렇게 청구되는 것으로서 상기에서 기술될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우, 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 안내될 수 있다.
유사하게, 동작들이 특정한 순서로 도면에서 도시되었지만, 이는 상기 동작들이 도시된 특정한 순서로 또는 시계열적 순서로 수행되어야 함을 요구하는 것으로서 또는 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안된다. 특정 환경에서, 멀티태스킹과 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 구현예에서 다양한 시스템 컴포넌트들의 분리는 모든 구현예에서 그러한 분리가 필요한 것으로서 이해되어서는 안되며, 일반적으로 기술된 프로그램 컴포넌트들 및 시스템들은 단일의 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들에 패키징될 수 있다고 이해되어야 한다.
HTML 파일이 언급된 각 경우에, 다른 파일 유형 또는 형식이 대체될 수 있다. 예를 들어, HTML 파일은 XML, JSON, 일반 텍스트 또는 다른 유형의 파일로 교체될 수 있다. 또한, 테이블 또는 해시 테이블이 언급된 경우, 다른 데이터 구조(예: 스프레드시트, 관계형 데이터베이스 또는 구조화된 파일)가 사용될 수 있다.
본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스으로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.
따라서, 본 발명의 특정한 구현예들이 기술되었다. 다른 구현예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에서 기재된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과들을 달성할 수 있다. 다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 예를 들어, 위에 도시된 흐름의 다양한 형태가 재배열, 추가 또는 제거된 단계와 함께 사용될 수 있다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims (27)

  1. 컴퓨터로 구현되는 방법으로서,
    다수의 사용자들 중 각각의 사용자와 각각 연관된 다수의 사용자 프로필들을 저장하는 디지털 어시스턴트 디바이스에 의해, 상기 다수의 사용자들 중 특정한 사용자의 음성 명령을 수신하는 단계, 상기 음성 명령은 상기 다수의 사용자들 중 특정한 사용자에 의해 고유하게 발음된 특정한 용어를 포함하며, 상기 디지털 어시스턴트 디바이스에 의해 저장된 각 사용자 프로필은 상기 각각의 사용자가 고유하게 발음하는 용어들에 대한 발음 데이터를 특정하며;
    상기 음성 명령을 상기 디지털 어시스턴트에 의해 저장된 상기 다수의 저장된 사용자 프로필들 중에서 특정한 사용자 프로필과 매칭시키는 단계;
    상기 디지털 어시스턴트 디바이스에 의해, 상기 음성 명령의 수신확인을 생성하는 단계, 상기 수신확인은 상기 특정한 용어 및 상기 매칭된 특정한 사용자 프로필에 저장되었고 상기 다수의 사용자들 중 특정한 사용자에 의한 상기 특정한 용어의 고유한 발음을 반영하는 발음 데이터를 포함하며; 및
    상기 디지털 어시스턴트 디바이스의 음성 합성기에 의한 출력을 위해, 상기 수신확인의 발화된 표현을 제공하는 단계를 포함하며, 상기 음성 명령의 수신확인의 발화된 표현은 상기 특정한 용어를 상기 다수의 사용자들 중 특정한 사용자에 의해 고유하게 발음된 대로 포함하는, 방법.
  2. 청구항 1에 있어서,
    상기 디지털 어시스턴트 디바이스는 자동 음성 인식기를 포함하는, 방법.
  3. 청구항 1에 있어서,
    상기 특정한 용어는 상기 음성 명령의 객체인 이름을 포함하는, 방법.
  4. 청구항 1에 있어서,
    상기 음성 데이터는 상기 특정한 용어의 특정한 음절에 강세(emphasis)가 위치할 곳을 표시하는, 방법.
  5. 청구항 1에 있어서,
    상기 다수의 사용자들 중 특정한 사용자가 상기 음성 명령을 발화했음을 결정하는 단계를 더 포함하는, 방법.
  6. 청구항 1에 있어서,
    상기 다수의 사용자들 중 특정한 사용자는 상기 다수의 사용자들 중 특정한 사용자와 연관되는 것으로 알려진 디바이스와 연관된 단범위 신호 검출에 기초하여 상기 음성 명령을 발화한 것으로 결정되는, 방법.
  7. 하나 이상의 컴퓨터 및 동작가능한 명령어를 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템으로서, 상기 명령어는 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    다수의 사용자들 중 각각의 사용자와 각각 연관된 다수의 사용자 프로필들을 저장하는 디지털 어시스턴트 디바이스에 의해, 상기 다수의 사용자들 중 특정한 사용자의 음성 명령을 수신하는 동작, 상기 음성 명령은 상기 다수의 사용자들 중 특정한 사용자에 의해 고유하게 발음된 특정한 용어를 포함하며, 상기 디지털 어시스턴트 디바이스에 의해 저장된 각 사용자 프로필은 상기 각각의 사용자가 고유하게 발음하는 용어들에 대한 발음 데이터를 특정하며;
    상기 음성 명령을 상기 디지털 어시스턴트에 의해 저장된 상기 다수의 저장된 사용자 프로필들 중에서 특정한 사용자 프로필과 매칭시키는 동작;
    상기 디지털 어시스턴트 디바이스에 의해, 상기 음성 명령의 수신확인을 생성하는 동작, 상기 수신확인은 상기 특정한 용어 및 상기 매칭된 특정한 사용자 프로필에 저장되었고 상기 다수의 사용자들 중 특정한 사용자에 의한 상기 특정한 용어의 고유한 발음을 반영하는 발음 데이터를 포함하며; 및
    상기 디지털 어시스턴트 디바이스의 음성 합성기에 의한 출력을 위해, 상기 수신확인의 발화된 표현을 제공하는 동작을 포함하며, 상기 음성 명령의 수신확인의 발화된 표현은 상기 특정한 용어를 상기 다수의 사용자들 중 특정한 사용자에 의해 고유하게 발음된 대로 포함하는, 시스템.
  8. 청구항 7에 있어서,
    상기 디지털 어시스턴트 디바이스는 자동 음성 인식기를 포함하는, 시스템.
  9. 청구항 7에 있어서,
    상기 특정한 용어는 상기 음성 명령의 객체인 이름을 포함하는, 시스템.
  10. 청구항 7에 있어서,
    상기 음성 데이터는 상기 특정한 용어의 특정한 음절에 강세(emphasis)가 위치할 곳을 표시하는, 시스템.
  11. 청구항 7에 있어서,
    상기 다수의 사용자들 중 특정한 사용자가 상기 음성 명령을 발화했음을 결정하는 동작을 더 포함하는, 시스템.
  12. 청구항 7에 있어서,
    상기 다수의 사용자들 중 특정한 사용자는 상기 다수의 사용자들 중 특정한 사용자와 연관되는 것으로 알려진 디바이스와 연관된 단범위 신호 검출에 기초하여 상기 음성 명령을 발화한 것으로 결정되는, 시스템.
  13. 하나 이상의 컴퓨터에 의해 실행가능한 명령어를 저장하는 컴퓨터 판독가능 저장 디바이스로서, 상기 명령어는 실행시 상기 하나 이상의 컴퓨터로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    다수의 사용자들 중 각각의 사용자와 각각 연관된 다수의 사용자 프로필들을 저장하는 디지털 어시스턴트 디바이스에 의해, 상기 다수의 사용자들 중 특정한 사용자의 음성 명령을 수신하는 동작, 상기 음성 명령은 상기 다수의 사용자들 중 특정한 사용자에 의해 고유하게 발음된 특정한 용어를 포함하며, 상기 디지털 어시스턴트 디바이스에 의해 저장된 각 사용자 프로필은 상기 각각의 사용자가 고유하게 발음하는 용어들에 대한 발음 데이터를 특정하며;
    상기 음성 명령을 상기 디지털 어시스턴트에 의해 저장된 상기 다수의 저장된 사용자 프로필들 중에서 특정한 사용자 프로필과 매칭시키는 동작;
    상기 디지털 어시스턴트 디바이스에 의해, 상기 음성 명령의 수신확인을 생성하는 동작, 상기 수신확인은 상기 특정한 용어 및 상기 매칭된 특정한 사용자 프로필에 저장되었고 상기 다수의 사용자들 중 특정한 사용자에 의한 상기 특정한 용어의 고유한 발음을 반영하는 발음 데이터를 포함하며; 및
    상기 디지털 어시스턴트 디바이스의 음성 합성기에 의한 출력을 위해, 상기 수신확인의 발화된 표현을 제공하는 동작을 포함하며, 상기 음성 명령의 수신확인의 발화된 표현은 상기 특정한 용어를 상기 다수의 사용자들 중 특정한 사용자에 의해 고유하게 발음된 대로 포함하는, 컴퓨터 판독가능 저장 디바이스.
  14. 하나 이상의 프로세서에 의해 구현되는 방법에 있어서,
    공유된 디지털 어시스턴트 디바이스에서, 사용자의 발화된 발언을 수신하는 단계;
    상기 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다고 결정하는 단계;
    상기 발화된 발언이 상기 공유된 디지털 어시스턴트 디바이스의 어시스턴트에 의해 수행될 액션과 연관된 명령에 대응한다고 결정하는 단계;
    상기 어시스턴트에 의해 수행될 액션은 특정 사용자 프로필에 반드시 귀속되어야 한다고 결정하는 단계;
    상기 액션이 특정 사용자 프로필에 반드시 귀속되어야 한다는 결정에 기초하여, 상기 후보 사용자 프로필들 중 특정한 사용자 프로필을 선택하는 단계, 상기 특정한 사용자 프로필을 선택하는 단계는:
    상기 공유된 디지털 어시스턴트 디바이스의 사용자 인터페이스에서, 식별 정보와 관련된 질문을 제공하는 단계;
    상기 공유된 디지털 어시스턴트 디바이스에서, 상기 질문에 응답하는 사용자 입력을 수신하는 단계;
    상기 질문에 응답하는 사용자 입력을 상기 복수의 후보 사용자 프로필들 중 적어도 하나에 대한 대응 식별 정보와 비교하는 단계;
    상기 비교에 기초하여, 상기 복수의 후보 사용자 프로필들 중 특정한 사용자 프로필을 상기 특정 사용자 프로필로서 식별하는 단계; 및
    상기 특정한 사용자 프로필을 식별함에 후속하여:
    상기 액션을 상기 특정한 사용자 프로필에 귀속시키는 단계;
    상기 사용자의 발화된 발언에 대응하는 상기 명령과 연관된 액션을 수행하는 단계; 및
    상기 공유된 디지털 어시스턴트 디바이스의 사용자 인터페이스에서, 상기 명령, 상기 액션 또는 상기 귀속과 관련된 오디오 출력을 제공하는 단계를 포함하는, 방법.
  15. 청구항 14에 있어서,
    각 후보 사용자 프로필은 대응 발음 속성들과 연관되는, 방법.
  16. 청구항 15에 있어서,
    상기 오디오 출력은 상기 특정한 사용자 프로필과 연관된 대응 발음 속성들 중 하나 이상을 포함하는, 방법.
  17. 청구항 15에 있어서,
    상기 비교하는 단계는 상기 질문에 응답하는 사용자 입력을 상기 복수의 후보 사용자 프로필들 중 적어도 하나와 연관된 대응 발음 속성들과 비교하는 단계를 포함하는, 방법.
  18. 청구항 15에 있어서,
    상기 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다고 결정하는 단계는:
    상기 발화된 발언의 하나 이상의 발음 속성들을 결정하는 단계;
    상기 발화된 발언의 하나 이상의 발음 속설들과 복수의 사용자 프로필들과 연관된 대응 발음 속성들을 비교하는 단계; 및
    상기 비교에 기초하여, 상기 복수의 사용자 프로필들 중 상기 복수의 후보 사용자 프로필들을 식별하는 단계를 포함하는, 방법.
  19. 청구항 14에 있어서,
    상기 식별 정보는 전화 번호를 포함하는, 방법.
  20. 청구항 14에 있어서,
    상기 공유된 디지털 어시스턴트 디바이스에서, 사용자의 추가 발화된 발언을 수신하는 단계;
    상기 추가 발화된 발언이 상기 공유된 디지털 어시스턴트 디바이스의 어시스턴트에 의해 수행될 추가 액션과 연관된 추가 명령에 대응한다고 결정하는 단계;
    상기 추가 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다고 결정하는 단계;
    상기 추가 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다는 결정에 후속하여:
    상기 어시스턴트에 의해 수행될 추가 액션이 데이터베이스에서 특정 사용자 프로필에 귀속될 필요가 없다고 결정하는 단계;
    추가 액션이 특정 사용자 프로필에 귀속될 필요가 없다는 결정에 기초하여:
    상기 공유된 디지털 어시스턴트 디바이스의 사용자 인터페이스에서, 상기 추가 액션 또는 추가 명령과 관련된 추가 오디오 출력을 제공하는 단계를 더 포함하는, 방법.
  21. 하나 이상의 컴퓨터 및 동작가능한 명령어를 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템으로서, 상기 명령어는 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    공유된 디지털 어시스턴트 디바이스에서, 사용자의 발화된 발언을 수신하는 동작;
    상기 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다고 결정하는 동작;
    상기 발화된 발언이 상기 공유된 디지털 어시스턴트 디바이스의 어시스턴트에 의해 수행될 액션과 연관된 명령에 대응한다고 결정하는 동작;
    상기 어시스턴트에 의해 수행될 액션은 특정 사용자 프로필에 반드시 귀속되어야 한다고 결정하는 동작;
    상기 액션이 특정 사용자 프로필에 반드시 귀속되어야 한다는 결정에 기초하여, 상기 후보 사용자 프로필들 중 특정한 사용자 프로필을 선택하는 동작, 상기 특정한 사용자 프로필을 선택하는 동작은:
    상기 공유된 디지털 어시스턴트 디바이스의 사용자 인터페이스에서, 식별 정보와 관련된 질문을 제공하는 동작;
    상기 공유된 디지털 어시스턴트 디바이스에서, 상기 질문에 응답하는 사용자 입력을 수신하는 동작;
    상기 질문에 응답하는 사용자 입력을 상기 복수의 후보 사용자 프로필들 중 적어도 하나에 대한 대응 식별 정보와 비교하는 동작;
    상기 비교에 기초하여, 상기 복수의 후보 사용자 프로필들 중 특정한 사용자 프로필을 상기 특정 사용자 프로필로서 식별하는 동작; 및
    상기 특정한 사용자 프로필을 식별함에 후속하여:
    상기 액션을 상기 특정한 사용자 프로필에 귀속시키는 동작;
    상기 사용자의 발화된 발언에 대응하는 상기 명령과 연관된 액션을 수행하는 동작; 및
    상기 공유된 디지털 어시스턴트 디바이스의 사용자 인터페이스에서, 상기 명령, 상기 액션 또는 상기 귀속과 관련된 오디오 출력을 제공하는 동작을 포함하는, 시스템.
  22. 청구항 21에 있어서,
    각 후보 사용자 프로필은 대응 발음 속성들과 연관되는, 시스템.
  23. 청구항 22에 있어서,
    상기 오디오 출력은 상기 특정한 사용자 프로필과 연관된 대응 발음 속성들 중 하나 이상을 포함하는, 시스템.
  24. 청구항 22에 있어서,
    상기 비교하는 동작은 상기 질문에 응답하는 사용자 입력을 상기 복수의 후보 사용자 프로필들 중 적어도 하나와 연관된 대응 발음 속성들과 비교하는 동작을 포함하는, 시스템.
  25. 청구항 22에 있어서,
    상기 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다고 결정하는 동작은:
    상기 발화된 발언의 하나 이상의 발음 속성들을 결정하는 동작;
    상기 발화된 발언의 하나 이상의 발음 속설들과 복수의 사용자 프로필들과 연관된 대응 발음 속성들을 비교하는 동작; 및
    상기 비교에 기초하여, 상기 복수의 사용자 프로필들 중 상기 복수의 후보 사용자 프로필들을 식별하는 동작을 포함하는, 시스템.
  26. 청구항 21에 있어서,
    상기 식별 정보는 전화 번호를 포함하는, 시스템.
  27. 청구항 21에 있어서,
    상기 공유된 디지털 어시스턴트 디바이스에서, 사용자의 추가 발화된 발언을 수신하는 동작;
    상기 추가 발화된 발언이 상기 공유된 디지털 어시스턴트 디바이스의 어시스턴트에 의해 수행될 추가 액션과 연관된 추가 명령에 대응한다고 결정하는 동작;
    상기 추가 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다고 결정하는 동작;
    상기 추가 발화된 발언이 복수의 후보 사용자 프로필들과 매칭된다는 결정에 후속하여:
    상기 어시스턴트에 의해 수행될 추가 액션이 데이터베이스에서 특정 사용자 프로필에 귀속될 필요가 없다고 결정하는 동작;
    추가 액션이 특정 사용자 프로필에 귀속될 필요가 없다는 결정에 기초하여:
    상기 공유된 디지털 어시스턴트 디바이스의 사용자 인터페이스에서, 상기 추가 액션 또는 추가 명령과 관련된 추가 오디오 출력을 제공하는 동작을 더 포함하는, 시스템.
KR1020217021018A 2016-12-29 2017-07-19 자동화된 스피치 발음 속성 KR102493292B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US15/394,104 US10013971B1 (en) 2016-12-29 2016-12-29 Automated speech pronunciation attribution
US15/394,104 2016-12-29
KR1020197021660A KR102276282B1 (ko) 2016-12-29 2017-07-19 자동화된 스피치 발음 속성
PCT/US2017/042788 WO2018125289A1 (en) 2016-12-29 2017-07-19 Automated speech pronunciation attribution

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197021660A Division KR102276282B1 (ko) 2016-12-29 2017-07-19 자동화된 스피치 발음 속성

Publications (2)

Publication Number Publication Date
KR20210088743A true KR20210088743A (ko) 2021-07-14
KR102493292B1 KR102493292B1 (ko) 2023-01-30

Family

ID=59485451

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020217021018A KR102493292B1 (ko) 2016-12-29 2017-07-19 자동화된 스피치 발음 속성
KR1020197021660A KR102276282B1 (ko) 2016-12-29 2017-07-19 자동화된 스피치 발음 속성

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197021660A KR102276282B1 (ko) 2016-12-29 2017-07-19 자동화된 스피치 발음 속성

Country Status (8)

Country Link
US (3) US10013971B1 (ko)
EP (1) EP3485486B1 (ko)
JP (2) JP6821814B2 (ko)
KR (2) KR102493292B1 (ko)
CN (2) CN110349591B (ko)
DE (2) DE202017105741U1 (ko)
GB (1) GB2558353A (ko)
WO (1) WO2018125289A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013971B1 (en) * 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution
US11632345B1 (en) * 2017-03-31 2023-04-18 Amazon Technologies, Inc. Message management for communal account
US20190073994A1 (en) * 2017-09-05 2019-03-07 Microsoft Technology Licensing, Llc Self-correcting computer based name entity pronunciations for speech recognition and synthesis
US10930274B2 (en) 2018-11-30 2021-02-23 International Business Machines Corporation Personalized pronunciation hints based on user speech
WO2020213767A1 (ko) * 2019-04-19 2020-10-22 엘지전자 주식회사 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
US11263400B2 (en) * 2019-07-05 2022-03-01 Google Llc Identifying entity attribute relations
KR20210089295A (ko) * 2020-01-07 2021-07-16 엘지전자 주식회사 인공지능 기반의 정보 처리 방법
CN111554300B (zh) * 2020-06-30 2021-04-13 腾讯科技(深圳)有限公司 音频数据处理方法、装置、存储介质及设备
US11615795B2 (en) 2020-08-03 2023-03-28 HCL America Inc. Method and system for providing secured access to services rendered by a digital voice assistant
US12020683B2 (en) * 2021-10-28 2024-06-25 Microsoft Technology Licensing, Llc Real-time name mispronunciation detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030013855A (ko) * 2001-08-09 2003-02-15 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US20130110511A1 (en) * 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029200A (en) 1989-05-02 1991-07-02 At&T Bell Laboratories Voice message system using synthetic speech
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
TW274135B (ko) 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
JP3542026B2 (ja) 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US6738738B2 (en) 2000-12-23 2004-05-18 Tellme Networks, Inc. Automated transformation from American English to British English
US7043431B2 (en) 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US6985865B1 (en) 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7027832B2 (en) * 2001-11-28 2006-04-11 Qualcomm Incorporated Providing custom audio profile in wireless device
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
WO2005027093A1 (en) 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
US7266495B1 (en) 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
WO2005042314A1 (en) * 2003-10-21 2005-05-12 Johnson Controls Technology Company System and method for selecting a user speech profile for a device in a vehicle
US7299181B2 (en) 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
US8255223B2 (en) 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
US8315484B2 (en) 2006-02-17 2012-11-20 Lumex As Method and system for verification of uncertainly recognized words in an OCR system
US8015014B2 (en) * 2006-06-16 2011-09-06 Storz Endoskop Produktions Gmbh Speech recognition system with user profiles management component
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
JP5366169B2 (ja) 2006-11-30 2013-12-11 独立行政法人産業技術総合研究所 音声認識システム及び音声認識システム用プログラム
US20080153465A1 (en) 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101266600A (zh) * 2008-05-07 2008-09-17 陈光火 多媒体多语言互动同步翻译方法
US8510103B2 (en) 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
CN102985959A (zh) * 2010-04-07 2013-03-20 麦克斯价值解决方案国际有限公司 用于姓名发音指导服务的方法和系统
CN102682763B (zh) 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US20120253817A1 (en) 2011-04-04 2012-10-04 Mitel Networks Corporation Mobile speech attendant access
US9009041B2 (en) 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US8719202B1 (en) * 2011-11-22 2014-05-06 Intellectual Ventures Fund 79 Llc Methods, devices, and mediums associated with monitoring and managing exercise fitness
US9213412B2 (en) * 2013-01-04 2015-12-15 Intel Corporation Multi-distance, multi-modal natural user interaction with computing devices
US9460088B1 (en) 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
US9298811B2 (en) * 2013-07-15 2016-03-29 International Business Machines Corporation Automated confirmation and disambiguation modules in voice applications
CN103442290A (zh) * 2013-08-15 2013-12-11 安徽科大讯飞信息科技股份有限公司 基于电视终端用户及语音的信息提供方法及系统
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
WO2015057907A2 (en) 2013-10-16 2015-04-23 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
US9263032B2 (en) 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US9589562B2 (en) 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US9711141B2 (en) * 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10102852B2 (en) 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10832684B2 (en) 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
US10013971B1 (en) * 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030013855A (ko) * 2001-08-09 2003-02-15 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US20130110511A1 (en) * 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication

Also Published As

Publication number Publication date
KR20190100309A (ko) 2019-08-28
US10559296B2 (en) 2020-02-11
JP6821814B2 (ja) 2021-01-27
US20180286382A1 (en) 2018-10-04
US20180190262A1 (en) 2018-07-05
CN108257608A (zh) 2018-07-06
JP2021060620A (ja) 2021-04-15
CN110349591B (zh) 2021-02-26
CN108257608B (zh) 2019-06-28
GB201715809D0 (en) 2017-11-15
US10013971B1 (en) 2018-07-03
GB2558353A (en) 2018-07-11
KR102493292B1 (ko) 2023-01-30
WO2018125289A1 (en) 2018-07-05
KR102276282B1 (ko) 2021-07-12
US11081099B2 (en) 2021-08-03
EP3485486B1 (en) 2019-11-13
CN110349591A (zh) 2019-10-18
EP3485486A1 (en) 2019-05-22
US20200243063A1 (en) 2020-07-30
JP2020503561A (ja) 2020-01-30
DE202017105741U1 (de) 2018-04-03
JP7163424B2 (ja) 2022-10-31
DE102017121913A1 (de) 2018-07-05

Similar Documents

Publication Publication Date Title
KR102276282B1 (ko) 자동화된 스피치 발음 속성
KR102332944B1 (ko) 서버 사이드 핫워딩
KR102201937B1 (ko) 후속 음성 쿼리 예측
KR101859708B1 (ko) 개별화된 핫워드 검출 모델들
US10643614B2 (en) Promoting voice actions to hotwords
US9123339B1 (en) Speech recognition using repeated utterances
WO2016167992A1 (en) A method and system for speech synthesis for voice queries

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant