KR102097097B1 - 사용자-녹음 오디오의 생성 및 재생 촉진 - Google Patents
사용자-녹음 오디오의 생성 및 재생 촉진 Download PDFInfo
- Publication number
- KR102097097B1 KR102097097B1 KR1020197017813A KR20197017813A KR102097097B1 KR 102097097 B1 KR102097097 B1 KR 102097097B1 KR 1020197017813 A KR1020197017813 A KR 1020197017813A KR 20197017813 A KR20197017813 A KR 20197017813A KR 102097097 B1 KR102097097 B1 KR 102097097B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- input
- voice
- audio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2 내지 도 5는 다양한 구현에 따른 다양한 사용자와 자동화 어시스턴트 간의 예시적인 대화를 나타낸다.
도 6 및 도 7은 본 명세서에 개시된 구현예에 따른 예시적인 방법을 도시하는 흐름도이다.
도 8은 컴퓨팅 디바이스의 예시적인 아키텍처를 도시한다.
Claims (20)
- 음성 인식(voice-enabled) 방법에 있어서,
제1 사용자가 오디오 컨텐츠를 녹음(record)하려고 의도함을 나타내는 입력을 제1 사용자로부터 수신하는 것에 응답하여, 오디오 컨텐츠의 캡처 및 저장을 수행(cause)하는 단계와;
상기 오디오 컨텐츠에 대한 적어도 하나의 식별자를 나타내는 입력을 제1 사용자로부터 수신하는 단계와;
저장된 오디오 컨텐츠를 상기 적어도 하나의 식별자와 연관시키는 단계와;
후속 사용자로부터 음성(voice) 입력을 수신하는 단계와;
상기 음성 입력의 특성을 분석하는 단계와;
상기 음성 입력이 특정 특성을 갖는다고 결정하는 것에 응답하여, 상기 적어도 하나의 식별자의 인식에 대한 음성 입력에 대하여 음성(speech) 인식을 바이어싱하는 단계로서, 상기 적어도 하나의 식별자가 인식되는 가능성을 증가시키기 위해 음성-텍스트 변환 모델의 하나 이상의 값을 변경하거나 음성-텍스트 변환 모델에 의해 생성된 값을 수정하는 단계를 포함하고, 상기 특정 특성은 후속 사용자가 제1 사용자와 다른 누군가임을 나타내고; 그리고
상기 바이어싱된 음성 인식에 기초하여, 상기 음성 입력내의 적어도 하나의 식별자의 존재를 인식하는 것에 응답하여, 상기 저장된 오디오 컨텐츠의 재생을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. - 제1항에 있어서,
상기 음성 입력의 비-인식(non-recognition)을 야기하는 상기 바이어싱된 음성 인식에 응답하여, 상기 후속 사용자가 상기 저장된 컨텐츠의 재생을 가능하게 하는 선택 가능한 옵션을 후속 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. - 제2항에 있어서,
상기 선택 가능한 옵션은 상기 적어도 하나의 식별자를 포함하는 것을 특징으로 하는 음성 인식 방법. - 제2항에 있어서,
상기 선택 가능한 옵션은 오디오 프롬프트인 것을 특징으로 하는 음성 인식 방법. - 제1항에 있어서,
상기 제1 사용자가 상기 오디오 컨텐츠를 녹음하려고 의도함을 나타내는 상기 제1 사용자로부터의 입력을 수신하는 것에 응답하여, 상기 적어도 하나의 식별자를 나타내는 상기 입력을 제공하도록 제1 사용자에게 지시하는 프롬프트를 제1 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. - 음성 인식 컴퓨터 구현 방법에 있어서,
하나 이상의 입력 디바이스에서 음성-작동(voice-activated) 제품에 의해, 사용자로부터 제1 커맨드를 수신하는 단계와, 상기 제1 커맨드는 사용자가 내러티브의 가청 렌디션(rendition)을 녹음하기를 원함을 음성-작동 제품에 통지하고;
하나 이상의 입력 디바이스에서 상기 음성-작동 제품에 의해, 사용자로부터 서지 입력을 수신하는 단계와, 상기 서지 입력은 상기 내러티브와 관련된 서지 정보를 나타내고;
오디오 입력 디바이스를 통해 상기 음성-작동 제품에 의해, 사용자에 의해 발화된 상기 내러티브의 상기 가청 렌디션을 녹음하는 단계와;
상기 음성-작동 제품에 이용 가능한 컴퓨터 메모리에, 사용자에 의해 발화된 내러티브의 상기 녹음된 가청 렌디션을 포함하는 오디오 파일을 저장하는 단계와, 상기 오디오 파일은 상기 서지 정보에 적어도 부분적으로 기초하여 상기 컴퓨터 메모리에서 색인되고; 그리고
오디오 출력 디바이스를 통해 상기 음성-작동 제품에 의해, 후속 사용자로부터 하나 이상의 입력 디바이스에서 수신된 제2 커맨드에 응답하여 상기 오디오 파일을 렌더링하는 단계를 포함하고, 상기 제2 커맨드는 상기 서지 정보의 표시를 포함하고,
상기 제2 커맨드는 음성 입력내의 상기 서지 정보의 표시의 존재를 인식하는 것에 응답하여 실행되고,
상기 음성 입력내의 상기 서지 정보의 표시의 존재를 인식하는 단계는 상기 음성 입력이 특정 특성을 갖는 것으로 결정되면, 상기 서지 정보의 표시의 존재를 를 인식하기 위해 상기 음성 입력에 대한 음성 인식을 바이어싱하는 단계를 포함하고, 상기 특정 특성은 후속 사용자가 상기 사용자와 다른 누군가임을 나타내고, 그리고
상기 서지 정보의 표시를 인식하기 위해 상기 음성 입력을 바이어 싱하는 단계는 상기 서지 정보의 표시가 인식될 가능성을 증가시키기 위해 음성-텍스트 변환 모델의 하나 이상의 값을 변경하거나 음성-텍스트 변환 모델에 의해 생성된 값을 수정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 제1 커맨드는 상기 오디오 입력 디바이스를 통해 수신된 음성(speech)을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
하나 이상의 출력 디바이스에서 상기 음성-작동 제품에 의해, 상기 내러티브와 관련된 상기 서지 정보에 대한 요청을 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 서지 입력은 상기 오디오 입력 디바이스를 통해 수신된 음성을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 제2 커맨드는 상기 오디오 입력 디바이스를 통해 수신된 음성을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 내러티브는 기존 기록 저작물을 포함하고, 상기 방법은 상기 서지 정보를 데이터베이스내의 기존 기록 저작물과 매칭시키는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제11항에 있어서,
하나 이상의 출력 디바이스를 통해 상기 음성-작동 제품에 의해, 상기 기존 기록 저작물과 추가 정보를 데이터베이스에 제공하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제12항에 있어서,
상기 추가 정보는 상기 기존 기록 저작물을 나타내는 시각적 렌디션을 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제11항에 있어서,
상기 오디오 파일은 상기 데이터베이스 내의 기존 기록 저작물과 관련된 추가 정보에 기초하여 상기 컴퓨터 메모리에서 더 색인되는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 컴퓨터 메모리는 대응하는 서지 정보에 의해 색인된 복수의 녹음된 오디오 파일을 저장하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제15항에 있어서,
상기 복수의 오디오 파일은 복수의 오디오 파일을 녹음한 사용자들의 신원에 의해 더 색인되는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 음성-작동 제품에 의해 상기 오디오 파일에, 상기 사용자에 의해 선택된 하나 이상의 사운드 효과를 통합하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제6항에 있어서,
상기 제2 커맨드가 상기 사용자와 다른 사용자에 의해 발화되었는지를 결정하기 위해 상기 제2 커맨드에 대해 음성(voice) 분석을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 제18항에 있어서,
상기 음성-작동 제품에 의해, 상기 음성 분석에 기초하여 상기 다른 사용자에 대해 맞춤화된 양방향 대화를 개시하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 컴퓨터 구현 방법. - 음성 인식(voice-enabled) 디바이스로서,
하나 이상의 프로세서와;
상기 하나 이상의 프로세서와 동작 가능하게 결합된 하나 이상의 스피커와;
상기 하나 이상의 프로세서와 동작 가능하게 결합된 하나 이상의 마이크로폰과; 그리고
상기 하나 이상의 프로세서와 동작 가능하게 결합된 메모리를 포함하고, 상기 메모리는 명령들을 저장하고, 상기 메모리는 상기 하나 이상의 프로세서에 의한 명령들의 실행에 응답하여, 제6항 내지 제19항 중 임의의 어느 한 항의 방법이 수행되게 하는 명령들을 저장하는 것을 특징으로 하는 음성 인식 디바이스.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/378,920 | 2016-12-14 | ||
US15/378,920 US11238854B2 (en) | 2016-12-14 | 2016-12-14 | Facilitating creation and playback of user-recorded audio |
PCT/US2017/054452 WO2018111384A1 (en) | 2016-12-14 | 2017-09-29 | Facilitating creation and playback of user-recorded audio |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190076061A KR20190076061A (ko) | 2019-07-01 |
KR102097097B1 true KR102097097B1 (ko) | 2020-04-03 |
Family
ID=60043415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197017813A Active KR102097097B1 (ko) | 2016-12-14 | 2017-09-29 | 사용자-녹음 오디오의 생성 및 재생 촉진 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11238854B2 (ko) |
EP (1) | EP3504704B1 (ko) |
JP (1) | JP6704525B2 (ko) |
KR (1) | KR102097097B1 (ko) |
CN (1) | CN108228132B (ko) |
DE (2) | DE102017122513B4 (ko) |
GB (1) | GB2559643B (ko) |
WO (1) | WO2018111384A1 (ko) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4125029B1 (en) * | 2017-03-23 | 2024-09-04 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium |
US10573298B2 (en) | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
FR3080941B1 (fr) * | 2018-05-04 | 2020-04-17 | Thales | Systeme et procede de reconnaissance vocale pour aeronef |
US11348588B2 (en) * | 2018-08-20 | 2022-05-31 | Samsung Electronics Co., Ltd. | Electronic device and operation method for performing speech recognition |
EP4191563A1 (en) | 2018-08-27 | 2023-06-07 | Google LLC | Determination of a story readers current reading location |
WO2020046387A1 (en) * | 2018-08-31 | 2020-03-05 | Google Llc | Dynamic adjustment of story time special effects based on contextual data |
WO2020050822A1 (en) * | 2018-09-04 | 2020-03-12 | Google Llc | Detection of story reader progress for pre-caching special effects |
CN109286769B (zh) * | 2018-10-11 | 2021-05-14 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及存储介质 |
CN111372107B (zh) * | 2018-12-26 | 2022-06-03 | 中国电信股份有限公司 | 音频传输方法、装置、系统和计算机可读存储介质 |
US12027155B2 (en) | 2019-01-25 | 2024-07-02 | Microsoft Technology Licensing, Llc | Automatically adding sound effects into audio files |
US11741951B2 (en) * | 2019-02-22 | 2023-08-29 | Lenovo (Singapore) Pte. Ltd. | Context enabled voice commands |
CN110148418B (zh) * | 2019-06-14 | 2024-05-03 | 安徽咪鼠科技有限公司 | 一种场景记录分析系统、方法及其装置 |
US11983217B2 (en) * | 2019-12-13 | 2024-05-14 | Google Llc | Responding to queries with voice recordings |
WO2021154544A1 (en) * | 2020-01-28 | 2021-08-05 | Google Llc | Language-agnostic multilingual modeling using effective script normalization |
CN112233661B (zh) * | 2020-10-14 | 2024-04-05 | 广州欢网科技有限责任公司 | 基于语音识别的影视内容字幕生成方法、系统及设备 |
US12039996B2 (en) * | 2021-07-28 | 2024-07-16 | Google Llc | Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances |
CN113571101B (zh) * | 2021-09-10 | 2022-09-20 | 深圳市升迈电子有限公司 | 智能录音方法、装置、设备及存储介质 |
CN114595384A (zh) * | 2022-02-25 | 2022-06-07 | 北京字节跳动网络技术有限公司 | 书籍推荐方法、装置、电子设备及存储介质 |
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080140413A1 (en) | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Synchronization of audio to reading |
WO2010008509A2 (en) | 2008-07-14 | 2010-01-21 | Everhear Partners, Inc. | Child's media player with automatic wireless synchronization from content servers with adult management and content creation |
US20150067320A1 (en) | 2013-08-29 | 2015-03-05 | Geoffrey W. Chatterton | Methods and systems for detecting a user and intelligently altering user device settings |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152787A (ja) * | 1994-01-13 | 1995-06-16 | Sony Corp | 情報アクセスシステムおよび記録媒体 |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
JP2007152787A (ja) | 2005-12-06 | 2007-06-21 | Canon Inc | インクジェット記録装置 |
US20080221889A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile content search environment speech processing facility |
US8417441B2 (en) | 2008-07-18 | 2013-04-09 | Sensys Networks, Inc. | Method and apparatus generating and/or using estimates of arterial vehicular movement |
JP4986301B2 (ja) | 2008-09-30 | 2012-07-25 | Kddi株式会社 | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20110165549A1 (en) | 2010-01-06 | 2011-07-07 | Kuang-Tsai Hao | Children's story audio/video playing device |
JP2011203859A (ja) | 2010-03-24 | 2011-10-13 | Fujitsu Frontech Ltd | 音声出力装置、および音声出力方法 |
US20120059651A1 (en) | 2010-09-07 | 2012-03-08 | Microsoft Corporation | Mobile communication device for transcribing a multi-party conversation |
US8898630B2 (en) * | 2011-04-06 | 2014-11-25 | Media Direct, Inc. | Systems and methods for a voice- and gesture-controlled mobile application development and deployment platform |
US20130178961A1 (en) | 2012-01-05 | 2013-07-11 | Microsoft Corporation | Facilitating personal audio productions |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR101977072B1 (ko) | 2012-05-07 | 2019-05-10 | 엘지전자 주식회사 | 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기 |
US9460715B2 (en) * | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
KR20170056364A (ko) * | 2015-11-13 | 2017-05-23 | 현대자동차주식회사 | Avn 시스템 및 avn 시스템의 컨텐츠 제공 방법 |
US9965247B2 (en) * | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
-
2016
- 2016-12-14 US US15/378,920 patent/US11238854B2/en active Active
-
2017
- 2017-09-27 DE DE102017122513.7A patent/DE102017122513B4/de active Active
- 2017-09-27 DE DE202017105901.4U patent/DE202017105901U1/de active Active
- 2017-09-27 GB GB1715653.0A patent/GB2559643B/en active Active
- 2017-09-29 WO PCT/US2017/054452 patent/WO2018111384A1/en unknown
- 2017-09-29 JP JP2019531697A patent/JP6704525B2/ja active Active
- 2017-09-29 EP EP17781366.4A patent/EP3504704B1/en active Active
- 2017-09-29 KR KR1020197017813A patent/KR102097097B1/ko active Active
- 2017-09-30 CN CN201710918670.5A patent/CN108228132B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080140413A1 (en) | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Synchronization of audio to reading |
WO2010008509A2 (en) | 2008-07-14 | 2010-01-21 | Everhear Partners, Inc. | Child's media player with automatic wireless synchronization from content servers with adult management and content creation |
US20150067320A1 (en) | 2013-08-29 | 2015-03-05 | Geoffrey W. Chatterton | Methods and systems for detecting a user and intelligently altering user device settings |
Also Published As
Publication number | Publication date |
---|---|
CN108228132A (zh) | 2018-06-29 |
DE102017122513A1 (de) | 2018-06-14 |
EP3504704A1 (en) | 2019-07-03 |
KR20190076061A (ko) | 2019-07-01 |
US11238854B2 (en) | 2022-02-01 |
DE102017122513B4 (de) | 2024-03-07 |
US20180166074A1 (en) | 2018-06-14 |
EP3504704B1 (en) | 2020-02-19 |
DE202017105901U1 (de) | 2018-01-09 |
GB2559643A (en) | 2018-08-15 |
GB201715653D0 (en) | 2017-11-08 |
GB2559643B (en) | 2020-02-19 |
WO2018111384A1 (en) | 2018-06-21 |
JP6704525B2 (ja) | 2020-06-03 |
JP2020502571A (ja) | 2020-01-23 |
CN108228132B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102097097B1 (ko) | 사용자-녹음 오디오의 생성 및 재생 촉진 | |
CN114041283B (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
JP7486540B2 (ja) | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント | |
US11810554B2 (en) | Audio message extraction | |
US20230206940A1 (en) | Method of and system for real time feedback in an incremental speech input interface | |
KR102803154B1 (ko) | 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링 | |
US20200227033A1 (en) | Natural conversation storytelling system | |
US11789695B2 (en) | Automatic adjustment of muted response setting | |
US20240256599A1 (en) | Responding to queries with voice recordings | |
US11632345B1 (en) | Message management for communal account | |
JP7481488B2 (ja) | オーディオプレゼンテーション対話を用いた自動アシスタント | |
JP7629254B1 (ja) | 情報処理システム、情報処理方法及びプログラム | |
US20250210037A1 (en) | Utilizing generative model in generating summary of long-form content | |
JP2021131472A (ja) | 情報処理装置、および情報処理方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
PA0105 | International application |
Patent event date: 20190620 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20190620 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20191017 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200110 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200330 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200331 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230314 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20240312 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20250311 Start annual number: 6 End annual number: 6 |