KR102389034B1 - 음성 인터랙션 방법, 장치, 기기 및 저장 매체 - Google Patents

음성 인터랙션 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR102389034B1
KR102389034B1 KR1020200090663A KR20200090663A KR102389034B1 KR 102389034 B1 KR102389034 B1 KR 102389034B1 KR 1020200090663 A KR1020200090663 A KR 1020200090663A KR 20200090663 A KR20200090663 A KR 20200090663A KR 102389034 B1 KR102389034 B1 KR 102389034B1
Authority
KR
South Korea
Prior art keywords
task
information
mission
user terminal
voice
Prior art date
Application number
KR1020200090663A
Other languages
English (en)
Other versions
KR20210090081A (ko
Inventor
루위 가오
티엔웨이 순
바이밍 마
Original Assignee
베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 filed Critical 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Publication of KR20210090081A publication Critical patent/KR20210090081A/ko
Application granted granted Critical
Publication of KR102389034B1 publication Critical patent/KR102389034B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4887Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues involving deadlines, e.g. rate based, periodic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Display Devices Of Pinball Game Machines (AREA)

Abstract

본 발명은 음성 인터랙션 방법, 장치, 기기 및 저장 매체를 제공하고, 본 발명의 실시예는 음성 정보와 임무 리스트의 맵핑 관계를 미리 구성할 수 있으며, 임무 리스트에는 복수 개의 순서화된 임무가 포함될 수 있으며, 따라서, 사용자의 음성 정보를 획득한 후, 음성 정보에 대응되는 임무 리스트를 결정할 수 있음으로써, 사용자가 여러 라운드의 음성을 입력할 필요없이, 한 구절의 음성이 복수 개의 임무에 대응되도록 구현하여, 음성 인터랙션의 응답을 풍부화시키고, 인간 대 머신 인터랙션의 효율을 향상시킴으로써, 여러 번의 음성 인터랙션으로 인한 음성 인식도가 저하되는 문제를 예방한다. 또한, 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무의 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 사용자 단말이 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 함으로써, 임무 응답 정보가 더 좋은 적시성 및 정확성을 갖도록 확보한다.

Description

음성 인터랙션 방법, 장치, 기기 및 저장 매체{SPEECH INTERACTION METHOD AND APPARATUS, DEVICE AND STORAGE MEDIUM}
관련 출원의 상호 참조
본 출원은 출원 번호가 202010017436.7이고, 출원일이 2020년 1월 8일인 중국 특허 출원에 기반하여 제출한 것이며, 상기 중국 특허 출원의 우선권을 주장하는바, 상기 중국 특허 출원의 전부 내용은 참조로서 본 출원에 인용된다.
본 출원은 음성 인터랙션 기술분야에 관한 것으로서, 특히 음성 인터랙션 방법, 장치, 기기 및 저장 매체에 관한 것이다.
인공 지능 기술의 지속적인 발전에 따라, 인간 대 머신의 음성 인터랙션도 발전하게 되었고, 점점 더 많은 사용자들이 다양한 음성 어시스턴트 및 인간 대 머신 인터랙션 기기를 선호하고 있다. 음성 인터랙션은 음성을 정보 캐리어로 하여 기계와 상호 작용한다. 인간과 컴퓨터의 상호 작용, 소통, 정보 교환을 통해, 일련의 입력 및 출력을 생성한 다음, 하나의 임무를 완료하거나 하나의 목적에 도달한다. 종래의 인간 대 머신 인터랙션 방식과 비교하면, 음성 인터랙션은 더 빠르고 간단하다.
기존의 음성 인터랙션 과정 중, 사용자가 기계에 음성을 입력한 후, 음성이 문답 임무에 대응되면, 기계는 코퍼스에서 상기 음성과 매칭되는 결과를 찾은 다음, 사용자에게 상기 결과를 피드백한다. 음성이 제어 임무에 대응되면, 기계는 상응하는 제어 임무를 실행한다. 스마트 스피커를 예로 들면, 스마트 스피커는 네트워크에 연결될 수 있고, 사용자의 입력 음성을 획득한 후, 입력 음성에 대응되는 임무를 실행한다.
관련 기술에서, 음성 인터랙션은 일반적으로 일문 일답의 방식이다. 예를 들어, 사용자가 "쇼아이통쉬에(호출 용어), 오늘 날씨 어때?"라고 하면, 쇼아이 스피커는, "날씨는 맑다가 구름이 많으며, 3급 북풍이 불며, 기온은 19도 내지 26도이며, 공기 품질이 양호합니다."로 대답할 것이다. 그러나 이러한 인터랙션 방식에서, 음성 어시스턴트는 다만 하나의 답장만 할 수 있어, 복수 개 답장이 필요한 복잡한 시나리오 수요를 만족할 수 없다.
관련 기술에서 존재하는 문제를 해결하기 위해, 본 발명은 음성 인터랙션 방법, 장치, 기기 및 저장 매체를 제공한다.
본 발명의 실시예의 제1 측면에 따르면, 음성 인터랙션 방법을 제공하고, 상기 방법은,
사용자의 음성 정보를 획득하는 단계;
상기 음성 정보에 대응되는 임무 리스트를 결정하는 단계 - 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있음 - ; 및
상기 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 상기 사용자 단말이 상기 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하는 단계를 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다.
선택 가능한 실시예에 있어서, 상기 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 상기 방법은,
사용자 단말에 의해 송신된 다음 임무를 반송하는 임무 정보의 임무 요청을 수신하는 단계를 더 포함한다.
선택 가능한 실시예에 있어서, 사용자 단말에 상기 다음 임무의 응답 정보를 송신할 경우, 상기 방법은,
사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하는 단계; 또는
상기 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무인 것에 응답하여, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하는 단계 - 사용자 단말에는 임무 리스트가 저장되어 있음 - 를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무의 임무 정보는 적어도 다음 임무의 식별자 정보를 포함하고; 상기 다음 임무의 임무 정보는 다음 임무 중 문제의 인덱스 정보, 다음 임무 중 문제가 속하는 타입, 다음 임무의 실행 시간 중 적어도 하나를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 상기 방법은,
임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 사용자 단말에 송신하여, 사용자 단말이 임무 리스트에서 임무의 순서에 따라, 로컬에서 상기 응답 정보를 획득하고 출력하도록 하는 단계를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 방법은,
상기 임무 리스트에서의 임무가 실행 완료되지 않은 경우, 새로운 사용자 음성을 수신하면, 사용자 단말이 상기 임무 리스트에서 완료되지 않은 임무에 대한 실행을 중단하는 단계를 더 포함한다.
본 발명의 실시예의 제2 측면에 따르면, 음성 인터랙션 방법을 제공하고, 상기 방법은,
획득된 음성 정보를 음성 인터랙션 시스템에 송신하는 단계; 및
현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신하여, 상기 현재 임무 실행 시간에 도달할 경우, 상기 현재 임무의 응답 정보를 출력하도록 하는 단계를 포함한다.
선택 가능한 실시예에 있어서, 상기 현재 임무의 응답 정보는 다음 임무의 임무 정보를 더 반송하고; 상기 방법은,
상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 음성 정보에 대응되는 임무 리스트가 미리 저장되어 있고, 상기 방법은,
상기 임무 리스트로부터 다음 임무의 임무 정보를 결정하는 단계; 및
상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다.
선택 가능한 실시예에 있어서, 상기 방법은,
상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하고, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력하는 단계를 더 포함한다.
본 발명의 실시예의 제3 측면에 따르면, 음성 인터랙션 장치를 제공하고, 상기 장치는,
사용자의 음성 정보를 획득하도록 구성된 정보 획득 모듈;
상기 음성 정보에 대응되는 임무 리스트를 결정하도록 구성된 리스트 결정 모듈 - 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있음 - ; 및
상기 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 상기 사용자 단말이 상기 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 구성된 정보 피드백 모듈을 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다.
선택 가능한 실시예에 있어서, 상기 정보 피드백 모듈은, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 사용자 단말에 의해 송신된 다음 임무를 반송하는 임무 정보의 임무 요청을 수신하도록 구성된다.
선택 가능한 실시예에 있어서, 상기 정보 피드백 모듈은, 사용자 단말에 상기 다음 임무의 응답 정보를 송신할 경우, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하거나; 상기 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무인 것에 응답하여, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하도록 구성되고, 여기서, 사용자 단말에는 임무 리스트가 저장되어 있다.
선택 가능한 실시예에 있어서, 상기 다음 임무의 임무 정보는 적어도 다음 임무의 식별자 정보를 포함하고; 상기 다음 임무의 임무 정보는 다음 임무 중 문제의 인덱스 정보, 다음 임무 중 문제가 속하는 타입, 다음 임무의 실행 시간 중 적어도 하나를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 정보 피드백 모듈은 또한, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 사용자 단말에 송신하여, 사용자 단말이 임무 리스트에서 임무의 순서에 따라, 로컬에서 상기 응답 정보를 획득하고 출력하도록 구성된다.
선택 가능한 실시예에 있어서, 상기 장치는 임무 중단 모듈을 더 포함하고, 상기 임무 중단 모듈은,
상기 임무 리스트에서의 임무가 실행 완료되지 않은 경우, 새로운 사용자 음성을 수신하면, 사용자 단말이 상기 임무 리스트에서 완료되지 않은 임무에 대한 실행을 중단하도록 구성된다.
본 발명의 실시예의 제4 측면에 따르면, 음성 인터랙션 장치를 제공하고, 상기 장치는,
획득된 음성 정보를 음성 인터랙션 시스템에 송신하도록 구성된 음성 송신 모듈; 및
현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신하여, 상기 현재 임무 실행 시간에 도달할 경우, 상기 현재 임무의 응답 정보를 출력하도록 구성된 정보 수신 모듈을 포함한다.
선택 가능한 실시예에 있어서, 상기 현재 임무의 응답 정보는 다음 임무의 임무 정보를 더 반송하고; 상기 장치는 제1 요청 송신 모듈을 더 포함하며, 상기 제1 요청 송신 모듈은,
상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 구성된다.
선택 가능한 실시예에 있어서, 상기 음성 정보에 대응되는 임무 리스트가 미리 저장되어 있고, 상기 장치는,
상기 임무 리스트로부터 다음 임무의 임무 정보를 결정하도록 구성된 임무 정보 결정 모듈; 및
상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 구성된 제2 요청 송신 모듈을 더 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다.
선택 가능한 실시예에 있어서, 상기 장치는 임무 실행 모듈을 더 포함하고, 상기 임무 실행 모듈은,
상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하고, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력하도록 구성된다.
본 발명의 실시예의 제5 측면에 따르면, 전자 기기를 제공하고, 상기 전자 기기는, 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고; 여기서, 상기 프로세서는 상기 실행 가능한 명령어를 실행할 경우 전술한 어느 한 항에 따른 방법을 구현한다.
본 발명의 실시예의 제6 측면에 따르면, 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 프로그램이 프로세서에 의해 실행될 경우 상기 어느 한 항에 따른 방법의 단계를 구현한다.
본 발명의 실시예에서 제공한 기술방안은 아래의 유익한 효과를 포함할 수 있다.
본 발명의 실시예는 음성 정보와 임무 리스트의 맵핑 관계를 미리 구성할 수 있으며,임무 리스트에는 복수 개의 순서화된 임무가 포함될 수 있으며,이를 위해,사용자의 음성 정보를 획득한 후,음성 정보에 대응되는 임무 리스트를 결정할 수 있음으로써,사용자가 여러 라운드의 음성을 입력할 필요없이,한 구절의 음성이 복수 개의 임무에 대응되도록 구현하여,음성 인터랙션의 응답을 풍부화시키고,인간 대 머신 인터랙션의 효율을 향상시킴으로써,여러 번의 음성 인터랙션으로 인한 음성 인식도가 저하되는 문제를 예방한다. 또한, 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무의 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 사용자 단말이 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 함으로써, 임무 응답 정보가 더 좋은 적시성 및 정확성을 갖도록 확보한다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다.
아래의 도면은 본 명세서의 일부분으로서 명세서 추가되며, 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 원리를 해석하기 위한것이다.
도 1은 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 응용 시나리오도이다.
도 2는 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 흐름도이다.
도 3은 본 발명이 다른 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 흐름도이다.
도 4는 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 시간 순서도이다.
도 5는 본 발명이 다른 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 시간 순서도이다.
도 6은 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 장치의 블록도이다.
도 7은 본 발명이 일 예시적 실시예에 따라 도시한 다른 음성 인터랙션 장치의 블록도이다.
도 8은 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션을 위한 장치의 구조 예시도이다.
아래에 예시적 실시예에 대해 상세히 설명하며, 그 예는 도면에 도시된다. 아래의 설명에서 도면을 언급할 경우, 다른 표시가 없는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시예는 본 발명과 일치하는 전부 실시예를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구 범위에 자세히 설명된 바와 같이 본 발명의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.
본 발명의 실시예에 사용된 용어는 다만 특정된 실시예를 설명하기 위한 것이며, 본 발명의 실시예를 한정하려는 것은 아니다. 본 발명의 명세서와 청구 범위에 사용된 단수 형태인 “한 가지” 및 "상기”는 본문이 다른 의미를 명확하게 나타내지 않는 한, 복수 형태를 포함한다. 또한 이해해야 할 것은, 본문에 사용된 용어 “및...중 적어도 하나”는 하나 또는 복수 개의 관련되어 열거된 항목의 임의의 조합 또는 모든 가능한 조합을 의미하고 포함한다.
이해해야 할 것은, 본 발명에서 "제1", "제2", "제3" 등과 같은 용어를 사용해 각종 정보를 설명하더라도 이러한 정보들은 이러한 용어에 한정되어서는 안된다. 이러한 용어는 동일 타입의 정보로 서로를 구별하는데에만 사용된다. 예를 들어, 본 발명의 범위를 벗어나지 않는 한, 제1 정보는 제2 정보로도 지칭될 수 있고, 마찬가지로 제2 정보도 제1 정보로 지칭될 수 있다. 이는 단어 사용 상황에 따라 결정되고, 예를 들어 여기서 사용된 단어 "만약"은 "무엇을 할때" 또는 "무엇을 할 경우" 또는 "결정에 응답하여"의 뜻으로 해석될 수 있다.
인공 지능 시대가 다가옴에 따라, 스마트 음성 어시스턴트는 일상 생활에서 점점 더 많이 응용되고 있다. 스마트폰, 스마트 가전 제품, 차량 탑재 시나리오 및 스마트 연금에 이르기까지 언급된 범위가 점점 넓어지고 있다. 상이한 응용 시나리오와 다양한 복잡한 수요에 따라, 사람과 음성 어시스턴트의 인터랙션 방식도 풍부해지기 시작한다. 인간과 컴퓨터의 상호 작용, 소통, 정보 교환을 통해, 일련의 입력 및 출력을 생성한 다음, 하나의 임무를 완료하거나 하나의 목적에 도달한다. 음성 인터랙션은 음성을 정보 캐리어로 하여 기계와 상호 작용한다. 종래의 인간 대 머신의 인터랙션 방식과 비교하면, 음성 인터랙션은 더 빠르고 간단하며, 종래의 그래픽 사용자 인터페이스(Graphic user interface, GUI)에서 어느 노래를 플레이할 경우 입력, 검색, 플레이를 완료하는데 몇 분이 필요할 수 있지만, 음성 인터랙션에서 필요한 시간은 더 짧다. 두 손을 해방시키고, 번거롭게 애플리케이션(APPlication, APP)을 동작할 필요없이, 운전하면서, 단말에 음성 임무를 송신할 수 있다. 사용자의 질문에, 단말이 대답하는 것을 구현하기 위해, 음성 임무는 문답 임무일 수 있다. 사용자가 음성을 통해 다른 기기, 특히 스마트 가전 제품 등을 제어하는 것을 구현하기 위해, 음성 임무는 제어 임무일 수도 있다. 음성 인터랙션의 지속적인 발전에 따라, 사람들이 스마트 음성 어시스턴트에 대한 나날이 복잡해지는 수요를 만족하기 위해, 여러 라운드의 대화 방식이 생성된다. 예를 들어,
사용자가 "쇼아이통쉬에, 알람을 설정해줘."라고 하면,
쇼아이는 "언제로 설정해드릴까요?"라고 답할 것이고,
이에 사용자는 "아침 7시 알람으로 설정해줘."라고 대답하면,
쇼아이는 "알겠습니다, 아침 7시 알람으로 설정했습니다."로 대답할 것이다.
여러 라운드의 대화 방식은 사용자의 질문이 완전하지 않아 의도가 불명확할 경우를 만족시키기 위해, 제공되는 인터랙션 방식이다. 스마트 음성 어시스턴트가 주동적으로 대화를 이어나가, 사용자의 완전한 수요를 추가로 획득한 다음, 이 수요에 대해 단일 답장을 하여야 하므로, 각 라운드의 대화는 일문일답 방식이며, 여전히 복수 개의 답장을 할 수 없다.
이로부터 알다시피, 일문일답 방식이든, 여러 라운드의 대화 방식이든, 음성 어시스턴트는 한 번에 단일 답장만 할 수 있으므로, 복수 개 답장이 필요한 복잡한 시나리오 수요를 만족할 수 없다.
이 점을 고려하여, 본 발명의 실시예는 음성 인터랙션 방안을 제공하여, 음성 정보와 임무 리스트의 맵핑 관계를 미리 구성할 수 있고, 임무 리스트에는 복수 개의 임무가 포함될 수 있으므로, 사용자의 음성 정보를 획득한 후, 상기 음성 정보에 대응되는 임무 리스트를 결정할 수 있음으로써, 사용자가 여러 라운드의 음성을 입력할 필요없이, 한 구절의 음성이 복수 개의 임무에 대응되도록 구현하여, 음성 인터랙션의 응답을 풍부화시키고, 인간 대 머신 인터랙션의 효율을 향상시킴으로써, 여러 번의 음성 인터랙션으로 인한 음성 인식도가 저하되는 문제를 예방한다. 또한, 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무의 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 사용자 단말이 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 함으로써, 임무 응답 정보가 더 좋은 적시성 및 정확성을 갖도록 확보한다.
아래에 첨부 도면을 결합하여 본 발명의 실시예에 대해 예시적으로 설명한다.
이해의 편의를 위해, 본 발명의 실시예의 응용 시나리오에 대해 예시적인 설명을 진행한다. 본 발명의 실시예의 음성 인터랙션 방안은 사용자 단말 및 음성 인터랙션 시스템을 포함하는 아키텍처에 적용될 수 있다. 사용자 단말 및 서버는 동일한 전자 기기에 구성될 수 있고, 상이한 전자 기기에 구성될 수도 있다. 사용자 단말 및 서버가 동일한 전자 기기에 구성될 경우, 동일한 기기로 오디오 입력, 오디오 처리, 임무 실행 등을 완료하는 것을 구현할 수 있다. 사용자 단말 및 서버가 상이한 전자 기기에 구성될 경우, 사용자 단말의 처리 부담을 줄여줄 수 있다. 사용자 단말은 음성 수집 기능을 갖는 단말일 수 있다. 예를 들어, 스마트폰, 태블릿 컴퓨터, 개인 휴대 정보 단말(Personal Digital Assistant, PDA), 웨어러블 기기, 스마트 스피커 등일 수 있다. 음성 인터랙션 시스템은 음성 처리 기능을 갖는 서버일 수 있다. 스마트 스피커가 사용자 단말을 나타내고, 서버가 음성 인터랙션 시스템을 나타내는 것으로 예를 들면, 도 1에 도시된 바와 같이, 이는 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 응용 시나리오도이다. 상기 응용 시나리오에 있어서, 사용자는 사용자 단말과 대화를 할 수 있고, 사용자 단말은 음성 정보를 수집하며, 수집된 음성 정보를 음성 인터랙션 시스템에 송신하며, 음성 인터랙션 시스템은 음성 처리를 수행할 수 있다. 예시적으로, 음성 인터랙션 시스템은 음성 식별 모듈, 자연어 처리 모듈, 임무 스케줄링 모듈 및 음성 합성 모듈을 포함할 수 있다. 음성 식별 모듈(Automatic Speech Recognition, ASR)은 소리를 문자로 변환하고; 자연어 처리 모듈(Natural Language Processing, NLP)은, 문자의 뜻을 해석하여 피드백한다. 임무 스케줄링 모듈은 임무 케줄링을 수행한다. 음성 합성 모듈(Text to Speech, TTS)은, 출력 정보를 소리로 변환한다. 이해해야 할 것은, 음성 인터랙션 시스템은 관련 기술에서의 다른 아키텍처일 수 있고, 여기서 일일이 반복하여 설명하지 않는다.
이어서, 단일 측의 측면으로 음성 인터랙션 방법에 대해 예시적인 설명을 진행한다.
도 2에 도시된 바와 같이, 이는 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 흐름도이고, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 202에 있어서, 사용자의 음성 정보를 획득한다.
단계 204에 있어서, 상기 음성 정보에 대응되는 임무 리스트를 결정하고, 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있다.
단계 206에 있어서, 상기 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 상기 사용자 단말이 상기 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 한다.
본 실시예에서 제공하는 음성 인터랙션 방법은 소프트웨어에 의해 실행될 수 있고, 소프트웨어 및 하드웨어 결합 또는 하드웨어에 의해 실행되는 형태로 구현될 수 있으며, 언급된 하드웨어는 두 개 또는 복수 개의 물리 엔티티에 의해 구성될 수 있고, 하나의 물리 엔티티에 의해 구성될 수도 있다. 예시적으로, 본 실시예의 방법은 음성 인터랙션 시스템에 적용될 수 있고, 음성 인터랙션 시스템은 음성 처리 능력을 갖는 전자 기기에 구성될 수 있거나, 음성 처리 능력을 갖는 전자 기기로 구성될 수 있다. 전자 기기는 단말 기기일 수 있고, 서버 기기일 수도 있으며, 수요에 따라 구성될 수 있다. 아래에 본 측의 실행단이 음성 인터랙션 시스템인 것으로 예를 들어 설명한다.
사용자의 음성 정보는 사용자 단말에 의해 수집된 음성 정보일 수 있고, 사용자 단말에 의해 음성 인터랙션 시스템에 송신될 수 있다. 음성 인터랙션 시스템에 있어서, 음성 정보와 임무 리스트의 맵핑 관계를 미리 구성할 수 있다. 음성 정보에 대응되는 임무 리스트는 사용자에 의해 구성될 수 있고, 예를 들어, 구성 인터페이스를 제공하는 것을 통해, 사용자에 의해 입력된 구성 명령어에 응답하여, 음성 정보에 대응되는 임무 리스트를 획득한다. 음성 정보에 대응되는 임무 리스트는 시스템에 의해 추천될 수 있고, 수요에 따라 구성될 수 있다.
상기 실시예에 있어서, 음성 정보에 대응되는 임무 리스트를 구성하는 것은, 한 구절의 음성이 복수 개의 임무에 대응되도록 구현하기 위함이다. 임무 리스트는 적어도 두 개의 순서화된 임무를 포함하고, 예를 들어, 임무 리스트는 다양한 타입의 임무를 포함할 수 있으며, 각 임무는 실행 순서 요구가 있을 수 있다. 예를 들어, 임무 리스트에서의 임무는 문답 임무, 제어 임무 등을 포함하지만 이에 한정되지 않는다. 문답 임무는 음성 인터랙션 시스템이 검색하고 답장해야 하는 임무일 수 있다. 제어 임무는 음성 인터랙션 시스템이 기기를 제어해야 하는 임무일 수 있다. 예를 들어, 스마트 가전 제품을 제어한다. 예를 들어, 스마트 조명의 스위치의 제어, 스마트 밥솥의 오픈의 제어 등이다. 입력된 음성 식별 및 시맨틱 이해는, 시나리오 식별로 간주될 수 있다. 예를 들어, 음성 정보가 "좋은 아침입니다"인 것을, 웨이크(wake) 시나리오인 것으로 간주할 수 있고, 대응되는 임무 리스트의 임무는, 편안한 음악을 플레이(20분)하는 동시에, 침실 커튼을 오픈하는 것; 다음 아침 뉴스를 플레이(20분)하고; 그 다음 일기 예보를 플레이하며; 마지막으로 출근길의 교통 상황을 플레이하는 것을 포함할 수 있다.
발명인은 임무 리스트에 출근길 상황과 같은 실시간 검색 결과를 갖는 일부 임무가 존재할 수 있음을 발견하였다. "좋은 아침"의 음성을 수신한 경우, 각 문답 임무에 대응되는 응답 정보를 즉시 검색하고, 예를 들어 출근길의 교통 상황을 검색하며, 사용자 단말에 통일로 송신하여 버퍼링한다. 그러나 교통 상황 정보를 플레이할 경우, 버퍼링된 교통 상황은 적어도 40분 전의 상황이므로, 사용자에 의해 획득된 상황 정보가 더이상 정확하지 않다.
이를 위해, 본 발명의 실시예에서 해결 방안을 제공하여, 사용자 단말이 다양한 복잡한 답장을 하는 동시에, 답장 내용이 더 좋은 적시성 및 정확성을 갖도록 확보할 수도 있다. 한 가지의 실시형태에 있어서, 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 사용자 단말이 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 한다.
이로부터 알다시피, 상기 실시예는 다음 임무를 실행할 직전에만, 다음 임무의 응답 정보를 검색함으로써, 사용자 단말에 의해 획득된 응답 정보가 적시성 및 정확성을 갖도록 확보한다.
현재의 시간 상태를 결정하는 방법은, 상기 다음 임무 실행 시간에 도달하기 전, 하나의 예시 중, 임무 리스트에는 각 임무의 실행 시간이 표시되면, 다음 임무 실행 시간에 도달하기 전, 예를 들어, 실행 시간에 도달하기 전의 기설정된 시간에 검색하도록 결정할 수 있다. 다른 하나의 예시에 있어서, 사용자 단말에 의해 송신된 다음 임무를 실행하는 임무 요청을 수신하면, 현재의 시간 상태가 다음 임무 실행 시간에 도달하기 전인 것으로 판정할 수 있다. 예시적으로, 상기 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 상기 방법은, 사용자 단말에 의해 송신된 다음 임무를 반송하는 임무 정보의 임무 요청을 수신하는 단계를 더 포함한다. 사용자 단말이 임무 요청을 송신하는 타이밍은 다음 임무의 실행 시간에 도달하기 전일 수 있다. 예를 들어, 사용자 단말은 현재 임무의 완료 시간을 결정할 수 있으므로, 다음 임무가 현재 임무 직후에 실행되면, 사용자 단말은 현재 임무가 완료될 경우 또는 완료되기 전의 기설정된 시간에 음성 인터랙션 시스템에 다음 임무를 실행하는 임무 요청을 송신하여, 음성 인터랙션 시스템이 임무 요청을 수신한 경우, 현재의 시간 상태가 다음 임무 실행 시간에 도달하기 전으로 판정할 수 있으므로, 다음 임무에 대응되는 응답 정보를 검색하기 시작할 수 있다. 또 예를 들어, 사용자 단말이 다음 임무의 실행 시간을 알고 있을 경우, 사용자 단말은 다음 임무 실행 시간에 도달하기 전의 기설정된 시간에 음성 인터랙션 시스템에 임무 요청 등을 송신할 수 있다. 사용자 단말이 다음 임무의 실행 시간을 획득하는 방법은, 음성 인터랙션 시스템에 의해 송신된 임무 리스트에 의해 결정될 수 있고, 임무 리스트에는 임무의 실행 시간이 기록되어 있으며; 음성 인터랙션 시스템에 의해 송신된 다음 임무의 임무 정보에 의해 결정될 수도 있으며, 임무 정보에는 다음 임무의 실행 시간이 포함된다.
사용자 단말이 다음 임무를 결정하는 방법에 있어서, 하나의 예에서, 사용자 단말은 임무 리스트를 저장할 수 있다. 임무 리스트는 과거 저장된 것일 수 있고, 음성 인터랙션 시스템에 음성 정보를 송신한 후 음성 인터랙션 시스템에 의해 피드백된 것일 수도 있다. 다른 하나의 예에 있어서, 음성 인터랙션 시스템은 사용자 단말에 현재 임무를 송신할 경우, 다음 임무의 임무 정보를 송신할 수도 있다. 사용자 단말은 임무 정보에서의 임무 식별자에 따라 다음 임무를 결정한다. 하나의 예에 있어서, 임무 요청 중 다음 임무의 임무 정보를 반송할 수도 있다. 임무 정보는 적어도 다음 임무를 유일하게 표시하는데 사용될 수 있고, 예를 들어 다음 임무의 임무 정보는 적어도 다음 임무의 식별자 정보를 포함할 수 있음으로써, 임무 정보를 이용하여 다음 임무를 결정하는 것을 구현한다. 임무 요청에서의 임무 정보는 사용자 단말이 임무 리스트에 따라 결정한 것일 수 있고, 음성 인터랙션 시스템이 현재 임무의 응답 정보를 송신할 경우, 반송된 다음 임무의 임무 정보일 수도 있다.
일부 시나리오에 있어서, 요청 횟수가 증가되면, 음성 인터랙션 시스템이 요청을 처리하는 부담을 증가시킬 수 있고, 음성 인터랙션 시스템 성능(예를 들어 높은 동시성(concurrency), 런타임 복잡도 등)을 테스트한다. 일 측면에 있어서, 음성 인터랙션 시스템의 성능을 향상시키는 것을 통해 상기 문제를 해결할 수 있다. 다른 일 측면에 있어서, 제공된 임무 정보를 통해 검색 시간을 줄일 수 있다. 예를 들어, 다음 임무의 임무 정보는 다음 임무를 유일하게 표시하는 식별자 정보를 포함하는 것 외에, 다음 임무 중 문제의 인덱스 정보, 다음 임무 중 문제가 속하는 타입, 다음 임무의 실행 시간 중 하나 또는 복수 개를 더 포함할 수 있지만 이에 한정되지 않는다. 인덱스 정보는 다음 임무 중 문제에 대한 답장 정보를 인덱싱하기 위한 것이고, 인덱스 정보를 통해 다음 임무 중 문제에 대응되는 답장을 쾌속으로 검색할 수 있어, 검색 시간을 향상시킨다. 상이한 문제를 분류하여, 상이한 타입의 문제에 대응되는 답장을 상이한 데이터베이스에 저장하면, 문제가 속하는 타입을 통해, 직접 상기 타입의 데이터베이스로부터 데이터를 검색할 수 있음으로써, 검색 효율을 향상시킨다.
이해해야 할 것은, 임무 정보는 다른 검색 효율을 향상시킬 수 있는 필드를 더 포함할 수 있고, 여기서 일일이 반복하여 설명하지 않는다. 또한, 현재의 시간 상태를 결정하는 방법은 다른 수단을 사용할 수도 있다. 기설정된 시간은 미리 구성된 응답 정보의 정확성에 대해 영향을 적게 미치는 시간일 수 있고, 기설정된 시간 내지 다음 임무 실행 시간동안, 응답 정보의 검색, 피드백 등을 완료할 수 있다. 심지어 일부 시나리오에 있어서, 검색 속도가 비교적 빠르므로, 기설정된 시간은 0일 수 있고, 즉 다음 임무 실행 시간에 도달할 경우, 사용자 단말에 다음 임무의 응답 정보를 검색하고 송신한다.
일부 임무에 대해 실시간 검색 동작을 실행해야 하고, 하나의 예시에 있어서, 다음 임무가 어떤 타입의 임무인지에 관계없이, 사용자 단말은 모두 음성 인터랙션 시스템에 다음 임무의 임무 정보를 반송한 임무 요청을 송신할 수 있다. 상기 다음 임무는 실시간 요구를 갖는 문답 임무 및 실시간 요구를 갖지 않는 문답 임무 중 어느 한 임무를 포함한다. 다시 말해, 실시간 요구를 갖는 문답 임무이든, 실시간 요구를 갖지 않는 문답 임무이든, 모두 상기 임무 실행 시간에 도달하기 전에만, 검색 작업을 진행하고, 응답 정보를 사용자 단말에 피드백한다.
더 나아가, 사용자 단말에 현재 임무의 응답 정보를 송신할 경우, 사용자 단말에 다음 임무의 임무 정보를 송신할 수도 있으며; 상응하게, 사용자 단말에 다음 임무의 응답 정보를 송신할 경우, 사용자 단말에 다음 임무에 인접하는 미처리된 임무(세 번째 라운드의 임무로 지칭됨)의 임무 정보를 송신하여, 매 번 임무의 응답 정보를 송신할 경우, 인접한 임무의 임무 정보를 함께 송신하는 것을 구현한다. 사용자 단말이 다음 임무의 응답 정보를 실행 완료한 경우, 다음에 실행해야 하는 임무를 명확하도록 하고, 심지어 다음 임무에 인접하는 미처리된 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 상기 임무 정보를 반송하는 임무 요청을 송신하여, 세 번째 라운드의 임무를 실행하도록 요청한다.
상기 실시예에 있어서, 매 번마다 현재 임무의 응답 정보 및 다음 임무의 임무 정보를 송신하고, 현재 임무의 응답 정보를 플레이하며, 다음 임무 실행 시간에 도달하기 전, 임무 정보를 이용하여 다음 임무의 응답 정보를 요청할 수 있음으로써, 응답 정보의 적시성을 확보할 수 있다.
일부 시나리오에 있어서, 실시간 검색이 음성 인터랙션 시스템에 비교적 큰 처리 부담을 가할 수 있으므로, 임무 요청의 개수를 감소시키는 방식을 통해 음성 인터랙션 시스템의 검색 횟수를 감소시킬 수 있다. 예시적으로, 문답 임무를 실시간 요구를 갖는 문답 임무 및 실시간 요구를 갖지 않는 문답 임무로 나눌 수 있다. 실시간 요구를 갖는 문답 임무는, 응답 정보에 대해 적시성 요구를 갖는 문답 임무이고; 예를 들어, 실시간 교통 상황을 플레이 하는 등 임무이다. 적시성 요구를 갖지 않는 문답 임무는, 응답 정보에 대해 적시성을 갖지 않거나 적시성 요구가 강하지 않은 문답 임무일 수 있고, 예를 들어, 20분 동안 가벼운 음악을 플레이 하는 등 임무일 수 있다. 문답 임무의 타입을 분할하는 방법은, 일 측면으로 사용자에 의해 구성될 수 있고, 다른 일 측면으로 시스템에 의해 빅 데이터를 통해 분석하여 획득될 수도 있다.
이를 위해, 다른 하나의 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다. 다시 말해, 다음 임무가 실시간 요구를 갖는 문답 임무인 경우에만, 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신함으로써, 음성 인터랙션 시스템의 처리 부담을 줄여준다. 임무 정보를 송신해야 하는 경우, 하나의 실시예에 있어서, 사용자 단말에 상기 다음 임무의 응답 정보를 송신할 경우, 상기 방법은, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하는 단계를 더 포함한다. 사용자 단말에서, 임무 정보에 따라 다음 임무가 실시간 요구를 갖는 문답 임무 또는 실시간 요구를 갖지 않는 문답 임무인지 여부를 판단할 수 있고, 상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖는 문답 임무인 것으로 결정할 경우에만, 다음 임무 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 임무 정보를 반송하는 임무 요청을 송신할 수 있다.
상기 실시예는 임무가 실시간 요구를 갖는지 여부와 관계없이, 모두 임무 정보를 송신하여, 사용자 단말에 의해 임무 요청을 송신할지 여부가 판단될 수 있다.
다른 하나의 실시예에 있어서, 사용자 단말에 다음 임무의 응답 정보를 송신할 경우, 상기 방법은, 상기 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무인 것에 응답하여, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하는 단계 - 사용자 단말에는 임무 리스트가 저장되어 있음 - 를 더 포함한다.
상기 실시예에 있어서, 실시간 요구를 갖는 임무에만 임무 정보를 송신하여, 실시간 요구를 갖지 않는 임무에도 임무 정보를 송신하여, 정보를 전송함으로 인한 자원 낭비를 예방하고, 사용자 단말의 판단 과정을 감소시킨다. 사용자 단말이 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 수신하지 않은 경우, 직접 임무 리스트에 따라 다음 임무를 결정할 수 있으며, 로컬에서 상기 다음 임무에 인접하는 미처리된 임무의 응답 정보를 획득하고, 출력할 수 있다.
실시간 요구를 갖지 않는 문답 임무에 대해, 지정 시간 내에 상응하는 타입의 문답 임무의 응답 정보를 사용자 단말에 피드백할 수 있다. 예시적으로, 임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖는 전부 문답 임무의 응답 정보를 사용자 단말에 송신하여, 사용자 단말이 임무 리스트에서 임무의 순서에 따라, 로컬에서 상기 응답 정보를 획득하고 출력하도록 할 수 있다.
상기 실시예에 있어서, 실시간 요구를 갖지 않는 문답 임무를 한 꺼번에 송신할 수 있어, 임무 요청의 횟수를 감소시킬 수 있으며, 서버의 부담을 줄여줄 수 있다.
사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하는 것에 관련하여, 다음 임무에 대응되는 응답 정보를 검색하고, 검색하여 획득된 응답 정보를 사용자 단말에 송신하는 것일 수 있다. 응답 정보는 오디오 정보, 텍스트 정보, 이미지 정보 등일 수 있다. 응답 정보를 상응하게 출력하는 것은, 오디오 정보를 플레이하거나, 텍스트 정보, 이미지 정보 등을 디스플레이하는 것일 수 있다. 예시적으로, 음성 인터랙션 과정 중 통상적으로 오디오로 인터랙션하므로, 응답 정보는 오디오 정보일 수 있으며, 응답 정보를 출력하는 것은 오디오 정보를 플레이하는 것일 수 있다.
임무 리스트에서의 임무는 문답 임무 외에, 기기를 제어하기 위한 제어 임무일 수도 있다. 이를 위해, 하나의 실시예에 있어서, 상기 방법은, 다음 임무가 스마트 가전 제품을 제어하는 제어 임무이면, 제어 임무에 대응되는 제어 명령어를 사물 인터넷 시스템에 송신하여, 사물 인터넷 시스템에 의해 대응되는 스마트 가전 제품이 제어되는 단계를 더 포함한다.
상기 실시예에 있어서, 문답을 구현할 수 있을 뿐만 아니라, 스마트 가전 제품의 제어도 구현할 수 있으므로, 음성 인터랙션의 응용 시나리오를 넓혀준다.
일부 시나리오에 있어서, 임무 리스트에서의 임무가 실행 완료되지 않았지만, 새로운 사용자 음성을 수신한 경우가 발생될 수 있다. 이러한 경우에 대해, 하나의 예에 있어서, 임무 리스트에서 실행 완료되지 않은 임무의 실행을 연기할 수 있고, 다른 하나의 예에 있어서, 사용자 단말이 상기 임무 리스트에서 실행 완료되지 않은 임무를 계속하여 실행하는 것을 직접 제지하고, 실행 완료되지 않은 임무를 제거할 수 있다. 예시적으로, 상기 임무 리스트에서의 임무가 실행 완료되지 않은 경우, 새로운 사용자 음성을 수신하면, 사용자 단말이 상기 임무 리스트에서 완료되지 않은 임무에 대한 실행을 중단한다. 또한, 프롬프트 정보를 출력할 수도 있고, 사용자 명령어에 의해 임무 리스트에서 실행 완료되지 않은 임무를 계속하여 실행할지 여부가 결정되어, 임무의 제어 가능성을 구현한다.
이상 실시예에서의 다양한 기술특징은 사이에 충돌 또는 모순이 존재하지 않는 한 임의로 조합될 수 있지만, 문장 편폭의 제한으로 인해, 일일이 설명하지 않았으며, 따라서 상기 실시예에서의 다양한 기술특징이 임의로 조합되는 것 또한 본 발명의 개시 범위 내에 속해야 한다.
또한, 사용자 단말측으로부터 음성 인터랙션 방법에 대해 예시적인 설명을 진행한다.
도 3에 도시된 바와 같이, 이는 본 발명이 다른 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 흐름도이고, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 302에 있어서, 획득된 음성 정보를 음성 인터랙션 시스템에 송신한다.
단계 304에 있어서, 현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신하여, 상기 현재 임무 실행 시간에 도달할 경우, 상기 현재 임무의 응답 정보를 출력한다.
본 실시예의 방법은 사용자 단말에 적용될 수 있고, 사용자 단말은 소프트웨어일 수 있으며, 하드웨어일 수도 있다. 예를 들어, 사용자 단말은 스마트폰, 태블릿 컴퓨터, 개인 휴대 정보 단말(Personal Digital Assistant, PDA), 웨어러블 기기, 스마트 스피커 등 음성 수집 기능을 갖는 기기일 수 있다.
현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신할 수 있어, 현재 임무 실행 시간에 도달할 경우, 현재 임무의 응답 정보를 출력하도록 한다. 현재 임무는 실시간 요구를 갖는 문답 임무일 수 있고, 실시간 요구를 갖지 않는 문답 임무일 수도 있으며, 제어 임무 등 일 수도 있다. 하나의 예시에 있어서, 현재 임무는 문답 임무이고, 특히 실시간 요구를 갖는 문답 임무일 경우, 현재 임무의 응답 정보는 현재 임무의 실행 시간에 도달하기 직전(예를 들어 현재 임무의 실행 시간에 도달하기 전의 기설정된 시간)에 음성 인터랙션 시스템에 의해 검색되어 획득된 것일 수 있음으로써, 임무 응답 정보가 더 좋은 적시성 및 정확성을 갖도록 확보한다. 기설정된 시간은 수요에 따라 구성된 비교적 짧은 시간일 수 있다.
사용자 단말 중, 다양한 경우가 있을 수 있고, 임무 리스트 측면으로부터 보면, 한 가지 경우에 있어서, 음성 정보에 대응되는 임무 리스트가 미리 저장되지 않고, 사용자 단말은 음성 인터랙션 시스템에 의해 송신된 임무 정보를 통해 임무를 결정한다. 다른 한 가지 경우에 있어서, 음성 정보에 대응되는 임무 리스트가 미리 저장되고, 사용자 단말은 임무 리스트로부터 임무를 결정할 수 있다. 임무 요청을 송신하는 측면으로부터 보면, 한 가지 경우에 있어서, 다음 임무가 어떤 타입의 임무인지에 관계없이, 다음 임무의 임무 정보를 반송하는 임무 요청을 모두 송신하여, 임의의 타입의 문답 임무를 모두 즉시 검색하는 것을 구현하며; 다른 한 가지 경우에 있어서, 실시간 요구를 갖는 문답 임무 또는 제어 임무에 대해서만 임무 요청(일부 예에 있어서, 제어 임무에 대해서도 임무 요청을 송신할 필요가 없음)을 송신한다. 사용자 단말은 실시간 요구를 갖지 않는 문답 임무의 응답 정보를 미리 저장할 수 있어, 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하는 것을 구현하고, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력한다. 음성 인터랙션 시스템에 있어서, 현재 임무의 응답 정보를 송신할 경우, 다음 임무가 어떤 타입의 임무인지와 관계없이, 모두 다음 임무의 임무 정보를 송신하여, 임무 리스트에서 첫 번째가 아닌 각 임무의 임무 정보를 송신하는 것을 구현할 수 있고; 현재 임무의 응답 정보를 송신할 경우, 다음 임무가 실시간 요구를 갖는 문답 임무 또는 제어 임무일 경우에만, 다음 임무의 임무 정보 등을 송신할 수도 있다. 현재 임무의 응답 정보를 송신할지 여부를 결정하는 방법은, 예시적으로, 임무 요청을 수신하였는지 여부에 의해 결정될 수 있다. 상기 사용자 단말측의 실시예와 음성 인터랙션 시스템측의 실시예는 조합될 수 있고, 아래에 몇 가지의 조합에 대해 예시적인 설명을 진행한다.
음성 인터랙션 시스템이 임무 리스트에서 첫 번째가 아닌 각 임무의 임무 정보를 송신할 경우, 하나의 실시예에 있어서, 사용자 단말에서, 상기 현재 임무의 응답 정보는 다음 임무의 임무 정보를 더 반송하고; 상기 방법은, 상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함한다. 이로써 각 문답 임무가 모두 응답 정보를 실시간으로 검색하여 획득할 수 있도록 구현한다.
다른 하나의 예에 있어서, 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 미리 획득하였으면, 예시적으로, 사용자 단말에서, 상기 방법은, 현재 임무가 상기 음성 정보에 대응되는 임무 리스트에서의 첫 번째 임무일 경우, 또한 음성 시스템에 의해 송신된 상기 임무 리스트에서 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 수신하는 단계를 더 포함한다. 음성 인터랙션 시스템에 의해 송신된 다음 임무의 임무 정보에 따라 다음 임무가 실시간 요구를 갖는 문답 임무 또는 제어 임무인지 여부를 결정할 수 있고, 상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖는 문답 임무, 또는 스마트 가전 제품을 제어하는 제어 임무인 것으로 결정하면, 다음 임무 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 상기 임무 정보를 반송하는 임무 요청을 송신하며; 상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하며, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력한다.
상기 실시예에서 사용자 단말이 임무 정보에 따라 다음 임무의 타입을 결정함으로써, 임무 요청을 송신할지 여부를 결정하여, 임무 요청을 송신하는 횟수를 줄일 수 있음으로써, 음성 인터랙션 시스템의 처리 부담을 줄여준다.
음성 인터랙션 시스템이 임무 리스트에서 실시간 요구 임무를 갖는 임무 정보, 또는 제어 임무의 임무 정보를 송신할 수 있는 실시예에 있어서, 사용자 단말이 다음 임무의 임무 정보를 수신하면, 다음 임무가 실시간 요구를 갖는 문답 임무 또는 제어 임무인 것을 나타내고, 다음 임무 실행 시간에 도달하기 전의 기설정된 시간에, 음성 인터랙션 시스템에 임무 정보를 반송하는 임무 요청을 송신한다. 예시적으로, 사용자 단말에는 상기 음성 정보에 대응되는 임무 리스트가 미리 저장되어 있고, 상기 방법은, 상기 임무 리스트로부터 다음 임무의 임무 정보를 결정하는 단계; 및 상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함한다.
더 나아가, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보만 수신하면, 다음 임무가 응답 정보가 이미 존재하는 임무인 것을 나타내고, 이를 위해, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보만 수신하면, 상기 응답 정보를 출력하며; 상기 임무 리스트에 따라 다음 임무를 결정하고, 다음 임무의 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력한다.
상기 실시예는 임무가 실시간 요구를 갖는 문답 임무, 또는 제어 임무일 경우에만, 음성 인터랙션 시스템에 요청을 송신하여, 요청 송신 횟수를 줄이는 것을 구현할 수 있다.
이상 실시예에서의 다양한 기술특징은 사이에 충돌 또는 모순이 존재하지 않는 한 임의로 조합될 수 있고, 문장 편폭의 제한으로 인해, 일일이 설명하지 않았으며, 따라서 상기 실시예에서의 다양한 기술특징이 임의로 조합되는 것 또한 본 발명의 개시 범위 내에 속해야 한다. 사용자 단말은 임무 리스트를 저장할 수 있고, 임무 리스트를 저장하지 않을 수도 있다. 예를 들어, 음성 인터랙션 시스템이 매 번 임무의 임무 정보를 송신하면, 사용자 단말은 임무 리스트를 저장할 필요없다. 음성 인터랙션 시스템은 각 임무를 검색할 수 있고, 실시간 요구를 갖는 임무에만, 상기 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신할 수도 있다. 임무가 실시간 요구를 갖는 문답 임무인지 여부는 사용자 단말에 의해 판단될 수 있고, 음성 인터랙션 시스템에 의해 판단될 수도 있다.
이해의 편의를 위해, 사용자 단말 및 음성 인터랙션 시스템 인터랙션의 관점으로부터 음성 인터랙션 방법에 대해 예시적인 설명을 진행한다. 도 4에 도시된 바와 같이, 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 시간 순서도이다. 상기 방법은 첫 번째가 아닌 임무에 대해 임무 요청을 모두 송신하고, 사용자 단말이 임무 리스트를 저장할 필요없는 관점으로부터 예시적으로 설명하며, 상기 방법은 아래와 같은 단계를 포함한다.
단계 401에 있어서, 사용자 단말은 수집된 음성 정보를 음성 인터랙션 시스템에 송신한다.
단계 402에 있어서, 음성 인터랙션 시스템은 상기 음성 정보에 대응되는 임무 리스트를 결정하고, 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있다.
단계 403에 있어서, 음성 인터랙션 시스템은 사용자 단말에 현재 임무의 응답 정보 및 다음 임무의 임무 정보를 송신한다.
단계 404에 있어서, 사용자 단말은 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보에 응답하여, 상기 응답 정보를 출력하고, 다음 임무 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 상기 임무 정보를 반송하는 임무 요청을 송신한다.
단계 405에 있어서, 음성 인터랙션 시스템은 임무 요청을 수신하고, 임무 정보에 따라 다음 임무가 문답 임무인 것으로 결정할 경우, 다음 임무의 응답 정보를 검색한다.
단계 406에 있어서, 음성 인터랙션 시스템은 사용자 단말에 상기 다음 임무의 응답 정보 및 다음 임무 후에 배치된 임무의 임무 정보를 송신한다.
이에 따라 유추하여, 임무 리스트의 전부 임무가 실행 완료될 때까지 계속한다.
더 나아가, 음성 인터랙션 시스템이 임무 요청을 수신하고, 임무 정보에 따라 다음 임무가 제어 임무인 것으로 결정할 경우, 상기 제어 임무에 대응되는 제어 명령어를 사물 인터넷 시스템에 송신하여, 사물 인터넷 시스템에 의해 대응되는 스마트 가전 제품이 제어될 수 있도록 한다.
여기서, 도 4와 도 2 및 도 3에서의 관련 기술은 동일하고, 여기서 더이상 반복하여 소개하지 않는다.
상기 실시예에 있어서, 현재 임무의 응답 정보 및 다음 임무의 임무 정보를 송신할 때마다, 매 번의 응답 정보가 플레이 완료된 후, 임무 정보를 이용하여 다음 응답 정보를 요청할 수 있음으로써, 응답 정보의 적시성을 확보할 수 있다.
도 5에 도시된 바와 같이, 이는 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 방법의 시간 순서도이다. 상기 방법은 제어 임무 및 실시간 요구를 갖는 문답 임무에만 임무 요청을 송신하고, 사용자 단말에 임무 리스트가 저장되어 있는 관점으로부터 설명하고, 상기 방법은 아래와 같은 단계를 포함한다.
단계 501에 있어서, 사용자 단말은 수집된 음성 정보를 음성 인터랙션 시스템에 송신한다.
단계 502에 있어서, 음성 인터랙션 시스템은 상기 음성 정보에 대응되는 임무 리스트를 결정하고, 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있다.
단계 503에 있어서, 음성 인터랙션 시스템은 사용자 단말에 현재 임무의 응답 정보를 송신하고, 다음 임무가 실시간 요구를 갖는 문답 임무 또는 제어 임무일 경우, 다음 임무의 임무 정보를 사용자 단말에 송신하고, 그렇지 않은 경우 임무 정보를 송신하지 않는다.
단계 504에 있어서, 사용자 단말은 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보 및 다음 임무의 임무 정보에 응답하여, 상기 응답 정보를 출력하고; 다음 임무 실행 시간에 도달하기 전의 기설정된 시간에, 음성 인터랙션 시스템에 상기 임무 정보를 반송하는 임무 요청을 송신한다. 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보(다음 임무의 임무 정보를 수신하지 않은 경우, 다음 임무가 실시간 요구를 갖는 문답 임무 또는 제어 임무가 아닌 것을 나타냄)를 수신한 것에 응답하여, 상기 응답 정보를 출력하고; 상기 임무 리스트에 따라 다음 임무를 결정하고, 다음 임무의 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력한다.
단계 505에 있어서, 음성 인터랙션 시스템은 임무 요청을 수신하고, 임무 정보에 따라 다음 임무가 문답 임무인 것으로 결정할 경우, 다음 임무의 응답 정보를 검색한다.
단계 506에 있어서, 사용자 단말에 상기 다음 임무의 응답 정보를 송신하고, 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무 또는 제어 임무일 경우, 상기 임무의 임무 정보를 사용자 단말에 송신하고, 그렇지 않은 경우 임무 정보를 송신하지 않는다.
이에 따라 유추하여, 임무 리스트의 임무가 실행 완료될 때까지 계속한다.
더 나아가, 음성 인터랙션 시스템이 임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖는 전부 문답 임무의 응답 정보를 사용자 단말에 송신한다.
여기서, 도 5와 도 2 및 도 3에서의 관련 기술은 동일하고, 여기서 더이상 반복하여 소개하지 않는다.
상기 실시예에 있어서, 제어 임무 또는 실시간 요구를 갖는 임무에 대해서만 임무 정보를 송신하여, 실시간 요구를 갖지 않는 임무도 임무 정보를 송신하는 것을 예방함으로써, 요청 횟수를 줄일 수 있어, 음성 인터랙션 시스템의 처리 부담을 줄여준다.
전술한 음성 인터랙션 방법의 실시예와 대응되게, 본 발명은 음성 인터랙션 장치, 장치에 적용되는 기기 및 저장 매체의 실시예를 더 제공한다.
도 6에 도시된 바와 같이, 도 6은 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 장치의 블록도이고, 상기 장치는,
사용자의 음성 정보를 획득하도록 구성된 정보 획득 모듈(62);
상기 음성 정보에 대응되는 임무 리스트를 결정하도록 구성된 리스트 결정 모듈(64) - 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있음 - ; 및
상기 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 상기 사용자 단말이 상기 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 하도록 구성된 정보 피드백 모듈(66)을 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다.
선택 가능한 실시예에 있어서, 상기 정보 피드백 모듈(66)은, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 사용자 단말에 의해 송신된 다음 임무를 반송하는 임무 정보의 임무 요청을 수신하도록 구성된다.
선택 가능한 실시예에 있어서, 상기 정보 피드백 모듈(66)은, 사용자 단말에 상기 다음 임무의 응답 정보를 송신할 경우, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하거나; 상기 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무인 것에 응답하여, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하도록 구성되고, 여기서, 사용자 단말에는 임무 리스트가 저장되어 있다.
선택 가능한 실시예에 있어서, 상기 다음 임무의 임무 정보는 적어도 다음 임무의 식별자 정보를 포함하고; 상기 다음 임무의 임무 정보는 다음 임무 중 문제의 인덱스 정보, 다음 임무 중 문제가 속하는 타입, 다음 임무의 실행 시간 중 적어도 하나를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 정보 피드백 모듈(66)은 또한, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 사용자 단말에 송신하여, 사용자 단말이 임무 리스트에서 임무의 순서에 따라, 로컬에서 상기 응답 정보를 획득하고 출력하도록 구성된다.
선택 가능한 실시예에 있어서, 상기 장치는 임무 중단 모듈을 더 포함하고(도 6에 도시되지 않음), 상기 임무 중단 모듈은,
상기 임무 리스트에서의 임무가 실행 완료되지 않은 경우, 새로운 사용자 음성을 수신하면, 사용자 단말이 상기 임무 리스트에서 완료되지 않은 임무에 대한 실행을 중단하도록 구성된다.
도 7에 도시된 바와 같이, 도 7은 본 발명이 일 예시적 실시예에 따라 도시한 음성 인터랙션 장치의 블록도이고, 상기 장치는,
획득된 음성 정보를 음성 인터랙션 시스템에 송신하도록 구성된 음성 송신 모듈(72); 및
현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신하여, 상기 현재 임무 실행 시간에 도달할 경우, 상기 현재 임무의 응답 정보를 출력하도록 구성된 정보 수신 모듈(74)을 포함한다.
선택 가능한 실시예에 있어서, 상기 현재 임무의 응답 정보는 다음 임무의 임무 정보를 더 반송하고; 상기 장치는 제1 요청 송신 모듈을 더 포함하며(도 7에 도시되지 않음), 상기 제1 요청 송신 모듈은,
상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함한다.
선택 가능한 실시예에 있어서, 상기 음성 정보에 대응되는 임무 리스트가 미리 저장되어 있고, 상기 장치는(도 7에 도시되지 않음),
상기 임무 리스트로부터 다음 임무의 임무 정보를 결정하도록 구성된 임무 정보 결정 모듈; 및
상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무를 반송하는 임무 정보의 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 구성된 제2 요청 송신 모듈을 더 포함한다.
선택 가능한 실시예에 있어서, 상기 다음 임무는 실시간 요구를 갖는 문답 임무이다.
선택 가능한 실시예에 있어서, 상기 장치는 임무 실행 모듈(도 7에 도시되지 않음)을 더 포함하고, 상기 임무 실행 모듈은,
상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하고, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력하도록 구성된다.
상기 장치에서의 각 모듈의 기능 및 작용의 구현 과정의 구체적인 사항은 상기 방법의 대응되는 단계의 구현 과정을 참조하면 되고, 여기서 더이상 반복적으로 설명하지 않는다.
장치 실시예는 방법 실시예에 거의 대응되므로, 관련 부분에 대해서는 방법 실시예의 부분적인 설명을 참조하면 된다. 이상 설명한 장치 실시예는 다만 예시적인 것이고, 여기서 상기 분리 부재로서 설명된 모듈은, 물리적으로 분리된 것이거나 아닐 수 있고, 모듈으로서 나타낸 부재는 물리적 모듈이거나 아닐 수 있고, 즉 한 곳에 위치할 수 있거나, 복수 개의 네트워크 모듈에 분포될 수도 있다. 실제 수요에 따라 그 중의 일부 또는 전부 모듈을 선택하여 본 발명의 방안의 목적을 구현할 수 있다. 본 분야의 기술자라면 발명적 작업이 이루어지지 않은 경우에도 이해 및 실시를 할 수 있다.
이에 따라, 본 발명은 또한 컴퓨터 판독 가능 저장 매체를 제공하고, 컴퓨터 프로그램이 저장되어 있으며, 상기 프로그램이 프로세서에 의해 실행될 경우 상기 어느 한 항의 상기 방법의 단계를 구현한다.
본 발명은 프로그램 코드를 포함하는 하나 또는 복수 개의 저장 매체(자기 메모리, CD-ROM, 광학식 메모리 등을 포함하지만 이에 한정되지 않음)에서 구현된 컴퓨터 프로그램의 형태를 사용할 수 있다. 컴퓨터 사용 가능 저장 매체는 영구적 및 비영구적, 이동식 및 비이동식 매체를 포함하며, 임의의 방법 또는 기술로 정보 저장을 구현할 수 있다. 정보는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램의 모듈 또는 다른 데이터일 수 있다. 컴퓨터의 저장 매체의 예시는, 피램(Phase-change Memory, PRAM), 정적 램(Static Random Access Memory, SRAM), 동적 램(Dynamic Random Access Memory, DRAM), 다른 타입의 램(Random Access Memory, RAM), 롬(Read Only Memory, ROM), 전기적 소거 가능한 프로그램 가능 롬(Electrically Erasable Programmable Read-Only Memory, EEPROM), 플래시 메모리 또는 다른 메모리 기술, 광학 디스크 롬(CD-ROM), 디지털 비디오 디스크(Digital Video Disc, DVD) 또는 다른 광학 메모리, 마그네틱 테이프, 마그네틱 테이프 저장 기기 또는 다른 마그네틱 저장 기기 또는 임의의 다른 비전송 매체를 포함하지만 이에 한정되는 것은 아니며, 컴퓨터 기기에 의해 방문된 정보를 저장하는데 사용될 수 있다.
이에 따라, 본 발명의 실시예는 전자 기기를 제공하고, 상기 기기는 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고; 여기서, 상기 프로세서는 상기 실행 가능한 명령어를 실행할 경우 상기 어느 한 방안에 따른 음성 인터랙션 방법을 구현한다.
도 8에 도시된 바와 같이, 도 8은 일 예시적 실시예에 따라 도시한 음성 인터랙션을 위한 장치(800)의 구조 예시도이다. 예를 들어, 장치(800)는 사용자 단말 또는 음성 인터랙션 시스템에 제공될 수 있다. 도 8을 참조하면, 장치(800)는 처리 컴포넌트(822)를 포함하고, 또한 하나 또는 복수 개의 프로세서 및 메모리(832)로 대표되는 메모리 자원을 포함하고, 처리 컴포넌트(822), 예를 들어 애플리케이션 프로그램에 의해 실행될 수 있는 명령어를 저장하기 위한 것이다. 메모리(832)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(822)는 명령어를 실행하여, 상기 음성 인터랙션 방법을 실행하도록 구성된다.
장치(800)는 장치(800)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(826), 장치(800)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(850) 및 하나의 입력 출력(I/O) 인터페이스(858)를 더 포함할 수 있다. 장치(800)는 메모리(832)에 저장된 것에 기반한 운영 시스템을 동작할 수 있고, 예를 들어 Android, iOS, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것 등이다.
예시적 실시예에 있어서, 명령어를 포함하는 메모리(832)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(800)의 처리 컴포넌트(822)에 의해 실행된다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능 저장 매체는 ROM, 램(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.
여기서, 상기 메모리(832)에서의 명령어가 상기 처리 컴포넌트(822)에 의해 실행될 경우, 장치(800)가 어느 하나의 음성 인터랙션 방법을 실행하도록 한다.
본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실천한 후, 본 발명의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본 발명은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 개시의 일반적인 원리에 따르며, 본 발명에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.
이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 이 범위를 벗어나지 않고 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims (26)

  1. 음성 인터랙션 방법으로서,
    사용자의 음성 정보를 획득하는 단계;
    상기 음성 정보에 대응되는 임무 리스트를 결정하는 단계 - 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있음 - ; 및
    상기 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 상기 사용자 단말이 상기 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  2. 제1항에 있어서,
    상기 다음 임무는 실시간 요구를 갖는 문답 임무인 것을 특징으로 하는 음성 인터랙션 방법.
  3. 제1항에 있어서,
    상기 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 상기 방법은,
    사용자 단말에 의해 송신된 다음 임무의 임무 정보를 반송하는 임무 요청을 수신하는 단계를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  4. 제1항에 있어서,
    사용자 단말에 상기 다음 임무의 응답 정보를 송신할 경우, 상기 방법은,
    사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하는 단계; 또는
    상기 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무인 것에 응답하여, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하는 단계 - 사용자 단말에는 임무 리스트가 저장되어 있음 - 를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 다음 임무의 임무 정보는 적어도 다음 임무의 식별자 정보를 포함하고; 상기 다음 임무의 임무 정보는 다음 임무 중 실행해야 할 문제의 인덱스 정보, 다음 임무 중 실행해야 할 문제가 속하는 타입 및 다음 임무의 실행 시간 중 적어도 하나를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  6. 제1항에 있어서,
    상기 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 상기 방법은,
    임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 사용자 단말에 송신하여, 사용자 단말이 임무 리스트에서 임무의 순서에 따라, 로컬에서 상기 응답 정보를 획득하고 출력하도록 하는 단계를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  7. 제1항에 있어서,
    상기 방법은,
    상기 임무 리스트에서의 임무가 실행 완료되지 않은 경우, 새로운 사용자 음성을 수신하면, 사용자 단말이 상기 임무 리스트에서 완료되지 않은 임무에 대한 실행을 중단하는 단계를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  8. 음성 인터랙션 방법으로서,
    획득된 음성 정보를 음성 인터랙션 시스템에 송신하는 단계; 및
    현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신하여, 상기 현재 임무 실행 시간에 도달할 경우, 상기 현재 임무의 응답 정보를 출력하도록 하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  9. 제8항에 있어서,
    상기 현재 임무의 응답 정보는 다음 임무의 임무 정보를 더 반송하고; 상기 방법은,
    상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무의 임무 정보를 반송하는 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  10. 제8항에 있어서,
    상기 음성 정보에 대응되는 임무 리스트가 미리 저장되어 있고, 상기 방법은,
    상기 임무 리스트로부터 다음 임무의 임무 정보를 결정하는 단계; 및
    상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무의 임무 정보를 반송하는 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 하는 단계를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  11. 제9항 또는 제10항에 있어서,
    상기 다음 임무는 실시간 요구를 갖는 문답 임무인 것을 특징으로 하는 음성 인터랙션 방법.
  12. 제9항 또는 제10항에 있어서,
    상기 방법은,
    상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하고, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  13. 음성 인터랙션 장치로서,
    사용자의 음성 정보를 획득하도록 구성된 정보 획득 모듈;
    상기 음성 정보에 대응되는 임무 리스트를 결정하도록 구성된 리스트 결정 모듈 - 상기 임무 리스트에는 적어도 두 개의 순서화된 임무가 포함되어 있음 - ; 및
    상기 적어도 두 개의 순서화된 임무에서의 각 임무에 대해, 현재 임무의 다음 임무가 문답 임무인 것에 응답하여, 상기 다음 임무 실행 시간에 도달하기 전, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하여, 상기 사용자 단말이 상기 다음 임무 실행 시간에 도달할 경우, 상기 응답 정보를 출력하도록 구성된 정보 피드백 모듈을 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  14. 제13항에 있어서,
    상기 다음 임무는 실시간 요구를 갖는 문답 임무인 것을 특징으로 하는 음성 인터랙션 장치.
  15. 제13항에 있어서,
    상기 정보 피드백 모듈은, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 사용자 단말에 의해 송신된 다음 임무의 임무 정보를 반송하는 임무 요청을 수신하도록 구성된 것을 특징으로 하는 음성 인터랙션 장치.
  16. 제13항에 있어서,
    상기 정보 피드백 모듈은,
    사용자 단말에 상기 다음 임무의 응답 정보를 송신할 경우, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하거나; 상기 다음 임무에 인접하는 미처리된 임무가 실시간 요구를 갖는 문답 임무인 것에 응답하여, 사용자 단말에 상기 다음 임무에 인접하는 미처리된 임무의 임무 정보를 송신하도록 구성된 것 - 사용자 단말에는 임무 리스트가 저장되어 있음 - 을 특징으로 하는 음성 인터랙션 장치.
  17. 제15항 또는 제16항에 있어서,
    상기 다음 임무의 임무 정보는 적어도 다음 임무의 식별자 정보를 포함하고; 상기 다음 임무의 임무 정보는 다음 임무 중 실행해야 할 문제의 인덱스 정보, 다음 임무 중 실행해야 할 문제가 속하는 타입, 다음 임무의 실행 시간 중 적어도 하나를 더 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  18. 제13항에 있어서,
    상기 정보 피드백 모듈은 또한, 사용자 단말에 상기 다음 임무의 응답 정보를 검색하고 송신하기 전, 임무 리스트에서 첫 번째 임무를 실행하는 과정 중, 임무 리스트에서 실시간 요구를 갖지 않는 문답 임무를 결정하고, 실시간 요구를 갖지 않는 전부 문답 임무의 응답 정보를 사용자 단말에 송신하여, 사용자 단말이 임무 리스트에서 임무의 순서에 따라, 로컬에서 상기 응답 정보를 획득하고 출력하도록 구성된 것을 특징으로 하는 음성 인터랙션 장치.
  19. 제13항에 있어서,
    상기 장치는 임무 중단 모듈을 더 포함하고, 상기 임무 중단 모듈은,
    상기 임무 리스트에서의 임무가 실행 완료되지 않은 경우, 새로운 사용자 음성을 수신하면, 사용자 단말이 상기 임무 리스트에서 완료되지 않은 임무에 대한 실행을 중단하도록 구성된 것을 특징으로 하는 음성 인터랙션 장치.
  20. 음성 인터랙션 장치로서,
    상기 장치는,
    획득된 음성 정보를 음성 인터랙션 시스템에 송신하도록 구성된 음성 송신 모듈; 및
    현재 임무의 실행 시간에 도달하기 전, 음성 인터랙션 시스템에 의해 송신된 현재 임무의 응답 정보를 수신하여, 상기 현재 임무 실행 시간에 도달할 경우, 상기 현재 임무의 응답 정보를 출력하도록 구성된 정보 수신 모듈을 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  21. 제20항에 있어서,
    상기 현재 임무의 응답 정보는 다음 임무의 임무 정보를 더 반송하고; 상기 장치는 제1 요청 송신 모듈을 더 포함하며, 상기 제1 요청 송신 모듈은,
    상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무의 임무 정보를 반송하는 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 구성된 것을 특징으로 하는 음성 인터랙션 장치.
  22. 제20항에 있어서,
    상기 음성 정보에 대응되는 임무 리스트가 미리 저장되어 있고, 상기 장치는,
    상기 임무 리스트로부터 다음 임무의 임무 정보를 결정하도록 구성된 임무 정보 결정 모듈; 및
    상기 다음 임무의 실행 시간에 도달하기 전, 상기 음성 인터랙션 시스템에 상기 다음 임무의 임무 정보를 반송하는 임무 요청을 송신하여, 음성 인터랙션 시스템이 상기 다음 임무의 실행 시간에 도달하기 전, 대응되는 응답 정보를 피드백하도록 구성된 제2 요청 송신 모듈을 더 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  23. 제21항 또는 제22항에 있어서,
    상기 다음 임무는 실시간 요구를 갖는 문답 임무인 것을 특징으로 하는 음성 인터랙션 장치.
  24. 제21항 또는 제22항에 있어서,
    상기 장치는 임무 실행 모듈을 더 포함하고, 상기 임무 실행 모듈은,
    상기 임무 정보에 따라 상기 다음 임무가 실시간 요구를 갖지 않는 문답 임무인 것으로 결정하고, 다음 임무 실행 시간에 도달할 경우, 로컬에서 다음 임무의 응답 정보를 획득하고, 출력하도록 구성된 것을 특징으로 하는 음성 인터랙션 장치.
  25. 전자 기기로서,
    프로세서; 및
    프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
    상기 프로세서는 상기 실행 가능한 명령어를 실행할 경우 제1항 내지 제4항, 제6항 내지 제10항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 전자 기기.
  26. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체로서,
    상기 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제4항, 제6항 내지 제10항 중 어느 한 항에 따른 방법의 단계를 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
KR1020200090663A 2020-01-08 2020-07-22 음성 인터랙션 방법, 장치, 기기 및 저장 매체 KR102389034B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010017436.7A CN111243587A (zh) 2020-01-08 2020-01-08 语音交互方法、装置、设备及存储介质
CN202010017436.7 2020-01-08

Publications (2)

Publication Number Publication Date
KR20210090081A KR20210090081A (ko) 2021-07-19
KR102389034B1 true KR102389034B1 (ko) 2022-04-21

Family

ID=70872405

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200090663A KR102389034B1 (ko) 2020-01-08 2020-07-22 음성 인터랙션 방법, 장치, 기기 및 저장 매체

Country Status (6)

Country Link
US (1) US11798545B2 (ko)
EP (1) EP3848801B1 (ko)
JP (1) JP7288885B2 (ko)
KR (1) KR102389034B1 (ko)
CN (1) CN111243587A (ko)
ES (1) ES2952381T3 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017659A (zh) * 2020-09-01 2020-12-01 北京百度网讯科技有限公司 多音区语音信号的处理方法、装置、设备以及存储介质
CN115390467A (zh) * 2022-07-29 2022-11-25 青岛海尔科技有限公司 语音交互的方法和装置、存储介质及电子装置

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002315069A (ja) 2001-04-17 2002-10-25 Misawa Homes Co Ltd 遠隔制御装置
JP4015898B2 (ja) * 2002-07-26 2007-11-28 松下電器産業株式会社 プログラム実行装置
US7707140B2 (en) * 2002-10-09 2010-04-27 Yahoo! Inc. Information retrieval system and method employing spatially selective features
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
WO2009113034A1 (en) * 2008-03-12 2009-09-17 Nxp B.V. Look-ahead task management
JP5829000B2 (ja) * 2008-08-20 2015-12-09 株式会社ユニバーサルエンターテインメント 会話シナリオ編集装置
KR101667702B1 (ko) 2009-08-31 2016-10-19 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9043319B1 (en) * 2009-12-07 2015-05-26 Google Inc. Generating real-time search results
RU2530268C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US9767794B2 (en) * 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs
US20160308811A1 (en) * 2015-04-17 2016-10-20 Microsoft Technology Licensing, Llc Communication System Invite Mechanism
US10521189B1 (en) * 2015-05-11 2019-12-31 Alan AI, Inc. Voice assistant with user data context
US10424293B1 (en) * 2015-07-21 2019-09-24 Amazon Technologies, Inc. Using audio input and output to interact with text-based interactive content
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
US10110272B2 (en) * 2016-08-24 2018-10-23 Centurylink Intellectual Property Llc Wearable gesture control device and method
EP3506256A4 (en) * 2016-08-26 2019-08-21 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US11138894B1 (en) * 2016-09-21 2021-10-05 Workday, Inc. Educational learning importation
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
WO2018169380A1 (ko) * 2017-03-17 2018-09-20 엘지전자(주) 블루투스 기술을 이용하여 오디오 신호를 처리하기 위한 방법 및 장치
KR102298947B1 (ko) * 2017-04-28 2021-09-08 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
DE112018003014T5 (de) * 2017-06-16 2020-03-05 Honda Motor Co., Ltd. Erfahrung-bereitstellungssystem, erfahrung-bereitstellungsverfahren und erfahrung-bereitstellungsprogramm
CN109102802B (zh) * 2017-06-21 2023-10-17 三星电子株式会社 用于处理用户话语的系统
US11367449B2 (en) * 2017-08-09 2022-06-21 Lg Electronics Inc. Method and apparatus for calling voice recognition service by using Bluetooth low energy technology
US11322141B2 (en) * 2017-08-17 2022-05-03 Sony Corporation Information processing device and information processing method
KR102374910B1 (ko) * 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US11450314B2 (en) 2017-10-03 2022-09-20 Google Llc Voice user interface shortcuts for an assistant application
EP3698359A1 (en) * 2017-10-18 2020-08-26 Soapbox Labs Ltd. Methods and systems for speech detection
US20190272590A1 (en) * 2018-02-09 2019-09-05 Deutsche Ag Stress testing and entity planning model execution apparatus, method, and computer readable media
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
KR102446961B1 (ko) * 2018-03-08 2022-09-23 구글 엘엘씨 원격으로 생성된 자동화된 어시스턴트 콘텐츠를 렌더링할 때 클라이언트 디바이스 지연 완화
KR102617265B1 (ko) 2018-03-13 2023-12-26 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
CN118200349A (zh) * 2018-03-14 2024-06-14 谷歌有限责任公司 生成基于IoT的通知并提供命令的方法和系统
CN109739462B (zh) * 2018-03-15 2020-07-03 北京字节跳动网络技术有限公司 一种内容输入的方法及装置
US20210200597A1 (en) * 2018-03-16 2021-07-01 Sony Corporation Information processing device, information processing method, and program
KR102281882B1 (ko) * 2018-03-23 2021-07-27 엔이디엘.콤 잉크. 실-시간 오디오 스트림 검색 및 제시 시스템
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
US11438650B2 (en) * 2018-03-29 2022-09-06 Saturn Licensing Llc Information processing apparatus, information processing method, transmission apparatus, and transmission method
EP3779965A4 (en) * 2018-04-12 2021-06-09 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS AND PROGRAM
US11010436B1 (en) * 2018-04-20 2021-05-18 Facebook, Inc. Engaging users by personalized composing-content recommendation
US10868711B2 (en) * 2018-04-30 2020-12-15 Splunk Inc. Actionable alert messaging network for automated incident resolution
US20210174791A1 (en) * 2018-05-02 2021-06-10 Melo Inc. Systems and methods for processing meeting information obtained from multiple sources
JP7471279B2 (ja) * 2018-05-04 2024-04-19 グーグル エルエルシー 検出された口運動および/または注視に基づく自動化アシスタントの適応
CN110459211B (zh) * 2018-05-07 2023-06-23 阿里巴巴集团控股有限公司 人机对话方法、客户端、电子设备及存储介质
US10991373B1 (en) * 2018-05-29 2021-04-27 Amazon Technologies, Inc. Voice command processing for locked devices
US20190370413A1 (en) * 2018-06-03 2019-12-05 Apple Inc. Accessing multiple domains across multiple devices for candidate responses
US10963492B2 (en) * 2018-06-14 2021-03-30 Google Llc Generation of domain-specific models in networked system
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US10678571B2 (en) * 2018-07-13 2020-06-09 Microsoft Technology Licensing, Llc Image-based skill triggering
KR102572701B1 (ko) * 2018-08-17 2023-08-31 삼성전자주식회사 사용자의 상태 정보에 기초하여 응답 메시지를 제공하는 전자 장치 및 그 동작 방법
US11249992B2 (en) * 2018-09-21 2022-02-15 Servicenow, Inc. Parsing of user queries in a remote network management platform using extended context-free grammar rules
US20200111487A1 (en) * 2018-10-04 2020-04-09 Ca, Inc. Voice capable api gateway
US11120791B2 (en) * 2018-11-15 2021-09-14 International Business Machines Corporation Collaborative artificial intelligence (AI) voice response system control for authorizing a command associated with a calendar event
US11468071B2 (en) * 2018-11-30 2022-10-11 Rovi Guides, Inc. Voice query refinement to embed context in a voice query
US11211061B2 (en) * 2019-01-07 2021-12-28 2236008 Ontario Inc. Voice control in a multi-talker and multimedia environment
US11593447B2 (en) * 2019-01-25 2023-02-28 Ford Global Technologies, Llc Pre-fetch and lazy load results of in-vehicle digital assistant voice searches
JP2020141235A (ja) 2019-02-27 2020-09-03 パナソニックIpマネジメント株式会社 機器制御システム、機器制御方法及びプログラム
CN118351843A (zh) * 2019-03-01 2024-07-16 谷歌有限责任公司 动态地适配助理响应
US11360969B2 (en) * 2019-03-20 2022-06-14 Promethium, Inc. Natural language based processing of data stored across heterogeneous data sources
US11462216B2 (en) * 2019-03-28 2022-10-04 Cerence Operating Company Hybrid arbitration system
US11364364B2 (en) * 2019-05-03 2022-06-21 Pacesetter, Inc. Biostimulator transport system having valve bypass tool
DK180129B1 (en) * 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
CN110209791B (zh) 2019-06-12 2021-03-26 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
US11050977B2 (en) * 2019-06-18 2021-06-29 Tmrw Foundation Ip & Holding Sarl Immersive interactive remote participation in live entertainment
US11216415B2 (en) * 2019-06-19 2022-01-04 Citrix Systems, Inc. Identification and recommendation of file content segments
CN110390935B (zh) * 2019-07-15 2021-12-31 百度在线网络技术(北京)有限公司 语音交互方法和装置
US11138975B2 (en) * 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) * 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11710480B2 (en) * 2019-08-07 2023-07-25 International Business Machines Corporation Phonetic comparison for virtual assistants
US12020696B2 (en) * 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant
US11218565B2 (en) * 2019-10-23 2022-01-04 Microsoft Technology Licensing, Llc Personalized updates upon invocation of a service
US11449496B2 (en) * 2019-10-25 2022-09-20 Servicenow, Inc. Enhanced natural language processing with semantic shortcuts
US10917524B1 (en) * 2019-10-30 2021-02-09 American Tel-A-Systems, Inc. Methods for auditing communication sessions

Also Published As

Publication number Publication date
CN111243587A (zh) 2020-06-05
ES2952381T3 (es) 2023-10-31
US11798545B2 (en) 2023-10-24
JP7288885B2 (ja) 2023-06-08
EP3848801A1 (en) 2021-07-14
KR20210090081A (ko) 2021-07-19
US20210210088A1 (en) 2021-07-08
EP3848801B1 (en) 2023-05-10
JP2021110921A (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
CN110998567B (zh) 用于对话语义分析的知识图谱
KR102373905B1 (ko) 어시스턴트 애플리케이션을 위한 음성 사용자 인터페이스 단축
EP3633947B1 (en) Electronic device and control method therefor
US10706854B2 (en) Dialog management with multiple applications
JP6686226B2 (ja) 適切なエージェントの自動化アシスタント呼び出し
US20190304471A1 (en) Managing dialog data providers
KR20200007882A (ko) 자동 비서를 위한 명령 번들 제안 제공
WO2020006827A1 (zh) 一种智能应答的方法和装置
US11875125B2 (en) System and method for designing artificial intelligence (AI) based hierarchical multi-conversation system
KR102389034B1 (ko) 음성 인터랙션 방법, 장치, 기기 및 저장 매체
CN111144132B (zh) 一种语义识别方法及装置
JP7439186B2 (ja) オーディオクエリのオーバーラップ処理の協調
JP7436077B2 (ja) スキルの音声ウェイクアップ方法および装置
CN115424624B (zh) 一种人机互动的服务处理方法、装置及相关设备
CN117421398A (zh) 人机交互方法、装置、设备以及存储介质
CN110418181B (zh) 对智能电视的业务处理方法、装置、智能设备及存储介质
CN117828064A (zh) 一种问答系统及问答系统的构建方法
WO2022046517A1 (en) Systems and methods for reducing latency in cloud services
CN116680368A (zh) 一种基于贝叶斯分类器的水利知识问答方法、设备及介质
Sun et al. Understanding user’s cross-domain intentions in spoken dialog systems
CN113421565A (zh) 搜索方法、装置、电子设备以及存储介质
CN106682221B (zh) 问答交互的响应方法、装置及问答系统
CN112614490A (zh) 生成语音指令的方法、装置、介质、设备、系统及车辆
US20240111848A1 (en) Electronic device and control method therefor
KR102707512B1 (ko) 대형 언어 모델 기반 에이전트 시스템이 실행하는 api 자동 실행 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant