KR102470275B1 - 음성 제어 방법 및 전자 장치 - Google Patents

음성 제어 방법 및 전자 장치 Download PDF

Info

Publication number
KR102470275B1
KR102470275B1 KR1020217018691A KR20217018691A KR102470275B1 KR 102470275 B1 KR102470275 B1 KR 102470275B1 KR 1020217018691 A KR1020217018691 A KR 1020217018691A KR 20217018691 A KR20217018691 A KR 20217018691A KR 102470275 B1 KR102470275 B1 KR 102470275B1
Authority
KR
South Korea
Prior art keywords
interface
voice
control
electronic device
application
Prior art date
Application number
KR1020217018691A
Other languages
English (en)
Other versions
KR20210092795A (ko
Inventor
수안 조우
쇼우쳉 왕
지아유 롱
유에 가오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20210092795A publication Critical patent/KR20210092795A/ko
Application granted granted Critical
Publication of KR102470275B1 publication Critical patent/KR102470275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72406User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by software upgrading or downloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72442User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 출원은 통신 기술 분야에 관한 것이며, 음성 제어 방법 및 전자 장치를 제공하여, 사용자는 애플리케이션을 실행하는 프로세스에서 애플리케이션에 관련된 음성 작업을 실행하도록 프롬프트될 수 있다. 이는 전자 장치의 음성 제어 효율 및 사용자 경험을 개선한다. 방법은 애플리케이션의 제1 인터페이스를 표시하는 단계 - 제1 인터페이스는 제1 인터페이스를 업데이트하는 데 사용되는 컨트롤을 포함함 - 와, 사용자에 의해 입력된 웨이크업 신호에 응답하여 백그라운드에서 음성 애플리케이션을 인에이블하는 단계와, 제1 인터페이스 상에 M개의 음성 입력 프롬프트를 표시하는 단계 - 각각의 음성 입력 프롬프트는 제1 인터페이스 상의 적어도 하나의 컨트롤에 대응함 - 와, 사용자에 의해 입력되는 음성 제어 신호를 수집하는 단계 - 음성 제어 신호는 M개의 음성 입력 프롬프트의 제1 음성 입력 프롬프트에 대응함 - 와, 음성 제어 신호에 응답하여 애플리케이션의 제2 인터페이스를 표시하는 단계 - 제2 인터페이스는 제1 인터페이스 상의 제1 컨트롤이 트리거된 후에 업데이트를 통해 획득되는 인터페이스이고, 제1 컨트롤은 제1 음성 입력 프롬프트에 대응함 - 를 포함한다.

Description

음성 제어 방법 및 전자 장치
본 출원은 통신 기술 분야에 관한 것으로, 특히, 음성 제어 방법 및 전자 장치에 관한 것이다.
음성 인식 기술은 기계(예를 들어, 이동 전화 또는 착용형 장치)가 인식과 이해를 통해 음향 신호를 해당 텍스트 또는 커맨드로 변환할 수 있도록 하는 기술이다. 현재, 다수의 이동 전화에 음성 지원(예컨대, Xiaoai, Siri 및 Xiao E)과 같은 음성 인식에 사용되는 음성 앱이 설치되어 있다. 일반적으로, 이동 전화는 하나 이상의 웨이크업 신호(예를 들어, 탭핑 신호 또는 "Hello, Xiao E"와 같은 웨이크업 단어)를 사전설정할 수 있다. 사용자가 이러한 웨이크업 신호를 입력하는 것이 검출되면, 사용자가 이 시점에 음성 인식 기능을 사용할 의사가 있음을 나타낸다. 따라서, 이동 전화는 음성 인식을 수행하기 위해 음성 앱을 시작하도록 트리거된 다음 해당 음성 작업을 실행할 수 있다.
일반적으로, 이동 전화에 의해 인식되고 실행될 수 있는 특정 음성 작업, 예를 들어, 날씨 조회를 위한 음성 작업, 연락처를 호출하기 위한 음성 작업은 전달되기 전에 이동 전화에서 미리 구성된다. 도 1에 도시된 바와 같이, 사용자는 음성 앱의 설정 인터페이스(101)에서 각각의 애플리케이션에 의해 특별히 지원되는 모든 음성 작업을 볼 수 있다. 그러나, 음성 작업의 유형이 다양하기 때문에, 애플리케이션을 사용하는 특정 프로세스에서, 사용자는 애플리케이션이 음성 인식 기능을 지원하는지 여부를 잊거나 음성을 통해 제어될 수 있는 애플리케이션 내의 특정 작업을 잊을 수 있다. 결과적으로, 이동 전화에서 음성 앱의 사용률이 높지 않고, 음성 앱의 음성 인식 기능을 이동 전화에서 완전히 사용할 수 없으며, 음성 앱이 사용자의 손을 자유롭게 하도록 지원할 수 없다.
본 출원의 실시예는 음성 제어 방법 및 전자 장치를 제공하여, 사용자는 애플리케이션을 실행하는 프로세스에서 애플리케이션에 관련된 음성 작업을 실행하도록 프롬프트될 수 있다. 이는 전자 장치의 음성 앱의 음성 제어 효율 및 사용자 경험을 개선한다.
전술한 목적을 달성하기 위해, 본 출원에서는 다음과 같은 기술적 솔루션이 사용된다.
제1 양상에 따르면, 본 출원의 실시예는 음성 제어 방법을 제공하며, 방법은 전자 장치에 의해, 애플리케이션의 제1 인터페이스를 표시하는 단계 - 제1 인터페이스는 제1 인터페이스를 업데이트하는 데 사용되는 컨트롤을 포함함 - 와, 사용자에 의해 입력된 웨이크업 신호가 수신되면, 전자 장치에 의해, 백그라운드에서 음성 애플리케이션을 인에이블하는 단계와, 또한, 전자 장치에 의해 제1 인터페이스 상에, 음성 애플리케이션에 의해 제공되는 M(M은 0보다 큰 정수임)개의 음성 입력 프롬프트를 표시하는 단계 - 각각의 음성 입력 프롬프트는 제1 인터페이스 상의 적어도 하나의 컨트롤에 대응함 - 와, 후속하여, 전자 장치에 의해 인에이블된 음성 애플리케이션(예컨대, Siri 또는 Xiao E와 같은 음성 지원)을 사용하여, 사용자에 의해 입력되는 음성 제어 신호를 수집하는 단계 - 상기 음성 제어 신호는 상기 M개의 음성 입력 프롬프트의 제1 음성 입력 프롬프트에 대응함 - 와, 음성 제어 신호가 M개의 음성 입력 프롬프트의 제1 음성 입력 프롬프트에 대응하면, 전자 장치에 의해, 음성 제어 신호에 응답하여 애플리케이션의 제2 인터페이스를 표시하는 단계 - 제2 인터페이스는 제1 인터페이스 상의 제1 컨트롤(제1 컨트롤은 제1 음성 입력 프롬프트에 대응함)이 트리거된 후에 업데이트를 통해 획득되는 인터페이스임 - 를 포함한다.
즉, 전자 장치가 애플리케이션의 인터페이스를 표시할 때, 사용자가 음성 애플리케이션을 깨운 것으로 검출되면, 전자 장치는 음성 애플리케이션을 사용하여 사용자에게 현재 인터페이스에서 음성 입력 프롬프트를 입력하도록 프롬프트할 수있다. 음성 입력 프롬프트는 인터페이스 상의 하나 이상의 컨트롤과 연관된다. 이와 같이, 사용자가 음성 입력 프롬프트에 대응하는 음성 제어 신호를 입력하는 것이 검출되면, 전자 장치는 음성 제어 신호를 기반으로 해당 컨트롤을 트리거하여 전자 장치는 표시중인 인터페이스를 업데이트할 수 있다. 이와 같이, 애플리케이션을 사용하는 프로세스에서, 사용자는 음성 입력 프롬프트에 기초하여 현재 인터페이스에서 실행될 수 있는 음성 제어 신호를 전자 장치에 입력할 수 있다. 이는 전자 장치에서 음성 앱의 음성 제어 효율성을 향상시키고 사용자 경험을 향상시킨다.
가능한 설계 방법에서, 전자 장치에 의해, 백그라운드에서 음성 애플리케이션을 인에이블한 후에, 방법은, 제1 인터페이스 상의 컨트롤에 대해 사용자가 수행하는 터치 제어 동작이 검출되면, 전자 장치에 의해, 터치 제어 동작에 대응하는 동작 명령어를 실행하는 단계를 더 포함한다. 즉, 전자 장치가 백그라운드에서 음성 애플리케이션을 인에이블한 후, 백그라운드에서 실행중인 음성 애플리케이션이 사용자와 포그라운드 애플리케이션 간의 상호작용에 영향을 주지 않기 때문에, 사용자는 표시된 제1 인터페이스에서 제1 인터페이스 상의 컨트롤을 여전히 작동시킬 수 있다.
가능한 설계 방법에서, 전자 장치에 의해, 백그라운드에서 음성 애플리케이션을 인에이블한 후에, 방법은, 전자 장치에 의해, 제1 인터페이스 상에 음성 애플리케이션의 식별자를 표시하여 음성 애플리케이션이 인에이블되고 있으며 백그라운드에서 인에이블되었음을 사용자에게 프롬프트하는 단계를 더 포함한다. 음성 애플리케이션의 식별자는 플로팅 버튼의 형태로 제1 인터페이스에 표시될 수 있으며, 사용자는 제1 인터페이스 상의 식별자의 위치를 조정할 수 있다.
가능한 설계 방법에서, 전자 장치에 의해, 애플리케이션의 제1 인터페이스를 표시한 후에, 방법은, 전자 장치에 의해, 제1 인터페이스 상에 프롬프트 버튼을 표시하는 단계와, 전자 장치가 사용자에 의해 프롬프트 버튼을 클릭하는 클릭 동작을 수신하면, 전자 장치에 의해, 클릭 동작에 응답하여 제1 인터페이스 상에 M개의 음성 입력 프롬프트를 표시하는 단계를 더 포함한다.
가능한 설계 방법에서, 전자 장치에 의해, 애플리케이션의 제1 인터페이스를 표시한 후에, 방법은, 전자 장치에 의해, 제1 인터페이스와 연관된 구성 파일을 획득하는 단계 - 구성 파일은 제1 인터페이스 상에서 전자 장치에 의해 실행되는 것이 가능한 N(N은 M 이상의 정수임)개의 음성 작업을 기록함 - 를 더 포함하고, 이 경우에, 전자 장치에 의해 제1 인터페이스 상에, M개의 음성 입력 프롬프트를 표시하는 것은, 전자 장치에 의해, 구성 파일에 기초하여 제1 인터페이스 상에 M개의 음성 입력 프롬프트를 표시하는 것을 포함하고, 각각의 음성 입력 프롬프트는 구성 파일 내의 하나의 음성 작업과 연관된다. 예컨대, 음성 입력 프롬프트 "재생"은 구성 파일 내의 재생 작업과 연관된다.
예컨대, M개의 음성 입력 프롬프트는 각각 사용 주파수가 N개의 음성 작업의 임계치보다 큰 M개의 음성 작업과 일대일 대응한다.
가능한 설계 방법에서, 구성 파일은 제1 음성 작업과 제1 컨트롤의 제1 터치 이벤트 사이의 대응을 더 포함하고, 제1 음성 작업은 N개의 음성 작업 중 하나이며, 전자 장치에 의해, 사용자에 의해 입력된 음성 제어 신호를 수집한 후에, 방법은, 전자 장치에 의해, 음성 제어 신호에 대응하는 음성 작업이 제1 음성 작업인 것으로 결정하는 단계를 더 포함하고, 전자 장치에 의해, 음성 제어 신호에 응답하여 애플리케이션의 제2 인터페이스를 표시하는 것은, 전자 장치에 의해, 음성 제어 신호에 응답하여 제1 컨트롤에 대해 제1 터치 이벤트를 실행하여 전자 장치가 제1 인터페이스를 제2 인터페이스로 업데이트하는 것을 포함한다.
즉, 전자 장치는 제1 인터페이스의 구성 파일에 기초하여, 사용자가 입력한 음성 제어 신호를 대응하는 터치 이벤트로 변환한 후 터치 이벤트를 실행할 수 있다. 이는 음성을 이용하여 제1 인터페이스 상의 각각의 동작 버튼을 제어하는 기능을 구현한다. 이러한 방식으로, 전자 장치는 애플리케이션의 각각의 인터페이스에서 인터페이스 상의 각각의 동작 버튼에 대한 음성 제어 기능을 구현할 수 있다. 이것은 이동 전화의 음성 제어 효율과 사용자 경험을 향상시킨다.
가능한 설계 방법에서, 전자 장치가 제1 컨트롤에 대해 제1 터치 이벤트를 실행할 때, 방법은, 전자 장치에 의해, 사용자가 제1 컨트롤에 대해 제1 터치 이벤트를 실행할 때 제시되는 애니메이션 효과를 표시하여 사용자가 GUI와 VUI 모두에서 양호한 사용자 경험을 획득하는 단계를 더 포함한다.
가능한 설계 방법에서, 전자 장치에 의해, 사용자에 의해 입력되는 음성 제어 신호를 수집한 후에, 방법은, 전자 장치에 의해, 음성 제어 신호 및 제1 인터페이스의 인터페이스 정보를 서버에 전송하여 서버가 인터페이스 정보에 기초하여, 음성 제어 신호에 대응하는 음성 작업을 인식하는 단계를 더 포함하고, 인터페이스 정보는 제1 인터페이스의 식별자, 제1 인터페이스의 페이지 유형, 또는 제1 인터페이스가 속하는 애플리케이션의 유형 중 적어도 하나를 포함한다. 이 경우, 인터페이스 정보가 현재 전자 장치의 실제 사용 시나리오를 반영할 수 있기 때문에, 서버는 인터페이스 정보에 기초하여, 사용자에 의해 입력된 음성 제어 신호에 대한 음성 인식을 더 정확하게 수행할 수 있어서, 사용자에 의해 실행되어야 하는 실제 음성 작업을 더 정확하게 결정한다.
제2 양상에 따르면, 본 출원은 전자 장치를 제공하며, 전자 장치는 터치 감지 표면 및 디스플레이를 포함하는 터치스크린과, 하나 이상의 프로세서와, 하나 이상의 메모리와, 통신 모듈과, 하나 이상의 컴퓨터 프로그램을 포함한다. 프로세서는 터치스크린, 통신 모듈 및 메모리의 각각에 연결된다. 하나 이상의 컴퓨터 프로그램은 메모리에 저장된다. 전자 장치가 실행될 때, 프로세서는 메모리에 저장된 하나 이상의 컴퓨터 프로그램을 실행하여 전자 장치는 가능한 설계 중 어느 한 설계에 따른 음성 제어 방법을 수행한다.
제3 양상에 따르면, 본 출원은 컴퓨터 명령어를 포함하는 컴퓨터 저장 매체를 제공한다. 컴퓨터 명령어가 전자 장치에서 실행될 때, 전자 장치는 제1 양상의 가능한 설계 중 어느 한 설계에 따른 음성 제어 방법을 수행할 수 있게 된다.
제4 양상에 따르면, 본 출원은 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 전자 장치에서 실행될 때, 전자 장치는 제1 양상의 가능한 설계 중 어느 한 설계에 따른 음성 제어 방법을 수행할 수 있게 된다.
제2 양상에 따른 단말기, 제3 양상에 따른 컴퓨터 저장 매체 및 제4 양상에 따른 컴퓨터 프로그램 제품은 모두 앞에서 제공된 해당 방법을 수행하는 데 사용된다는 것을 이해할 수 있다. 따라서 단말기, 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품이 달성할 수 있는 유익한 효과에 대해서는 앞에서 제공된 해당 방법의 유익한 효과를 참조한다. 자세한 내용은 본 명세서에서 설명하지 않는다.
도 1은 종래 기술의 음성 애플리케이션의 설정 인터페이스의 개략도이다.
도 2는 본 출원의 일 실시예에 따른 전자 장치의 개략적인 구조도 1이다.
도 3은 본 출원의 일 실시예에 따른 전자 장치의 운영 체제의 개략적인 아키텍처도이다.
도 4는 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 1이다.
도 5는 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 흐름도이다.
도 6은 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 2이다.
도 7a는 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 3이다.
도 7b는 종래 기술에서 음성 애플리케이션이 포그라운드에서 실행될 때 보여지는 시나리오의 개략도이다.
도 8은 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 4이다.
도 9(a) 및 도 9(b)는 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 5이다.
도 10은 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 6이다.
도 11은 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 7이다.
도 12는 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 8이다.
도 13은 본 출원의 일 실시예에 따른 음성 제어 방법의 개략적인 시나리오도 9이다.
도 14는 본 출원의 일 실시예에 따른 전자 장치의 개략적인 구조도 2이다.
다음은 첨부 도면들을 참조하여 본 출원의 실시예들의 구현들을 상세히 설명한다.
본 출원의 실시예들에서 제공되는 음성 제어 방법은 전자 장치, 예컨대, 이동 전화, 태블릿 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 울트라-모바일 개인용 컴퓨터(ultra-mobile personal computer, UMPC), 휴대용 컴퓨터, 넷북, 개인용 디지털 보조기(personal digital assistant, PDA), 착용형 전자 장치 또는 가상 현실 장치에 적용될 수 있다. 이는 본 출원의 실시예들에서 제한되지 않는다.
예를 들어, 도 2는 전자 장치(100)의 개략적인 구조도이다.
전자 장치(100)는 프로세서(110), 외부 메모리 인터페이스(120), 내부 메모리(121), 범용 직렬 버스(universal serial bus, USB) 포트(130), 충전 관리 모듈(140), 전력 관리 모듈(141), 배터리(142), 안테나(1), 안테나(2), 이동 통신 모듈(150), 무선 통신 모듈(160), 오디오 모듈(170), 스피커(170A), 수신기(170B), 마이크로폰(170C), 헤드셋 잭(170D), 센서 모듈(180), 키(190), 모터(191), 표시기(192), 카메라(193), 디스플레이(194), 가입자 식별 모듈(subscriber identification module, SIM) 카드 인터페이스(195) 등을 포함할 수 있다. 센서 모듈(180)은 압력 센서(180A), 자이로 센서(180B), 기압 센서(180C), 자기 센서(180D), 가속도 센서(180E), 거리 센서(180F), 광학 근접 센서(180G), 지문 센서(180H), 온도 센서(180J), 터치 센서(180K), 주변 광학 센서(180L), 골전도 센서(180M) 등을 포함할 수 있다.
본 출원의 이 실시예에 도시된 구조는 전자 장치(100)에 대한 특정 제한을 구성하지 않는다는 것을 이해할 수 있다. 본 출원의 몇몇 다른 실시예에서, 전자 장치(100)는 도면에 도시된 것보다 더 많거나 적은 구성요소를 포함할 수 있거나 또는 몇몇 구성요소는 결합되거나 몇몇 구성요소는 분할되거나 상이한 구성요소 배열이 사용될 수 있다. 도면에 도시된 구성요소는 하드웨어, 소프트웨어 또는 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다.
프로세서(110)는 하나 이상의 처리 유닛을 포함할 수 있다. 예를 들어, 프로세서(110)는 애플리케이션 프로세서(application processor, AP), 모뎀 프로세서, 그래픽 처리 유닛(graphics processing unit, GPU), 이미지 신호 프로세서(image signal processor, ISP), 제어기, 메모리, 비디오 코덱 및 디지털 신호 프로세서(digital signal processor, DSP), 기저대역 프로세서, 신경망 처리 유닛(neural-network processing unit, NPU) 등을 포함할 수 있다. 상이한 처리 유닛은 독립적인 구성요소이거나 하나 이상의 프로세서에 통합될 수 있다.
제어기는 전자 장치(100)의 신경 중심 및 커맨드 중심일 수 있다. 제어기는 명령어 판독 및 명령어 실행의 제어를 완료하기 위해, 명령어 동작 코드 및 시간 시퀀스 신호에 기초하여 동작 제어 신호를 생성할 수 있다.
메모리는 프로세서(110)에 또한 배치될 수 있고, 명령어 및 데이터를 저장하도록 구성된다. 몇몇 실시예에서, 프로세서(110) 내의 메모리는 캐시 메모리이다. 메모리는 프로세서(110)에 의해 사용되거나 주기적으로 사용된 명령어 또는 데이터를 저장할 수 있다. 프로세서(110)가 명령어 또는 데이터를 다시 사용할 필요가 있는 경우, 프로세서(210)는 메모리로부터 명령어 또는 데이토를 직접 호출할 수 있다. 이는 액세스 반복을 방지하고 프로세서(110)의 대기 시간을 감소시킨다. 따라서, 시스템 효율이 개선된다.
몇몇 실시예에서, 프로세서(110)는 하나 이상의 인터페이스를 포함할 수 있다. 인터페이스는 I2C(inter-integrated circuit, I2C) 인터페이스, I2S(inter-integrated circuit sound, I2S) 인터페이스, 펄스 코드 변조(pulse code modulation, PCM) 인터페이스, 범용 비동기식 수신기/송신기(universal asynchronous receiver/transmitter, UART) 인터페이스, 모바일 산업 프로세서 인터페이스(mobile industry processor interface, MIPI), 범용 입력/출력(general-purpose input/output, GPIO) 인터페이스, 가입자 식별 모듈(subscriber identity module, SIM) 인터페이스 및 범용 직렬 버스(universal serial bus, USB) 인터페이스 등을 포함할 수 있다.
I2C 인터페이스는 양방향 동기화 직렬 버스이고, 직렬 데이터 라인(serial data line, SDA) 및 직렬 클록 라인(serial clock line, SCL)을 포함한다. 몇몇 실시예에서, 프로세서(110)는 복수의 I2C 버스 그룹을 포함할 수 있다. 프로세서(110)는 상이한 I2C 버스 인터페이스를 사용함으로써 터치 센서(180K), 충전기, 플래시, 카메라(193) 등에 개별적으로 연결될 수 있다. 예를 들어, 프로세서(110)는 I2C 인터페이스를 사용함으로써 터치 센서(180K)에 연결될 수 있는바, 프로세서(110)는 I2C 버스 인터페이스를 사용함으로써 터치 센서(180K)와 통신하여 전자 장치(100)의 터치 기능을 구현할 수 있다.
I2S 인터페이스는 오디오 통신을 수행하도록 구성될 수 있다. 몇몇 실시예에서, 프로세서(110)는 복수의 I2S 버스 그룹을 포함할 수 있다. 프로세서(110) 는 I2S 버스를 사용함으로써 오디오 모듈(170)에 연결되어, 프로세서(110)와 오디오 모듈(170) 사이의 통신을 구현할 수 있다. 몇몇 실시예에서, 오디오 모듈(170)은 I2S 인터페이스를 사용함으로써 오디오 신호를 무선 통신 모듈(160)에 송신하여 블루투스 헤드셋을 사용함으로써 호출에 응답하는 기능을 구현할 수 있다.
PCM 인터페이스도 오디오 통신에 사용될 수 있고, 아날로그 신호를 샘플링, 양자화 및 인코딩한다. 몇몇 실시예에서, 오디오 모듈(170)은 PCM 버스 인터페이스를 사용함으로써 무선 통신 모듈(160)에 연결될 수 있다. 몇몇 실시예에서, 오디오 모듈(170)은 이와 달리 PCM 인터페이스를 사용함으로써 오디오 신호를 무선 통신 모듈(160)에 송신하여 블루투스 헤드셋을 사용함으로써 호출에 응답하는 기능을 구현할 수 있다. I2S 인터페이스와 PCM 인터페이스는 모두 오디오 통신을 수행하도록 구성될 수 있다.
UART 인터페이스는 범용 직렬 데이터 버스이고, 비동기식 통신을 위해 구성된다. 버스는 양방향 통신 버스일 수 있다. 버스는 직렬 통신과 병렬 통신 사이에서 전송될 데이터를 변환한다. 몇몇 실시예에서, UART 인터페이스는 통상적으로 프로세서(110)와 무선 통신 모듈(160)을 연결하도록 구성된다. 예를 들어, 프로세서(110)는 UART 인터페이스를 사용함으로써 무선 통신 모듈(160) 내의 블루투스 모듈과 통신하여 블루투스 기능을 구현한다. 몇몇 실시예에서, 오디오 모듈(170)은 UART 인터페이스를 사용함으로써 오디오 신호를 무선 통신 모듈(260)로 전송하여, 블루투스 헤드셋을 사용함으로써 음악을 재생하는 기능을 구현할 수 있다.
MIPI 인터페이스는 디스플레이(194) 또는 카메라(193)와 같은 주변 구성요소에 프로세서(110)를 연결하도록 구성될 수 있다. MIPI 인터페이스는 카메라 직렬 인터페이스(camera serial interface, CSI), 디스플레이 직렬 인터페이스(display serial interface, DSI) 등을 포함한다. 몇몇 실시예에서, 프로세서(110)는 CSI 인터페이스를 사용함으로써 카메라(193)와 통신하여 전자 장치(100)의 촬영 기능을 구현한다. 프로세서(110)는 DSI 인터페이스를 사용함으로써 디스플레이(194)와 통신하여 전자 장치(100)의 디스플레이 기능을 구현한다.
GPIO 인터페이스는 소프트웨어에 의해 구성될 수 있다. GPIO 인터페이스는 제어 신호 또는 데이터 신호로서 구성될 수 있다. 몇몇 실시예에서, GPIO 인터페이스는 프로세서(110)를 카메라(193), 디스플레이(194), 무선 통신 모듈(160), 오디오 모듈(170), 센서 모듈(180) 등에 연결하도록 구성될 수 있다. GPIO 인터페이스는 또한 I2C 인터페이스, I2S 인터페이스, UART 인터페이스, MIPI 인터페이스 등으로서 구성될 수 있다.
USB 인터페이스(130)는 USB 표준 사양을 따르는 인터페이스이며, 구체적으로는 미니 USB 인터페이스, 마이크로 USB 인터페이스 또는 USB 유형-C 인터페이스 등일 수 있다. USB 인터페이스(130)는 전자 장치(100)를 충전하기 위해 충전기에 연결되도록 구성될 수 있거나, 또는 전자 장치(100)와 주변 장치 사이에 데이터 전송을 수행하도록 구성될 수 있거나, 또는 헤드셋을 사용하여 오디오를 재생하기 위해 헤드셋에 연결되도록 구성될 수 있다. 인터페이스는 AR 장치와 같은 다른 전자 장치에 연결되도록 또한 구성될 수 있다.
본 출원의 실시예에서 도시된 모듈들 사이의 인터페이스 연결 관계는 설명을 위한 예일 뿐이며, 전자 장치(100)의 구조에 대한 제한을 구성하지 않는다는 것이 이해될 수 있다. 본 출원의 몇몇 다른 실시예에서, 전자 장치(100)는 이와 달리 전술한 실시예에서의 연결 방식과 상이한 인터페이스 연결 방식, 또는 복수의 인터페이스 연결 방식의 조합을 사용할 수 있다.
충전 관리 모듈(140)은 충전기로부터 충전 입력을 수신하도록 구성된다. 충전기는 무선 충전기 또는 유선 충전기일 수 있다. 유선 충전의 몇몇 실시예에서, 충전 관리 모듈(140)은 USB 인터페이스(130)를 사용함으로써 유선 충전기의 충전 입력을 수신할 수 있다. 무선 충전의 몇몇 실시예에서, 충전 관리 모듈(140)은 전자 장치(100)의 무선 충전 코일을 사용함으로써 무선 충전 입력을 수신할 수 있다. 충전 관리 모듈(140)은 배터리(142)를 충전하면서 전력 관리 모듈(141)을 사용하여 전자 장치에 전력을 공급한다.
전력 관리 모듈(141)은 배터리(142) 및 충전 관리 모듈(140)을 프로세서(110)에 연결하도록 구성된다. 전력 관리 모듈(141)은 배터리(142) 및/또는 충전 관리 모듈(140)의 입력을 수신하고, 프로세서(110), 내부 메모리(121), 외부 메모리, 디스플레이(194), 카메라(193), 무선 통신 모듈(160) 등에 전력을 공급한다. 전력 관리 모듈(141)은 배터리 용량, 배터리 사이클 카운트 및 배터리 건강 상태(누전 또는 임피던스)와 같은 파라미터를 모니터링하도록 더 구성될 수 있다. 몇몇 다른 실시예에서, 전력 관리 모듈(141)은 이와 달리 프로세서(110)에 배치될 수 있다. 몇몇 다른 실시예에서, 전력 관리 모듈(141)과 충전 관리 모듈(140)은 이와 달리 동일한 장치에 배치될 수 있다.
전자 장치(100)의 무선 통신 기능은 안테나(1), 안테나(2), 이동 통신 모듈(150), 무선 통신 모듈(160), 모뎀 프로세서, 기저대역 프로세서 등을 사용함으로써 구현될 수 있다.
안테나(1) 및 안테나(2)는 전자파 신호를 송수신하도록 구성된다. 전자 장치(100)에서의 각각의 안테나는 하나 이상의 통신 주파수 대역을 커버하도록 구성될 수 있다. 안테나 활용을 개선하기 위해, 상이한 안테나가 추가로 다중화될 수 있다. 예를 들어, 안테나(1)는 무선 근거리 네트워크의 다이버시티 안테나로서 다중화될 수 있다. 몇몇 다른 실시예에서, 안테나는 튜닝 스위치와 조합하여 사용될 수 있다.
이동 통신 모듈(150)은 전자 장치(100)에 적용되는 2G, 3G, 4G, 5G 등을 포함하는 무선 통신에 대한 솔루션을 제공할 수 있다. 이동 통신 모듈(150)은 적어도 하나의 필터, 스위치, 전력 증폭기, 저잡음 증폭기(low noise amplifier, LNA) 등을 포함할 수 있다. 이동 통신 모듈(150)은 안테나(1)를 이용하여 전자기파를 수신하고, 수신된 전자기파에 대해 필터링 또는 증폭과 같은 처리를 수행하며, 전자기파를 복조를 위해 모뎀 프로세서에 송신할 수 있다. 이동 통신 모듈(150)은 모뎀 프로세서에 의해 변조된 신호를 더 증폭할 수 있고, 안테나(1)를 사용함으로써 신호를 방사를 위한 전자기파로 변환할 수 있다. 몇몇 실시예에서, 이동 통신 모듈(150) 내의 적어도 몇몇 기능 모듈은 프로세서(110)에 배치될 수 있다. 몇몇 실시예에서, 이동 통신 모듈(150) 내의 적어도 몇몇 기능 모듈은 프로세서(110) 내의 적어도 몇몇 모듈과 동일한 장치에 배치될 수 있다.
모뎀 프로세서는 변조기 및 복조기를 포함할 수 있다. 변조기는 전송될 저주파수 기저대역 신호를 중간 또는 고주파 신호로 변조하도록 구성된다. 복조기는 수신된 전자기파 신호를 저주파 기저대역 신호로 복조하도록 구성된다. 그 다음에, 복조기는 복조를 통해 획득된 저주파 기저대역 신호를 처리를 위해 기저대역 프로세서로 송신한다. 저주파 기저대역 신호는 기저대역 프로세서에 의해 처리된 다음 애플리케이션 프로세서로 송신된다. 애플리케이션 프로세서는 오디오 장치(스피커(170A), 수신기(170) 등을 포함하지만, 이에 한정되지 않음)를 사용하여 음향 신호를 출력하거나, 디스플레이(194)를 사용하여 이미지 또는 비디오를 표시한다. 몇몇 실시예에서, 모뎀 프로세서는 독립적인 구성요소일 수 있다. 몇몇 다른 실시예에서, 모뎀 프로세서는 프로세서(110)와 독립적일 수 있고, 이동 통신 모듈(150) 또는 다른 기능 모듈과 동일한 장치에 배치된다.
무선 통신 모듈(160)은 전자 장치(100)에 적용되는 무선 근거리 네트워크(wireless local area network, WLAN)(예컨대, 와이파이(wireless fidelity, Wi-Fi) 네트워크), 블루투스(Bluetooth, BT), 글로벌 내비게이션 위성 시스템(global navigation satellite system, GNSS), 주파수 변조(frequency modulation, FM), 근거리 통신(near field communication, NFC), 적외선(infrared, IR) 기술 등을 포함하는 무선 통신에 대한 솔루션을 제공할 수 있다. 무선 통신 모듈(160)은 적어도 하나의 통신 프로세서 모듈을 통합하는 하나 이상의 구성요소일 수 있다. 무선 통신 모듈(160)은 안테나(2)를 사용하여 전자기파를 수신하고, 전자기파 신호에 대해 주파수 변조 및 필터링 처리를 수행하며, 처리된 신호를 프로세서(110)로 전송한다. 무선 통신 모듈(160)은 또한 프로세서(110)로부터 전송될 신호를 수신하고, 신호에 대해 주파수 변조 및 증폭을 수행하며, 신호를 전자기파로 변환하여 안테나(2)를 사용하여 방사한다.
몇몇 실시예에서, 전자 장치(100)의 안테나(1)와 이동 통신 모듈(150)은 결합되고, 전자 장치(100)의 안테나(2)와 무선 통신 모듈(160)이 결합되어, 전자 장치(100)는 무선 통신 기술을 사용하여 네트워크 및 다른 장치와 통신할 수 있다. 무선 통신 기술은 GSM(global system for mobile communications), 일반 패킷 무선 서비스(general packet radio service, GPRS), 코드 분할 다중 액세스(code division multiple access, CDMA), 광대역 코드 분할 다중 액세스(wideband code division multiple access, WCDMA), 시분할 코드 분할 다중 액세스(time-division code division multiple access, TD-SCDMA), 롱 텀 에볼루션(long term evolution, LTE), BT, GNSS, WLAN, NFC, FM, IR 기술 등을 포함할 수 있다. GNSS는 글로벌 포지셔닝 시스템(global positioning system, GPS), 글로벌 내비게이션 위성 시스템(global navigation satellite system, GLONASS), 베이더우 내비게이션 위성 시스템(BeiDou navigation satellite system, BDS), 준 천정 위성 시스템(quasi-zenith satellite system, QZSS) 및/또는 위성 기반 증강 시스템(satellite based augmentation systems, SBAS)을 포함할 수 있다.
전자 장치(100)는 GPU, 디스플레이(194), 애플리케이션 프로세서 등을 이용하여 표시 기능을 구현한다. GPU는 이미지 처리를 위한 마이크로프로세서이며, 디스플레이(194)를 애플리케이션 프로세서와 연결한다. GPU는 수학적 및 기하학적 계산을 수행하고 이미지를 렌더링하도록 구성된다. 프로세서(110)는 표시 정보를 생성 또는 변경하기 위한 프로그램 명령어를 실행하는 하나 이상의 GPU를 포함할 수 있다.
디스플레이(194)는 이미지, 비디오 등을 표시하도록 구성된다. 디스플레이(194)는 디스플레이 패널을 포함한다. 디스플레이 패널은 액정 디스플레이(liquid crystal display, LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 능동 매트릭스 유기 발광 다이오드(active-matrix organic light emitting diode, AMOLED), 플렉시블 발광 다이오드(flexible light-emitting diode, FLED), 미니 LED, 마이크로 LED, 마이크로 OLED, 양자점 발광 다이오드(quantum dot light emitting diode, QLED) 등일 수 있다. 몇몇 실시예에서, 전자 장치(100)는 하나 또는 N개의 디스플레이(194)를 포함할 수 있으며, N은 1보다 큰 양의 정수이다.
전자 장치(100)는 ISP, 카메라(193), 비디오 코덱, GPU, 디스플레이(194), 애플리케이션 프로세서 등을 이용하여 촬영 기능을 구현할 수 있다.
ISP는 카메라(193)에 의해 피드백되는 데이터를 처리하도록 구성된다. 예를 들어, 촬영 중에, 셔터를 누르고 렌즈를 통해 카메라의 감광 소자로 광선이 전송되고, 광 신호는 전기 신호로 변환된다. 카메라의 감광 소자는 처리를 위해 전기 신호를 ISP로 전송하여 전기 신호를 가시 이미지로 변환한다. ISP는 이미지의 노이즈, 휘도 및 안색에 대한 알고리즘 최적화를 더 수행할 수 있다. ISP는 촬영 시나리오의 노출 및 색 온도와 같은 파라미터를 더 최적화할 수 있다. 몇몇 실시예에서, ISP는 카메라(193) 내에 배치될 수 있다.
카메라(193)는 정적 이미지 또는 비디오를 캡처하도록 구성된다. 렌즈를 사용하여 물체에 대한 광학 이미지가 생성되고, 감광 소자에 투사된다. 감광 소자는 전하 결합 소자(charge coupled device, CCD) 또는 상보적 금속 산화물 반도체(complementary metal-oxide-semiconductor, CMOS) 광트랜지스터일 수 있다. 감광 소자는 광 신호를 전기 신호로 변환한 다음 전기 신호를 ISP로 전송하여 전기 신호를 디지털 이미지 신호로 변환한다. ISP는 처리를 위해 디지털 이미지 신호를 DSP로 출력한다. DSP는 디지털 이미지 신호를 RGB 또는 YUV와 같은 표준 포맷의 이미지 신호로 변환한다. 몇몇 실시예에서, 전자 장치(100)는 하나 또는 N개의 카메라(193)를 포함할 수 있으며, N은 1보다 큰 양의 정수이다.
디지털 신호 프로세서는 디지털 신호를 처리하도록 구성된다. 디지털 이미지 신호에 더하여, 디지털 신호 프로세서는 다른 디지털 신호를 더 처리할 수 있다. 예를 들어, 전자 장치(100)가 주파수를 선택하면, 디지털 신호 프로세서는 주파수 에너지에 대해 푸리에 변환 등을 수행하도록 구성된다.
비디오 코덱은 디지털 비디오를 압축 또는 압축해제하도록 구성된다. 전자 장치(100)는 하나 이상의 유형의 비디오 코덱을 지원할 수 있다. 이런 방식으로, 전자 장치(100)는 복수의 코딩 포맷, 예컨대, 동영상 전문가 그룹(moving picture experts group, MPEG)1, MPEG2, MPEG3 및 MPEG4로 비디오를 재생 또는 녹화할 수 있다.
NPU는 신경망(neural-network, NN) 컴퓨팅 프로세서이며, 예컨대, 인간의 뇌 뉴런 간의 이송 모드를 참조함으로써, 생물학적 신경망의 구조를 참조하여 입력 정보를 빠르게 처리하며, 또한 지속적으로 자체 학습을 수행할 수 있다. NPU를 이용하여 이미지 인식, 얼굴 인식, 음성 인식, 텍스트 이해와 같은 전자 장치(100)의 지능형 인식과 같은 애플리케이션이 구현될 수 있다.
외부 메모리 인터페이스(120)는 전자 장치(100)의 저장 용량을 늘리기 위해 외부 메모리 카드, 예컨대, 마이크로 SD 카드에 연결하도록 구성될 수 있다. 외부 메모리 카드는 외부 메모리 인터페이스(120)를 사용하여 프로세서(110)와 통신하여 데이터 저장 기능을 구현한다. 예를 들어, 음악 및 비디오와 같은 파일을 외부 메모리 카드에 저장한다.
내부 메모리(121)는 컴퓨터 실행가능 프로그램 코드를 저장하도록 구성될 수 있고, 실행가능 프로그램 코드는 명령어를 포함한다. 프로세서(110)는 내부 메모리(121)에 저장된 명령어를 실행하여 전자 장치(100)의 다양한 기능 애플리케이션 및 데이터를 처리를 실행한다. 내부 메모리(121)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능(예컨대, 목소리 재생 기능, 이미지 재생 기능)에 의해 요구된 애플리케이션 등을 저장할 수 있다. 데이터 저장 영역은 전자 장치(100)의 사용 프로세스에서 생성된 데이터(예컨대, 오디오 데이터 및 주소록) 등을 저장할 수 있다. 또한, 내부 메모리(121)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 또는 범용 플래시 저장장치(universal flash storage, UFS)와 같은 비휘발성 메모리를 더 포함할 수 있다.
전자 장치(100)는 오디오 모듈(170), 스피커(170A), 수신기(170B), 마이크로폰(170C), 헤드셋 잭(170D), 애플리케이션 프로세서 등을 사용하여 음악 재생 및 녹음과 같은 오디오 기능을 구현할 수 있다.
오디오 모듈(170)은 디지털 오디오 정보를 아날로그 오디오 신호 출력으로 변환하도록 구성되고, 또한 아날로그 오디오 입력을 디지털 오디오 신호로 변환하도록 구성된다. 오디오 모듈(170)은 또한 오디오 신호를 코딩 및 디코딩하도록 구성될 수 있다. 몇몇 실시예에서, 오디오 모듈(170)은 프로세서(110) 내에 배치될 수 있거나, 오디오 모듈(170)의 몇몇 기능 모듈이 프로세서(110) 내에 배치될 수 있다.
"혼"이라고도 하는 스피커(170A)는 오디오 전기 신호를 음향 신호로 변환하도록 구성된다. 전자 장치(100)는 스피커(170A)를 통해 핸즈프리 모드로 음악을 듣거나 전화를 받눈 데 사용될 수 있다.
"이어피스"라고도 하는 수신기(170B)는 오디오 전기 신호를 음향 신호로 변환하도록 구성된다. 전자 장치(100)를 사용하여 전화를 받거나 음성 정보를 수신하는 경우, 수신기(170B)를 사람의 귀에 가까이 대고 음성을 수신할 수 있다.
"마이크" 또는 "마이크로폰"이라고도 하는 마이크로폰(170C)은 음향 신호를 전기 신호로 변환하도록 구성된다. 전화를 걸거나 음성 정보를 보낼 때, 사용자는 사람의 입을 통해 마이크로폰(170C)에 가까이에서 소리를 내서 마이크로폰(170C)에 음향 신호를 입력할 수 있다. 전자 장치(100)에는 적어도 하나의 마이크로폰(170C)이 배치될 수 있다. 몇몇 다른 실시예에서, 음향 신호를 수집하고 노이즈 감소 기능을 구현하기 위해 2개의 마이크로폰(170C)이 전자 장치(100)에 배치될 수 있다. 몇몇 다른 실시예에서, 이와 달리, 3개, 4개 또는 그 이상의 마이크로폰(170C)이 전자 장치(100)에 배치되어 음향 신호를 수집하고, 노이즈를 감소시키며, 음원을 인식하여, 방향성 녹음 기능 등을 구현할 수 있다.
헤드셋 잭(170D)은 유선 헤드셋에 연결되도록 구성된다. 헤드셋 잭(170D)은 USB 인터페이스(130)일 수 있거나, 3.5mm 개방형 이동 단말기 플랫폼(open mobile terminal platform, OMTP) 표준 인터페이스 또는 미국의 셀룰러 원격통신 산업 협회(cellular telecommunications industry association of the USA, CTIA) 표준 인터페이스일 수 있다.
압력 센서(180A)는 압력 신호를 감지하도록 구성되며, 압력 신호를 전기 신호로 변환할 수 있다. 몇몇 실시예에서, 압력 센서(180A)는 디스플레이(194)에 배치될 수 있다. 다수의 유형의 압력 센서(180A), 예를 들어, 저항성 압력 센서, 유도성 압력 센서 및 용량성 압력 센서가 있다. 용량성 압력 센서는 전도성 물질로 만들어진 적어도 2개의 평행판을 포함할 수 있다. 압력 센서(180A)에 힘이 가해지면, 전극 사이의 캐패시턴스가 변한다. 전자 장치(100)는 캐패시턴스의 변화에 기초하여 압력 세기를 결정한다. 디스플레이(194)에서 터치 동작이 수행되면, 전자 장치(100)는 압력 센서(180A)를 이용하여 터치 동작의 세기를 검출한다. 전자 장치(100)는 압력 센서(180A)의 검출 신호에 기초하여 터치 위치를 계산할 수도 있다. 몇몇 실시예에서, 동일한 터치 위치에서 수행되지만 상이한 터치 동작 세기를 갖는 터치 동작은 상이한 동작 명령어에 대응할 수 있다. 예를 들어, 메시징 애플리케이션 아이콘에 대해 터치 동작 세기가 제1 압력 임계값 미만인 터치 동작이 수행되면, SMS 메시지를 보기 위한 명령어가 실행된다. 터치 동작 세기가 제1 압력 임계값 이상인 터치 동작이 메시징 애플리케이션 아이콘에 대해 수행되면, 새로운 SMS 메시지를 생성하기 위한 명령어가 실행된다.
자이로 센서(180B)는 전자 장치(100)의 움직임 자세를 결정하도록 구성될 수 있다. 몇몇 실시예에서, 3개의 축(즉, 축 x, y 및 z)을 중심으로 전자 장치(100)의 각속도가 자이로 센서(180B)를 사용하여 결정될 수 있다. 자이로 센서(180B)는 촬영 중에 이미지 안정화를 구현하도록 구성될 수 있다. 예를 들어, 셔터를 누르면, 자이로 센서(180B)는 전자 장치(100)가 흔들리는 각도를 검출하고, 그 각도를 기반으로 렌즈 모듈이 보상해야 하는 거리를 계산하며, 렌즈가 역모션을 통해 전자 장치(100)의 흔들림을 상쇄하여 이미지 안정화를 구현한다. 자이로 센서(180B)는 내비게이션 시나리오 및 체성 게임 시나리오에서도 사용될 수 있다.
기압 센서(180C)는 기압을 측정하도록 구성된다. 몇몇 실시예에서, 전자 장치(100)는 포지셔닝 및 내비게이션을 지원하기 위해 기압 센서(180C)에 의해 측정된 기압 값에 사용하여 고도를 계산한다.
자기 센서(180D)는 홀 센서를 포함한다. 전자 장치(100)는 자기 센서(180D)를 이용하여 플립 가죽 케이스의 개폐를 검출할 수 있다. 몇몇 실시예에서, 전자 장치(100)가 클램쉘(clamshell) 폰인 경우, 전자 장치(100)는 자기 센서(180D)에 기초하여 플립 커버의 개폐를 검출할 수 있다. 또한, 가죽 케이스의 검출된 개폐 상태 또는 플립 커버의 검출된 개폐 상태에 기초하여 플립 커버의 자동 잠금해제와 같은 특징이 설정된다.
가속도 센서(180E)는 전자 장치(100)의 다양한 방향 (주로 3개의 축 상)의 가속도의 크기를 검출할 수 있으며, 전자 장치(100)가 정지일 때 중력의 크기와 방향을 검출할 수 있다. 가속도 센서(180E)는 전자 장치의 자세를 식별하도록 더 구성될 수 있으며, 가로 모드와 세로 모드 간의 전환 또는 보수계와 같은 애플리케이션에 적용된다.
거리 센서(180F)는 거리를 측정하도록 구성된다. 전자 장치(100)는 적외선 또는 레이저 방식으로 거리를 측정할 수 있다. 몇몇 실시예에서, 촬영 시나리오에서, 전자 장치(100)는 빠른 포커싱을 구현하기 위해 거리 센서(180F)를 사용하여 거리를 측정할 수 있다.
예를 들어, 광학 근접 센서(180G)는 발광 다이오드(LED) 및 광학 검출기, 예를 들어, 포토다이오드를 포함할 수 있다. 발광 다이오드는 적외선 발광 다이오드일 수 있다. 전자 장치(100)는 발광 다이오드를 이용하여 적외선을 방출한다. 전자 장치(100)는 포토다이오드를 이용하여 주변 물체로부터 적외선 반사광을 검출한다. 반사광이 충분히 검출되면, 전자 장치(100) 주변에 물체가 있는 것으로 결정될 수 있다. 반사광이 불충분하게 검출되면, 전자 장치(100)는 전자 장치(100) 주변에 물체가 없는 것으로 결정할 수 있다. 전자 장치(100)는 광학 근접 센서(180G)를 이용하여 사용자가 통화를 위해 전자 장치(100)를 귀에 가까이 대고 있음을 검출하여 절전을 위해 스크린을 자동으로 끌 수 있다. 광학 근접 센서(180G)는 스마트 커버 모드 또는 포켓 모드로도 사용되어 스크린을 자동으로 잠금해제하거나 잠글 수 있다.
주변 광 센서(180L)는 주변 광 밝기를 감지하도록 구성된다. 전자 장치(100)는 감지된 주변 광 밝기에 기초하여 디스플레이(194)의 밝기를 적응적으로 조정할 수 있다. 주변 광 센서(180L)는 또한 촬영 중에 화이트 밸런스를 자동으로 조정하도록 구성될 수 있다. 주변 광 센서(180L)는 또한 광학 근접 센서(180G)와 협력하여 전자 장치(100)가 주머니에 있는지 여부를 검출하여 우발적인 터치를 방지할 수 있다.
지문 센서(180H)는 지문을 수집하도록 구성된다. 전자 장치(100)는 수집된 지문의 특징을 이용하여 지문 기반 잠금해제, 애플리케이션 잠금 액세스, 지문 기반 촬영, 지문 기반 통화 응답 등을 구현할 수 있다.
온도 센서(180J)는 온도를 검출하도록 구성된다. 몇몇 실시예에서, 전자 장치(100)는 온도 센서(180J)에 의해 검출된 온도를 사용하여 온도 처리 정책을 실행한다. 예를 들어, 온도 센서(180J)가 보고한 온도가 임계값을 초과하는 경우, 전자 장치(100)는 온도 센서(180J) 근처의 프로세서의 성능을 저하시켜 열 보호를 위해 전력 소모를 줄인다. 몇몇 다른 실시예에서, 온도가 다른 임계값보다 낮은 경우, 전자 장치(100)는 저온으로 인해 전자 장치(100)가 비정상적으로 셧다운되는 것을 방지하기 위해 배터리(142)를 가열한다. 몇몇 다른 실시예에서, 온도가 또 다른 임계값보다 낮은 경우, 전자 장치(100)는 저온으로 인한 비정상적인 셧다운을 방지하기 위해 배터리(142)의 출력 전압을 증가시킨다.
터치 센서(180K)는 "터치 패널"로도 지칭된다. 터치 센서(180K)는 디스플레이(194)에 배치될 수 있으며, 터치 센서(180K) 및 디스플레이(194)는 "터치스크린"이라고도 하는 터치스크린을 구성한다. 터치 센서(180K)는 터치 센서(180K)에서 또는 그 근처에서 터치 동작을 검출하도록 구성된다. 터치 센서는 검출된 터치 동작을 애플리케이션 프로세서로 이송하여 터치 이벤트의 유형을 결정할 수 있다. 터치 동작과 관련된 시각적 출력은 디스플레이(194)를 이용하여 제공될 수 있다. 몇몇 다른 실시예에서, 터치 센서(180K)는 또한 디스플레이(194)와 다른 위치에서 전자 장치(100)의 표면에 배치될 수도 있다.
골전도 센서(180M)는 진동 신호를 획득할 수 있다. 몇몇 실시예에서, 골전도 센서(180M)는 인간 성대의 진동 뼈(vibration bone)의 진동 신호를 획득할 수 있다. 골전도 센서(180M)는 또한 맥박과 접촉하여 혈압 박동 신호를 수신할 수 있다. 몇몇 실시예에서, 골전도 센서(180M)는 헤드셋에도 배치되어 골전도 헤드셋을 획득할 수 있다. 오디오 모듈(170)은 성대의 진동 뼈이고 골전도 센서(180M)에 의해 획득된 진동 신호에 기초하여 분석을 통해 음성 신호를 획득하여 음성 기능을 구현할 수 있다. 애플리케이션 프로세서는 골전도 센서(180M)에 의해 획득된 혈압 박동 신호에 기초하여 심박동수 정보를 분석하여 심박동수 검출 기능을 구현할 수 있다.
키(190)는 전원 키, 볼륨 키 등을 포함할 수 있다. 키(190)는 기계식 키일 수도 있고 또는 터치 키일 수도 있다. 전자 장치(100)는 키 입력을 수신하고, 전자 장치(100)의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있다.
모터(191)는 진동 프롬프트를 생성할 수 있다. 모터(191)는 착신호 진동 프롬프트 및 터치 진동 피드백을 제공하도록 구성될 수 있다. 예를 들어, 상이한 애플리케이션(예컨대, 촬영 및 오디오 재생)에서 수행되는 터치 동작은 상이한 진동 피드백 효과에 대응할 수 있다. 모터(191)는 또한 디스플레이(194)의 상이한 영역에서 수행되는 터치 동작에 대한 상이한 진동 피드백 효과에 대응할 수 있다. 상이한 애플리케이션 시나리오(예를 들어, 시간 알림, 정보 수신, 알람 시계 및 게임)도 상이한 진동 피드백 효과에 대응할 수 있다. 터치 진동 피드백 효과가 더 맞춤화될 수 있다.
표시기(192)는 표시등일 수 있고, 충전 상태 및 전력 변경을 나타내도록 구성될 수 있거나, 또는 메시지, 부재중 전화, 알림 등을 표시하도록 구성될 수 있다.
SIM 카드 인터페이스(195)는 SIM 카드에 연결하도록 구성된다. SIM 카드는 전자 장치(100)와의 접촉 또는 분리를 구현하기 위해 SIM 카드 인터페이스(195)에 삽입되거나 SIM 카드 인터페이스(195)에서 제거될 수 있다. 전자 장치(100)는 하나 또는 N개의 SIM 카드 인터페이스를 지원할 수 있으며, N은 1보다 큰 양의 정수이다. SIM 카드 인터페이스(195)는 나노 SIM 카드, 마이크로 SIM 카드, SIM 카드 등을 지원할 수 있다. 복수의 카드가 동일한 SIM 카드 인터페이스(195)에 동시에 삽입될 수 있다. 복수의 카드는 동일한 유형이거나 상이한 유형일 수 있다. SIM 카드 인터페이스(195)는 상이한 유형의 SIM 카드와 호환될 수 있다. SIM 카드 인터페이스(195)는 또한 외부 메모리 카드와도 호환될 수 있다. 전자 장치(100)는 SIM 카드를 사용하여 네트워크와 상호작용하여 대 및 데이터 통신과 같은 기능을 구현한다. 몇몇 실시예에서, 전자 장치(100)는 eSIM, 즉, 내장형 SIM 카드를 사용한다. eSIM 카드는 전자 장치(100)에 내장될 수 있으며, 전자 장치(100)로부터 분리될 수 없다.
전자 장치(100)의 소프트웨어 시스템은 계층화된 아키텍처, 이벤트-구동 아키텍처, 마이크로커널 아키텍처, 마이크로 서비스 아키텍처, 또는 클라우드 아키텍처를 사용할 수 있다. 본 출원의 실시예에서, 계층화된 아키텍처를 갖는 안드로이드 시스템이 전자 장치(100)의 소프트웨어 구조를 예시하는 예로서 사용된다.
도 3은 본 출원의 일 실시예에 따른 전자 장치(100)의 소프트웨어 구조의 블록도이다.
계층화된 아키텍처에서, 소프트웨어는 여러 계층으로 분할되고, 각각의 계층은 명확한 역할 및 태스크를 갖는다. 계층은 소프트웨어 인터페이스를 사용하여 서로 통신한다. 몇몇 실시예에서, 안드로이드 시스템은 4개의 계층, 위에서 아래로 애플리케이션 계층, 애플리케이션 프레임워크 계층, 안드로이드 런타임(Android runtime) 및 시스템 라이브러리, 및 커널 계층으로 분할된다.
애플리케이션 계층은 일련의 애플리케이션 패키지를 포함할 수 있다.
도 3에 도시된 바와 같이, 애플리케이션 패키지는 "카메라", "갤러리", "캘린더", "통화", "지도", "내비게이션", "블루투스", "음악", "비디오" 및 "메시징"과 같은 애플리케이션을 포함할 수 있다.
본 출원의 실시예에서, 애플리케이션 계층은 음성 인식 기능을 가진 음성 앱을 더 포함할 수 있다. 음성 앱은 때때로 음성 지원 앱, 예를 들어, 음성 지원 Xiao E, Xiaoai, 또는 Siri로도 지칭될 수 있다.
음성 앱이 인에이블된 후, 사용자에 의해 전송된 음성 제어 신호가 수집될 수 있고, 음성 제어 신호는 대응하는 음성 작업으로 변환된다. 또한, 음성 앱은 음성 작업을 완료하기 위해 관련 애플리케이션의 인터페이스를 호출하여, 사용자는 음성 방식으로 전자 장치를 제어할 수 있다.
애플리케이션 프레임워크 계층은 애플리케이션 계층에서의 애플리케이션에 대한 애플리케이션 프로그래밍 인터페이스(application programming interface, API) 및 프로그래밍 프레임워크를 제공한다. 애플리케이션 프레임워크 계층은 몇몇 사전정의된 기능을 포함한다.
도 3에 도시된 바와 같이, 애플리케이션 프레임워크 계층은 윈도우 관리자, 콘텐츠 제공자, 뷰 시스템, 전화 관리자, 자원 관리자, 통지 관리자 등을 포함할 수 있다.
윈도우 관리자는 윈도우 프로그램을 관리하도록 구성된다. 윈도우 관리자는 디스플레이의 크기를 획득하고, 상태 표시줄이 있는지 여부를 판정하며, 스크린 잠금을 수행하고, 스크린샷을 찍는 것 등을 할 수 있다.
콘텐츠 제공자는 데이터를 저장 및 획득하고, 데이터가 애플리케이션에 의해 액세스될 수 있게 하도록 구성된다. 데이터는 비디오, 이미지, 오디오, 발신되고 수신되는 통화, 브라우징 이력 및 북마크, 주소록 등을 포함할 수 있다.
뷰 시스템은 텍스트를 표시하는 컨트롤 및 사진을 표시하는 컨트롤과 같은 시각적 컨트롤을 포함한다. 뷰 시스템은 애플리케이션을 구성하도록 형성될 수 있다. 디스플레이 인터페이스는 하나 이상의 뷰를 포함할 수 있다. 예를 들어, SMS 메시지 통지 아이콘을 포함하는 디스플레이 인터페이스는 텍스트 디스플레이 뷰 및 사진 디스플레이 뷰를 포함할 수 있다.
전화 관리자는 전자 장치(100)에 대한 통신 기능, 예를 들어, (응답 또는 거절을 포함하는) 통화 상태의 관리를 제공하도록 구성된다.
자원 관리자는 애플리케이션에 대한 로컬화된 문자열, 아이콘, 사진, 레이아웃 파일 및 비디오 파일과 같은 다양한 자원을 제공한다.
통지 관리자는 애플리케이션이 상태 표시줄에 통지 정보를 표시할 수 있게 하고, 통지 메시지를 전달하도록 구성될 수 있다. 통지 관리자는 사용자 상호작용을 요구하지 않고 짧은 정지 후에 자동으로 사라질 수 있다. 예를 들어, 통지 관리자는 다운로드 완료를 통지하고, 메시지 통지 등을 제공하도록 구성된다. 통지 관리자는 그래프 또는 스크롤 바 텍스트의 형태로 시스템의 상부 상태 표시줄에 나타나는 통지, 예를 들어, 백그라운드에서 실행되는 애플리케이션의 통지일 수 있거나, 또는 대화 윈도우의 형태로 스크린 상에 나타나는 통지일 수 있다. 예를 들어, 텍스트 정보가 상태 표시줄에 표시되거나, 경고음이 재생되거나, 전자 장치가 진동하거나, 표시등이 점멸된다.
본 출원의 실시예에서, 애플리케이션 프레임워크 계층은 VUI(목소리 사용자 인터페이스, voice user interface) 관리자를 더 포함한다. VUI 관리자는 음성 앱의 실행 상태를 모니터링할 수 있거나, 또는 음성 앱과 다른 앱 사이의 브리지로서 역할을 할 수 있고, 음성 앱에 의해 인식된 음성 작업을 실행을 위해 관련 앱으로 이송할 수 있다.
예를 들어, 애플리케이션 계층에서의 애플리케이션은 구성 파일을 제공할 수 있고, 애플리케이션의 관련 인터페이스에 의해 지원되는 음성 작업은 구성 파일에 기록될 수 있다. 음악 앱이 예로서 사용된다. 음악 앱을 설치할 때, 전자 장치는 음악 앱에 의해 제공된 구성 파일 1을 전자 장치에 저장할 수 있다. 구성 파일 1은 음악 앱이 음악 재생 인터페이스를 표시할 때 음악 앱에 의해 지원되는 음성 작업을 기록할 수 있다. 예를 들어, 음성 작업은 재생, 일시정지, 이전/다음 노래로 전환, 볼륨 턴 업/다운 등을 포함한다.
이 경우, 전자 장치가 포그라운드에서 음악 앱의 음악 재생 인터페이스를 실행할 때, 사용자가 웨이크업 단어 "Hello, Xiao E" 를 입력하는 것이 검출되면, 전자 장치는 백그라운드에서 음성 앱을 인에이블할 수 있다. 음성 앱이 인에이블되는 것을 검출한 후, VUI 관리자는 현재 표시된 음악 재생 인터페이스에 대응하는 구성 파일 1을 획득할 수 있다. 또한, 도 4에 도시된 바와 같이, VUI 관리자는 구성 파일 1에 기록된 음성 작업을 음성 입력 프롬프트(401)의 형태로 실행 중인 음악 재생 인터페이스(402)에 표시할 수 있다.
이러한 방식으로, 사용자가 음악 앱을 사용할 때, 전자 장치는 현재 애플리케이션 인터페이스에 의해 지원되는 음성 작업을 사용자에게 프롬프트할 수 있다. 후속하여, 사용자는 전자 장치가 현재 애플리케이션 인터페이스에 의해 지원되는 음성 작업을 실행하도록 트리거하기 위해, 음악 재생 인터페이스(402)에 표시된 음성 입력 프롬프트(401)에 기초하여 대응하는 음성 제어 신호를 전자 장치에 전송할 수 있다. 이는 전자 장치에서의 음성 앱의 음성 제어 효율을 향상시킬 수 있고, 사용자 경험을 더 향상시킬 수 있다.
또한, 포그라운드에서 실행되는 애플리케이션은 통상적으로 이동 전화의 스크린에 표시되고 있는 인터페이스가 속하는 애플리케이션을 지칭한다는 것에 유의해야 한다. 인터페이스는 보통 확장된 상태에 있고, 사용자는 인터페이스 상의 포그라운드 애플리케이션과 상호작용할 수 있다. 예를 들어, 이동 전화가 위챗 앱의 인터페이스를 표시하고 있는 경우, 이 때 포그라운드에서 실행되는 애플리케이션이 위챗 앱이다. 다른 예로서, 도 4의 음악 앱이 확장된 상태로 이동 전화의 스크린 상에 표시되면, 이 때 음악 앱이 포그라운드 애플리케이션이다. 다른 예로서, 도 6의 비디오 앱이 확장된 상태로 이동 전화의 스크린 상에 표시되면, 이 때 비디오 앱이 포그라운드 애플리케이션이다. 애플리케이션이 백그라운드에서 실행될 때, 이동 전화는 일반적으로 스크린 상에 확장된 상태로 애플리케이션의 인터페이스를 표시하지 않고, 애플리케이션의 인터페이스는 사용자에게 보이지 않는다. 그러나, 이동 전화는 스크린 상에 백그라운드 애플리케이션의 엔트리(예를 들어, 애플리케이션의 아이콘)를 표시할 수 있다. 예를 들어, 도 7a 또는 도 8에 도시된 바와 같이, 이동 전화는 포그라운드 애플리케이션의 인터페이스 상의 백그라운드에서 실행되는 음성 앱의 식별자(701)를 플로팅 메뉴의 형태로 표시할 수 있다. 사용자는 식별자(701)를 현재 인터페이스 상의 임의의 위치로 드래그할 수 있다. 또한, 이동 전화가 음성 앱의 식별자(701)를 표시할 때, 사용자는 여전히 포그라운드 애플리케이션의 인터페이스와 상호작용할 수 있다. 예를 들어, 도 7a에 도시된 바와 같이, 사용자는 비디오 앱의 인터페이스(601) 상의 재생 버튼(602)과 같은 컨트롤을 클릭할 수 있다.
통상적으로, 음성 앱은 2개의 부분을 포함한다. 한 부분은 백그라운드에서 실행되는 음성 서비스(service)이고, 사용자에 의해 입력된 음향 신호를 수집하고, 음향 신호를 추출하며, 텍스트 변환, 음성 인식 등을 수행하는 데 사용된다. 다른 부분은, 이동 전화의 스크린에 표시되는 콘텐츠이며, 음성 앱의 인터페이스, 예를 들어, 사용자와 음성 앱 사이의 대화의 내용을 표시하는 데 사용된다. 본 출원의 실시예에서, 이동 전화의 백그라운드에서 실행되는 음성 앱은 이동 전화의 백그라운드에서 실행되는 음성 서비스로서 이해될 수 있다. 물론, 음성 서비스가 백그라운드에서 실행될 때, 이동 전화는 이와 달리 음성 앱의 식별자와 같은 정보를 플로팅 메뉴 등의 형태로 표시할 수 있다. 이는 본 출원의 실시예들에서 제한되지 않는다.
안드로이드 런타임은 코어 라이브러리 및 가상 머신을 포함한다. 안드로이드 런타임은 안드로이드 시스템의 스케줄링 및 관리를 담당한다.
코어 라이브러리는 자바 언어로 호출될 필요가 있는 함수와 안드로이드의 코어 라이브러리인 두 부분을 포함한다.
애플리케이션 계층 및 애플리케이션 프레임워크 계층은 가상 머신 상에서 실행된다. 가상 머신은 애플리케이션 계층 및 애플리케이션 프레임워크 계층의 자바 파일을 이진 파일로서 실행한다. 가상 머신은 객체 수명주기 관리, 스택 관리, 스레드 관리, 보안 및 예외 관리, 및 가비지 수집(garbage collection)과 같은 기능들을 구현하도록 구성된다.
시스템 라이브러리는 복수의 기능 모듈, 예를 들어, 표면 관리자(surface manager), 미디어 라이브러리(Media Libraries), 3차원 그래픽 처리 라이브러리(예를 들어, OpenGL ES), 및 2D 그래픽 엔진(예컨대, SGL)을 포함할 수 있다.
표면 관리자는 디스플레이 서브시스템을 관리하고 복수의 애플리케이션에 대한 2D 및 3D 계층의 융합을 제공하도록 구성된다.
미디어 라이브러리는 복수의 일반적으로 사용되는 오디오 및 비디오 포맷, 정적 이미지 파일 등에서의 재생 및 기록을 지원한다. 미디어 라이브러리는 MPEG4, H.264, MP3, AAC, AMR, JPG 및 PNG와 같은 복수의 오디오 및 비디오 코딩 포맷을 지원할 수 있다.
3차원 그래픽 처리 라이브러리는 3차원 그래픽 드로잉, 이미지 렌더링, 합성, 계층 처리 등을 구현하도록 구성된다.
2D 그래픽 엔진은 2D 드로잉을 위한 드로잉 엔진이다.
커널 계층은 하드웨어와 소프트웨어 사이의 계층이다. 커널 계층은 적어도 디스플레이 드라이버, 카메라 드라이버, 오디오 드라이버, 센서 드라이버 등을 포함한다. 이는 본 출원의 실시예에서 제한되지 않는다.
이하, 본 출원의 실시예에서 제공되는 음성 제어 방법을 첨부 도면을 참조하여 상세히 설명한다.
도 5에 도시된 바와 같이, 본 출원에서 제공되는 음성 제어 방법은 다음 단계 S501 내지 S505를 포함한다. 단계 S501 내지 S505는 이동 전화가 전자 장치로서 사용되는 예를 사용하여 설명된다.
S501: 이동 전화는 애플리케이션의 제1 인터페이스를 표시하고, 제1 인터페이스는 제1 인터페이스를 업데이트하는 데 사용되는 하나 이상의 컨트롤을 포함한다.
통상적으로, 하나 이상의 애플리케이션이 이동 전화에 설치된다. 사용자에 의해 애플리케이션을 인에이블하는 동작을 검출한 후, 이동 전화는 애플리케이션을 포그라운드 애플리케이션으로서 실행하기 시작할 수 있다. 이 경우, 이동 전화는 터치스크린 상에 애플리케이션의 인터페이스를 표시할 수 있다. 예로서 제1 인터페이스를 사용하여, 애플리케이션의 제1 인터페이스를 표시할 때, 이동 전화는 일반적으로 확장된 상태로 제1 인터페이스를 표시하여 사용자는 제1 인터페이스 상에서 애플리케이션과 상호작용할 수 있다.
이동 전화에 의해 표시되는 제1 인터페이스는 통상적으로 하나 이상의 컨트롤을 포함한다. 일반적으로, GUI(graphical user interface)에 제시된 요소는 컨트롤로 지칭될 수 있고, 컨트롤은 사용자를 위한 특정 동작을 제공할 수 있다. 도 6에 도시한 바와 같이, 이동 전화가 표시하는 제1 인터페이스는 비디오 앱의 재생 인터페이스(601)이다. 재생 인터페이스(601)에는 재생 버튼, 복귀 버튼 및 입력 상자와 같은 복수의 컨트롤이 배치된다. 사용자는 이동 전화의 디스플레이 콘텐츠를 업데이트하기 위해 이들 컨트롤을 동작시킬 수 있어서, 이동 전화는 업데이트된 제2 인터페이스를 표시한다. 예를 들어, 사용자가 재생 인터페이스(601) 상의 복귀 버튼을 클릭한다는 것을 검출하면, 이동 전화는 클릭 동작에 응답하여 재생 인터페이스의 이전 레벨 메뉴(즉, 제2 인터페이스)를 표시한다. 다른 예로서, 사용자가 재생 인터페이스(601) 상의 재생 버튼을 클릭한다는 것을 검출하면, 이동 전화는 클릭 동작에 응답하여 재생 인터페이스(601) 상에 비디오를 재생한다. 이 경우, 이동 전화에 표시되는 인터페이스는 제1 인터페이스에서 제2 인터페이스로 업데이트된된다.
S502: 이동 전화가 사전설정된 웨이크업 신호를 수신한 것에 응답하여, 이동 전화는 백그라운드 내의 음성 앱이 사용자에 의해 입력된 음성 제어 신호의 수집을 시작할 수 있게 한다.
예를 들어, 음성 앱을 인에이블하기 전에, 이동 전화는 마이크로폰을 항상 온(always on) 상태로 설정할 수 있다. 이 경우, 이동 전화가 애플리케이션의 인터페이스(예를 들어, 제1 인터페이스)를 표시할 때, 이동 전화의 마이크로폰은 특정 동작 주파수에서 음향 신호를 수집한다.
도 6에 도시된 바와 같이, 이동 전화는 비디오 앱에서 "왕좌의 게임"("Game of Thrones")의 재생 인터페이스(601)(즉, 제1 인터페이스)를 표시하고 있다. 마이크로폰이 음향 신호를 수집할 때, 이동 전화는 수집된 음향 신호가 사전설정된 웨이크업 신호인지를 추가로 인식할 수 있다. 예를 들어, 사용자가 음향 신호 "Hello, Xiao E"를 전송한 후, 이동 전화는 마이크로폰을 사용하여 음향 신호를 수집할 수 있다. 이동 전화가 음향 신호가 사전설정된 웨이크업 신호임을 인식하면, 이 때, 사용자가 음성 앱에 의해 제공된 음성 인식 기능을 사용하여 관련 음성 작업을 완료할 것을 예상다는 것을 나타낸다. 이 경우, 이동 전화에 의해 표시되고 있는 제1 인터페이스(예를 들어, 재생 인터페이스(601))를 차단하는 것을 방지하기 위해, 이동 전화는 백그라운드에서 음성 앱을 인에이블할 수 있다. 예를 들어, 도 7a에 도시된 바와 같이, 백그라운드에서 음성 앱을 인에이블한 후, 이동 전화는 재생 인터페이스(601) 상에 음성 앱의 아이콘(701)을 표시할 수 있다. 아이콘(701)은 음성 앱이 이동 전화의 백그라운드에서 실행되고 있음을 나타내는 데 사용된다. 음성 앱이 이동 전화의 백그라운드에서 실행되고 있기 때문에, 이동 전화는 재생 인터페이스(601) 상에서 사용자에 의해 수행된 다양한 동작, 예를 들어, 사용자가 재생 버튼을 클릭하는 동작에 여전히 응답할 수 있다. 물론, 이와 달리, 백그라운드에서 음성 앱을 인에이블할 때, 이동 전화는 제1 인터페이스(예를 들어, 재생 인터페이스(601)) 상에서 사용자에 의해 수행되는 다양한 동작에 응답할 수 없다는 것이 사전설정될 수 있다. 이는 본 출원의 실시예에서 제한되지 않는다.
이동 전화가 백그라운드에서 음성 앱을 인에이블한 후, 사용자는 예를 들어, 연락처(Sam)로 전화를 걸거나, 또는 비디오를 재생하기 시작하는 것과 같이, 이동 전화에 의해 실행될 것으로 예상되는 음성 제어 신호를 음성 앱에 입력하기 시작할 수 있다. 따라서, 백그라운드에서 음성 앱을 인에이블한 후, 이동 전화는 사용자에 의해 입력된 음성 제어 신호를 수집하는 데 마이크로폰을 계속 사용할 수 있다. 예를 들어, 이동 전화는 음성 앱이 인에이블된 후 5초 동안 마이크로폰이 자동으로 인에이블되도록 설정하여, 5초 내에 사용자가 입력한 음성 제어 신호를 수집할 수 있다. 다른 예에서, 이동 전화는 음성 앱의 아이콘(701)을 마이크로폰의 온/오프 버튼으로서 설정할 수 있다. 사용자가 아이콘(701)을 클릭한다는 것을 검출하면, 이동 전화는 5초 동안 마이크로폰을 인에이블하여 5초 내에 사용자가 입력한 음성 제어 신호를 수집할 수 있다. 다른 예로서, 사용자가 아이콘(701)을 클릭한다는 것을 검출하면, 이동 전화는 마이크로폰을 인에이블하고, 마이크로폰을 작동 상태로 유지하여, 사용자가 입력한 음성 제어 신호를 수집한다. 사용자가 아이콘(701)을 다시 클릭하는 것을 검출한 후에, 이동 전화는 마이크로폰을 디스에이블할 수 있다.
웨이크업 신호는 음성을 통해 사용자에 의해 입력된 웨이크업 단어에 더하여 다른 신호를 포함할 수 있다는 점에 유의해야 한다. 예를 들어, 웨이크업 신호는 버튼 상의 사용자의 클릭 신호일 수 있거나, 웨이크업 신호는 사용자의 터치 제스처일 수 있다. 이는 본 출원의 실시예에서 제한되지 않는다.
또한, 이동 전화는 음성 앱 사용이 허용된 애플리케이션을 사전설정할 수 있다. 예를 들어, 위챗 앱은 음성 앱을 사용할 허가를 갖지만, 알리페이 앱은 그 음성 앱의 사용 허가를 갖지 않는 것으로 설정될 수 있다. 이 경우, 이동 전화가 음성 앱을 사용할 허가를 갖는 애플리케이션을 포그라운드에서 실행할 때, 이동 전화가 사용자에 의해 입력된 웨이크업 신호를 수신하면, 이동 전화는 백그라운드에서 음성 앱을 인에이블할 수 있다. 이에 대응하여, 이동 전화가 음성 앱을 사용할 허가를 갖지 않은 애플리케이션 또는 애플리케이션의 인터페이스를 포그라운드에서 실행하면, 이동 전화가 사용자에 의해 입력된 웨이크업 신호를 수신한 후, 이동 전화는 포그라운드에서 음성 앱을 실행할 수 있다. 도 7b에 도시된 바와 같이, 포그라운드에서 음성 앱을 실행할 때, 이동 전화는 확장된 상태로 음성 앱의 인터페이스(702)를 표시할 수 있다. 인터페이스(702)는 음성 앱의 컨트롤을 포함할 수 있다. 인터페이스(702)에서, 이동 전화는 사용자와 음성 앱 사이의 대화 내용을 표시할 수 있다.
S503: 이동 전화는 제1 인터페이스와 연관된 구성 파일을 획득하고, 구성 파일은 제1 인터페이스에서 이동 전화에 의해 실행되도록 허용되는 음성 작업을 기록한다.
이동 전화가 제1 인터페이스를 표시할 때 사용자가 음성 앱을 인에이블하기 때문에, 음성 앱을 인에이블한 후, 사용자는 음성 앱을 사용하여 제1 인터페이스와 관련된 음성 작업을 실행하고자 할 것이다. 예를 들어, 제1 인터페이스는 재생 인터페이스(601)이다. 이동 전화가 재생 인터페이스(601)를 표시할 때, 이동 전화가 사용자가 입력한 웨이크업 신호를 검출하면, 사용자가 음성 앱을 사용하여 재생 인터페이스(601) 상의 동작 버튼에 대해 특정 동작을 수행해야 할 필요가 있음을 나타낸다. 예를 들어, 사용자가 어느 한 손으로 재생 인터페이스(601) 상의 재생 버튼(602)을 클릭하는 것이 불편할 때, 사용자는, 음성 앱의 음성 제어 기능을 사용하여, 재생 인터페이스(601) 상에 "왕좌의 게임" 비디오를 표시하는 동작을 구현하기를 원할 수 있다.
본 출원의 실시예에서, 이동 전화는 각각의 애플리케이션의 구성 파일을 사전저장할 수 있다. 예를 들어, 각각의 애플리케이션은 하나 이상의 구성 파일에 대응한다. 하나의 구성 파일의 경우, 구성 파일은 하나의 애플리케이션의 상이한 인터페이스 상의 음성 앱에 의해 지원되는 음성 작업을 기록한다. 하나의 구성 파일은 이와 달리 하나의 애플리케이션의 하나의 인터페이스 상에서 음성 앱에 의해 지원되는 음성 작업만을 기록할 수 있다. 전술한 비디오 앱을 예로서 사용하여, 비디오 앱의 개발자는 비디오 앱의 설치 패키지에 재생 인터페이스의 구성 파일 1 및 홈 페이지의 구성 파일 2를 설정할 수 있다. 구성 파일 1은 비디오 앱의 재생 인터페이스 상의 음성 앱에 의해 실행되도록 허용되는 음성 작업, 예를 들어, 재생, 빨리 감기, 또는 다음 에피소드로의 전환을 기록한다. 구성 파일 2는, 예를 들어, 이력 재생 기록을 보거나 키워드를 검색하는 것과 같이, 비디오 앱의 홈 페이지 상의 음성 앱에 의해 실행되도록 허용되는 음성 작업을 기록한다. 비디오 앱을 설치할 때, 이동 전화는 비디오 앱의 설치 패키지에 제공되는 구성 파일 1 및 구성 파일 2를 로컬로 저장할 수 있다.
이와 달리, 이동 전화는 구성 파일 1 및 구성 파일 2를 자동으로 생성할 수 있다. 예를 들어, 비디오 앱의 재생 인터페이스(601)를 실행할 때, 이동 전화는 재생 인터페이스(601)에 포함된 버튼 및 버튼의 속성을 획득할 수 있다. 재생 버튼(602)을 예로서 사용하면, 재생 버튼(602)의 속성은 재생 버튼이 클릭 가능한 버튼 유형이라는 것이고, 재생 버튼(602)을 클릭하는 것은 비디오 재생을 시작하거나 비디오 재생을 중지하는 데 사용될 수 있다. 이 경우, 이동 전화는 재생 인터페이스(601)에 의해 지원되는 음성 작업으로서 재생 작업 및 일시정지 작업을 구성 파일 1에 기록할 수 있다. 유사하게, 이동 전화는 재생 인터페이스(601) 상의 다른 버튼에 대응하는 음성 작업을 구성 파일 1에 기록하고, 마지막으로 재생 인터페이스(601)에 대응하는 구성 파일 1을 생성한다.
예를 들어, 구성 파일은 XML(Extensible Markup Language, 확장가능 마크업 언어) 포맷의 파일일 수 있다. 예를 들어, 구성 파일 1의 구체적인 콘텐츠는 다음과 같다.
<VoiceIntentList>
<VoiceIntent //음성 작업 1
intentId="@id/intent_power" //음성 작업 1은 재생 작업임
bindViewId="@id/power" //음성 작업 1에 대응하는 버튼은 재생 버튼임
voiceOnClick="voiceSwitchPower" //음성 작업 1에 대응하는 동작은 재생 버튼을 클릭하는 것임
voiceTags="@string/power_controller"/> //주석: (선택적) 전력 제어
<VoiceIntent //음성 작업 2
...>
<VoiceIntent //음성 작업 3
...>
구성 파일 1은 비디오 앱의 재생 인터페이스 상에서 음성 앱에 의해 실행되도록 허용되는 하나 이상의 음성 태스크를 기록한다는 것을 알 수 있다. 음성 작업 1은 예로서 사용된다. intentId 필드는 음성 작업 1의 특정 콘텐츠가 재생 작업임을 기록한다. bindViewId 필드는 음성 작업 1이 수행되는 버튼이 재생 인터페이스 상의 재생 버튼임을 기록한다. voiceOnClick 필드는 음성 작업 1이 수행될 때 이동 전화 상에서 수행되는 특정 동작이 재생 버튼을 클릭하고 있음을 기록한다.
구체적으로, 구성 파일 1은 음성 작업 1과 재생 인터페이스 상의 재생 버튼을 클릭하는 터치 이벤트 사이의 대응을 더 기록한다. 이동 전화의 경우, 이동 전화가 사용자에 의해 재생 작업을 입력하기 위한 음성 제어 신호를 수신할 때, 이는 이동 전화가 사용자가 재생 인터페이스 상의 재생 버튼을 클릭하는 것을 검출하는 것과 같다. 선택적으로, voiceTags 필드는 음성 작업 1에 대한 주석을 기록한다. 예를 들어, 몇몇 사용자는 전력 제어로서 재생 동작을 호출하는 데 사용된다. 따라서, 전력 제어는 재생 작업의 다른 표현 방식으로 언급될 수 있다. 후속하여, 사용자에 의해 입력된 전력 제어와 관련된 음성 제어 신호를 검출하는 경우, 이동 전화는, 음성 작업 1의 주석을 참조하여, 사용자가 실행할 것으로 예상되는 음성 작업이 재생 작업이라고 결정할 수 있다.
후속하여 이동 전화가 사용자에 의해 입력된 음성 제어 신호가 재생 작업에 대응한다고 결정하면, 이동 전화는 구성 파일 1 내의 bindViewId 필드 및 voiceOnClick 필드에 기초하여, 비디오 앱에서의 재생 버튼을 클릭하는 것에 대응하는 관련 함수(예를 들어, voicSwitchPower 콜백 함수)를 실행할 수 있다. 이러한 방식으로, 음성 제어 신호를 사용하여 비디오 앱에서, 재생 작업을 실행하기 위해 이동 전화를 제어하는 기능이 구현된다.
구체적으로, 단계 S503에서, 이동 전화가 애플리케이션 계층에서 음성 앱을 인에이블한 후, 음성 앱은 음성 앱의 인에이블 이벤트를 애플리케이션 프레임워크 계층에서 VUI 관리자에 보고할 수 있다. 인에이블 이벤트를 검출한 후, VUI 관리자는 현재 표시된 제1 인터페이스와 연관된 구성 파일을 획득할 수 있다. 예를 들어, VUI 관리자는 먼저 포그라운드에서 실행되는 인터페이스가 비디오 앱의 재생 인터페이스(601)라고 결정할 수 있다. 그 다음에, VUI 관리자는 재생 인터페이스(601)의 식별자에 기초하여 재생 인터페이스(601)를 위한 비디오 앱에 설정된 구성 파일 1을 판독할 수 있다. 구성 파일 1은 비디오 앱의 재생 인터페이스 상에서 음성 앱에 의해 실행되도록 허용되는 하나 이상의 음성 작업을 기록한다.
S504: 이동 전화는 구성 파일에 기초하여 제1 인터페이스 상에 음성 입력 프롬프트를 표시한다.
제1 인터페이스 상에서 음성 앱을 인에이블한 후, 사용자는 제1 인터페이스 상에서 음성 앱에 의해 실행될 수 있는 특정 음성 작업을 알지 못할 수도 있다. 결과적으로, 사용자는 음성 앱에 의해 제공되는 다양한 음성 인식 기능을 정확하게 사용할 수 없다. 단계 S504에서, 이동 전화가 제1 인터페이스와 연관된 구성 파일을 획득한 후, 구성 파일에 기록된 모든 음성 작업이 제1 인터페이스 상의 음성 앱에 의해 실행될 수 있기 때문에, 이동 전화는 제1 인터페이스 상에 음성 입력 프롬프트로서 구성 파일 내의 하나 이상의 음성 작업을 표시하여, 사용자에게 제1 인터페이스 상의 기능을 제어하기 위한 정확한 음성 제어 신호를 전송하도록 프롬프트할 수 있다.
예를 들어, 재생 인터페이스(601)의 구성 파일 1을 획득한 후에, VUI 관리자는 구성 파일 1에 기록된 음성 작업을 음성 입력 프롬프트의 형태로 재생 인터페이스(601) 상에 표시할 수 있다. 도 8에 도시된 바와 같이, 이동 전화는 음성 앱의 아이콘(701) 근처에 하나 이상의 음성 입력 프롬프트(801)를 표시할 수 있다. 각각의 음성 입력 프롬프트(801)는 구성 파일 1 내의 하나의 음성 작업에 대응한다. 일반적으로, 각각의 음성 작업은 재생 인터페이스(601) 상의 하나 이상의 컨트롤과 연관된다. 따라서, 각각의 음성 입력 프롬프트는 제1 인터페이스 상의 하나 이상의 컨트롤과도 연관된다. 예를 들어, 재생 작업이 구성 파일 1에 기록되고 재생 작업이 재생 인터페이스(601) 상의 재생 버튼에 대응할 때, 이동 전화는 대응하는 음성 입력 프롬프트 "재생"을 표시할 수 있다. 빨리 감기 작업이 구성 파일 1에 기록되고, 빨리 감기 작업이 재생 인터페이스(601) 상의 빨리 감기 버튼 및 비디오 진행표시 줄 상의 슬라이더에 대응할 때, 이동 전화는 대응하는 음성 입력 프롬프트 "x초 빨리 감기"를 표시할 수 있고, x는 임의의 양의 정수, 예를 들어, 도 8에서 "10초 빨리 감기"이다.
비교적 많은 양의 음성 입력 프롬프트가 존재하는 경우, "더 보기" 버튼(802)이 재생 인터페이스(601) 상에 표시될 수 있다. 사용자가 "더 보기" 버튼(802)을 클릭한다는 것을 검출하면, 이동 전화는 재생 인터페이스(601) 상에 숨겨진 음성 입력 프롬프트(801)를 완전히 표시할 수 있다. 사용자가 "더 보기" 버튼을 클릭하기 전에, 이동 전화는 사용자의 사용 습관에 기초하여 사용자가 가장 빈번하게 사용하는 몇몇 음성 입력 프롬프트(801)만을 표시할 수 있다. 또한, 이동 전화는 사용자의 음성을 지능적으로 인식할 수 있다. 예를 들어, 도 8에 도시된 음성 입력 프롬프트(801)에서, 음성 프롬프트 "10초 빨리 감기"가 존재한다. 사용자에 의해 제공된 음성 명령이 "15초 빨리 감기"이면, 이동 전화는 명령을 2개의 명령, 즉 "빨리 감기" 및 "15초"로 분할함으로써 여전히 사용자의 의도를 이해하고 비디오를 15초 빨리 감을 수 있다.
전술한 실시예에서, 음성 입력 프롬프트(801)가 재생 인터페이스(601) 상에 표시되는 예가 설명을 위해 사용된다. 이동 전화가 다른 애플리케이션의 인터페이스를 표시할 때, 이동 전화는 또한 음성 입력 프롬프트의 형태로, 전술한 방법에 따라 현재 인터페이스에 의해 지원되는 음성 작업을 사용자에게 프롬프트할 수도 있다는 것이 이해될 수 있다. 예를 들어, 도 9(a)에 도시된 바와 같이, 이동 전화가 카메라 앱의 촬영 인터페이스(901)를 표시할 때, 이동 전화가 백그라운드에서 음성 앱을 인에이블하는 것을 검출하면, 이동 전화는 카메라 앱의 촬영 인터페이스(901)와 연관된 구성 파일을 획득할 수 있고, 또한 구성 파일 내의 음성 작업을 음성 입력 프롬프트(902)의 형태로 촬영 인터페이스(901) 상에 표시할 수 있다. 예를 들어, 음성 입력 프롬프트(902)는 "촬영", "기록", "셀프 촬영", "사진 보기" 등을 포함할 수 있다. "촬영"은 촬영 인터페이스(901) 상의 촬영 버튼에 대응한다. "기록"은 촬영 인터페이스(901) 상의 기록 버튼에 대응한다. "셀프 촬영"은 촬영 인터페이스(901) 상에 있는 전방 카메라를 인에이블하기 위한 버튼에 대응한다. "사진 보기"는 촬영 인터페이스(901) 상의 사진 썸네일(903)에 대응한다. 음성 입력 프롬프트(902)에 대응하는 모든 음성 작업은 촬영 인터페이스(901) 상의 음성 앱에 의해 실행될 수 있는 작업이다.
예를 들어, 이동 전화가 도 9(a)에 도시된 촬영 인터페이스(901)를 표시할 때, 이동 전화가 사용자가 음성 제어 신호 "촬영"을 입력한 것을 검출하면, 이동 전화는 음성 제어 신호에 응답하여 음성 제어 신호에 대응하는 촬영 동작을 수행하기 위해 음성 앱을 호출할 수 있다. 촬영 동작을 완료한 후, 이동 전화는 카메라 앱의 촬영 인터페이스(901)를 계속 표시할 수 있다. 이 경우, 도 9(b)에 도시된 바와 같이, 이전 촬영 시에 이동 전화에 의해 획득된 사진 썸네일(903)도 촬영 인터페이스(901) 상에 표시될 수 있다. 또한, 이동 전화는 촬영 인터페이스(901)에 대응하는 음성 입력 프롬프트(902)를 계속 표시할 수 있다. 이 경우, 사용자가 이전 촬영에서 획득된 사진을 보기를 원하는 경우, 사용자는 이동 전화에 음성 제어 신호 "사진 보기"를 입력할 수 있다. 음성 제어 신호에 응답하여, 도 10에 도시된 바와 같이, 이동 전화는 갤러리 앱이 최신 사진의 브라우징 인터페이스(904)를 표시할 수 있도록 할 수 있다. 또한, 이동 전화는 브라우징 인터페이스(904)와 연관된 구성 파일을 획득하고, 또한 구성 파일 내의 음성 작업을 음성 입력 프롬프트(905)의 형태로 브라우징 인터페이스(904) 상에 표시할 수 있다. 예를 들어, 음성 입력 프롬프트(905)는 "줌 인", "줌 아웃", "다음", "카메라로 리턴" 등을 포함할 수 있다. 브라우징 인터페이스(904) 상에 표시된 사진은 또한 컨트롤로서 사용될 수 있고, "줌 인", "줌 아웃", 및 "다음"과 같은 음성 입력 프롬프트(905)는 모두 사진에 대응한다. "줌 인"은 사진에 줌 인 동작을 수행하는 것에 대응한다. "줌 아웃"은 사진에 줌 아웃 동작을 수행하는 것에 대응한다. "다음"은 사진에 슬라이드 동작을 수행하는 것에 대응한다. 브라우징 인터페이스(904)가 다음 사진을 표시하는 데 사용되는 버튼을 포함하면, "다음"은 또한 다음 사진을 표시하는 데 사용되는 버튼에 대응할 수 있다.
또한, 이동 전화가 얼굴 인식 기능을 갖는 경우, 이동 전화는 브라우징 인터페이스(904)에 포함된 얼굴, 예를 들어, 사용자 A를 또한 자동으로 인식할 수 있다. 또한, 사용자에 의해 입력된 수신된 음성 제어 신호가 "사용자 A를 확대"인 경우, 이동 전화는 사용자 A의 위치(예를 들어, 사용자 A의 얼굴)를 중심으로 사용하여 현재 표시된 사진을 줌 인할 수 있다.
즉, 이동 전화가 애플리케이션의 인터페이스를 표시하고 백그라운드에서 음성 앱을 인에이블한 후, 이동 전화는 현재 인터페이스 상에서 음성 앱에 의해 실행될 수 있는 음성 작업을 사용자에게 프롬프트할 수 있다. 이러한 방식으로, 사용자는 음성을 통해 현재 인터페이스 상의 다양한 기능을 제어하는 데 음성 앱을 사용하는 방법을 정확하게 학습할 수 있다. 이는 음성 앱의 사용 효율을 향상시킨다.
또한, 동일한 애플리케이션의 인터페이스 상에서 이동 전화에 의해 표시되는 음성 입력 프롬프트도 동적으로 변경될 수 있다. 예를 들어, 비디오가 재생 인터페이스(601) 상에서 재생되고 있다는 것을 이동 전화가 검출하면, 이동 전화는 음성 입력 프롬프트 "재생"을 숨길 수 있다. 이에 대응하여, 사용자가 재생 인터페이스(601) 상에서 비디오를 재생하는 것을 중지한다는 것을 검출하면, 이동 전화는 음성 입력 프롬프트 "재생"을 표시할 수 있고, 이동 전화는 음성 출력 프롬프트 "일시정지"를 숨길 수 있다. 이는 본 출원의 실시예에서 제한되지 않는다.
예를 들어, 음성 앱을 인에이블한 후, 이동 전화는 제1 인터페이스에 관련된 음성 입력 프롬프트를 즉시 표시할 수 있다. 이와 달리, 음성 앱을 인에이블한 후에, 이동 전화가 특정 시간(예를 들어, 2초) 내에 사용자가 입력한 음성 제어 신호를 수집하지 않으면, 이는 사용자가 이 경우에 음성 앱의 사용 방법을 알지 못할 수도 있음을 나타낸다. 따라서, 이동 전화는 제1 인터페이스에 관련된 음성 입력 프롬프트를 표시할 수 있다. 이와 달리, 도 11에 도시된 바와 같이, 음성 앱을 인에이블한 후에, 이동 전화는 프롬프트 버튼(1001)을 제1 인터페이스(예를 들어, 재생 인터페이스(601)) 상에 표시할 수 있다. 사용자가 프롬프트 버튼(1001)을 클릭하는 것을 검출하면, 이동 전화는 전술한 방법에 따라 재생 인터페이스(601) 상에 도 8에 도시된 관련 음성 입력 프롬프트(801)를 표시할 수 있다.
소정 시구간(예를 들어, 3초) 동안 제1 인터페이스 상에 음성 입력 프롬프트를 표시한 후, 이동 전화는 음성 입력 프롬프트를 자동으로 숨길 수 있다. 이와 달리, 이동 전화가 제1 인터페이스 상에 음성 입력 프롬프트를 표시한 후에, 이동 전화가 특정 시간 내에 사용자에 의해 입력된 음성 제어 신호를 수집하지 않거나, 특정 시간 내에 터치스크린 상에 사용자의 입력 이벤트를 검출하지 않으면, 이동 전화는 제1 인터페이스 상에 음성 입력 프롬프트를 자동으로 숨길 수 있다.
이동 전화가 제1 인터페이스 상에 음성 입력 프롬프트를 표시하는 단계(즉, 단계 S504)는 선택적인 단계임에 유의해야 한다. 즉, 백그라운드에서 음성 앱을 인에이블한 후, 이동 전화는 현재 인터페이스 상에서 음성 앱에 의해 지원되는 음성 작업을 사용자에게 프롬프트하지 않을 수도 있다. 이는 본 출원의 실시예에서 제한되지 않는다.
이동 전화가 음성 입력 프롬프트를 표시하는지 여부에 관계없이, 이동 전화가 백그라운드에서 음성 앱을 인에이블한 후, 사용자는 음성 앱을 사용하여 이동 전화에 음성 제어 신호를 입력할 수 있다. 이 경우, 음성 앱이 사용자에 의해 입력된 음성 제어 신호를 수집한 후, 다음 단계 S505가 계속 수행될 수 있다.
S505: 음성 앱에 의해 수집된 음성 제어 신호에 응답하여, 이동 전화는 음성 제어 신호에 대응하는 음성 작업을 실행하여 이동 전화가 표시된 제1 인터페이스를 제2 인터페이스로 업데이트한다.
여전히 예로서 재생 인터페이스(601)를 사용하면, 이동 전화가 재생 인터페이스(601) 상에 음성 입력 프롬프트(801)를 표시한 후, 사용자는 음성 입력 프롬프트(802)에 기초하여 이동 전화에 대응하는 음성 제어 신호를 입력할 수 있다. 이 경우, 음성 앱은 여전히 백그라운드에서 실행된다. 따라서, 음성 앱은 마이크로폰을 사용함으로써, 사용자에 의해 입력된 음성 제어 신호를 수집할 수 있다. 예를 들어, 사용자가 "재생" 또는 "재생 시작"과 같은 음성 제어 신호를 입력한 후, 음성 앱은 사전설정된 음성 인식 알고리즘을 사용하여, 사용자에 의해 입력된 음성 제어 신호를 텍스트 신호로 변환하고 시맨틱 이해를 수행하여, 음성 제어 신호에 대응하는 실제 음성 작업을 인식할 수 있다. 또한, 음성 앱은 인식된 실제 음성 작업을 애플리케이션 프레임워크 계층에서 VUI 관리자에 보고할 수 있다. VUI 관리자는 실제 음성 작업을 단계 S503에서 획득된 구성 파일 1에 기록된 음성 작업과 비교하여, 사용자에 의해 입력된 음성 제어 신호가 구성 파일 1에서 지원되는 음성 작업인지 여부를 결정한다.
사용자에 의해 입력된 음성 제어 신호가 구성 파일 1 내의 음성 작업이면, 예를 들어, 사용자에 의해 입력되는 음성 제어 신호 "재생"이 구성 파일 1 내의 음성 작업 1이면, VUI 관리자는 구성 파일 1에 기초하여 음성 작업 1에 대응하는 터치 이벤트를 실행할 수 있다. 여전히 음성 작업 1을 예로서 사용하여, 구성 파일 1은 음성 작업 2가 재생 버튼에 대응하고, 구체적으로 재생 인터페이스 상의 재생 버튼을 클릭하는 터치 이벤트에 대응한다는 것을 기록한다. 이는 사용자가 음성 제어 신호 "재생"을 입력함으로써 재생 인터페이스(601) 상의 재생 버튼(602)을 제어하여 재생 기능을 구현할 것으로 예상다는 것을 나타낸다. 이 경우, VUI 관리자는 구성 파일 1 내의 bindViewId 필드 및 voiceOnClick 필드에 기초하여, 비디오 앱 내의 재생 버튼을 클릭하는 것에 대응하는 관련 함수(예를 들어, 음성 작업 1 내의 voeeSwitchPower 콜백 함수)를 실행하여, 비디오 앱에서, 음성 제어 신호 "재생"에 대응하는 음성 작업을 구현할 수 있다. 이 경우, 도 12에 도시된 바와 같이, 재생 인터페이스(601) 상의 재생 버튼(602)이 클릭된 후, 이동 전화에 의해 재생되는 비디오 콘텐츠가 변경된다. 또한, 원래 표시된 재생 버튼(602)은 일시정지 버튼(1103)으로 업데이트될 수 있다. 즉, 이동 전화에 의해 표시되는 인터페이스는 제1 인터페이스에서 제2 인터페이스(1102)로 업데이트된다.
또한, 도 12에 도시된 바와 같이, 음성 제어 신호 "재생"에 대응하는 음성 작업이 구현된 후, 음성 앱은 사용자에 의해 입력된 음성 제어 신호에 대한 응답 정보(1101)를 더 표시하여 음성 제어 신호에 대한 응답이 완료되었음을 사용자에게 프롬프트할 수 있다. 후속하여, 사용자는 또한 다른 음성 제어 신호에 대한 응답을 완료하기 위해 음성 앱과 계속 통신할 수 있다.
이와 달리, 이동 전화가 사용자에 의해 입력된 음성 제어 신호가 구성 파일 1에서의 음성 작업 1이라고 결정한 후에, 음성 작업 1이 작업이 구체적으로 재생 작업이고 태스크에 사용된 버튼이 재생 버튼이라는 것을 기록하기 때문에, VUI 관리자는 재생 버튼의 클릭 이벤트를 비디오 앱에 더 보고할 수 있다. 예를 들어, VUI 관리자는 클릭 이벤트에서 재생 버튼의 좌표를 전달하여 좌표를 비디오 앱에 보고할 수 있다. 또한, 클릭 이벤트에 응답하여, 비디오 앱은 프레임워크 계층에서 관련 함수를 호출하여 비디오 재생을 위한 재생 작업을 실행할 수 있다.
본 출원의 실시예에서, 대응하는 구성 파일이 애플리케이션 내의 각각의 인터페이스에 대해 설정될 수 있다는 것을 알 수 있다. 구성 파일은 대응하는 인터페이스에 의해 지원되는 음성 작업 및 음성 작업에 대응하는 특정 터치 이벤트를 기록한다. 이러한 방식으로, 애플리케이션의 인터페이스를 실행할 때, 이동 전화는 인터페이스의 구성 파일에 기초하여, 사용자에 의해 입력된 음성 제어 신호를 대응하는 터치 이벤트로 변환한 다음 터치 이벤트를 실행하여, 음성을 통해 애플리케이션의 인터페이스 상의 각각의 동작 버튼을 제어하는 기능을 구현할 수 있다. 이러한 방식으로, 이동 전화는 애플리케이션의 각각의 인터페이스 상에서, 인터페이스 상의 각각의 동작 버튼에 대한 음성 제어 기능을 구현할 수 있다. 이는 이동 전화의 음성 제어 효율 및 사용자 경험을 향상시킨다.
또한, 사용자에 의해 입력된 음성 제어 신호가 구성 파일 1 내의 재생 작업이라고 결정한 후에, 이동 전화는 재생 버튼(602)을 클릭하는 터치 제어 동작의 애니메이션 효과를 재생 인터페이스(601) 상에 더 표시하여, 이동 전화가 사용자에 의해 입력되는 음성 제어 신호에 응답하고 있음을 사용자에게 시각적으로 프롬프트할 수 있다. 다른 예에서, 사용자가 이동 전화 상에 표시되고 있는 인터페이스 상에 텍스트(예를 들어, 전화 번호)를 음성을 통해 입력할 때, 이동 전화는 또한 인터페이스 상에 전화 번호를 사용자에게 입력하는 프로세스도 제시할 수 있어서, 사용자는 GUI(graphical user interface, 그래픽 사용자 인터페이스)와 VUI 모두에서 양호한 사용자 경험을 획득한다.
예를 들어, 이동 전화가 사용자에 의해 입력된 음성 제어 신호가 구성 파일 1에서의 재생 작업이라고 결정한 후에, 이동 전화는 다음 코드를 실행함으로써 터치스크린 상의 클릭 이벤트의 디스플레이 프로세스를 시뮬레이션할 수 있다:
new OnVoiceClickListener{
public void onVoiceClick(final View view){
view.setPressed(true); //손가락 누르기 시뮬레이션 및 눌린 상태 표시
view.performClick(); //클릭 이벤트에 대응하는 콜백 함수 실행
view.postDelayed(new RealsePressed(view),500); //500 ms 후, 손가락 해제 시뮬레이션 및 해제 상태 표시
}
}
이에 대응하여, 사용자에 의해 입력된 음성 제어 신호가 제1 인터페이스의 구성 파일 내의 음성 작업에 속하지 않으면, 이동 전화가 현재 제1 인터페이스 상에서 사용자에 의해 전송된 음성 제어 신호의 실행을 지원하지 않는다는 것을 나타낸다. 이동 전화는 음성 앱을 사용함으로써, 음성 작업이 완료될 수 없다는 것을 사용자에게 프롬프트하거나 또는 사용자에게 음성 작업을 재입력하도록 프롬프트할 수 있다.
몇몇 다른 실시예에서, 도 13에 도시된 바와 같이, 음성 앱을 사용하여, 사용자에 의해 입력된 음성 제어 신호를 수집한 후, 이동 전화는 음성 제어 신호를 서버에 더 전송할 수 있다. 예를 들어, 사용자에 의해 입력된 음성 제어 신호가 비교적 복잡하고, 결과적으로 음성 앱이 음성 제어 신호를 인식하기 어려울 때, 이동 전화는 사용자에 의해 입력되는 음성 제어 신호를 서버에 전송할 수 있다. 서버는 사용자에 의해 입력된 음성 제어 신호에 대해 시맨틱 인식 및 이해를 수행하여, 음성 제어 신호에 대응하는 실제 음성 작업을 인식한다. 후속하여, 서버는 인식된 실제 음성 작업을 이동 전화에 전송할 수 있는바, 이동 전화가 실제 음성 작업을 대응하는 구성 파일 내의 음성 작업과 비교하여, 사용자에 의해 입력된 음성 제어 신호가 구성 파일에서 지원되는 음성 작업인지 여부를 판정할 수 있다.
예를 들어, 본 출원의 실시예에서, 사용자에 의해 입력된 음성 제어 신호를 서버에 전송하는 것에 더하여, 이동 전화는 제1 인터페이스의 인터페이스 정보를 서버에 더 전송할 수 있다. 예를 들어, 제1 인터페이스의 인터페이스 정보는 제1 인터페이스의 식별자일 수 있거나, 제2 인터페이스의 페이지 유형(예를 들어, 설정 인터페이스 또는 채팅 인터페이스)일 수 있거나, 또는 제1 인터페이스가 속하는 애플리케이션의 유형(예컨대, 비디오 애플리케이션), 패키지명(package name) 등일 수 있다.
예를 들어, Ctrip 앱 및 Booking 앱이 모두 사용자의 이동 전화에 설치된다. Booking 앱은 이동 전화에서 음성 앱에 의해 사용되는 디폴트 애플리케이션 중 하나이다. 여전히 도 13에 도시된 바와 같이, 이동 전화는 현재 Ctrip 앱의 홈 페이지(1201)를 표시한다. 이동 전화가 백그라운드에서 음성 앱을 인에이블할 때, 음성 앱은 사용자에 의해 입력된 음성 제어 신호 "비행기표를 예약하고 싶어"를 수집한다. 또한, 이동 전화는 음성 앱에 의해 수집된 음성 제어 신호를 서버로 전송할 수 있다. 또한, 이동 전화는 현재 실행되는 홈 페이지(1201)의 인터페이스 정보(예를 들어, Ctrip 앱의 패키지명)를 서버에 더 전송할 수 있다. 이러한 방식으로, 서버는 인터페이스 정보를 참조하여 음성 제어 신호 "비행기표를 예약하고 싶어"에 대해 음성 인식을 수행하고, 사용자에 의해 전송된 실제 음성 작업이 Booking 앱 대신에 Ctrip 앱을 사용하여 비행기표를 예약하는 것임을 인식할 수 있다. 이 경우, 서버가 인식된 실제 음성 작업을 이동 전화에 전송한 후, 이동 전화는 음성 제어 신호 "비행기표를 예약하고 싶어"에 응답하여 실제 음성 작업에 기초하여 Ctrip 앱의 비행기표 검색 인터페이스를 자동으로 인에이블할 수 있다.
이에 대응하여, 이동 전화에 의해 현재 표시되는 인터페이스가 Ctrip 앱의 인터페이스가 아니면, 예를 들어, 이동 전화가 (홈 스크린, 홈스크린으로도 지칭될 수 있는) 데스크톱을 현재 표시할 때, 이동 전화가 백그라운드에서 음성 앱을 인에이블하고, 음성 앱이 사용자에 의해 입력된 음성 제어 신호 "비행기표를 예약하고 싶어"를 수집하면, 이동 전화는 음성 앱에 의해 수집된 음성 제어 신호를 서버로 전송할 수 있다. 또한, 이동 전화는 현재 실행중인 데스크톱의 인터페이스 정보를 서버로 더 전송할 수 있다. 이러한 방식으로, 서버는 인터페이스 정보를 참조하여 음성 제어 신호 "비행기표를 예약하고 싶어"에 대해 음성 인식을 수행할 수 있고, 사용자에 의해 전송된 실제 음성 작업이 Ctrip 앱을 사용하여 비행기표를 예약하는 대신 디폴트 Booking 앱을 사용함으로써 비행기표를 예약하는 것임을 인식할 수 있다. 이 경우, 서버가 인식된 실제 음성 작업을 이동 전화로 전송한 후, 이동 전화는 음성 제어 신호 "비행기표를 예약하고 싶어"에 응답하여 실제 음성 작업에 기초하여 Booking 앱의 비행기표 검색 인터페이스를 자동으로 인에이블할 수 있다.
즉, 본 출원의 실시예에서, 이동 전화는 실행 중인 애플리케이션의 인터페이스 정보를 서버에 능동적으로 전송할 수 있다. 인터페이스 정보가 이동 전화의 현재 실제 사용 시나리오를 반영할 수 있기 때문에, 서버는 인터페이스 정보를 참조하여, 사용자에 의해 입력된 음성 제어 신호에 대한 음성 인식을 더 정확하게 수행할 수 있다. 이러한 방식으로, 사용자에 의해 전송된 실제 음성 작업이 더 정확하게 결정된다.
도 14에 도시된 바와 같이, 본 출원의 실시예는 전자 장치를 개시하는데, 전자 장치는 터치스크린(1401) - 터치스크린(1401)은 터치 감지 표면(1406) 및 디스플레이(1407)를 포함함 -, 하나 이상의 프로세서(1402), 메모리(1403), 통신 모듈(1408), 하나 이상의 애플리케이션(도시 생략), 하나 이상의 컴퓨터 프로그램(1404)을 포함하며, 전술한 구성요소들은 하나 이상의 통신 버스(1405)를 사용하여 연결될 수 있다. 하나 이상의 컴퓨터 프로그램(1404)은 메모리(1403)에 저장되고, 하나 이상의 프로세서(1402)에 의해 실행되도록 구성된다. 하나 이상의 컴퓨터 프로그램(1404)은 명령어를 포함한다. 명령어는 전술한 실시예에서 단계들을 수행하는 데 사용될 수 있다. 예를 들어, 명령어는 도 5에 도시된 단계들을 수행하는 데 사용될 수 있다.
구현에 관한 전술한 설명은 편리하고 간략한 설명을 위해 전술한 기능 모듈의 분할이 예시를 위한 예로서 사용된다는 것을 당업자가 이해할 수 있게 한다. 실제 애플리케이션에서, 전술한 기능은 상이한 모듈에 할당되고 요구사항에 따라 구현될 수 있고, 즉, 장치의 내부 구조가 상이한 기능 모듈로 분할되어 전술한 기능의 전부 또는 일부를 구현할 수 있다. 전술한 시스템, 장치 및 유닛의 자세한 작동 프로세스에 대해서는, 전술한 방법 실시예의 해당 프로세스를 참조하고, 세부사항은 여기서 다시 설명하지 않는다.
본 출원의 실시예에서의 기능 유닛은 하나의 처리 유닛에 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛에 통합될 수 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로 판매 또는 사용되는 경우, 통합 유닛은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 기본적으로 본 출원의 실시예의 기술 해결책, 또는 종래 기술에 기여하는 부분, 또는 기술 해결책의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고 컴퓨터 장치(개인용 컴퓨터, 서버 또는 네트워크 장치일 수 있음)가 본 출원의 실시예에서 설명된 방법의 단계의 전부 또는 일부를 수행하도록 지시하는 여러 명령을 포함한다. 전술한 저장 매체는 플래시 메모리, 착탈식 하드 디스크, 판독 전용 메모리, 랜덤 액세스 메모리, 자기 디스크 또는 광학 디스크와 같이 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 본 출원의 실시예의 특정 구현일 뿐이며, 본 출원의 실시예의 보호 범위를 제한하려는 것은 아니다. 본 출원의 실시예에 개시된 기술적 범위 내의 임의의 변형 또는 교체는 본 출원의 실시예의 보호 범위에 속한다. 따라서, 본 출원의 실시예의 보호 범위는 청구범위의 보호 범위에 속해야 한다.

Claims (23)

  1. 전자 장치로서,
    터치 감지 표면 및 디스플레이를 포함하는 터치스크린과,
    하나 이상의 프로세서와,
    상기 하나 이상의 프로세서에 의해 실행될 하나 이상의 컴퓨터 프로그램을 저장하는 하나 이상의 비일시적 메모리를 포함하되,
    상기 하나 이상의 컴퓨터 프로그램은,
    제1 애플리케이션의 제1 인터페이스를 표시하고 - 상기 제1 인터페이스는 상기 제1 인터페이스를 업데이트하는 데 사용되는 컨트롤을 포함함 - ,
    사용자에 의해 입력된 웨이크업 신호에 응답하여 백그라운드에서 음성 애플리케이션을 인에이블하며,
    상기 제1 인터페이스 상에, M개의 음성 입력 프롬프트를 표시하고 - 상기 M개의 음성 입력 프롬프트는 상기 제1 인터페이스에 의해 지원되는 M개의 음성 태스크에 제각기 대응되고, 상기 M개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트는 상기 제1 인터페이스 상의 하나의 컨트롤에 대응하고, M은 0보다 큰 정수임 - ,
    사용자에 의해 입력되는 제1 음성 제어 신호를 획득하며 - 상기 제1 음성 제어 신호는 상기 M개의 음성 입력 프롬프트의 제1 음성 입력 프롬프트에 대응함 - ,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 애플리케이션의 제2 인터페이스를 표시하고 - 상기 제2 인터페이스는 상기 제1 인터페이스 상의 제1 컨트롤이 트리거된 후에 업데이트를 통해 획득되는 인터페이스이고, 상기 제1 컨트롤은 상기 제1 음성 입력 프롬프트에 대응함 - ,
    제2 애플리케이션의 제3 인터페이스를 표시하며,
    상기 제3 인터페이스 상에 L개의 음성 입력 프롬프트를 표시하고 - 상기 L개의 음성 입력 프롬프트는 상기 제3 인터페이스에 의해 지원되는 L개의 음성 태스크에 제각기 대응되고, 상기 제3 인터페이스는 상기 제3 인터페이스를 업데이트하는 데 사용되는 컨트롤을 포함하고, 상기 L개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트는 상기 제3 인터페이스 상의 하나의 컨트롤에 대응하고, L은 0보다 큰 정수이며, 상기 L개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트는 상기 M개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트와 상이함 - ,
    상기 사용자에 의해 입력되는 제2 음성 제어 신호를 수집하며 - 상기 제2 음성 제어 신호는 상기 L개의 음성 입력 프롬프트의 제2 음성 입력 프롬프트에 대응함 - ,
    상기 제2 음성 제어 신호에 응답하여 상기 제2 애플리케이션의 제4 인터페이스를 표시 - 상기 제4 인터페이스는 상기 제3 인터페이스 상의 제2 컨트롤이 트리거된 후에 업데이트를 통해 획득되는 인터페이스이고, 상기 제2 컨트롤은 상기 제2 음성 입력 프롬프트에 대응함 - 하기 위한
    명령어를 포함하는
    전자 장치.
  2. 제1항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은, 상기 백그라운드에서 상기 음성 애플리케이션을 인에이블한 후에,
    상기 제1 인터페이스 상의 상기 컨트롤에 대해 상기 사용자가 수행하는 터치 제어 동작이 검출되는 것에 응답하여, 상기 터치 제어 동작에 대응하는 동작 명령어를 실행하는 것을 수행하기 위한 명령어를 더 포함하는
    전자 장치.
  3. 제1항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은, 상기 백그라운드에서 상기 음성 애플리케이션을 인에이블한 후에,
    상기 제1 인터페이스 상에 상기 음성 애플리케이션의 식별자를 표시하는 것을 수행하기 위한 명령어를 더 포함하는
    전자 장치.
  4. 제1항에 있어서,
    상기 제1 애플리케이션은 음악 애플리케이션이고, 상기 제1 인터페이스는 상기 음악 애플리케이션의 음악 재생 인터페이스이며,
    상기 하나 이상의 컴퓨터 프로그램은, 상기 제1 인터페이스 상에,
    재생 컨트롤 및 상기 재생 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    일시정지 컨트롤 및 상기 일시정지 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    이전으로 전환 컨트롤 및 상기 이전으로 전환 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    다음으로 전환 컨트롤 및 상기 다음으로 전환 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    볼륨 턴 업 컨트롤 및 상기 볼륨 턴 업 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    볼륨 턴 다운 컨트롤 및 상기 볼륨 턴 다운 컨트롤에 대응하는 음성 입력 프롬프트
    중 하나 이상을 표시하기 위한 명령어를 더 포함하는
    전자 장치.
  5. 제4항에 있어서,
    상기 제1 인터페이스 상에 상기 일시정지 컨트롤 및 상기 일시정지 컨트롤에 대응하는 상기 음성 입력 프롬프트를 표시하기 위한 명령어는,
    사용자가 입력한 일시정지에 사용되는 제3 음성 제어 신호를 수신하고,
    상기 일시정지에 사용되는 상기 제3 음성 제어 신호에 응답하여 상기 제2 인터페이스를 표시 - 상기 제2 인터페이스는 상기 제1 인터페이스 상의 상기 일시정지 컨트롤이 트리거된 후 업데이트를 통해 획득된 인터페이스이고, 상기 제2 인터페이스는 상기 재생 컨트롤 및 상기 재생 컨트롤에 대응하는 상기 음성 입력 프롬프트를 표시하며, 상기 제2 인터페이스는 상기 일시정지 컨트롤 및 상기 일시정지 컨트롤에 대응하는 상기 음성 입력 프롬프트를 표시하지 않음 - 하기 위한
    명령어를 포함하는
    전자 장치.
  6. 제1항에 있어서,
    상기 제1 애플리케이션은 카메라 애플리케이션이고, 상기 제1 인터페이스는 상기 카메라 애플리케이션의 촬영 인터페이스이며,
    상기 하나 이상의 컴퓨터 프로그램은, 상기 제1 인터페이스 상에,
    촬영 컨트롤 및 상기 촬영 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    기록 컨트롤 및 상기 기록 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    전방 카메라 인에이블 컨트롤 및 상기 전방 카메라 인에이블 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    사진 보기 컨트롤 및 상기 사진 보기 컨트롤에 대응하는 음성 입력 프롬프트
    중 하나 이상을 표시하기 위한 명령어를 더 포함하는
    전자 장치.
  7. 제6항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    상기 사용자가 상기 촬영 인터페이스에서 입력한 촬영에 사용되는 제4 음성 제어 신호를 수신하고,
    상기 촬영에 사용되는 제4 음성 제어 신호에 응답하여 사진을 촬영하고, 상기 촬영 인터페이스 및 상기 촬영 인터페이스에 대응하는 음성 입력 프롬프트를 계속 표시하며,
    상기 사진을 촬영하는 것에 응답하여, 상기 촬영 인터페이스 상에 상기 사진의 사진 썸네일을 표시하기 위한
    명령어를 더 포함하는
    전자 장치.
  8. 제7항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    상기 사용자가 상기 촬영 인터페이스에서 입력한 사진 보기에 사용되는 제5 음성 제어 신호를 수신하고,
    상기 사진 보기에 사용되는 제5 음성 제어 신호에 응답하여 상기 사진을 표시하기 위한
    명령어를 더 포함하는
    전자 장치.
  9. 제8항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    상기 사진을 표시하기 위한 인터페이스에서, 상기 사용자가 입력한 줌 인에 사용되는 제6 음성 제어 신호를 수신하고, 상기 사진을 줌 인하거나, 또는
    상기 사진을 표시하기 위한 인터페이스에서, 상기 사용자가 입력한 줌 아웃에 사용되는 제7 음성 제어 신호를 수신하고, 상기 사진을 줌 아웃하거나, 또는
    상기 사진을 표시하기 위한 인터페이스에서, 상기 사용자가 입력한 다음 사진 검토에 사용되는 제8 음성 제어 신호를 수신하고, 상기 사진에 슬라이드 동작을 수행하거나, 또는
    상기 사진을 표시하기 위한 인터페이스에서, 상기 사용자가 입력한 상기 카메라 애플리케이션으로의 리턴에 사용되는 제9 음성 제어 신호를 수신하고, 상기 카메라 애플리케이션의 상기 촬영 인터페이스를 표시하기 위한
    명령어를 더 포함하는
    전자 장치.
  10. 제1항에 있어서,
    상기 제1 음성 제어 신호는 상기 제1 컨트롤의 이름을 포함하거나, 또는
    상기 제2 음성 제어 신호는 상기 제2 컨트롤의 이름을 포함하는
    전자 장치.
  11. 제10항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    구성 파일을 사용하여 상기 제1 컨트롤의 이름을 획득하거나, 또는
    구성 파일을 사용하여 상기 제2 컨트롤의 이름을 획득하는 것
    중 적어도 하나를 수행하기 위한 명령어를 더 포함하는
    전자 장치.
  12. 제1항에 있어서,
    상기 웨이크업 신호는,
    사용자가 입력한 웨이크업 단어, 또는
    버튼에 대한 상기 사용자의 클릭 신호, 또는
    상기 사용자의 터치 제스처
    중 적어도 하나를 포함하는
    전자 장치.
  13. 제1항에 있어서,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 애플리케이션의 상기 제2 인터페이스를 표시하기 위한 명령어는,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 컨트롤을 터치하는 동작을 시뮬레이션함으로써 상기 제1 애플리케이션의 상기 제2 인터페이스를 표시하기 위한 명령어를 포함하는
    전자 장치.
  14. 제1항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    상기 음성 애플리케이션이 인에이블된 후, 즉시 상기 제1 인터페이스 상에 상기 M개의 음성 입력 프롬프트를 표시하는 것을 수행하기 위한 명령어를 더 포함하는
    전자 장치.
  15. 제1항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    상기 음성 애플리케이션이 인에이블된 후, 사전설정된 시구간 후에 상기 제1 인터페이스 상에 상기 M개의 음성 입력 프롬프트를 표시하는 것을 수행하기 위한 명령어를 더 포함하는
    전자 장치.
  16. 제1항에 있어서,
    상기 하나 이상의 컴퓨터 프로그램은,
    상기 전자 장치가 상기 사용자가 입력한 상기 제1 음성 제어 신호를 수집하기 전에 상기 M개의 음성 입력 프롬프트를 자동으로 숨기기 위한 명령어를 더 포함하는
    전자 장치.
  17. 음성 제어 방법으로서,
    전자 장치에 의해, 제1 애플리케이션의 제1 인터페이스를 표시하는 단계 - 상기 제1 인터페이스는 상기 제1 인터페이스를 업데이트하는 데 사용되는 컨트롤을 포함함 - 와,
    상기 전자 장치에 의해, 사용자에 의해 입력된 웨이크업 신호에 응답하여 백그라운드에서 음성 애플리케이션을 인에이블하는 단계와,
    상기 전자 장치에 의해 상기 제1 인터페이스 상에, M개의 음성 입력 프롬프트를 표시하는 단계 - 상기 M개의 음성 입력 프롬프트는 상기 제1 인터페이스에 의해 지원되는 M개의 음성 태스크에 제각기 대응되고, 상기 M개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트는 상기 제1 인터페이스 상의 하나의 컨트롤에 대응하고, M은 0보다 큰 정수임 - 와,
    상기 전자 장치에 의해, 상기 사용자에 의해 입력되는 제1 음성 제어 신호를 수집하는 단계 - 상기 제1 음성 제어 신호는 상기 M개의 음성 입력 프롬프트의 제1 음성 입력 프롬프트에 대응함 - 와,
    상기 전자 장치에 의해, 상기 제1 음성 제어 신호에 응답하여 상기 제1 애플리케이션의 제2 인터페이스를 표시하는 단계 - 상기 제2 인터페이스는 상기 제1 인터페이스 상의 제1 컨트롤이 트리거된 후에 업데이트를 통해 획득되는 인터페이스이고, 상기 제1 컨트롤은 상기 제1 음성 입력 프롬프트에 대응함 - 와,
    상기 전자 장치에 의해, 제2 애플리케이션의 제3 인터페이스를 표시하는 단계와,
    상기 전자 장치에 의해, 상기 제3 인터페이스 상에 L개의 음성 입력 프롬프트를 표시하는 단계 - 상기 제3 인터페이스는 상기 제3 인터페이스를 업데이트하는 데 사용되는 컨트롤을 포함하고, 상기 L개의 음성 입력 프롬프트는 상기 제3 인터페이스에 의해 지원되는 L개의 음성 태스크에 제각기 대응되고, 상기 L개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트는 상기 제3 인터페이스 상의 하나의 컨트롤에 대응하고, L은 0보다 큰 정수이며, 상기 L개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트는 상기 M개의 음성 입력 프롬프트의 각각의 음성 입력 프롬프트와 상이함 - 와,
    상기 전자 장치에 의해, 상기 사용자에 의해 입력되는 제2 음성 제어 신호를 수집하는 단계 - 상기 제2 음성 제어 신호는 상기 L개의 음성 입력 프롬프트의 제2 음성 입력 프롬프트에 대응함 - 와,
    상기 전자 장치에 의해, 상기 제2 음성 제어 신호에 응답하여 상기 제2 애플리케이션의 제4 인터페이스를 표시하는 단계 - 상기 제4 인터페이스는 상기 제3 인터페이스 상의 제2 컨트롤이 트리거된 후에 업데이트를 통해 획득되는 인터페이스이고, 상기 제2 컨트롤은 상기 제2 음성 입력 프롬프트에 대응함 - 를 포함하는
    음성 제어 방법.
  18. 제17항에 있어서,
    상기 제1 애플리케이션은 카메라 애플리케이션이고, 상기 제1 인터페이스는 상기 카메라 애플리케이션의 촬영 인터페이스이며,
    상기 방법은,
    상기 전자 장치에 의해 상기 제1 인터페이스 상에,
    촬영 컨트롤 및 상기 촬영 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    기록 컨트롤 및 상기 기록 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    전방 카메라 인에이블 컨트롤 및 상기 전방 카메라 인에이블 컨트롤에 대응하는 음성 입력 프롬프트, 또는
    사진 보기 컨트롤 및 상기 사진 보기 컨트롤에 대응하는 음성 입력 프롬프트
    중 하나 이상을 표시하는 단계를 더 포함하는
    음성 제어 방법.
  19. 제18항에 있어서,
    상기 방법은,
    상기 전자 장치에 의해, 상기 사용자가 상기 촬영 인터페이스에서 입력한 촬영에 사용되는 제3 음성 제어 신호를 수신하는 단계와,
    상기 전자 장치에 의해, 상기 촬영에 사용되는 제3 음성 제어 신호에 응답하여 사진을 촬영하고, 상기 촬영 인터페이스 및 상기 촬영 인터페이스에 대응하는 음성 입력 프롬프트를 계속 표시하는 단계와,
    상기 사진을 촬영하는 것에 응답하여, 상기 전자 장치에 의해, 상기 촬영 인터페이스 상에 상기 사진의 사진 썸네일을 표시하는 단계를 더 포함하는
    음성 제어 방법.
  20. 제19항에 있어서,
    상기 방법은,
    상기 전자 장치에 의해, 상기 사용자가 상기 촬영 인터페이스에서 입력한 사진 보기에 사용되는 제4 음성 제어 신호를 수신하는 단계와,
    상기 전자 장치에 의해, 상기 사진 보기에 사용되는 제4 음성 제어 신호에 응답하여 상기 사진을 표시하는 단계를 더 포함하는
    음성 제어 방법.
  21. 제17항에 있어서,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 애플리케이션의 상기 제2 인터페이스를 표시하는 단계는,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 컨트롤을 터치하는 동작을 시뮬레이션함으로써 상기 제1 애플리케이션의 상기 제2 인터페이스를 표시하는 단계를 포함하는
    음성 제어 방법.
  22. 제17항 내지 제21항 중 어느 한 항에 있어서,
    상기 제1 음성 제어 신호를 수집한 후 및 상기 제2 인터페이스를 표시하기 전에,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 컨트롤을 터치하는 동작을 시뮬레이션함으로써 생성된 상기 제1 컨트롤의 애니메이션 효과를 상기 제1 인터페이스 상에 표시하는 단계를 더 포함하는
    음성 제어 방법.
  23. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 제1 음성 제어 신호를 수집한 후 및 상기 제2 인터페이스를 표시하기 전에, 상기 하나 이상의 컴퓨터 프로그램은,
    상기 제1 음성 제어 신호에 응답하여 상기 제1 컨트롤을 터치하는 동작을 시뮬레이션함으로써 생성된 상기 제1 컨트롤의 애니메이션 효과를 상기 제1 인터페이스 상에 표시하기 위한 명령어를 더 포함하는
    전자 장치.
KR1020217018691A 2018-11-23 2019-11-15 음성 제어 방법 및 전자 장치 KR102470275B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811407531.7A CN109584879B (zh) 2018-11-23 2018-11-23 一种语音控制方法及电子设备
CN201811407531.7 2018-11-23
PCT/CN2019/118645 WO2020103764A1 (zh) 2018-11-23 2019-11-15 一种语音控制方法及电子设备

Publications (2)

Publication Number Publication Date
KR20210092795A KR20210092795A (ko) 2021-07-26
KR102470275B1 true KR102470275B1 (ko) 2022-11-23

Family

ID=65924299

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217018691A KR102470275B1 (ko) 2018-11-23 2019-11-15 음성 제어 방법 및 전자 장치

Country Status (9)

Country Link
US (1) US11450322B2 (ko)
EP (1) EP3872807B1 (ko)
JP (1) JP7142783B2 (ko)
KR (1) KR102470275B1 (ko)
CN (3) CN113794800B (ko)
AU (1) AU2019385366B2 (ko)
ES (1) ES2964533T3 (ko)
RU (1) RU2766255C1 (ko)
WO (1) WO2020103764A1 (ko)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794800B (zh) * 2018-11-23 2022-08-26 华为技术有限公司 一种语音控制方法及电子设备
CN110138959B (zh) * 2019-04-10 2022-02-15 荣耀终端有限公司 显示人机交互指令的提示的方法及电子设备
CN110060679B (zh) * 2019-04-23 2022-02-11 诚迈科技(南京)股份有限公司 一种全程语音控制的交互方法和系统
CN110096211B (zh) * 2019-04-30 2021-03-19 广东美的厨房电器制造有限公司 家用电器的控制方法和家用电器
CN110148414B (zh) * 2019-05-21 2021-06-29 大众问问(北京)信息科技有限公司 一种语音说法引导方法和装置
US20200379716A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Audio media user interface
CN110262767B (zh) * 2019-06-03 2022-03-11 交互未来(北京)科技有限公司 基于靠近嘴部检测的语音输入唤醒装置、方法和介质
CN110336720B (zh) * 2019-06-29 2021-08-20 华为技术有限公司 设备控制方法和设备
CN112346695A (zh) * 2019-08-09 2021-02-09 华为技术有限公司 语音控制设备的方法及电子设备
CN110502300A (zh) * 2019-08-14 2019-11-26 上海掌门科技有限公司 语音播放方法、设备以及计算机可读介质
CN110493123B (zh) * 2019-09-16 2022-06-28 腾讯科技(深圳)有限公司 即时通讯方法、装置、设备及存储介质
CN110825469A (zh) * 2019-09-18 2020-02-21 华为技术有限公司 语音助手显示方法及装置
CN112533041A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
CN112579032B (zh) * 2019-09-27 2023-10-03 百度在线网络技术(北京)有限公司 智能设备引导的方法及装置
CN110910872B (zh) * 2019-09-30 2023-06-02 华为终端有限公司 语音交互方法及装置
CN112652302B (zh) * 2019-10-12 2024-05-24 腾讯科技(深圳)有限公司 语音控制方法、装置、终端及存储介质
CN110865755A (zh) * 2019-11-11 2020-03-06 珠海格力电器股份有限公司 终端的语音控制方法、装置、存储介质及终端
CN110851108A (zh) * 2019-11-18 2020-02-28 北京小米移动软件有限公司 电子设备操作方法、装置、电子设备及存储介质
CN111124229B (zh) * 2019-12-24 2022-03-11 山东舜网传媒股份有限公司 通过语音交互实现网页动画控制的方法、系统及浏览器
CN111326149A (zh) * 2020-02-25 2020-06-23 青岛海尔空调器有限总公司 一种提高语音辨识率的优化方法及系统
US11595509B2 (en) * 2020-03-05 2023-02-28 Avaya Management L.P. Telecommunications soft client having a GUI-less operating mode
CN111462783A (zh) * 2020-03-05 2020-07-28 深圳壹账通智能科技有限公司 音视频录制引导方法、装置、计算机设备及存储介质
CN111427532A (zh) * 2020-03-20 2020-07-17 青岛聚好联科技有限公司 一种App语音输入控制的方法及装置
CN113535040A (zh) * 2020-04-14 2021-10-22 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN111880875B (zh) * 2020-07-15 2023-12-22 百度在线网络技术(北京)有限公司 多媒体播放的控制方法、装置、设备、存储介质和系统
CN114007117B (zh) * 2020-07-28 2023-03-21 华为技术有限公司 一种控件显示方法和设备
CN114327198A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 控制功能推送方法及设备
CN114363462B (zh) * 2020-09-30 2023-01-06 华为技术有限公司 一种界面显示方法、电子设备及计算机可读介质
WO2022094740A1 (en) * 2020-11-03 2022-05-12 Microsoft Technology Licensing, Llc Controlled training and use of text-to-speech models and personalized model generated voices
CN115048161A (zh) * 2021-02-26 2022-09-13 华为技术有限公司 应用的控制方法及其电子设备、装置和介质
CN115408492A (zh) * 2021-05-26 2022-11-29 华为技术有限公司 资源显示的方法、终端及服务器
CN113709294A (zh) * 2021-07-26 2021-11-26 青岛海尔科技有限公司 一种语音助手的状态管理和ui更新方法、装置及设备
CN113940831B (zh) * 2021-10-27 2022-12-16 青岛豪江智能科技股份有限公司 带语音控制及生命体征监测的智能护理床电控系统
CN114090148A (zh) * 2021-11-01 2022-02-25 深圳Tcl新技术有限公司 信息同步方法、装置、电子设备及计算机可读存储介质
CN113946810B (zh) * 2021-12-07 2022-09-20 荣耀终端有限公司 一种应用程序的运行方法及电子设备
CN114639384B (zh) * 2022-05-16 2022-08-23 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机设备及计算机存储介质
CN115729544A (zh) * 2022-11-18 2023-03-03 维沃移动通信有限公司 桌面组件生成方法、装置、电子设备和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059073A1 (en) 2000-06-07 2002-05-16 Zondervan Quinton Y. Voice applications and voice-based interface

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7174294B2 (en) * 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
JP2007171809A (ja) 2005-12-26 2007-07-05 Canon Inc 情報処理装置及び情報処理方法
US8311836B2 (en) 2006-03-13 2012-11-13 Nuance Communications, Inc. Dynamic help including available speech commands from content contained within speech grammars
TW200928315A (en) 2007-12-24 2009-07-01 Mitac Int Corp Voice-controlled navigation device and method thereof
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
KR101626159B1 (ko) * 2009-11-25 2016-05-31 엘지전자 주식회사 사용자 적응형 디스플레이 장치 및 디스플레이 방법
US9665344B2 (en) 2010-02-24 2017-05-30 GM Global Technology Operations LLC Multi-modal input system for a voice-based menu and content navigation service
WO2013022218A2 (en) 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
WO2014055181A1 (en) * 2012-10-01 2014-04-10 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
CN103871437B (zh) * 2012-12-11 2017-08-22 比亚迪股份有限公司 车载多媒体装置及其语音控制方法
KR20140075997A (ko) * 2012-12-12 2014-06-20 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
CN103885693B (zh) * 2012-12-20 2018-07-06 联想(北京)有限公司 一种信息处理方法及电子设备
US9196262B2 (en) * 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
CN104076916B (zh) * 2013-03-29 2017-05-24 联想(北京)有限公司 一种信息处理方法以及电子设备
US9530410B1 (en) * 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
CN103338311A (zh) * 2013-07-11 2013-10-02 成都西可科技有限公司 一种智能手机锁屏界面启动app的方法
JP2015026102A (ja) 2013-07-24 2015-02-05 シャープ株式会社 電子機器
CN103442138A (zh) 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
JP5955299B2 (ja) 2013-11-08 2016-07-20 株式会社ソニー・インタラクティブエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体
US9582246B2 (en) * 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
KR101584887B1 (ko) * 2014-03-07 2016-01-22 주식회사 엘지유플러스 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템
CN103885596B (zh) * 2014-03-24 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
US10592095B2 (en) * 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US10200824B2 (en) * 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN105094331B (zh) * 2015-07-27 2018-08-07 联想(北京)有限公司 一种信息处理方法及电子设备
CN105895093A (zh) * 2015-11-02 2016-08-24 乐视致新电子科技(天津)有限公司 语音信息处理方法及装置
CN105446489B (zh) * 2015-12-08 2017-09-22 广州神马移动信息科技有限公司 语音双模控制方法、装置及用户终端
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105957530B (zh) 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR20180046780A (ko) * 2016-10-28 2018-05-09 에스케이텔레콤 주식회사 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
JP6244483B2 (ja) 2017-01-05 2017-12-06 任天堂株式会社 情報処理装置、情報処理システム、ならびに起動用プログラムおよびそれを記憶した記憶媒体
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR102423298B1 (ko) * 2017-03-28 2022-07-21 삼성전자주식회사 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 시스템
CN107277225B (zh) 2017-05-04 2020-04-24 北京奇虎科技有限公司 语音控制智能设备的方法、装置和智能设备
US10237209B2 (en) * 2017-05-08 2019-03-19 Google Llc Initializing a conversation with an automated agent via selectable graphical element
KR102007478B1 (ko) * 2017-06-28 2019-08-05 크리스토퍼 재현 윤 특정 조건에서 음성인식을 이용한 어플리케이션 제어 장치 및 방법
CN107346229A (zh) * 2017-07-18 2017-11-14 珠海市魅族科技有限公司 语音输入方法及装置、计算机装置及可读存储介质
US10896050B2 (en) * 2017-10-03 2021-01-19 Google Llc Systems, methods, and apparatus that provide multi-functional links for interacting with an assistant agent
CN108366281A (zh) * 2018-02-05 2018-08-03 山东浪潮商用系统有限公司 一种应用于机顶盒的全语音交互方法
CN108520750A (zh) * 2018-03-13 2018-09-11 努比亚技术有限公司 一种语音输入控制方法、设备及计算机可读存储介质
CN108572764B (zh) * 2018-03-13 2022-01-14 努比亚技术有限公司 一种文字输入控制方法、设备及计算机可读存储介质
CN108829371B (zh) * 2018-06-19 2022-02-22 Oppo广东移动通信有限公司 界面控制方法、装置、存储介质及电子设备
CN113794800B (zh) 2018-11-23 2022-08-26 华为技术有限公司 一种语音控制方法及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059073A1 (en) 2000-06-07 2002-05-16 Zondervan Quinton Y. Voice applications and voice-based interface

Also Published As

Publication number Publication date
WO2020103764A1 (zh) 2020-05-28
CN113794800A (zh) 2021-12-14
US11450322B2 (en) 2022-09-20
US20210407507A1 (en) 2021-12-30
CN113794800B (zh) 2022-08-26
ES2964533T3 (es) 2024-04-08
JP2022508176A (ja) 2022-01-19
EP3872807A4 (en) 2021-12-22
CN109584879B (zh) 2021-07-06
RU2766255C1 (ru) 2022-02-10
EP3872807B1 (en) 2023-10-18
KR20210092795A (ko) 2021-07-26
EP3872807A1 (en) 2021-09-01
JP7142783B2 (ja) 2022-09-27
CN113056901A (zh) 2021-06-29
AU2019385366A1 (en) 2021-06-10
CN109584879A (zh) 2019-04-05
AU2019385366B2 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
KR102470275B1 (ko) 음성 제어 방법 및 전자 장치
WO2021052263A1 (zh) 语音助手显示方法及装置
WO2021129326A1 (zh) 一种屏幕显示方法及电子设备
CN110910872B (zh) 语音交互方法及装置
WO2021103981A1 (zh) 分屏显示的处理方法、装置及电子设备
CN113645351B (zh) 应用界面交互方法、电子设备和计算机可读存储介质
WO2021036770A1 (zh) 一种分屏处理方法及终端设备
CN114363462B (zh) 一种界面显示方法、电子设备及计算机可读介质
CN111913750B (zh) 一种应用程序管理方法、装置及设备
CN112130714B (zh) 可进行学习的关键词搜索方法和电子设备
CN111316199A (zh) 一种信息处理方法及电子设备
CN112068907A (zh) 一种界面显示方法和电子设备
EP4228233A1 (en) Method for adding operation sequence, electronic device, and system
US20230236714A1 (en) Cross-Device Desktop Management Method, First Electronic Device, and Second Electronic Device
CN115016697A (zh) 投屏方法、计算机设备、可读存储介质和程序产品
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
CN112286596A (zh) 消息显示方法及电子设备
WO2024012346A1 (zh) 任务迁移的方法、电子设备和系统
WO2022143891A1 (zh) 焦点同步方法及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant