KR102527178B1 - 음성 제어 명령 생성 방법 및 단말 - Google Patents

음성 제어 명령 생성 방법 및 단말 Download PDF

Info

Publication number
KR102527178B1
KR102527178B1 KR1020217006712A KR20217006712A KR102527178B1 KR 102527178 B1 KR102527178 B1 KR 102527178B1 KR 1020217006712 A KR1020217006712 A KR 1020217006712A KR 20217006712 A KR20217006712 A KR 20217006712A KR 102527178 B1 KR102527178 B1 KR 102527178B1
Authority
KR
South Korea
Prior art keywords
interface
terminal
information
text
user
Prior art date
Application number
KR1020217006712A
Other languages
English (en)
Other versions
KR20210040424A (ko
Inventor
준 수
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20210040424A publication Critical patent/KR20210040424A/ko
Application granted granted Critical
Publication of KR102527178B1 publication Critical patent/KR102527178B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

본 출원의 실시예는 음성 제어 명령 생성 방법 및 단말을 개시하고, 음성 제어 기술 분야에 관한 것이며, 커스텀 음성 제어의 유연성을 향상시키고 사용자 경험을 향상시킨다. 특정한 응용소프트웨어는 다음과 같다: 단말이 제1 조작에 응답하여 프롬프트 정보를 표시하고 - 상기 프롬프트 정보는 기록될 조작(to-be-recorded operation)을 입력하도록 사용자에게 프롬프트하는 데 사용됨 - ; 상기 단말이 상기 사용자에 의해 입력된 하나 이상의 조작을 수신하고; 상기 단말이 상기 사용자에 의해 입력된 제2 조작에 응답하여 상기 하나 이상의 조작에 대응하는 조작 정보를 기록하고; 상기 단말이 상기 사용자에 의해 입력된 제3 조작에 기초하여 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하고; 상기 단말이 제1 음성 명령을 수신하며; 및 상기 단말이 상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 일치할 때 상기 조작 정보에 기초하여 대응하는 조작을 수행한다.

Description

음성 제어 명령 생성 방법 및 단말
본 출원의 실시예는 음성 제어 기술 분야에 관한 것이며, 특히 음성 제어 명령 생성 방법 및 단말에 관한 것이다.
음성 어시스턴트는 단말(예를 들어, 이동 전화)의 중요한 애플리케이션이다. 음성 어시스턴트는 사용자와 지능형 대화 및 즉각적인 질의 응답 기반 지능형 상호 작용을 수행할 수 있다. 음성 어시스턴트의 커스텀 음성 제어는 음성 어시스턴트의 발전 추세가 되었다.
음성 어시스턴트의 커스텀 음성 제어는 음성 어시스턴트가 사용자에 의해 입력된 커스텀 명령(음성 데이터 또는 텍스트 정보)을 수신하고, 사용자가 제어하고자 하는 동작에 커스텀 명령을 바인딩할 수 있음을 의미한다. 커스텀 명령, 수행할 단말. 이와 같이 음성 어시스턴트가 다음에 커스텀 커맨드에 대응하는 음성 커맨드를 수신하면, 단말은 커스텀 커맨드에 바인딩된 동작을 자동으로 수행할 수 있다.
일부 단말은 음성 어시스턴트의 커스텀 음성 제어 기능을 제공할 수 있다. 그러나 커스텀 명령에 바인딩할 수 있는 조작은 미리 정의되어 있다. 구체적으로, 사용자는 미리 정의된 조작에서만 커스텀 명령에 바인딩해야 하는 조작을 선택할 수 있다. 사용자가 제어하고자 하는 커스텀 명령을 사용하여 단말이 수행할 동작이 전술한 사전 정의된 동작에 포함되지 않은 경우, 음성 어시스턴트는 커스텀 음성 제어 기능을 제공할 수 없다. 다시 말해, 단말은 사용자의 개인적인 커스텀 음성 제어를 구현할 수 없다.
앞서 언급한 문제를 해결하기 위해 일부 다른 단말의 음성 어시스턴트가 사용자에 의해 입력된 커스텀 명령(예를 들어, "타오바오(Taobao)에서 우유 구매")을 수신하고 단말에서 사용자의 커스텀 명령에 대응하는 조작을 학습할 수 있고(예를 들어, "타오바오" 애플리케이션 아이콘을 클릭하고 "타오바오" 홈페이지의 검색 창에서 "우유"를 입력한다), 그 커스텀 명령을 사용자의 커스텀 명령에 바인딩한다. 이 방식에서, 음성 어시스턴트가 다음번에 커스텀 명령에 대응하는 음성 명령(예를 들어, "타오바오에서 우유 구매")을 수신하면, 단말은 사용자가 커스텀 명령에 대응하는 동작을 수행하도록 시뮬레이션하기 위한 인터페이스를 순차적으로 표시할 수 있다(예를 들어, "타오바오" 애플리케이션 아이콘을 클릭하고 "타오바오" 홈페이지의 검색 창에서 "우유"를 입력한다). 마지막으로, 단말은 커스텀 명령에 대응하는 결과 인터페이스를 표시할 수 있고, 예를 들어 사용자가 "타오바오"의 홈페이지 검색 창에서 "우유"를 입력한 후 획득된 결과 인터페이스를 표시할 수 있다.
그렇지만, 음성 어시스턴트는 단말에서 사용자의 커스텀 명령에 대응하는 동작을 학습하여 사용자의 개인화된 커스텀 음성 제어를 구현할 수 있지만, 일단 음성 어시스턴트가 사용자의 커스텀 명령에 대응하는 동작에 커스텀 명령을 바인딩하면, 단말은 사용자가 다음번에 단어별로 커스텀 명령에 대응하는 음성 명령(예를 들어, "타오바오를 통해 우유 구매")을 말할 때만 커스텀 명령에 대응하는 동작을 수행할 수 있다. 음성 어시스턴트가 커스텀 명령에 대응하는 음성 명령과 유사한 음성 명령을 수신하더라도 단말은 커스텀 명령에 대응하는 동작을 수행하지 않는다. 따라서 단말의 커스텀 음성 제어 기능의 유연성이 떨어지며 사용자 경험에 영향을 미친다.
본 출원의 실시예는 커스텀 음성 제어의 유연성을 향상시키고 사용자 경험을 향상시키기 위해 음성 제어 명령 생성 방법 및 단말을 제공한다.
제1 관점에 따르면, 본 출원의 실시예는 음성 제어 명령 생성 방법을 제공한다. 음성 제어 명령 생성 방법은 다음을 포함할 수 있다: 단말은 제1 조작에 응답하여 기록될 조작을 입력하도록 프롬프트하는 프롬프트 정보를 사용자에게 표시한다. 단말은 사용자에 의해 입력된 하나 이상의 조작을 수신한다. 단말은 사용자에 의해 입력된 제2 조작에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록한다. 단말은 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보를 결정한다. 단말은 제1 음성 명령을 수신한다. 단말은 제1 음성 명령에 대응하는 텍스트가 제1 텍스트 정보와 일치하면 조작 정보에 기초하여 대응하는 조작을 수행한다.
본 출원의 이 실시예에서, 단말은 먼저 하나 이상의 조작에 대응하는 조작 정보를 획득하고, 그런 다음 사용자의 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보, 즉, 하나 이상의 조작에 대응하는 텍스트 정보를 결정할 수 있다. 제1 텍스트 정보는 사용자가 선택하고 사용자의 언어 습관에 맞는 명령이다. 단말이 제1 음성 명령을 수신한 후, 단말은 사용자가 단어별로 텍스트 정보에 대응하는 음성 명령을 말할 때만 대응하는 조작을 수행하는 대신 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치할 때 조작 정보에 기초해서 대응하는 조작을 수행할 수 있다. 이 솔루션에 따르면 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
제1 관점을 참조하면, 가능한 설계 방식에서, 제1 텍스트 정보는 적어도 하나의 제1 부분 및 제2 부분을 포함한다. 제1 음성 명령에 대응하는 텍스트가 제1 텍스트 정보와 일치한다는 것은 다음을 포함한다: 제1 음성 명령에 대응하는 텍스트에서 적어도 하나의 제3 부분이 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령의 제4 부분 사이의 위치 관계는 제1 텍스트 정보에서 적어도 하나의 제1 부분과 제2 부분 사이의 위치 관계와 동일하다.
조작 정보는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함한다. 제1 애플리케이션 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 애플리케이션의 식별자이고, 제1 인터페이스 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 인터페이스의 식별자이고, 조작 지시 정보는 하나 이상의 조작을 통해 오퍼레이션 오브젝트 인터페이스에서 수행되는 조작을 지시하는 데 사용된다.
적어도 하나의 제1 부분은 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 포함하고, 제2 부분은 제1 검색어를 포함한다는 것을 이해할 수 있다. 다시 말해, 제1 음성 명령의 제3 부분이 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자일 때 제1 음성 명령은 제1 텍스트 정보와 일치하고 제1 부분의 제4 부분과 제3 부분 사이의 위치 관계를 일치시킨다. 음성 명령은 제1 텍스트 정보에서 제1 부분과 제2 부분 사이의 위치 관계와 동일하다.
제1 관점을 참조하면, 다른 가능한 설계 방식에서, 단말이 제1 조작에 응답하여 프롬프트 정보를 표시하는 방법은 다음을 포함할 수 있다: 단말은 제1 조작에 응답해서 음성 어시스턴트의 제1 인터페이스에서 프롬프트 정보를 표시한다. 제1 조작은 단말의 "설정" 애플리케이션에서 "커스텀 음성 제어" 인터페이스의 "커스텀 명령 추가" 옵션에 대해 사용자가 수행한 탭 조작(예를 들어, 단일 탭 조작)일 수 있다. 대안으로, 제1 조작은 음성 어시스턴트의 음성 제어 인터페이스에서 사용자에 의해 미리 설정된 음성 명령을 입력하는 것일 수 있다. 예를 들어 사전 설정된 음성 명령은 "나를 따르십시오"일 수 있다. 음성 어시스턴트의 제1 인터페이스는 음성 어시스턴트에 있으며 커스텀 명령을 추가하는 데 사용되는 "커스텀 명령 추가" 인터페이스일 수 있다.
단말이 사용자에 의해 입력된 하나 이상의 조작을 수신하는 방법은 다음을 포함할 수 있다: 단말은 제1 인터페이스에서 사용자가 수행한 제4 조작에 응답하여 제2 인터페이스를 표시한다. 단말은 제2 인터페이스에서 사용자에 의해 입력된 하나 이상의 조작을 수신한다. 제2 인터페이스는 사용자가 하나 이상의 조작을 입력하는 데 사용된다. 예를 들어, 제4 조작은 제1 인터페이스에서 사용자에 의해 입력된 미리 설정된 제2 제스처일 수 있는데, 예를 들어, 틱 "√" 제스처와 같은 제스처일 수 있다. 대안으로, 제1 인터페이스는 단말이 기록될 조작을 학습하도록 트리거링하는 데 사용되는 "학습 시작" 버튼을 포함한다. 제4 조작은 제1 인터페이스의 "학습 시작" 버튼 상에서 사용자가 수행하는 탭 조작(예를 들어, 단일 탭 조작)일 수 있다.
제1 관점을 참조하면, 다른 가능한 설계 방식에서, 단말이 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 텍스트 정보를 결정하기 전에, 본 출원의 이 실시예에서의 방법은: 단말은 제2 조작에 응답하여 제3 인터페이스를 표시한다. 제3 인터페이스는 적어도 2 개의 텍스트 정보를 포함하고, 적어도 2 개의 텍스트 정보는 연결 단어를 사용함으로써 미리 설정된 위치 관계에 기초하여 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자와 제1 검색어를 연결하여 형성된 문장이다. 단말이 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 텍스트 정보를 결정하는 것은 다음을 포함한다: 단말은 제3 인터페이스에서 적어도 2 개의 텍스트 정보 중 제1 텍스트 정보에 대해 사용자가 수행한 제3 조작을 수신한다. 단말은 제3 조작에 응답하여 제1 텍스트 정보를 조작 정보에 대응하는 텍스트 정보로 결정한다. 제3 조작은 적어도 두 개의 텍스트 정보에서 제1 텍스트 정보를 선택하는 데 사용된다.
하나 이상의 조작에 대응하는 조작 정보를 획득한 후, 단말은 복수의 텍스트 정보를 획득하기 위해, 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자와 제1 검색어를 연결하여 문장을 형성하고, 복수의 텍스트 정보를 포함하는 제3 인터페이스를 표시하여, 사용자는 복수의 텍스트 정보 중에서 언어 습관에 맞는 제1 텍스트 정보를 선택한다. 제1 텍스트 정보는 사용자가 선택하고 사용자의 언어 습관에 맞는 명령이다. 따라서, 단말이 제1 음성 명령을 수신한 후, 단말은 사용자가 단어별로 텍스트 정보에 대응하는 음성 명령을 발언할 때만 대응하는 조작을 수행하는 대신 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치할 때 조작 정보에 기초해서 대응하는 조작을 수행할 수 있다. 이 솔루션에 따르면 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
제1 관점을 참조하면, 다른 가능한 설계 방식으로, 단말이 제3 조작에 응답하여 제1 텍스트 정보를 조작 정보에 대응하는 텍스트 정보로 결정한 후, 단말이 제1 음성 명령을 수신하기 전에, 본 출원의 이 실시예에서의 방법은 다음을 더 포함할 수 있다: 단말이 제1 템플릿 텍스트를 생성함으로써, 제1 음성 명령을 수신한 후, 단말(100)은 제1 음성 명령이 제1 텍스트 정보와 일치하는 음성 명령임을 보다 빠르고 정확하게 식별할 수 있고, 그런 다음 조작 정보에 기초해서 대응하는 조작을 수행한다. 제1 템플릿 텍스트는 제1 텍스트 정보의 제2 부분을 제1 검색어의 유형 정보로 대체하여 생성된다. 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치한다는 것은 구체적으로: 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치한다는 것을 포함한다. 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치한다는 것은 다음을 포함한다. 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분은 적어도 하나의 제1 부분과 동일하고, 제1 텍스트 정보에서 제1 음성 명령의 부분과 제4 부분은 적어도 하나의 제1 부분과 제1 텍스트 정보에서의 제2 부분 사이의 위치 관계와 동일하고, 제4 부분은 제1 템플릿 텍스트에서 유형 정보에 의해 지시되는 유형의 단어이다.
단말은 제1 템플릿 텍스트를 획득하기 위해 제1 텍스트 정보의 제1 검색어를 제1 검색어의 유형 정보로 대체할 수 있다. 단말(100)이 다음번에 템플릿 텍스트와 일치하는 음성 명령을 수신하면, 음성 명령에 대응하는 동작이 단말에 기록되어 있지 않더라도 단말은 음성 명령에 대응하는 조작을 수행하도록 단말을 트리거링하도록 사용자를 시뮬레이션할 수 있고, 음성 명령에 대응하는 조작 인터페이스를 표시한다. 이러한 방식으로 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
제1 관점을 참조하면, 다른 가능한 설계 방식에서, 단말이 제1 템플릿 텍스트를 생성한 후, 단말이 제1 음성 명령을 수신하기 전에, 본 출원의 이 실시예에서의 방법은 다음을 더 포함할 수 있다: 단말은 제4 인터페이스는 제4 인터페이스가 사용자에게 제1 템플릿 텍스트와 일치하는 제1 음성 명령을 음성 어시스턴트를 통해 전송하여 단말이 해당 조작을 수행하도록 트리거링하도록 프롬프트하는 데 사용된다. 선택적으로, 제4 인터페이스는 제1 템플릿 텍스트의 진술 인스턴스를 더 포함할 수 있다. 예를 들어, 제1 템플릿 텍스트 "타오바오를 통해 ** 구매"의 문장 예에는 "타오바오를 통해 펜 구매" 및 "타오바오를 통해 우유 구매"가 포함될 수 있다. 제4 인터페이스는 사용자에게 제1 템플릿 텍스트와 일치하는 음성 명령을 사용하여 단말이 해당 조작을 수행하도록 트리거링하여 사용자는 음성 어시스턴트를 통해 제4 인터페이스에 의해 지시된 음성 명령을 전송하여 단말이 해당 조작을 수행하도록 트리거링하는 데 사용될 수 있다.
제1 관점을 참조하면, 다른 가능한 설계 방식으로, 사용자가 동일한 오브젝트에 대해 서로 다른 이름(또는 문장)을 가질 수 있다는 점을 고려하여, 단말은 제4 인터페이스를 표시하기 전에 별칭 입력 창을 포함하는 제5 인터페이스를 더 표시할 수 있다. 별칭 입력 창은 제2 텍스트 정보를 받는 데 사용된다. 제2 텍스트 정보는 제1 텍스트 정보에 대해 사용자가 만든 별칭이다. 이러한 방식으로 사용자는 별칭 입력 창에 제1 텍스트 정보에 대한 별칭을 만들 수 있다.
선택적으로, 제5 인터페이스는 사용자가 별칭 입력 창에 제2 텍스트 정보를 입력하도록 지시하는 데 사용되는 프롬프트 정보를 더 포함할 수 있다. 예를 들어, 제5 인터페이스에는 "팁: 별칭 입력 창에 전술한 명령에 대한 별칭을 입력할 수 있습니다"라는 프롬프트 정보가 더 포함된다.
일부 사용자는 제5 인터페이스의 별칭 입력 창에 제2 텍스트 정보를 입력하지 않는다. 다시 말해, 사용자는 제1 텍스트 정보에 대한 별칭을 만들지 않는다. 이 경우 단말은 제5 인터페이스에서 사용자가 수행한 제5 조작을 수신한다. 단말은 제5 조작에 응답하여 제4 인터페이스를 직접 표시할 수 있다.
일부 다른 사용자는 제1 텍스트 정보의 별칭을 만들기 위해 제5 인터페이스의 별칭 입력 창에 제2 텍스트 정보를 입력한다. 이 경우, 단말이 제5 인터페이스를 표시한 후, 단말은 별칭 입력 창에 사용자에 의해 입력된 제2 텍스트 정보를 수신하고, 별칭 입력 창에 제2 텍스트 정보를 표시할 수 있다. 이에 대응하여, 단말은 제5 인터페이스에서 사용자가 수행한 제5 조작에 응답하여 제2 텍스트 정보 및 제2 텍스트 정보와 조작 정보 간의 대응 관계를 저장할 수 있다. 이와 같이, 단말은 제2 텍스트 정보와 동일한 텍스트의 제2 음성 명령을 수신한 후, 제2 텍스트 정보에 대응하는 조작 정보에 기초하여 조작 정보에 대응하는 동작을 수행할 수 있다. 선택적으로, 단말에 의해 표시되는 제4 인터페이스는 제2 텍스트 정보를 더 포함한다.
제1 관점을 참조하면, 다른 가능한 설계 방식에서, 단말은 음성 어시스턴트를 통해 사용자에 의해 입력된 제2 음성 명령을 더 수신할 수 있고; 제2 음성 명령의 텍스트가 제2 텍스트 정보와 동일할 때, 단말은 제2 텍스트 정보와 조작 정보 간의 대응관계에 기초하여 조작 정보에 대응하는 동작을 수행한다.
본 출원의 이 실시예에서, 단말은 제1 텍스트 정보에 대해 사용자에 의해 생성된 별칭(즉, 제2 텍스트 정보)의 서비스를 더 제공할 수 있다. 또한, 제2 문자 정보를 수신한 단말의 음성 어시스턴트는 사용자가 제2 음성 명령에 대응하는 동작을 수행하도록 트리거링하고 대응하는 조작 인터페이스를 표시하도록 사용자를 시뮬레이션할 수 있다. 이러한 방식으로 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
제2 관점에 따르면, 본 출원의 실시예는 단말을 제공한다. 단말은 디스플레이 유닛, 입력 유닛, 기록 유닛, 결정 유닛, 실행 유닛을 포함한다. 디스플레이 유닛은 제1 조작에 응답하여 프롬프트 정보를 표시하도록 구성되며, 여기서 프롬프트 정보는 사용자에게 기록될 조작을 입력하도록 프롬프트하는 데 사용된다. 입력 유닛은 사용자에 의해 입력된 하나 이상의 조작을 수신하고; 사용자에 의해 입력된 제2 조작을 수신하도록 구성된다. 기록 유닛은 사용자에 의해 입력된 제2 조작에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록하도록 구성된다. 결정 유닛은 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보를 결정하도록 구성된다. 입력 유닛은 또한 제1 음성 명령을 수신하도록 구성된다. 실행 유닛은 입력 유닛에 의해 수신된 제1 음성 명령에 대응하는 텍스트가 결정 유닛에 의해 결정된 제1 텍스트 정보와 일치할 때, 조작 정보에 기초하여 대응하는 동작을 단말에 의해 수행하도록 구성된다.
제2 관점을 참조하면, 가능한 설계 방식에서, 제1 텍스트 정보는 적어도 하나의 제1 부분 및 제2 부분을 포함한다. 제1 음성 명령에 대응하는 텍스트가 제1 텍스트 정보와 일치한다는 것은 다음을 포함한다: 제1 음성 명령에 대응하는 텍스트에서 적어도 하나의 제3 부분이 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령의 제4 부분 사이의 위치 관계는 제1 텍스트 정보에서 적어도 하나의 제1 부분과 제2 부분 사이의 위치 관계와 동일하다.
제2 관점을 참조하면, 다른 가능한 설계 방식에서, 조작 정보는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함하고; 제1 애플리케이션 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 애플리케이션의 식별자이고, 제1 인터페이스 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 인터페이스의 식별자이고, 조작 지시 정보는 하나 이상의 조작을 통해 오퍼레이션 오브젝트 인터페이스에서 수행되는 조작을 나타내는 데 사용된다. 적어도 하나의 제1 부분은 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 포함하고, 제2 부분은 제1 검색어를 포함한다.
제2 관점을 참조하면, 다른 가능한 설계 방식에서, 디스플레이 유닛이 제1 조작에 응답하여 프롬프트 정보를 표시하도록 구성되는 것은 다음을 포함한다: 디스플레이 유닛은 제1 조작에 대한 응답으로 음성 어시스턴트를 표시하도록 구성된다. 디스플레이 유닛은 또한 제2 인터페이스를 표시하도록 구성된다. 제2 인터페이스는 사용자가 하나 이상의 조작을 입력하는 데 사용된다. 입력 유닛이 사용자에 의해 입력된 하나 이상의 조작을 수신하도록 구성되는 것은 다음을 포함한다: 입력 유닛은 디스플레이 유닛에 의해 표시된 제2 인터페이스에서 사용자에 의해 입력된 하나 이상의 조작을 수신하도록 구성된다.
제2 관점을 참조하면, 다른 가능한 설계 방식에서, 디스플레이 유닛은 다음과 같이 추가로 구성된다: 결정 유닛이 사용자에 의해 입력된 제3 조작에 기초하여, 조작 정보에 대응하는 텍스트 정보를 결정하기 전에, 단말이 제2 조작에 응답하여 제3 인터페이스를 표시한다. 제3 인터페이스는 적어도 2 개의 텍스트 정보를 포함하고, 적어도 2 개의 텍스트 정보는 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자와 제1 검색어를 연결하여 형성된 문장이다. 입력 유닛은 또한 디스플레이 유닛에 의해 표시된 제3 인터페이스의 적어도 2 개의 텍스트 정보의 제1 텍스트 정보에 대해 사용자에 의해 수행된 제3 조작을 수신하도록 구성된다. 제3 조작은 적어도 두 개의 텍스트 정보에서 제1 텍스트 정보를 선택하는 데 사용된다. 결정 유닛이 사용자에 의해 입력된 제3 조작에 기초하여, 조작 정보에 대응하는 텍스트 정보를 결정하도록 구성된다는 것은 다음을 포함한다: 결정 유닛은 입력 유닛에 의해 수신된 제3 조작에 응답하여, 텍스트 정보를 제1 조작 정보에 대응하는 텍스트 정보로서 결정하도록 구성된다.
제2 관점을 참조하면, 다른 가능한 설계 방식에서, 단말은 생성 유닛을 더 포함할 수 있다. 생성 유닛은: 결정 유닛이 조작 정보에 대응하는 텍스트 정보로서 제1 텍스트 정보를 결정한 후, 입력 유닛이 제1 음성 명령을 수신하기 전에, 제1 템플릿 텍스트를 생성하도록 구성된다. 제1 템플릿 텍스트는 제1 텍스트 정보의 제2 부분을 제1 검색어의 유형 정보로 대체하여 생성된다. 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치한다는 것은 구체적으로: 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치하는 것일 수 있다. 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치한다는 것은 다음을 포함한다: 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분은 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령에서의 제4 부분 사이의 위치 관계는 적어도 하나의 제1 부분과 제1 텍스트 정보에서의 제2 부분 사이의 위치 관계와 동일하고, 제4 부분은 제1 템플릿 텍스트에서 유형 정보에 의해 지시되는 유형의 단어이다.
제2 관점을 참조하면, 다른 가능한 설계 방식에서, 디스플레이 유닛은 추가로 구성된다: 생성 유닛이 제1 템플릿 텍스트를 생성한 후, 입력 유닛이 제1 음성 명령을 수신하기 전에, 제4 인터페이스를 표시하고, 여기서 제4 인터페이스는 사용자에게 제1 템플릿 텍스트와 일치하는 제1 음성 명령을 음성 어시스턴트를 통해 전송하도록 프롬프트하여 단말이 해당 조작을 수행하도록 트리거링하는 데 사용된다.
제2 관점을 참조하면, 다른 가능한 설계에서, 디스플레이 유닛은 제4 인터페이스를 표시하기 전에 제5 인터페이스를 표시하도록 더 구성된다. 제5 인터페이스는 별칭 입력 창을 포함하고, 별칭 입력 창은 제2 텍스트 정보를 수신하는 데 사용되며, 제2 텍스트 정보는 사용자가 제1 텍스트 정보에 대해 생성한 별칭이다. 입력 유닛은 추가로: 디스플레이 유닛이 제5 인터페이스를 표시한 후, 입력 유닛이 제5 인터페이스에서 사용자에 의해 수행된 제5 조작을 수신하기 전에, 별칭 입력 창에 사용자에 의해 입력된 제2 텍스트 정보를 수신하도록 구성된다. 디스플레이 유닛은 추가로 입력 유닛에 의해 수신된 제2 텍스트 정보를 별칭 입력 창에 표시하도록 구성된다. 입력 유닛은 또한 디스플레이 유닛에 의해 표시된 제5 인터페이스에서 사용자에 의해 수행된 제5 조작을 수신하도록 구성되며, 여기서 제5 조작은 단말이 텍스트 정보의 기록을 종료하도록 트리거링하는 데 사용된다. 디스플레이 유닛은 또한 제5 조작에 응답하여 제4 인터페이스를 표시하도록 구성된다.
단말은 저장 유닛을 더 포함할 수 있다. 저장 유닛은 입력 유닛에 의해 수신된 제5 조작에 응답하여 제2 텍스트 정보 및 제2 텍스트 정보와 조작 정보 사이의 대응관계를 저장하도록 구성된다. 디스플레이 유닛에 의해 표시되는 제4 인터페이스는 제2 텍스트 정보를 더 포함한다.
제2 관점을 참조하면, 다른 가능한 설계 방식에서, 입력 유닛은 음성 어시스턴트를 통해 사용자에 의해 입력된 제2 음성 명령을 수신하도록 더 구성된다. 실행 유닛은 입력 유닛에 의해 수신된 제2 음성 명령의 텍스트가 저장 유닛에 저장된 제2 텍스트 정보와 동일할 때, 단말이 제2 텍스트 정보와 제2 텍스트 정보 간의 대응관계에 기초하여 조작 정보에 대응하는 조작을 수행하도록 구성된다.
제3 관점에 따르면, 본 출원의 실시예는 단말을 제공한다. 단말은 하나 이상의 프로세서, 메모리 및 디스플레이를 포함한다. 메모리와 디스플레이는 프로세서에 연결된다. 디스플레이는 프로세서에 의해 생성된 이미지를 표시하도록 구성된다. 메모리는 컴퓨터 프로그램 코드 및 음성 어시스턴트의 관련 정보를 저장하도록 구성된다. 컴퓨터 프로그램 코드에는 컴퓨터 명령이 포함된다. 프로세서가 컴퓨터 명령을 실행할 때, 프로세서는: 제1 조작에 응답하여 프롬프트 정보를 표시하도록 디스플레이를 제어하도록 구성되며, 여기서 프롬프트 정보는 사용자에게 기록될 조작을 입력하도록 프롬프트하는 데 사용된다. 프로세서는 사용자에 의해 입력된 하나 이상의 조작을 수신하고; 사용자에 의해 입력된 제2 조작에 응답하여, 하나 이상의 조작에 대응하는 조작 정보를 기록하고, 조작 정보를 메모리에 저장하도록 추가로 구성되고; 프로세서는 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보를 결정하고; 제1 음성 명령을 수신하고; 그리고 상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 매칭되면 상기 조작 정보에 기초하여 대응 동작을 수행하도록 추가로 구성된다.
제3 관점을 참조하면, 가능한 설계 방식에서, 프로세서에 의해 결정된 제1 텍스트 정보는 적어도 하나의 제1 부분 및 제2 부분을 포함한다. 프로세서는 추가로: 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분이 적어도 하나의 제1 부분과 동일할 때, 그리고 적어도 하나의 제3 부분과 제1 음성 명령의 제4 부분 사이의 위치 관계가 적어도 하나의 제1 부분과 제1 텍스트 정보에서의 제2 부분 사이의 위치 관계와 동일할 때, 제1 음성 명령에 대응하는 텍스트가 제1 텍스트 정보와 일치하는지 결정한다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서에 의해 기록된 조작 정보는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함하고; 제1 애플리케이션 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 애플리케이션의 식별자이고, 제1 인터페이스 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 인터페이스의 식별자이고, 조작 지시 정보는 하나 이상의 조작을 통해 오퍼레이션 오브젝트 인터페이스에서 수행되는 조작을 나타내는 데 사용된다. 적어도 하나의 제1 부분은 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 포함하고, 제2 부분은 제1 검색어를 포함한다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서가 제1 조작에 응답하여 프롬프트 정보를 표시하기 위한 디스플레이를 제어하도록 구성된다는 것은 다음을 포함한다: 프로세서는 제1 조작에 응답해서, 음성 어시스턴트의 제1 인터페이스에 프롬프트 정보를 표시하도록 디스플레이를 제어하도록 구성된다. 프로세서가 사용자에 의해 입력된 하나 이상의 조작을 수신하도록 구성된다는 것은 다음을 포함한다: 프로세서는 디스플레이에 의해 표시되는 제1 인터페이스에서 사용자가 수행한 제4 조작에 응답하여, 제2 인터페이스를 표시하도록 디스플레이를 제어하며 - 여기서 제2 인터페이스는 사용자가 하나 이상의 조작을 입력하는 데 사용되며 - ; 디스플레이에 의해 표시된 제2 인터페이스에서 사용자에 의해 입력된 하나 이상의 조작을 수신하도록 구성된다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서는 추가로: 사용자에 의해 입력된 제3 조작에 기초하여, 제2 조작에 응답하여 조작 정보에 대응하는 텍스트 정보인 제어를 결정하기 전에 제3 인터페이스를 표시하도록 디스플레이를 제어하도록 구성되어 있으며, 여기서 제3 인터페이스는 적어도 2 개의 텍스트 정보를 포함하고, 적어도 2 개의 텍스트 정보는 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자와 제1 검색어를 연결하여 형성된 문장이다. 프로세서가 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 텍스트 정보를 결정하도록 구성된다는 것은 다음을 포함한다: 프로세서는 디스플레이에 의해 표시되는 제3 인터페이스에서 적어도 2 개의 텍스트 정보 중 제1 텍스트 정보에 대해 사용자가 수행한 제3 조작을 수신하고; 상기 제3 조작에 응답하여, 상기 제1 텍스트 정보를 상기 조작 정보에 대응하는 텍스트 정보로 결정한다. 제3 조작은 적어도 두 개의 텍스트 정보 중에서 제1 텍스트 정보를 선택하는 데 사용된다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서는 추가로: 제3 조작에 응답하여, 제1 텍스트 정보를 조작 정보에 대응하는 텍스트 정보로 결정한 후, 수신하기 전에 제1 음성 명령은 제1 템플릿 텍스트를 생성하는데, 여기서 제1 템플릿 텍스트는 제1 텍스트 정보의 제2 부분을 제1 검색어의 유형 정보로 대체하여 생성된다. 프로세서는 추가로: 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치할 때, 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치하는지 결정하도록 구성된다. 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치한다는 것은 다음을 포함한다: 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분은 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령에서의 제4 부분 사이의 위치 관계는 적어도 하나의 제1 부분과 제1 텍스트 정보에서의 제2 부분 사이의 위치 관계와 동일하고, 제4 부분은 제1 템플릿 텍스트에서 유형 정보에 의해 지시되는 유형의 단어이다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서는 제1 템플릿 텍스트를 생성한 후, 제1 음성 명령을 수신하기 전에 디스플레이를 제어하여 제4 인터페이스를 표시하도록 구성되며, 여기서 제4 인터페이스는 사용자가 음성 어시스턴트를 통해 제1 템플릿 텍스트와 일치하는 제1 음성 명령을 전송하도록 프롬프트하여 단말이 해당 조작을 수행하도록 트리거링하는 데 사용된다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서는 추가로: 제4 인터페이스를 표시하도록 디스플레이를 제어하기 전에, 제5 인터페이스를 표시하도록 디스플레이를 제어하고, 여기서 제5 인터페이스는 별칭 입력 창을 포함하고, 별칭 입력 창은 제2 텍스트 정보를 수신하는 데 사용되며 제2 텍스트 정보는 사용자가 제1 텍스트 정보에 대해 생성한 별칭이다. 프로세서가 제4 인터페이스를 표시하도록 디스플레이를 제어하도록 구성되는 것은 다음을 포함한다: 프로세서는 디스플레이에 의해 표시된 제5 인터페이스에서 사용자가 수행한 제5 조작을 수신하며 - 여기서 제5 조작은 텍스트 정보의 기록을 종료하도록 단말을 트리거링하는 데 사용되며 - ; 그리고 제5 조작에 응답하여, 제4 인터페이스를 표시하도록 디스플레이를 제어하고; 프로세서는 제5 조작에 응답하여 제2 텍스트 정보 및 제2 텍스트 정보와 조작 정보 사이의 대응관계를 메모리에 저장하도록 더 구성된다. 디스플레이에 의해 표시되는 제4 인터페이스는 제2 텍스트 정보를 더 포함한다.
제3 관점을 참조하면, 다른 가능한 설계 방식에서, 프로세서는 추가로: 음성 어시스턴트를 통해 사용자에 의해 입력된 제2 음성 명령을 수신하고; 제2 음성 명령의 텍스트가 제2 텍스트 정보와 동일할 때, 제2 텍스트 정보와 조작 정보 간의 대응관계에 기초하여 조작 정보에 대응하는 조작을 수행하도록 구성된다.
제4 관점에 따르면, 본 출원의 실시예는 컴퓨터 저장 매체를 제공한다. 컴퓨터 저장 매체는 컴퓨터 명령을 포함하고, 컴퓨터 명령이 단말에서 실행될 때, 단말은 제1 관점 및 제1 관점의 가능한 설계 방식에 따른 음성 제어 명령 생성 방법을 수행할 수 있다.
제5 관점에 따르면, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때, 컴퓨터는 제1 관점 및 제1 관점의 가능한 설계 방식에 따른 음성 제어 명령 생성 방법을 수행할 수 있다.
또한, 제2 관점 또는 제3 관점 중 어느 하나에 따른 단말이 가져 오는 기술적 효과 및 제2 관점 또는 제3 관점의 설계 방식에 대해, 제4 관점에 따른 컴퓨터 저장 매체가 가져 오는 기술적 효과에 대해 제5 관점에 따른 컴퓨터 프로그램 제품이 가져 오는 기술적 효과는 제1 관점의 기술적 효과와 제1 관점의 다른 설계 방식을 의미한다. 자세한 내용은 여기서 다시 설명하지 않는다.
도 1은 본 출원의 실시예에 따른 단말의 하드웨어 구조의 개략도이다.
도 2는 본 출원의 실시예에 따른 음성 제어 명령 생성 방법의 흐름도 1이다.
도 3a, 도 3b, 도 3c 및 도 3d는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 1이다.
도 4a, 도 4b 및 도 4c는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 2이다.
도 5a, 도 5b 및 도 5c는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 3이다.
도 6a 및 도 6b는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 4이다.
도 7a 및 도 7b는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 5이다.
도 8a, 도 8b, 도 8c 및 도 8d는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 6이다.
도 9는 본 출원의 실시예에 따른 음성 제어 명령 생성 방법의 흐름도 2이다.
도 10a, 도 10b 및 도 10c는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 7이다.
도 11a, 도 11b 및 도 11c는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 8이다.
도 12a, 도 12b, 도 12c 및 도 12d는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 9이다.
도 13a, 도 13b, 도 13c 및 도 13d는 본 출원의 실시예에 따른 단말의 디스플레이 인터페이스의 인스턴스의 개략도 10이다.
도 14는 본 출원의 실시예에 따른 단말의 개략적인 구조적 구성도 1이다.
도 15는 본 출원의 일 실시예에 따른 단말의 개략적인 구조적 구성도 2이다.
단말이 사용자가 보낸 음성 명령에 대해 음성 일반화를 수행할 수 없어 커스텀 음성 제어의 유연성이 상대적으로 열악한 문제를 해결하기 위해 본 발명의 실시예에서는 음성 제어 명령 생성 방법을 제공한다. 음성 제어 명령 생성 방법은 단말이 음성 어시스턴트를 통해 커스텀 명령 및 사용자 지정 음성 명령에 대응하는 동작을 기록하는 과정에 적용될 수 있다.
본 출원의 실시예에서의 단말은 휴대용 컴퓨터(예를 들어, 이동 전화), 노트북 컴퓨터, 개인용 컴퓨터(Personal Computer, PC), 웨어러블 전자 장치(예를 들어, 스마트 워치), 태블릿 컴퓨터, 증강 현실(augmented reality, AR) 장치/가상 현실(virtual reality, VR) 장치, 차량 탑재 컴퓨터 등일 수 있다. 단말의 특정 형태는 다음 실시예에서 특별히 제한되지 않는다.
도 1은 본 출원의 실시예에 따른 단말(100)의 구조적 블록도이다. 단말(100)은 프로세서(110), 외부 메모리 인터페이스(120), 내부 메모리(121), 범용 직렬 버스(Universal Serial Bus, USB) 인터페이스(130), 충전 관리 모듈(140), 전력 관리 모듈(141), 배터리(142), 안테나(1), 안테나(2), 무선 주파수 모듈(150), 통신 모듈(160), 오디오 모듈(170), 스피커(170A), 수신기(170B), 마이크(170C), 헤드셋 잭(170D), 센서 모듈(180), 버튼(190), 모터(191), 인디케이터(192), 카메라(193), 디스플레이 스크린(194), 가입자 식별 모듈(Subscriber Identification Module, SIM) 카드 인터페이스(195), 센서 모듈(180)은 압력 센서(180A), 자이로 센서(180B), 기압 센서(180C), 자기 센서(180D), 가속도 센서(180E), 거리 센서(180F), 광 근접 센서(180G), 지문 센서(180H), 온도 센서(180J), 터치 센서(180K), 주변 광 센서(180L), 골전도 센서(180M) 등을 포함할 수 있다.
본 출원의 이 실시예에 도시된 구조는 단말(100)에 대한 제한을 구성하지 않는다. 단말(100)은 도면에 도시된 것보다 더 많거나 적은 구성 요소를 포함하거나, 일부 구성 요소를 결합하거나, 일부 구성 요소를 분할하거나, 다른 구성 요소 배열을 가질 수 있다. 도면에 도시된 구성 요소는 하드웨어, 소프트웨어 또는 소프트웨어와 하드웨어의 조합으로 구현될 수 있다.
프로세서(110)는 하나 이상의 프로세싱 유닛을 포함할 수 있다. 예를 들어, 프로세서(110)는 애플리케이션 프로세서(Application Processor, AP), 모뎀 프로세서, 그래픽 처리 장치(Graphics Processing Unit, GPU), 이미지 신호 프로세서(Image Signal Processor, ISP), 컨트롤러, 메모리, 비디오 코덱, 디지털 신호 프로세서(디지털 신호 프로세서, DSP), 기저 대역 프로세서 및/또는 신경망 처리 장치(Neural-network Processing Unit, NPU)를 포함할 수 있다. 서로 다른 처리 장치는 별도의 장치이거나 하나 이상의 프로세서에 통합될 수 있다.
제어기는 지시에 따라 조작을 조정하도록 단말(100)의 각 구성 요소를 지시하는 결정권자일 수 있다. 제어기는 단말(100)의 신경 중추 및 명령 중심이다. 제어기는 명령 불러 오기 및 명령 실행의 제어를 완료하기 위해 명령 동작 코드 및 시간 시퀀스 신호에 기초하여 동작 제어 신호를 생성한다.
프로세서(110)에는 명령어 및 데이터를 저장하기 위한 메모리가 더 배치될 수 있다. 일부 실시예에서, 프로세서(110)의 메모리는 캐시이고, 프로세서(110)에 의해 방금 사용되거나 주기적으로 사용된 명령 또는 데이터를 저장할 수 있다. 프로세서(110)가 명령 또는 데이터를 다시 사용해야 하는 경우, 프로세서(110)는 메모리에서 명령 또는 데이터를 직접 호출할 수 있다. 이것은 반복적인 액세스를 방지하고 프로세서(110)의 대기 시간을 줄여 시스템 효율성을 향상시킨다.
일부 실시예에서, 프로세서(110)는 인터페이스를 포함할 수 있다. 인터페이스에는 통합 회로(Inter-Integrated Circuit, I2C) 인터페이스, 통합 회로 사운드(Inter-Integrated Circuit Sound, I2S) 인터페이스, 펄스 코드 변조(Pulse Code Modulation, PCM) 인터페이스, 범용 비동기 수신기/송신기(Universal Asynchronous Receiver/Transmitter, UART) 인터페이스, 모바일 산업 프로세서 인터페이스(MIPI), 범용 입력/출력(범용 입력/출력, GPIO) 인터페이스, SIM 인터페이스, USB 인터페이스 등을 포함할 수 있다.
I2C 인터페이스는 양방향 동기화 직렬 버스로 직렬 데이터 라인(Serial Data Line, SDA)과 직렬 클록 라인(Serail Clock Line, SCL)을 포함한다. 일부 실시예에서, 프로세서(110)는 복수의 그룹의 I2C 버스를 포함할 수 있다. 프로세서(110)는 서로 다른 I2C 버스 인터페이스를 통해 터치 센서(180K), 충전기, 플래시, 카메라(193) 등에 개별적으로 결합될 수 있다. 예를 들어, 프로세서(110)는 I2C 인터페이스를 통해 터치 센서(180K)와 연결되어, 프로세서(110)는 I2C 버스 인터페이스를 통해 터치 센서(180K)와 통신하여 단말(100)의 터치 기능을 구현할 수 있다.
I2S 인터페이스는 오디오 통신을 위해 사용될 수 있다. 일부 실시예에서, 프로세서(110)는 복수의 그룹의 I2S 버스를 포함할 수 있다. 프로세서(110)는 I2S 버스를 이용하여 오디오 모듈(170)에 연결되어 프로세서(110)와 오디오 모듈(170) 간의 통신을 구현할 수 있다. 일부 실시예에서, 오디오 모듈(170)은 블루투스 헤드셋을 사용하여 전화를 받는 기능을 구현하기 위해 I2S 인터페이스를 통해 통신 모듈(160)로 오디오 신호를 전송할 수 있다.
PCM 인터페이스는 오디오 통신을 수행하고 아날로그 신호를 샘플링, 양자화 및 코딩하도록 구성될 수도 있다. 일부 실시예에서, 오디오 모듈(170)은 PCM 버스 인터페이스를 통해 통신 모듈(160)에 연결될 수 있다. 일부 실시예에서, 오디오 모듈(170)은 또한 블루투스 헤드셋을 사용하여 전화에 응답하는 기능을 구현하기 위해 PCM 인터페이스를 통해 통신 모듈(160)로 오디오 신호를 전송할 수 있다. I2S 인터페이스와 PCM 인터페이스는 모두 오디오 통신에 사용될 수 있으며 두 인터페이스의 샘플링 속도는 다르다.
UART 인터페이스는 범용 직렬 데이터 버스이며 비동기 통신에 사용된다. 버스는 양방향 통신 버스이다. 버스는 직렬 통신과 병렬 통신 간에 전송될 데이터를 변환한다. 일부 실시예에서, UART 인터페이스는 일반적으로 프로세서(110)와 통신 모듈(160)을 연결하도록 구성된다. 예를 들어, 프로세서(110)는 블루투스 기능을 구현하기 위해 UART 인터페이스를 통해 블루투스 모듈과 통신한다. 일부 실시예에서, 오디오 모듈(170)은 블루투스 헤드셋을 이용하여 음악 재생 기능을 구현하기 위해 UART 인터페이스를 통해 통신 모듈(160)로 오디오 신호를 전송할 수 있다.
MIPI 인터페이스는 프로세서(110)와 디스플레이 스크린(194) 또는 카메라(193)와 같은 주변 장치를 연결하도록 구성될 수 있다. MIPI 인터페이스는 카메라 직렬 인터페이스(Camera Serial Interface, CSI), 디스플레이 직렬 인터페이스( 디스플레이 직렬 인터페이스, DSI) 등을 포함한다. 일부 실시예에서, 프로세서(110)는 단말(100)의 촬영 기능을 구현하기 위해 CSI 인터페이스를 통해 카메라(193)와 통신한다. 프로세서(110)는 단말(100)의 디스플레이 기능을 구현하기 위해 DSI 인터페이스를 통해 디스플레이 화면(194)과 통신한다. .
GPIO 인터페이스는 소프트웨어를 사용하여 구성할 수 있다. GPIO 인터페이스는 제어 신호로 구성되거나 데이터 신호로 구성될 수 있다. 일부 실시예에서, GPIO 인터페이스는 프로세서(110)와 카메라(193), 디스플레이 스크린(194), 통신 모듈(160), 오디오 모듈(170), 센서 모듈(180) 등을 연결하도록 구성될 수 있다. GPIO 인터페이스는 대안으로 I2C 인터페이스, I2S 인터페이스, UART 인터페이스, MIPI 인터페이스 등으로 구성될 수 있다.
USB 인터페이스(130)는 미니 USB 인터페이스, 마이크로 USB 인터페이스, USB Type-C 인터페이스 등일 수 있다. USB 인터페이스(130)는 충전기에 연결하여 단말(100)을 충전하도록 구성하거나, 단말(100)과 주변 기기 간에 데이터를 전송하도록 구성하거나, 헤드셋에 연결하여 헤드셋을 사용하여 오디오를 재생하도록 구성할 수 있다. USB 인터페이스(130)는 대안으로 AR 장치와 같은 다른 전자 장치와 연결되도록 구성될 수 있다.
본 출원의 본 실시예에 도시된 모듈 간의 인터페이스 연결 관계는 설명을 위한 예시일 뿐이며, 단말(100)의 구조에 제한을 두지 않는다. 단말(100)은 다른 인터페이스 연결 방식 또는 조합을 사용할 수 있다. 본 출원의 이 실시예에서 복수의 인터페이스 연결 방식 중 하나이다.
충전 관리 모듈(140)은 충전기로부터 충전 입력을 수신하도록 구성된다. 충전기는 무선 충전기일 수도 있고 유선 충전기일 수도 있다. 유선 충전의 일부 실시예에서, 충전 관리 모듈(140)은 USB 인터페이스(130)를 통해 유선 충전기로부터 충전 입력을 수신할 수 있다. 무선 충전의 일부 실시예에서, 충전 관리 모듈(140)은 무선 충전을 이용하여 무선 충전 입력을 수신할 수 있다. 충전 관리 모듈(140)은 배터리(142)를 충전하면서 전원 관리 모듈(141)을 이용하여 단말(100)에 전원을 더 공급할 수 있다.
전력 관리 모듈(141)은 배터리(142), 충전 관리 모듈(140) 및 프로세서(110)와 연결되도록 구성된다. 전력 관리 모듈(141)은 배터리(142) 및/또는 충전 관리 모듈(140)로부터 입력을 수신하고, 프로세서(110), 내부 메모리(121), 외부 메모리 인터페이스(120), 디스플레이 화면(194), 카메라(193), 통신 모듈(160) 등에 전력을 공급한다. 전력 관리 모듈(141)은 또한 배터리 용량, 배터리 사이클 카운트 및 배터리 상태(누전 또는 임피던스)와 같은 파라미터를 모니터링하도록 구성될 수 있다. 일부 실시예에서, 전력 관리 모듈(141)은 대안으로 프로세서(110)에 배치될 수 있다. 일부 실시예에서, 전력 관리 모듈(141) 및 충전 관리 모듈(140)은 대안으로 동일한 장치에 배치될 수 있다.
단말(100)의 무선 통신 기능은 안테나(1), 안테나(2), 무선 주파수 모듈(150), 통신 모듈(160), 모뎀, 베이스 밴드 프로세서 등을 이용하여 구현될 수 있다.
안테나(1) 및 안테나(2)는 전자기파 신호를 송수신하도록 구성된다. 단말(100)의 각 안테나는 하나 이상의 통신 주파수 대역을 커버하도록 구성될 수 있다. 안테나 활용도를 향상시키기 위해 다른 안테나가 추가로 다중화될 수 있다. 예를 들어, 셀룰러 네트워크 안테나는 무선 근거리 통신망 다이버시티 안테나로 다중화될 수 있다. 일부 실시예에서, 안테나는 튜닝 스위치와 조합하여 사용될 수 있다.
무선 주파수 모듈(150)은 단말(100)에 적용되는 2G/3G/4G/5G와 같은 무선 통신 솔루션을 포함하는 통신 프로세서 모듈을 제공할 수 있다. 무선 주파수 모듈(150)은 적어도 하나의 필터, 스위치, 전력 증폭기, 저잡음 증폭기(Low Noise Amplifier, LNA) 등을 포함할 수 있다. 무선 주파수 모듈(150)은 안테나(1)를 이용하여 전자파를 수신하고, 수신된 전자파에 대해 필터링 또는 증폭과 같은 처리를 수행하고, 전자기파를 모뎀으로 전송하여 복조한다. 무선 주파수 모듈(150)은 모뎀에 의해 변조된 신호를 더 증폭하고, 안테나(1)를 이용하여 신호를 방사를 위한 전자기파로 변환할 수 있다. 일부 실시예에서, 무선 주파수 모듈(150)의 적어도 일부 기능 모듈은 내부에 배치될 수 있다. 일부 실시예에서, 무선 주파수 모듈(150)의 적어도 일부 기능 모듈은 프로세서(110)의 적어도 일부 모듈과 동일한 장치에 배치될 수 있다.
모뎀은 변조기와 복조기를 포함할 수 있다. 변조기는 송신될 저주파 기저 대역 신호를 중간 고주파 신호로 변조하도록 구성된다. 복조기는 수신된 전자기파 신호를 저주파 기저 대역 신호로 복조하도록 구성된다. 그러면 복조기는 복조를 통해 얻은 저주파 기저 대역 신호를 기저 대역 프로세서로 전송하여 처리한다. 저주파 기저 대역 신호는 기저 대역 프로세서에 의해 처리된 다음 애플리케이션 프로세서로 전송된다. 응용 프로세서는 오디오 장치(스피커 170A, 수신기 170B 등에 국한되지 않음)를 이용하여 음향 신호를 출력하거나, 디스플레이 화면(194)을 이용하여 이미지 또는 동영상을 표시한다. 모뎀은 독립적인 장치일 수 있다. 일부 실시예에서, 모뎀은 프로세서(110)와 독립적일 수 있고, 무선 주파수 모듈(150) 또는 다른 기능 모듈과 동일한 장치에 배치된다.
통신 모듈(160)은 단말(100)에 적용되고 무선 통신 솔루션을 포함하는 통신 프로세서 모듈을 제공할 수 있으며, 무선 통신 솔루션의 예로는 무선 근거리 통신망(Wireless Local Area Network, WLAN)(예를 들어, 무선 충실도(Wireless Fidelity, Wi-Fi) 네트워크), 블루투스(BlueTooth, BT), 글로벌 내비게이션 위성 시스템(Global Navigation Satellite System, GNSS), 주파수 변조(Frequency Modulation, FM), 근거리 무선 통신(Near Field Communication, NFC) 기술 또는 적외선(Infrared, IR) 기술을 들 수 있다. 통신 모듈(160)은 적어도 하나의 통신 프로세서 모듈을 통합하는 하나 이상의 장치일 수 있다. 통신 모듈(160)은 안테나(2)를 이용하여 전자파를 수신하고, 전자파 신호에 대해 주파수 변조 및 필터링 처리를 수행하고 처리된 신호를 프로세서(110)로 전송한다. 통신 모듈(160)은 전송될 신호를 더 수신할 수 있다. 프로세서(110)로부터 신호에 대해 주파수 변조 및 증폭을 수행하고 안테나(2)를 사용하여 신호를 전자기파로 변환하여 방사한다.
일부 실시예에서, 단말(100)의 안테나(1)와 무선 주파수 모듈(150)이 결합되고, 단말(100)의 안테나(2)와 통신 모듈(160)이 결합되어, 단말(100)은 무선 통신 기술을 사용하여 네트워크 및 다른 장치와 통신할 수 있다. 한다. 무선 통신 기술은 이동 통신을 위한 글로벌 시스템(Global System For Mobile Communications, GSM), 일반 패킷 무선 서비스(General Packet Radio Service, GPRS), 코드 분할 다중 접속(Code Division Multiple Access, CDMA), 광대역 코드 분할 다중 액세스(Wideband Code Division Multiple Access, WCDMA), 시분할 코드 분할 다중 액세스(Time-Division Code Division Multiple Access, TD-SCDMA), 롱텀에볼루션(Long Term Evolution, LTE), BT, GMS, WLAN, NFC, FM, IR 기술 등을 포함할 수 있다. GNSS는 위성 위치 확인 시스템, 지구 항법 위성 시스템(Global Navigation Satellite System, GLONASS), BeiDou 항법 위성 시스템(BeiDou Navigation Satellite System, BDS), 준 천장 위성 시스템(Quasi-Zenith Satellite System, QZSS) 및/또는 위성 기반 증강 시스템(Satellite Based Augmentation System, SBAS)을 포함할 수 있다.
단말(100)은 GPU, 디스플레이 화면(194), 애플리케이션 프로세서 등을 이용하여 디스플레이 기능을 구현한다. GPU는 영상 처리를 위한 마이크로프로세서로, 디스플레이 화면(194) 및 애플리케이션 프로세서와 연결된다. GPU는 수학적 및 기하학적 계산을 수행하도록 구성되며 그래픽 렌더링에 사용된다. 프로세서(110)는 디스플레이 정보를 생성 또는 변경하기 위한 프로그램 명령을 실행하는 하나 이상의 GPU를 포함할 수 있다.
디스플레이 화면(194)은 이미지, 동영상 등을 표시하도록 구성된다. 디스플레이 화면(194)은 디스플레이 패널을 포함한다. 디스플레이 패널은 액정 디스플레이(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic Light-Emitting Diode, OLED), 능동 매트릭스 유기 발광 다이오드(Active-Matrix Organic Light-Emitting Diode, AMOLED), 유연한 발광 다이오드(Flexible Light-Emitting Diode, FLED), mini-LED, micro-LED, micro-OLED, 양자점 발광 다이오드(Quantum Dot Light-Emitting Diode, QLED) 등이 있다. 일부 실시예에서, 단말(100)은 하나 또는 N 개의 디스플레이 스크린(194)을 포함할 수 있으며, 여기서 N은 1보다 큰 양의 정수이다.
단말(100)은 ISP, 카메라(193), 비디오 코덱, GPU, 디스플레이 화면, 애플리케이션 프로세서 등을 이용하여 촬영 기능을 구현할 수 있다.
ISP는 카메라(193)에 의해 피드백되는 데이터를 처리하도록 구성된다. 예를 들어, 촬영 중에 셔터를 누르고 렌즈를 통해 카메라의 감광 소자에 빛을 전달하고 광학 신호를 전기 신호로 변환하고 카메라의 감광성 요소는 처리를 위해 전기 신호를 ISP에 전송하여 전기 신호를 가시적 이미지로 변환한다. ISP는 이미지의 노이즈, 밝기 및 안색에 대한 알고리즘 최적화를 추가로 수행할 수 있다. ISP는 촬영 시나리오의 노출 및 색온도와 같은 매개 변수를 추가로 최적화할 수 있다. 일부 실시예에서 ISP는 카메라(193)에 배치될 수 있다.
카메라(193)는 정적 이미지 또는 비디오를 촬영하도록 구성된다. 렌즈를 사용하여 물체에 대한 광학 이미지를 생성하고 광학 이미지를 감광 소자에 투사한다. 감광 소자는 전하 결합 소자(Charge Coupled Device, CCD) 또는 상보 금속 산화물 반도체(Complementary Metal-Oxide-Semiconductor, CMOS) 광 트랜지스터일 수 있다. 감광 소자는 광 신호를 전기 신호로 변환 한 다음 전기 신호를 ISP로 전송하여 전기 신호를 디지털 이미지 신호로 변환한다. ISP는 처리를 위해 디지털 이미지 신호를 DSP로 출력한다. DSP는 디지털 이미지 신호를 RGB 형식, YUV 형식 등의 표준 이미지 신호로 변환한다. 일부 실시예에서, 단말(100)은 하나 또는 N 개의 카메라(193)를 포함할 수 있으며, 여기서 N은 1보다 큰 양의 정수이다.
디지털 신호 프로세서는 디지털 신호를 처리하도록 구성된다. 디지털 이미지 신호에 더하여, 디지털 신호 프로세서는 다른 디지털 신호를 더 처리할 수 있다. 예를 들어, 단말(100)이 주파수를 선택하면 디지털 신호 프로세서는 주파수 에너지 등에 대한 푸리에 변환을 수행하도록 구성된다.
비디오 코덱은 디지털 비디오를 압축하거나 압축 해제하도록 구성된다. 단말(100)은 하나 이상의 비디오 코덱을 지원할 수 있다. 이와 같이 단말(100)은 동영상 전문가 그룹(Moving Picture Experts Group, MPEG)-1, MPEG-2, MPEG-3, MPEG-4 등과 같은 복수의 코딩 포맷으로 동영상을 재생 또는 기록할 수 있다.
NPU는 신경망(Neural-Network, NN) 컴퓨팅 프로세서로, 예를 들어 인간 뇌 뉴런 간의 전달 모드를 참조하여 생물학적 신경망의 구조를 참조하여 입력 정보를 빠르게 처리하고, 지속적으로 자가 학습을 수행할 수 있다. 단말(100)의 지능형 인식과 같은 애플리케이션은 NPU를 이용하여 구현될 수 있으며, 예를 들어 이미지 인식, 안면 인식, 음성 인식, 텍스트 이해 등이 있다.
외부 메모리 인터페이스(120)는 단말(100)의 저장 용량을 확장하기 위해 외부 저장 카드(예를 들어, 마이크로 SD 카드)와 연결되도록 구성될 수 있다. 외부 저장 카드는 외부 메모리 인터페이스(120)를 통해 프로세서(110)와 통신하며, 데이터 저장 기능을 구현한다. 예를 들어, 음악 및 비디오와 같은 파일은 외부 저장소 카드에 저장된다.
내부 메모리(121)는 컴퓨터에서 실행 가능한 프로그램 코드를 저장하도록 구성될 수 있으며, 실행 가능한 프로그램 코드는 명령어를 포함한다. 프로세서(110)는 내부 메모리(121)에 저장된 명령어를 실행하여 단말(100)의 다양한 기능 응용 및 데이터 처리를 수행한다. 메모리(121)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영체제, 적어도 하나의 기능(예를 들어, 사운드 재생 기능 또는 이미지 재생 기능)에 필요한 애플리케이션 등을 저장할 수 있다. 데이터 저장 영역은 단말(100) 사용 중에 생성된 데이터(예를 들어, 오디오 데이터 또는 전화 번호부) 등을 저장할 수 있다. 또한, 메모리(121)는 고속 랜덤 액세스 메모리를 포함할 수 있으며, 예를 들어, 적어도 하나의 자기 디스크 저장 장치, 플래시 저장 장치, 다른 휘발성 고체 상태 저장 장치, 범용 메모리와 같은 비휘발성 메모리, 플래시 스토리지(Universal Flash Storage, UFS) 등을 더 포함할 수 있다.
단말(100)은 오디오 모듈(170), 스피커(170A), 수신기(170B), 마이크(170C), 헤드셋 잭(170D), 애플리케이션 프로세서 등을 이용하여 음악 재생 또는 기록과 같은 오디오 기능을 구현할 수 있다.
오디오 모듈(170)은 디지털 오디오 정보를 출력을 위해 아날로그 오디오 신호로 변환하도록 구성되고, 또한 아날로그 오디오 입력을 디지털 오디오 신호로 변환하도록 구성된다. 오디오 모듈(170)은 오디오 신호를 인코딩 및 디코딩하도록 더 구성될 수 있다. 일부 실시예에서, 오디오 모듈(170)은 프로세서(110)에 배치될 수 있거나, 오디오 모듈(170)의 일부 기능 모듈은 프로세서(110)에 배치될 수 있다.
"혼(horn)"이라고도 불리는 스피커(170A)는 오디오 전기 신호를 사운드 신호로 변환하도록 구성된다. 단말(100)은 스피커(170A)를 통해 핸즈프리 모드로 음악을 듣거나 전화를 받을 수 있다.
"이어 피스"라고도 하는 수신기(170B)는 오디오 전기 신호를 사운드 신호로 변환하도록 구성된다. 단말(100)을 이용하여 전화를 받거나 음성 정보를 들을 때, 수신기(170B)를 사람의 귀에 가까이 대고 음성을 들을 수 있다.
"마이크" 또는 "마이크"라고도 불리는 마이크로폰(170C)은 사운드 신호를 전기 신호로 변환하도록 구성된다. 사용자는 전화를 걸거나 음성 정보를 보낼 때 마이크(170C)에 입을 대고 소리를 내어 마이크(170C)에 소리 신호를 입력할 수 있다. 단말(100)에는 적어도 하나의 마이크로폰(170C)이 배치될 수 있다. 일부 실시예에서, 단말(100)에는 2 개의 마이크로폰(170C)이 배치되어 음향 신호를 수집하고 노이즈 감소 기능을 더 구현할 수 있다. 일부 실시예에서, 3 개, 4 개 또는 그 이상의 마이크로폰(170C)이 대안으로 단말(100)에 배치되어, 사운드 신호를 수집하고, 소음을 감소시키고, 음원을 추가로 식별하고, 방향성 기록 기능을 구현하는 등의 조작을 수행할 수 있다.
헤드셋 잭(170D)은 유선 헤드셋에 연결되도록 구성된다. 헤드셋 잭(170D)은 USB 인터페이스(130), 3.5mm 개방형 모바일 단말 플랫폼(Open Mobile Terminal Platform, OMTP) 표준 인터페이스, 또는 미국 셀룰러 통신 산업 협회(Cellular Telecommunications Industry Association of the USA, CTIA) 표준 인터페이스일 수 있다.
압력 센서(180A)는 압력 신호를 감지하도록 구성되며, 압력 신호를 전기 신호로 변환할 수 있다. 일부 실시예에서, 압력 센서(180A)는 디스플레이 화면(194)에 배치될 수 있다. 압력 센서(180A)에는 많은 유형, 예를 들어 저항성 압력 센서, 유도성 압력 센서 및 용량성 압력 센서가 있다. 용량성 압력 센서는 전도성 물질을 갖는 적어도 2 개의 평행 판을 포함할 수 있다. 압력 센서에 힘이 가해지면 전극 사이의 정전 용량이 변경된다. 단말(100)은 커패시턴스의 변화에 따라 압력 세기를 결정한다. 디스플레이 화면(194)에서 터치 동작이 수행되면, 단말(100)은 압력 센서(180A)를 이용하여 터치 동작의 강도를 감지한다. 단말(100)은 압력 센서(180A)의 감지 신호에 기초하여 터치 위치를 더 계산할 수 있다. 일부 실시예에서, 동일한 터치 위치에서 수행되지만 상이한 터치 조작 강도를 갖는 터치 조작은 상이한 조작 명령에 대응할 수 있다. 예를 들어, 메시지 아이콘에 대해 터치 조작 강도가 제1 압력 임계 값 미만인 터치 조작이 수행되면, SMS 메시지 보기 명령이 실행된다. 또는 터치 조작 강도가 제1 압력 임계 값 이상인 터치 조작이 메시지 아이콘에 대해 수행될 때, SMS 메시지 작성 명령이 실행된다.
자이로 센서(180B)는 단말(100)의 움직임 자세를 결정하도록 구성될 수 있다. 일부 실시예에서, 3 개의 축(즉, x, y, z 축)을 중심으로 단말(100)의 각속도는 자이로 센서(180B)를 사용하여 결정될 수 있다. 자이로스코프 센서(180B)는 촬영 중 이미지 안정화를 위해 사용될 수 있다. 예를 들어, 자이로 센서(180B)는 셔터를 눌렀을 때 단말(100)이 지터하는 각도를 감지하고, 그 각도에 기초하여 렌즈 모듈이 보정해야 하는 거리를 계산하고, 렌즈가 리버스 모션을 통해 단말(100)의 지터를 제거할 수 있도록 하여 이미지 안정화를 구현한다. 자이로스코프 센서(180B)는 탐색 및 모션 감지 게임 시나리오에서 더 사용될 수 있다.
기압 센서(180C)는 기압을 측정하도록 구성된다. 일부 실시예에서, 단말(100)은 위치 결정 및 내비게이션을 돕기 위해 기압 센서(180C)에 의해 측정된 기압의 값을 사용하여 고도를 계산한다.
자기 센서(180D)는 홀 센서(Hall sensor)를 포함한다. 단말(100)은 자기 센서(180D)를 이용하여 플립 가죽 케이스의 개폐를 감지할 수 있다. 일부 실시예에서, 단말(100)이 클램 쉘 폰인 경우, 단말(100)은 자기 센서(180D)를 이용하여 플립 커버의 개폐를 감지할 수 있다. 또한, 가죽 케이스의 감지된 개폐 상태 또는 플립 커버의 감지된 개폐 상태에 따라 플립 커버의 자동 잠금 해제와 같은 기능이 설정된다.
가속도 센서(180E)는 단말(100)의 다양한 방향(주로 3 축)의 가속도 값을 감지할 수 있으며, 단말(100)이 정지 상태 일 때 중력의 크기와 방향을 감지할 수 있다. 가속도 센서(180E)는 또한 단말의 자세를 식별할 수 있도록 구성될 수 있으며, 가로 모드와 세로 모드 전환 또는 만보계와 같은 애플리케이션에 적용될 수 있다.
거리 센서(180F)는 거리를 측정하도록 구성된다. 단말(100)은 적외선 또는 레이저 방식으로 거리를 측정할 수 있다. 일부 실시예에서, 촬영 시나리오에서 단말(100)은 빠른 포커싱을 구현하기 위해 거리 센서(180F)를 이용하여 거리를 측정할 수 있다.
예를 들어, 광 근접 센서(180G)는 발광 다이오드(LED) 및 광 검출기, 예를 들어 포토 다이오드를 포함할 수 있다. 발광 다이오드는 적외선 발광 다이오드일 수 있다. 발광 다이오드는 적외선을 방출하도록 구성된다. 포토 다이오드는 주변 물체에서 반사되는 적외선을 감지하도록 구성된다. 반사광이 충분히 감지되면 단말(100) 주변에 물체가 있는 것으로 결정할 수 있다. 반사광이 부족하면 단말(100) 주변에 물체가 없는 것으로 결정할 수 있다. 단말(100)은 다음을 이용하여 감지할 수 있다. 광 근접 센서(180G)는 사용자가 단말(100)을 귀에 가까이 대고 통화를 하여 절전을 위한 화면 오프를 자동으로 수행한다. 광 근접 센서(180G)는 가죽 케이스 모드 또는 포켓 모드에서 자동 화면 잠금 또는 잠금 해제에도 사용될 수 있다.
주변 광 센서(180L)는 주변 광의 휘도를 감지하도록 구성된다. 단말(100)은 감지된 주변 밝기에 기초하여 디스플레이 화면의 밝기를 적응적으로 조절할 수 있다. 주변 광 센서(180L)는 촬영 중에 화이트 밸런스를 자동으로 조정하도록 구성될 수도 있다. 주변 광 센서(180L)는 또한 광 근접 센서(180G)와 협력하여 단말(100)이 주머니에 있는지를 감지하여 우발적인 터치를 방지할 수 있다.
지문 센서(180H)는 지문을 수집하도록 구성된다. 단말(100)은 수집된 지문의 특징을 이용하여 지문 기반 잠금 해제, 애플리케이션 잠금 접근, 지문 기반 촬영, 지문 기반 통화 응답 등을 구현할 수 있다.
온도 센서(180J)는 온도를 검출하도록 구성된다. 일부 실시예에서, 단말(100)은 온도 센서(180J)에 의해 검출된 온도를 이용하여 온도 처리 정책을 실행한다. 예를 들어, 온도 센서(180J)가 보고한 온도가 임계 값을 초과하면 단말(100)은 온도 센서(180J) 근처의 프로세서 성능을 저하시켜 열 보호를 위한 전력 소비를 감소시킨다.
터치 센서(180K)는 "터치 패널"이라고도 하며, 디스플레이 화면(194)에 배치될 수 있다. 터치 센서(180K)는 터치 센서(180K)에서 또는 그 근처에서 수행되는 터치 동작을 감지하도록 구성된다. 터치 센서(180K)는 감지된 터치 동작을 애플리케이션 프로세서로 전달하여 터치 이벤트의 종류를 결정하고, 디스플레이 화면(194)을 이용하여 해당 시각 출력을 제공할 수 있다.
골전도 센서(180M)는 진동 신호를 획득할 수 있다. 일부 실시예에서, 골전도 센서(180M)는 인간 성대의 진동 뼈의 진동 신호를 획득할 수 있다. 골전도 센서(180M)는 또한 사람의 맥박과 접촉하여 혈압 박동 신호를 수신할 수 있다. 일부 실시예에서, 골전도 센서(180M)는 또한 헤드셋에 배치될 수 있다. 오디오 모듈(170)은 음성 기능을 구현하기 위해, 성대의 진동 뼈에서 골전도 센서(180M)에 의해 획득된 진동 신호를 기반으로 파싱을 통해 음성 신호를 획득할 수 있다. 애플리케이션 프로세서는 골전도 센서(180M)에서 획득한 혈압 박동 신호에 기초하여 심박수 정보를 파싱하여 심박수 감지 기능을 구현할 수 있다.
버튼(190)은 전원 버튼, 볼륨 버튼 등을 포함한다. 버튼(190)은 기계식 버튼일 수도 있고, 터치 버튼일 수도 있다. 단말(100)은 버튼(190)의 입력을 수신하고, 단말(100)의 사용자 설정 및 기능 제어와 관련된 버튼 신호 입력을 생성한다.
모터(191)는 진동 프롬프트를 생성할 수 있다. 모터(191)는 착신 진동 프롬프트(incoming call vibration prompt)에 사용되거나 터치 진동 피드백에 사용될 수 있다. 예를 들어, 서로 다른 애플리케이션(예를 들어, 촬영 애플리케이션 및 오디오 재생 애플리케이션)에서 수행되는 터치 조작은 서로 다른 진동 피드백 효과에 대응할 수 있다. 디스플레이 화면(194)의 서로 다른 영역에서 수행되는 터치 동작은 서로 다른 진동 피드백 효과에 대응할 수도 있다. 상이한 애플리케이션 시나리오(예를 들어, 시간 리마인더, 정보 수신, 알람 시계, 게임 등)는 또한 상이한 진동 피드백 효과에 대응할 수 있다. 터치 진동 피드백 효과를 추가로 사용자 지정할 수 있다.
인디케이터(192)는 인디케이터 라이트일 수 있으며, 충전 상태 및 전력 변경을 표시하도록 구성될 수 있거나, 메시지, 부재중 전화, 알림 등을 표시하도록 구성될 수 있다.
SIM 카드 인터페이스(195)는 SIM 카드에 연결하도록 구성된다. SIM 카드는 SIM 카드 인터페이스(195)에 삽입되거나 SIM 카드 인터페이스(195)로부터 분리되어 단말(100)과의 접촉 또는 분리를 구현할 수 있다. 단말(100)은 하나 또는 N 개의 SIM 카드 인터페이스를 지원할 수 있으며, 여기서 N은 양의 정수이다. SIM 카드 인터페이스(195)는 나노 SIM 카드, 마이크로 SIM 카드, SIM 카드 등을 지원할 수 있다. 동일한 SIM 카드 인터페이스(195)에 복수의 카드가 동시에 삽입될 수 있다. 복수의 카드는 동일한 유형일 수 있거나 상이한 유형일 수 있다. SIM 카드 인터페이스(195)는 또한 상이한 유형의 SIM 카드와 호환될 수 있다. SIM 카드 인터페이스(195)는 또한 외부 저장 카드와 호환될 수 있다. 단말(100)은 SIM 카드를 이용하여 네트워크와 상호 작용하여 대화 및 데이터 통신과 같은 기능을 구현한다. 일부 실시예에서, 단말(100)은 eSIM, 즉 임베디드 SIM 카드를 사용한다. eSIM 카드는 단말(100)에 내장될 수 있으며 단말(100)과 분리될 수 없다.
본 출원의 실시예에서 제공하는 웨이크 업 키워드 업데이트 방법(wakeup keyword update method)은 단말(100)에서 구현될 수 있다.
본 출원의 실시예는 음성 제어 명령 생성 방법을 제공한다. 단말(100)은 제1 조작에 응답하여 사용자가 기록할 동작을 시작하도록 유도하는 프롬프트 정보를 표시할 수 있다. 단말(100)은 사용자에 의해 입력된 하나 이상의 조작을 수신한다. 단말(100)은 사용자에 의해 입력된 제2 조작에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록한다. 단말(100)은 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보를 결정한다. 단말(100)은 제1 음성 명령을 수신한다. 단말(100)은 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치할 때 조작 정보에 기초해서 대응하는 조작을 수행한다.
조작 정보는 하나 이상의 조작에 대응하는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함할 수 있다. 제1 애플리케이션 식별자는 하나 이상의 조작의 오퍼레이션 오브젝트 애플리케이션(예를 들어, 제1 애플리케이션)의 식별자이다. 제1 인터페이스 식별자는 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 인터페이스의 식별자이다. 사용자는 제1 애플리케이션의 서로 다른 인터페이스에서 조작을 수행할 수 있다. 제1 인터페이스 식별자는 하나 이상의 조작이 수행되는 제1 애플리케이션의 하나 이상의 인터페이스의 식별자를 포함할 수 있다. 조작 지시 정보는 하나 이상의 조작을 통해 조작 오브젝트 인터페이스에서 수행되는 조작을 지시하는 데 사용된다.
상기 하나 이상의 조작의 조작 정보를 기록한 후, 단말(100)은 사용자에 의해 입력된 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보를 결정할 수 있다. 제1 텍스트 정보는 제3 조작을 이용하여 사용자가 선택한 하나 이상의 조작에 대응하는 텍스트 정보이다.
본 출원의 이 실시예에서, 제1 텍스트 정보는 적어도 하나의 제1 부분 및 제2 부분을 포함한다. 적어도 하나의 제1 부분은 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 포함하고, 제2 부분은 제1 검색어를 포함한다. 제1 음성 명령은 적어도 하나의 제3 부분 및 제4 부분을 포함한다. 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치한다는 것은 구체적으로: 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분이 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령에서의 제4 부분 사이의 위치 관계가 제1 텍스트 정보에서 적어도 하나의 제1 부분 및 제2 부분 사이의 위치 관계와 동일하다는 것일 수 있다.
다시 말해, 제1 음성 명령에서 적어도 하나의 제3 부분과 제4 부분 사이의 위치 관계가 제1 텍스트 정보에서 적어도 하나의 제1 부분 및 제2 부분 사이의 위치 관계와 동일할 때, 제1 음성 명령의 적어도 하나의 제3 부분이 제1 텍스트 정보의 적어도 하나의 제1 부분(즉, 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자)과 완전히 동일할 때, 단말(100)은 제1 음성 명령에 대응하는 텍스트는 제1 텍스트 정보와 일치한다.
본 출원의 본 실시예에서 제공하는 음성 제어 명령 생성 방법에 따르면, 단말(100)은 먼저 하나 이상의 조작에 대응하는 조작 정보를 획득한 후, 사용자의 제3 조작에 기초하여 조작 정보에 대응하는 제1 텍스트 정보, 즉 하나 이상의 조작에 대응하는 텍스트 정보를 결정할 수 있다. 제1 텍스트 정보는 사용자가 선택하고 사용자의 언어 습관에 맞는 명령이다. 단말(100)이 제1 음성 명령을 수신한 후, 단말(100)은 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치할 때 사용자가 말을 할 때만 대응하는 조작을 수행하는 대신 대응하는 조작을 수행할 수 있다. 단어별로 텍스트 정보에 대응하는 음성 명령. 이 솔루션에 따르면 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
본 출원의 실시예는 음성 제어 명령 생성 방법을 제공한다. 도 2에 도시된 바와 같이, 음성 제어 명령 생성 방법은 S201 내지 S206을 포함할 수 있다.
S201: 단말(100)은 제1 조작에 응답하여 음성 어시스턴트의 제1 인터페이스에 프롬프트 정보를 표시하고, 여기서 프롬프트 정보는 사용자가 기록될 조작에 들어가도록 프롬프트하는 데 사용된다.
음성 어시스턴트는 단말(100)에 설치된 애플리케이션(Application, APP)이거나 단말(100)의 운영 체제에 통합된 시스템 기능일 수 있다. 음성 어시스턴트는 임베디드 애플리케이션(즉, 시스템 애플리케이션)일 수 있다. 임베디드 애플리케이션은 단말(100)(예를 들어, 이동 전화)의 일부로 제공되는 애플리케이션이다. 예를 들어, 임베디드 애플리케이션은 "설정" 애플리케이션, "메시지" 애플리케이션, "카메라" 애플리케이션 등일 수 있다. 다운로드 가능한 애플리케이션은 다운로드 가능한 애플리케이션의 인터넷 프로토콜 멀티미디어 서브 시스템(Internet Protocol Multimedia Subsystem, IMS) 연결을 제공할 수 있는 애플리케이션이다. 다운로드 가능한 애플리케이션은 단말에 미리 설치된 애플리케이션일 수도 있고, 사용자가 다운로드하여 단말에 설치할 수 있는 타사 애플리케이션일 수도 있다. 예를 들어, 다운로드 가능한 애플리케이션은 "위챗" 애플리케이션, "알리페이" 애플리케이션, "이메일" 애플리케이션 등일 수 있다.
음성 어시스턴트가 시작된 후, 음성 어시스턴트는 사용자에 의해 입력된 음성 명령(즉, 음성 제어 명령)을 수신하여 해당 음성 명령에 대응하는 동작을 수행하도록 단말(100)을 트리거링할 수 있다. 예를 들어, 단말(100)은 도 3a, 도 3b, 도 3c 및 도 3d에 도시된 이동 전화(300)이다. 음성 어시스턴트는 이동 전화(300)의 "음성 어시스턴트" 애플리케이션일 수 있다. 제1 인터페이스는 음성 어시스턴트의 디스플레이 인터페이스(예를 들어, "음성 어시스턴트" 애플리케이션)에 있고 "커스텀 명령"을 추가하는 데 사용되는 인터페이스일 수 있다. 제1 인터페이스에서, 사용자는 단말(100)이 기록될 조작의 기록을 시작하도록 트리거링할 수 있다.
예를 들어, 단말(100)은 도 3a, 도 3b, 도 3c 및 도 3d에 도시된 이동 전화(300)이다. 음성 어시스턴트는 이동 전화(300)의 "음성 어시스턴트" 애플리케이션이다. 이동 전화(300)는 "음성 어시스턴트"에 대해 사용자가 수행한 탭 조작(예를 들어, 단일 탭 조작)을 수신할 수 있다. 이동 전화(300)의 홈 화면(301)에 애플리케이션 아이콘(302)이 표시될 수 있다. 이동 전화(300)는 "음성 어시스턴트" 애플리케이션 아이콘(302)에 대한 사용자의 탭 조작에 응답하여 도 3b에 도시된 음성 제어 인터페이스(303)를 표시할 수 있다. 음성 제어 인터페이스(303)는 "기록" 버튼(304) 및 "설정" 옵션(306)을 포함한다. 이동 전화(300)는 "기록" 버튼(304) 상에서 사용자에 의해 수행된 탭 조작(예를 들어, 터치 및 홀드 동작)에 응답하여 사용자에 의해 전송된 음성 명령을 수신하여, 음성 명령에 대응하는 동작을 수행하도록 이동 전화(300)를 트리거링한다. "설정" 옵션(306)은 "음성 어시스턴트(Voice assistant)" 애플리케이션의 다양한 기능 및 매개 변수를 설정하는 데 사용된다. 이동 전화(300)는 음성 제어 인터페이스(303)의 "설정" 옵션(306)에서 사용자가 수행한 탭 조작을 수신할 수 있다. 이동 전화(300)는 "설정" 옵션(306)에서 사용자가 수행한 탭 조작에 응답하여 도 3d에 도시된 "음성 어시스턴트" 인터페이스(307)를 표시할 수 있다. 선택적으로, 음성 제어 인터페이스(303)는 프롬프트 정보(305)를 더 포함할 수 있다. 프롬프트 정보(305)는 사용자에게 "음성 어시스턴트" 애플리케이션의 자주 사용되는 기능을 나타내기 위해 사용된다.
선택적으로, 이동 전화(300)는 "설정" 애플리케이션 아이콘에 대해 사용자에 의해 수행되는 탭 조작(예를 들어, 단일 탭 조작)을 더 수신할 수 있다. 이동 전화(300)는 "설정" 애플리케이션 아이콘에 대한 사용자의 탭 조작에 응답하여 도 3c에 도시된 설정 인터페이스(310)를 표시할 수 있다. 설정 인터페이스(110)는 "비행기 모델" 옵션, "WLAN" 옵션, "블루투스" 옵션, "모바일 네트워크" 옵션, "음성 어시스턴트" 옵션(311) 등을 포함할 수 있다. "비행기 모델" 옵션, "WLAN" 옵션, "Bluetooth" 옵션 및 "모바일 네트워크" 옵션의 특정 기능에 대해서는 기존 기술의 특정 설명을 참조한다. 본 출원의 이 실시예에서 자세한 내용은 여기에서 설명되지 않는다. 이동 전화(300)는 "음성 어시스턴트" 옵션(311)에 대해 사용자에 의해 수행된 탭 조작(예를 들어, 단일 탭 조작)을 수신할 수 있다. 이동 전화(100)는 "음성 어시스턴트" 옵션(311) 상에서 사용자에 의해 수행된 탭 조작에 응답하여 도 3d에 도시된 "음성 어시스턴트" 인터페이스(307)를 표시할 수 있다.
"음성 어시스턴트" 인터페이스(307)는 "음성 웨이크 업" 옵션(308) 및 "커스텀 음성 제어" 옵션(309)을 포함한다. "음성 웨이크 업" 옵션(308)은 이동 전화(300)의 웨이크 업 키워드를 설정하는 데 사용되며, 웨이크 업 키워드는 "Voice Assistant" 애플리케이션을 깨우는 데 사용된다. 이동 전화(300)는 사용자가 전송한 웨이크 업 키워드와 일치하는 음성 데이터를 수신하면 도 3b에 도시된 음성 제어 인터페이스(303)를 표시할 수 있다. "커스텀 음성 제어" 옵션(309)은 커스텀 명령(즉, 본 출원의 이 실시예에서 텍스트 정보)을 설정하는 데 사용된다. 구체적으로, 이동 전화(300)는 "커스텀 음성 제어(Custom voice control)" 옵션(309) 상에서 사용자에 의해 수행된 탭 조작(예를 들어, 단일 탭 조작)에 응답하여 도 4a에 도시된 "커스텀 음성 제어" 인터페이스(401)를 표시할 수 있다.
"커스텀 음성 제어" 인터페이스(401)는: "커스텀 음성 제어" 버튼(402), 이동 전화(300)에 추가된 커스텀 명령(예를 들어, "커스텀 명령 1"(404) 및 "커스텀 명령 2"(405)), "커스텀 명령 추가" 옵션(406) 등을 포함한다. "커스텀 음성 제어" 버튼(402)이 작동 가능하게 된 후에만, 이동 전화(300)는 "커스텀 명령 1"(404) 또는 "커스텀 명령 2"(405)에 응답하여 해당 이벤트를 수행할 수 있다. 또한 커스텀 음성 제어 기능이 활성화된 후에만 사용자는 미리 설정된 제1 제스처(예를 들어, S-자 제스처)를 사용하여 이동 전화(300)가 "커스텀 명령 추가" 인터페이스(407)를 표시하도록 트리거링할 수 있다. 예를 들어, "커스텀 음성 제어" 인터페이스(401)는 예를 들어, "기능이 활성화된 후, 사용자는 S-자 제스처를 사용하여 '커스텀 명령'을 추가하는 데 사용되는 인터페이스를 표시하도록 이동 전화를 트리거링할 수 있다"와 같은 프롬프트 정보(403)를 더 포함할 수 있다.
제1 조작은 도 4a에 도시된 "커스텀 음성 제어" 인터페이스(401)의 "커스텀 명령 추가" 옵션(406)에서 사용자에 의해 수행되는 탭 조작(예를 들어, 단일 탭 조작)일 수 있다. 대안으로, 제1 조작은 도 3a, 도 3b, 도 3c 및 도 3d에 도시된 이동 전화(300)에서 사용자가 수행하는 조작 및 "커스텀 명령 추가" 옵션(406)에서 사용자에 의해 수행되는 탭 조작을 포함할 수 있다. 이동 전화(300)는 "커스텀 명령 추가" 옵션(406)에서 사용자에 의해 수행된 탭 조작에 응답하여 도 4b에 도시된 "커스텀 명령 추가" 인터페이스(407)(즉, 제1 인터페이스)를 표시될 수 있다. 제1 인터페이스는 사용자에게 기록할 조작을 입력하라는 메시지를 표시하는 데 사용된다. 예를 들어, "커스텀 명령 추가" 인터페이스(407)는 "학습 시작" 버튼(408)을 포함한다. "학습 시작" 버튼(408)은 기록될 조작을 학습하기 위해 이동 전화(300)를 트리거링하는 데 사용된다. 제1 인터페이스(407)는 사용자가 기록될 조작으로 들어가도록 프롬프트하는 데 사용되는 프롬프트 정보를 더 포함할 수 있다. 예를 들어, 제1 인터페이스(407)는 사용자가 "학습 시작" 버튼(408)을 탭하도록 프롬프트하는 데 사용되는 프롬프트 정보, 예를 들어, "버튼을 탭하여 사용자가 추가할 예정인 커스텀 명령에 대응하는 조작을 학습하도록 이동 전화를 트리거링할 수 있다"를 더 포함할 수 있다.
선택적으로, 제1 조작은 대안으로도 3b에 도시된 음성 제어 인터페이스(303)에서 사용자에 의해 미리 설정된 음성 명령을 입력하는 것일 수 있다. 예를 들어 미리 설정된 음성 명령은 "나를 따르십시오"일 수 있다. 이동 전화(300)는 음성 제어 인터페이스(303)에 사용자에 의해 입력된 "나를 따르십시오"라는 음성 명령에 응답해서, 도 4b에 도시된 "커스텀 명령 추가" 인터페이스(407)(즉, 제1 인터페이스)를 표시할 수 있다.
S202: 단말(100)은 제1 인터페이스에서 사용자가 수행한 제4 조작에 응답하여 제2 인터페이스를 표시하고, 여기서 제2 인터페이스는 사용자가 하나 이상의 조작을 입력하는 데 사용된다.
제4 조작은 제1 인터페이스에서 사용자에 의해 입력된 미리 설정된 제2 제스처, 예를 들어 틱 "√" 제스처, 슬라이드 업 제스처, 슬라이드 다운 제스처, 또는 원형 제스처와 같은 임의의 제스처일 수 있다. 대안으로, 제1 인터페이스는 단말(100)이 기록될 조작을 학습하도록 트리거링하는 데 사용되는 "학습 시작" 버튼을 포함한다. 제4 조작은 제1 인터페이스의 "학습 시작"에서 사용자가 수행하는 탭 조작(예를 들어, 단일 탭 조작)일 수 있다. 예를 들어, "텍스트 정보 추가" 인터페이스(407)는 "학습 시작" 버튼(408)을 포함한다. 제4 조작은 "학습 시작" 버튼(408)에서 사용자가 수행하는 단일 탭 조작일 수 있다.
S203: 단말(100)은 사용자에 의해 입력된 제2 조작에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록한다.
단말(100)이 기록해야 하는 동작은 사용자가 단말(100)에서 수행한 하나 이상의 조작을 포함할 수 있음을 이해할 수 있다. 단말(100)이 복수의 조작을 기록해야 하는 경우, 복수의 조작은 다른 인터페이스에서 사용자가 수행하는 조작일 수 있다. 다시 말해, 제4 조작에 대응하여, 단말(100)이 표시하는 제2 인터페이스는 복수의 조작을 수신하는 데 사용되는 복수의 인터페이스를 총칭하는 용어이다. 본 출원의 이 실시예에서, 복수의 조작을 수신하는 데 사용되는 인터페이스는 각각 서브 인터페이스(예를 들어, 제1 서브 인터페이스 및 제2 서브 인터페이스)로 지칭된다. 사용자에 의해 입력된 하나 이상의 조작을 수신하는 데 사용되는 하나 이상의 서브 인터페이스는 집합적으로 제2 인터페이스로 지칭될 수 있다. 본 출원의 이 실시예에서, 하나 이상의 조작은 서로 다른 하위 인터페이스(예를 들어, 제1 하위 인터페이스 및 제2 하위 인터페이스)에서 사용자에 의해 수행되는 서브 조작에 대한 일반적인 용어일 수 있다. 예를 들어, 제1 서브 인터페이스에서 사용자가 수행한 조작을 제1 서브 조작이라 하고, 제2 서브 인터페이스에서 사용자가 수행한 조작을 제2 서브 조작이라 한다.
일반적으로 단말(100)은 제4 조작에 응답하여 제1 서브 인터페이스를 먼저 표시할 수 있다. 제1 서브 인터페이스는 단말(100)의 홈 화면과 제1 프롬프트 정보를 포함한다. 단말(100)의 홈 화면은 단말(100)의 홈 화면 아이콘을 포함한다. 제1 프롬프트 정보는 사용자가 홈 화면 아이콘을 탭하여 기록될 조작에 대응하는 애플리케이션으로 진입하도록 유도하는 데 사용된다. 예를 들어, 이동 전화(300)는 도 4b에 도시된 "학습 시작" 버튼(408) 상에서 사용자에 의해 수행된 탭 조작(즉, 제4 조작)에 응답하여 도 4c에 도시된 제1 서브 인터페이스(409)를 표시할 수 있다. 제1 서브 인터페이스(409)는 이동 전화(300)의 홈 화면(411)을 포함한다. 홈 화면(411)은 홈 화면 아이콘, 예를 들어 "이메일" 애플리케이션 아이콘, "카메라" 애플리케이션 아이콘, "설정" 애플리케이션 아이콘, "타오바오" 애플리케이션 아이콘을 포함한다. 제1 서브 인터페이스(409)는 제1 프롬프트 정보(410), 예를 들어 "추가할 커스텀 명령에 대응하는 앱을 입력하려면 홈 화면 아이콘을 탭한다"를 더 포함할 수 있다. 제1 서브 인터페이스(409)의 홈 화면(411)에서 페이지를 좌우로 뒤집어 이동 전화(300)의 다른 홈 화면을 표시할 수 있다. 선택적으로, 제1 서브 인터페이스(409)는 "슬라이드"와 같은 프롬프트 정보(413), 예를 들어 "홈 화면에서 왼쪽 또는 오른쪽으로 페이지를 넘깁니다"를 더 포함할 수 있다.
그런 다음, 단말(100)은 제1 서브 인터페이스 내의 임의의 애플리케이션 아이콘에 대해 사용자가 수행한 탭 조작(즉, 제1 서브 조작, 예를 들어, 단일 탭 조작)을 수신할 수 있다. 단말(100)은 임의의 애플리케이션 아이콘에 대한 사용자의 탭 조작에 응답하여 제2 서브 인터페이스를 표시할 수 있다. 제2 서브 인터페이스는 애플리케이션 홈페이지(사용자가 탭한 애플리케이션 아이콘에 대응하는 애플리케이션의 홈페이지) 및 제2 프롬프트 정보를 포함한다. 제2 프롬프트 정보는 애플리케이션 홈페이지에서 텍스트 정보에 대응하는 하나 이상의 조작을 입력하도록 사용자에게 프롬프트하는 데 사용된다. 단말(100)은 제2 서브 인터페이스에서 사용자에 의해 수행된 제2 서브 인터페이스를 더 수신하고, 단말(100)의 더 많은 조작의 기록 종료 트리거링에 사용되는 제2 조작을 수신할 때까지 제3 서브 인터페이스를 표시할 수 있다.
예를 들어, 사용자가 제1 서브 인터페이스(409)에서 "타오바오" 애플리케이션 아이콘을 탭한 것으로 가정한다. 이동 전화(300)는 제1 서브 인터페이스(409)의 "타오바오" 애플리케이션 아이콘 상에서 사용자에 의해 수행된 탭 조작(즉, 제1 서브 조작)에 응답하여 도 5a에 도시된 제2 서브 인터페이스(501)를 표시할 수 있다. 제2 서브 인터페이스(501)는 제2 프롬프트 정보(502) 및 "타오바오" 홈페이지(503)를 포함한다. 예를 들어, 제2 프롬프트 정보(502)는 "다음 서드-파티 애플리케이션의 인터페이스에 커스텀 명령에 대응하는 조작을 입력한다"이다. 도 5b에 도시된 바와 같이, 사용자는 제2 서브 인터페이스(501)의 검색 창(504)에 "우유"라는 검색어를 입력할 수 있다. 이동 전화(300)는 검색 창(504)의 검색 버튼 상에서 사용자에 의해 수행된 탭 조작(예를 들어, 단일 탭 조작)에 응답하여 도 5c에 도시된 제3 서브 인터페이스(506)를 표시할 수 있다. 사용자가 검색 창(504)에 검색어 "우유"를 입력하는 동작과 검색 창(504)의 검색 버튼 상에서 사용자가 수행하는 탭 조작을 제2 서브 조작이라고 할 수 있다. 제3 서브 인터페이스(506)는 제2 프롬프트 정보 및 제2 서브 조작에 대응하는 디스플레이 인터페이스(507)를 포함한다. 하나 이상의 조작은 제1 서브 인터페이스(409)의 "타오바오" 애플리케이션 아이콘에서 사용자에 의해 수행되는 탭 조작, 제2 서브 인터페이스(501)에서 검색 창(504)에 검색어 "Milk"를 입력하는 동작, 및 검색 창(504)의 검색 버튼 상에서 사용자가 수행한 탭 조작을 포함할 수 있다.
단말(100)은 사용자가 서브 인터페이스(예를 들어, 제1 서브 인터페이스 및 제2 서브 인터페이스)에서 수행한 조작에 대응하여 하나 또는 더 많은 조작에 대응하는 조작 정보를 획득할 수 있다는 것을 이해할 수 있다. 조작 정보는 하나 이상의 조작에 대응하는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함한다. 조작 지시 정보는 해당 인터페이스에서 사용자가 수행한 조작을 나타내기 위해 사용된다.
예를 들어, 단말(100)은 제1 서브-인터페이스(409)에서 "타오바오" 애플리케이션 아이콘에 대한 사용자의 탭 조작에 응답하여 "타오바오" 애플리케이션의 애플리케이션 식별자 및 "타오바오" 홈페이지(503)의 인터페이스 식별자를 획득할 수 있다. 단말(100)은 사용자가 제2 서브 인터페이스(501)의 검색 창(504)에 검색어 "우유"를 입력하는 조작에 응답하여, 사용자가 "타오바오" 홈페이지(503)의 검색 창(504)의 검색어 및 검색어 "우유"를 입력했음을 나타내는 조작 지시 정보 a를 획득할 수 있다. 단말(100)은 사용자가 검색 창(504)의 검색 버튼에 대한 탭 조작에 응답하여, 사용자가 검색 창(504)의 검색 버튼을 탭하였음을 나타내는 조작 지시 정보 b 및 도 5c에 도시된 디스플레이 인터페이스(507)의 인터페이스 식별자를 획득할 수 있다.
본 출원의 이 실시예에서 애플리케이션 식별자는 애플리케이션의 이름일 수 있다. 예를 들어, "타오바오" 애플리케이션의 애플리케이션 식별자는 "타오바오" 일 수 있다. 본 출원의 이 실시예에서 인터페이스 식별자(예를 들어, 제1 인터페이스 식별자)는 애플리케이션 내의 인터페이스의 이름일 수 있다. 인터페이스의 이름은 인터페이스의 주소 링크 대신 사용자에 의한 애플리케이션의 인터페이스 이름일 수 있다. 예를 들어, 본 출원의 이 실시예에서, 도 12c는 "여행" 애플리케이션에 있고 기차표를 예약하는 데 사용되는 인터페이스(1204)를 도시한다. 본 출원의 이 실시예에서, 기차표를 예약하는 데 사용되는 인터페이스(1204)의 인터페이스 식별자는 "기차표"로 결정될 수 있다.
단말(100)은 인터페이스 식별자에 기초하여 해당 인터페이스를 표시할 수 있다. 구체적으로, 단말(100)은 각 애플리케이션의 각 인터페이스의 인터페이스 식별자와 해당 인터페이스의 주소 링크 간의 대응 관계를 저장할 수 있다. 단말은 인터페이스 식별자를 기반으로 인터페이스 식별자에 대응하는 주소 링크를 검색한 후, 검색된 주소 링크를 기반으로 해당 인터페이스를 표시할 수 있다.
서브 인터페이스(예를 들어, 제1 서브 인터페이스 및 제2 서브 인터페이스)는 각각 단말(100)이 기록될 조작의 기록을 종료하도록 트리거링하는 데 사용되는 버튼, 예를 들어 종료 버튼을 포함한다. 제2 조작은 사용자가 종료 버튼에 대해 수행하는 탭 조작(예를 들어, 단일 탭 조작, 더블 탭 조작 또는 터치 및 홀드 동작)일 수 있다. 단말(100)은 임의의 서브 인터페이스의 종료 버튼에 대한 사용자의 탭 조작에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록할 수 있다.
예를 들어, 도 4c에 도시된 제1 서브 인터페이스(409)는 종료 버튼(412)을 포함한다. 도 5a에 도시된 제2 서브 인터페이스는 종료 버튼(505)을 포함한다. 도 5b에 도시된 제3 서브 인터페이스는 종료 버튼(505)을 포함한다. 도 5c에 도시된 제4 서브 인터페이스는 종료 버튼(505)을 포함한다. 예를 들어, 이동 전화(300)는 도 5c에 도시된 제4 서브 인터페이스(507)의 종료 버튼(505)에 대한 사용자의 탭 조작에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록할 수 있다.
대안으로, 제2 조작은 임의의 서브 인터페이스에서 사용자에 의해 입력된 제3 미리 설정된 제스처일 수 있다. 예를 들어, 미리 설정된 제3 제스처는 S 자 제스처, 슬라이드 업 제스처, 슬라이드 다운 제스처 등 중 어느 하나일 수 있다. 단말(100)은 임의의 서브 인터페이스에서 사용자에 의해 입력된 제3 미리 설정된 제스처에 응답하여 하나 이상의 조작에 대응하는 조작 정보를 기록할 수 있다.
S204: 단말(100)은 제2 조작에 응답하여 제3 인터페이스를 표시하고, 제3 인터페이스는 적어도 2 개의 텍스트 정보를 포함하고, 적어도 2 개의 텍스트 정보는 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 상기 제1 애플리케이션 식별자 및/또는 상기 제1 인터페이스 식별자와 상기 제1 검색어를 연결하여 형성된 문장(statement)이다.
서로 다른 연결 단어는 서로 다른 사용자 문장 템플릿에 해당한다. 적어도 2 개의 텍스트 정보는 사용자 문장 템플릿의 제1 채우기 항목에 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 채우고, 사용자 문장 템플릿의 제2 채우기 항목에 제1 검색어를 채움으로써 획득된다. 단말(100)은 복수의 사용자 문장 템플릿을 저장한다. 구체적으로, 단말(100)은 서로 다른 유형의 애플리케이션에 대해 복수의 사용자 문장 템플릿을 별도로 구성하므로, 단말(100)은 두 개 이상의 텍스트 정보를 획득하기 위해, 제2 조작에 응답하여 제1 애플리케이션 식별자가 지시하는 애플리케이션에 대응하는 사용자 문장 템플릿에 조작 정보를 채울 수 있다.
복수의 사용자 진술 템플릿은 사용자가 서로 다른 유형의 애플리케이션을 사용할 때 진술 습관에 대한 통계를 수집하여 결정된다. 본 출원의 이 실시예에서의 애플리케이션은 쇼핑 애플리케이션, 여행 애플리케이션, 비디오 애플리케이션 등을 포함할 수 있다. 예를 들어, 쇼핑 애플리케이션은 "타오바오" 애플리케이션, "Jingdong" 애플리케이션 등을 포함할 수 있다. 여행 애플리케이션에는 "Ctrip" 애플리케이션과 "Qunar" 애플리케이션이 포함될 수 있다. 비디오 애플리케이션은 "iQIYI" 애플리케이션, "Youku" 애플리케이션 등을 포함할 수 있다.
쇼핑 애플리케이션 "타오바오"가 예로 사용된다. "타오바오"를 사용하여 물건(예를 들어, 우유)을 구매할 때 사용자는 일반적으로 "타오바오에서 우유 구매", "타오바오를 통해 우유 구매", "타오바오에서 우유 검색" 등을 말한다. 따라서, 쇼핑 애플리케이션의 경우, 단말(100)에는 다음과 같은 복수의 사용자 구문 템플릿이 있을 수 있다: "(애플리케이션 식별자)를 통해 [검색어] 구매," (애플리케이션 식별자)에서 [검색어] 구매, "(애플리케이션 식별자)의 (인터페이스 식별자)에서 [검색어] 검색" 등. 사용자 문장 템플릿"(애플리케이션 식별자)을 통해 [검색어] 구매"의 연결 단어는 "…. 을 통해 ... 구매"이다. 사용자 문장 템플릿"(애플리케이션 식별자)에서 [검색어] 구매"의 연결 단어는 "...에서 ... 구매"이다. 사용자 문장 템플릿"(애플리케이션 식별자)에서 [검색어] 검색"의 연결 단어는 "...에서 ... 검색"이다.
제1 텍스트 정보의 적어도 하나의 제1 부분은 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 포함할 뿐만 아니라, 제1 텍스트 정보에 연결 단어도 포함한다. 예를 들어, 제1 텍스트 정보 "타오바오를 통해 우유 구매"는 제1 애플리케이션 식별자 "타오바오"와 연결 단어 "구매"를 모두 포함한다.
여행 애플리케이션 "Ctrip"이 예로 사용된다. "Ctrip"을 사용하여 기차표를 예약할 때 사용자는 일반적으로 "Ctrip에서 A 지점에서 B 지점으로 가는 기차표 예약", "A 지점에서 B 지점으로 가는 기차표 구매", "A 지점에서 B 지점으로 가는 기차표 구매" 등으로 말한다. 이 경우, 여행 애플리케이션의 경우, 단말(100)에 다음과 같은 복수의 사용자 문장 템플릿이 구성될 수 있다: "(애플리케이션 식별자)를 통해 [검색어 1]에서 [검색어 2]로 가는 (애플리케이션 식별자)를 구매", "[검색어 1]에서 [검색어 2]로 가는 (인터페이스 식별자) 구매", "[검색어 1]에서 [검색어 2]로 가는 (인터페이스 식별자)", "[검색어 2]로 가는 (인터페이스 식별자)", 등. "(인터페이스 식별자)를 통해 [검색어 1]에서 [검색어 2]로 가는 (인터페이스 식별자) 구매"라는 사용자 문장 템플릿의 연결 단어는 "...통해 ...에서 ...로 가는 ... 구매"이다.
본 출원의 이 실시예에서 사용자 문장 템플릿은 제1 채우기 항목 및 제2 채우기 항목을 포함할 수 있다. 제1 채우기 항목은 단말(100)이 획득한 애플리케이션 식별자 및/또는 인터페이스 식별자를 채우는 데 사용된다. 제2 채우기 항목은 단말(100)이 획득한 검색어를 채우는 데 사용된다. 제1 채우기 항목은 제1 텍스트 정보의 제1 부분에 대응하고 제2 채우기 항목은 제1 텍스트 정보의 제2 부분에 대응한다. 위의 사용자 문장 템플릿에서 "()"는 제1 채우기 항목이고 "[]"는 제2 채우기 항목이다. 제1 채우기 항목 "()"은 단말(100)이 획득한 애플리케이션 식별자 및/또는 인터페이스 식별자를 채우는데 사용된다. 제2 채우기 항목 "[]"은 단말(100)이 획득한 검색어를 채우기 위해 사용된다.
예를 들어, 조작 정보는 애플리케이션 식별자 "타오바오", 인터페이스 식별자 "타오바오 홈페이지" 및 검색어 "우유"를 포함한다고 가정한다. 단말(100)은 쇼핑 애플리케이션의 사용자 문장 템플릿에 조작 정보를 입력하여 "(타오바오)를 통해 [우유] 구매", "(타오바오)에서 [우유] 구매", "(타오바오)에서 [우유] 검색", "(타오바오)(홈페이지)에서 [우유] 검색" 등을 채운다.
조작 정보는 애플리케이션 식별자 "여행", 인터페이스 식별자 "기차표", 검색어 1 "시안" 및 검색어 2 "선전"을 포함한다고 가정한다. 단말(100)은 여행 애플리케이션의 사용자 문장 템플릿에 조작 정보를 입력하여 다음의 텍스트 정보를 획득한다: "(여행)을 통해 [시안]에서 [선전]으로 가는 (기차표) 구매", "[시안]에서 [선전]으로 가는 (기차표) 구매", "[시안]에서 [선전]으로 가는 (기차표)" 등.
예를 들어, 이동 전화(300)는 도 5c에 도시된 종료 버튼(505)에 대한 사용자의 탭 조작에 응답하여 도 6a에 도시된 제3 인터페이스(601)를 표시할 수 있다. 제3 인터페이스(601)는 "(타오바오)를 통해 [우유] 구매"(602), "(타오바오)에서 [우유] 구매", "(타오바오)에서 [우유] 검색", "(타오바오)(홈페이지)에서 [우유] 검색"과 같은 복수의 텍스트 정보를 포함한다.
S204 이후, 단말(100)은 제3 인터페이스에서 사용자에 의해 입력된 제3 조작에 기초하여, 조작 정보에 대응하는 제1 텍스트 정보를 결정할 수 있다. 구체적으로, S204 이후에, 본 출원의 이 실시예에서의 방법은 S205 및 S206을 더 포함할 수 있다.
S205: 단말(100)은 제3 인터페이스의 적어도 2 개의 텍스트 정보의 제1 텍스트 정보에 대해 사용자에 의해 수행된 제3 조작을 수신한다.
제3 조작은 적어도 2 개의 텍스트 정보로부터 제1 텍스트 정보를 선택하는 데 사용된다. 단말(100)은 적어도 2 개의 텍스트 정보 중 하나 이상의 텍스트 정보에 대해 사용자에 의해 수행되는 선택 동작, 즉 제3 조작을 수신할 수 있다. 예를 들어, 도 6a에 도시된 바와 같이, 이동 전화(300)는 도 6a에 도시된 "(타오바오)를 통해 [우유] 구매"(602)에 대해 사용자가 수행한 선택 동작을 수신할 수 있다.
S206: 단말(100)은 제3 조작에 응답하여, 제1 텍스트 정보를 조작 정보에 대응하는 텍스트 정보로 결정한다.
제1 텍스트 정보는 제1 사용자 문장 템플릿을 채워 생성된다. 구체적으로, 제1 텍스트 정보는 제1 사용자 문장 템플릿의 제1 채우기 항목에 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 채우고, 제1 사용자 문장 템플릿의 제2 채우기 항목에 제1 검색어를 채움으로써 생성된다.
예를 들어, 사용자가 도 6a에 도시된 제3 인터페이스(601)에서 "(Taobao)를 통해 [우유] 구매"(602) 옵션을 선택했다고 가정한다. 이동 전화(300)는 도 6a에 도시된 제3 인터페이스(601)에서 "OK" 버튼에 대한 사용자의 탭 조작에 응답하여 "(타오바오)를 통한 [우유] 구매"는 전술한 조작 정보에 대응하는 텍스트인 것으로 결정할 수 있다. 이어서, 단말(100)이 제1 텍스트 정보와 일치하는 텍스트의 음성 명령을 수신하면, 단말(100)은 조작 정보에 기초하여 대응하는 조작을 자동으로 수행할 수 있다.
제1 텍스트 정보를 생성한 후, 단말(100)은 제1 텍스트 정보를 저장할 수 있다. 예로서 이동 전화(300)가 사용된다. 이동 전화(300)는 도 7a에 도시된 바와 같이 제1 텍스트 정보를 저장한 후. 도 4a에 도시된 "커스텀 음성 제어" 인터페이스(401)와 비교하여, 이동 전화(300)에 의해 표시되는 "커스텀 음성 제어" 인터페이스(701)에 "커스텀 커맨드 3"이 추가된다.
S207: 단말(100)은 제1 음성 명령을 수신한다.
예를 들어, 단말(100)은 도 3a, 도 3b, 도 3c 및 도 3d에 도시된 이동 전화(300)이다. 이동 전화(100)는 도 3b에 도시된 음성 어시스턴트의 음성 제어 인터페이스(303)를 표시할 수 있다. 이동 전화(300)는 "기록" 버튼(304)에 대한 사용자의 터치 앤 홀드 동작에 응답하여, 사용자에 의해 입력된 제1 음성 명령을 수신할 수 있다.
S208: 단말(100)은 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치할 때 조작 정보에 기초하여 대응하는 동작을 수행한다.
제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치한다는 것은 다음을 포함한다: 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분이 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령에서의 제4 부분 사이의 위치 관계는 제1 텍스트 정보에서 적어도 하나의 제1 부분 및 제2 부분 사이의 위치 관계와 동일하다.
전술한 예를 참조하면, 제1 텍스트 정보는 "(타오바오)를 통해 [우유] 구매"이고, 제1 애플리케이션 식별자는 "타오바오"이며, 제1 검색어는 "우유"라고 가정한다. 구체적으로, 제1 텍스트 정보의 적어도 하나의 제1 부분은 "타오바오"이고, 제1 텍스트 정보의 제2 부분은 "우유"이다. 제1 음성 명령이 "타오바오를 통해 윈드브레이커 구매"인 경우, 단말(100)은 제1 음성 명령의 적어도 제3 부분이 "타오바오"이고, 제1 음성 명령의 제4 부분이 "윈드브레이커"라고 결정할 수 있다. 제1 텍스트 정보의 적어도 하나의 제1 부분 "타오바오"는 제1 음성 명령의 적어도 하나의 제3 부분 "타오바오"와 동일하고, 적어도 하나의 제3 부분 "타오바오"와 제1 음성 명령의 제4 부분 "타오바오를 통해 윈드브레이커 구매"에서의 "윈드브레이커" 사이의 위치 관계는 제1 텍스트 정보에서 적어도 하나의 제1 부분 "타오바오"와 제2 부분 "우유" 사이의 위치 관계와 동일하다. 따라서, 단말(100)은 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"가 제1 텍스트 정보 "타오바오를 통해 우유 구매"와 일치한다고 결정할 수 있다.
적어도 하나의 제1 부분은 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 포함하고, 제2 부분은 제1 검색어를 포함한다. 다시 말해, 제1 음성 명령의 제3 부분이 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자이고, 제1 음성 명령의 제4 부분과 제3 부분의 위치 관계가 제1 텍스트 정보의 제1 부분과 제2 부분 사이의 위치 관계와 동일할 때, 단말(100)은 제1 음성 명령이 제1 텍스트 정보와 일치하는 것으로 결정할 수 있다.
단말(100)이 조작 정보에 기초하여 대응하는 조작을 수행하는 방법은 다음을 포함할 수 있다: 단말(100)은 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 조작 지시 정보 및 제4 부분에 대응하는 동작을 수행할 수 있다(예를 들어, 제2 검색어). 예를 들어, 전술한 예를 참조하면, 이동 전화(300)는 도 8a에 도시된 음성 제어 인터페이스(801)에서 "기록" 버튼(802)에 대한 사용자의 터치 앤 홀드 동작에 응답하여 사용자에 의해 입력된 제1 음성 명령, 예를 들어 "타오바오를 통해 윈드브레이커 구매"를 수신할 수 있다. 이동 전화(300)는 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"가 제1 텍스트 정보 "(타오바오)를 통해 [우유] 구매"와 일치하는 것으로 결정할 수 있다. 따라서, 이동 전화(300)는 도 8b 내지 도 8d에 도시된 동작 인터페이스를 순차적으로 표시할 수 있다. 구체적으로, 이동 전화(300)는 애플리케이션 식별자 "타오바오"에 기초하여 "타오바오" 애플리케이션을 시작하고, 도 8b에 도시된 타오바오 홈페이지(804)를 표시할 수 있다. 이동 전화(300)는 조작 지시 정보 a와 검색어 "윈드브레이커"에 기초하여 사용자가 타오바오 홈페이지(804)의 검색 창을 탭하는 동작을 시뮬레이션할 수 있고, 도 8b에 도시된 타오바오 홈페이지(804)에서 사용자의 손가락이 검색 창을 탭하는 인터페이스를 표시하고, 사용자가 타오바오 홈페이지(804)의 검색 창에 검색어를 입력하는 조작을 시뮬레이션하고, 타오바오 홈페이지(804)에서, 제2 조작 정보에 있으면서 사용자에 의해 입력된 검색어 "윈드브레이커"를 표시한다. 이동 전화(300)는 조작 지시 정보 b(사용자가 검색 창에서 검색 버튼을 탭함을 나타내는 데 사용되는 지시 정보)에 기초하여 사용자가 검색 창에서 검색 버튼을 탭하는 것을 시뮬레이션하여 도 8c에 도시된 디스플레이 인터페이스를 표시할 수 있다. 이어서, 이동 전화(300)는 도 8c에 도시된 검색 창의 검색 버튼에 대한 사용자의 탭 조작에 응답하여 도 8d에 도시된 검색 결과 인터페이스(808)를 표시할 수 있다.
도 5a, 도 5b 및 도 5c 및 도 6a 및 도 6b에 도시된 바와 같이, 이동 전화(300)가 기록한 제1 텍스트 정보는 "타오바오를 통해 우유 구매"이지만, 제1 텍스트 정보와 일치하는 음성 명령을 수신한 후, 이동 전화(300)는 제1 텍스트 정보에 대응하고 단말(100)에 의해 기록되는 조작 정보에 기초해서 대응하는 조작을 수행할 수 있다. 이러한 방식으로 이동 전화(300)의 음성 어시스턴트가 수신한 "타오바오를 통해 우유 구매"와 일치하는 음성 명령, 예를 들어, 도 8a에 도시된 "타오바오를 통해 윈드브레이커 구매"에 관계없이, 이동 전화(300)는 "타오바오를 통해 윈드브레이커 구매"에 대응하는 동작을 수행하도록 이동 전화(300)를 트리거링하도록 사용자를 시뮬레이션하여 도 8b 내지 도 8d에 대응하는 동작 인터페이스를 표시할 수 있다.
본 출원의 이 실시예에서, 도 8b에 도시된 손가락 아이콘(805) 및 도 8c에 도시된 손가락 아이콘(807)은 각각 이동 전화(300)가 사용자의 동작을 시뮬레이션할 때 표시되는 사용자의 손가락을 나타내는 데 사용된다. 도 8a에 도시된 손가락 아이콘(803)은 이동 전화(300)가 사용자의 실제 조작을 수신할 때 표시되는 사용자의 손가락을 나타내는 데 사용된다. 도 8b에 도시된 손가락 아이콘(805)은 도 8a에 도시된 손가락 아이콘(803)과 다르다.
선택적으로, 제1 음성 명령이 제1 텍스트 정보와 일치한다고 결정한 후, 단말(100)은 제1 음성 명령에 대응하는 동작 결과 인터페이스를 직접 표시할 수 있다. 예를 들어, 도 8a에 도시된 음성 제어 인터페이스(801)에서 사용자에 의해 입력된 "타오바오를 통해 윈드브레이커 구매"라는 음성 명령을 수신한 후, 이동 전화(300)는 도 8d에 도시된 인터페이스(808)를 직접 표시할 수 있다.
본 출원의 본 실시예에서 제공되는 음성 제어 명령 생성 방법에 따르면, 단말(100)은 먼저 하나 이상의 조작에 대응하는 조작 정보를 획득한 후, 문장을 형성하도록 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자와 제1 검색어를 연결하여, 복수의 텍스트 정보를 획득하고, 복수의 텍스트 정보를 포함하는 제3 인터페이스를 표시하므로, 사용자는 복수의 텍스트 정보 중에서 사용자의 언어 습관에 일치하는 제1 텍스트 정보를 선택할 수 있다. 제1 텍스트 정보는 사용자가 선택하고 사용자의 언어 습관에 맞는 명령이다. 단말(100)이 제1 음성 명령을 수신한 후, 단말(100)은 제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치할 때 사용자가 단어별로 텍스트 정보에 대응하는 음성 명령을 말할 때만 대응하는 조작을 수행하는 대신 제1 음성 명령의 텍스트가 제1 텍스트 정보에 일치하면 조작 정보에 기초해서 대응하는 조작을 수행할 수 있다. 이 솔루션에 따르면 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
또한, 단말(100)이 제1 텍스트 정보를 조작 정보에 대응하는 텍스트 정보로 결정한 후(즉, S206), 단말(100)이 제1 음성 명령을 수신하기 전에(즉, S207), 본 실시예의 방법은 본 출원은 S901을 포함할 수 있으므로, 단말(100)은 제1 음성 명령을 수신한 후, 제1 음성 명령이 제1 텍스트 정보와 일치하는 음성 명령임을 보다 빠르고 정확하게 식별하고, 그런 다음 조작 정보에 기초하여 대응하는 조작을 수행할 수 있다. 도 9에 도시된 바와 같이, 도 2에 도시된 S206 이후에, S207 이전에, 본 출원의 이 실시예에서의 방법은 S901을 더 포함할 수 있다.
S901: 단말(100)은 제1 템플릿 텍스트를 생성한다.
제1 템플릿 텍스트는 제1 텍스트 정보의 제2 부분을 제1 검색어의 유형 정보로 대체하여 생성된다. 다시 말해, 제1 사용자 문장 템플릿을 채워서 제1 텍스트 정보가 생성된 경우, 제1 사용자 문장 템플릿의 제1 채우기 항목에 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 채우고 그리고 제1 사용자 문장 템플릿의 제2 채우기 항목에 제1 검색어의 유형 정보를 채워 제1 템플릿 텍스트가 생성된다.
단말(100)은 제1 검색어의 유형 정보를 획득할 수 있으며; 및 제1 템플릿 명령을 획득하기 위해, 제1 텍스트 정보의 제1 검색어를 제1 검색어의 유형 정보로 대체한다. 대안으로, 단말(100)은 제1 검색어의 유형 정보를 획득하고; 제1 사용자 문장 템플릿의 제1 채우기 항목에 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 채우고, 제1 사용자 문장 템플릿의 제2 채우기 항목에 있는 제1 검색어의 유형 정보를 채워, 제1 템플릿 텍스트를 획득한다.
예를 들어, 전술한 예를 참조하면, 제1 텍스트 정보는 "(타오바오)를 통해 [우유] 구매"라고 가정한다. 이동 전화(300)는 제1 검색어 "우유"의 유형 정보가 "상품(commodity)"임을 알 수 있다. 그런 다음, 이동 전화(300)는 "(타오바오)를 통해 [우유] 구매"의 "우유"를 "상품"으로 대체하여 "(타오바오)를 통해 [상품] 구매"라는 템플릿 텍스트를 획득할 수 있다. 대안으로, 제1 텍스트 정보가 "(타오바오)를 통해 [우유] 구매"이고, 제1 사용자 문장 템플릿이 "(애플리케이션 식별자)를 통해 [검색어] 구매"라고 가정하면, 제1 검색어는 "우유"이고, 제1 애플리케이션 식별자는 "타오바오"이다. 이동 전화(300)는 제1 검색어 "우유"의 유형 정보가 "상품"임을 알 수 있다. 그런 다음, 이동 전화(300)는 제1 채우기 항목 "()"에 제1 애플리케이션 식별자 "타오바오"를 채우고, 제2 채우기 항목 "[]"에 제1 검색어 "우유"를 채워 제1 템플릿 텍스트 "(타오바오)를 통해 [상품] 구매"를 획득할 수 있다.
제1 음성 명령의 텍스트가 제1 텍스트 정보와 일치한다는 것은 구체적으로: 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치할 수 있다. 도 9에 도시된 바와 같이, 도 2에 도시된 S208은 S902를 포함할 수 있다.
S902: 단말(100)은 제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치할 때 조작 정보에 기초하여 대응하는 동작을 수행한다.
제1 음성 명령의 텍스트가 제1 템플릿 텍스트와 일치한다는 것은 다음을 포함할 수 있다: 제1 음성 명령에 대응하는 텍스트의 적어도 하나의 제3 부분이 적어도 하나의 제1 부분과 동일하고, 적어도 하나의 제3 부분과 제1 음성 명령의 제4 부분 사이의 위치 관계 적어도 하나의 제1 부분과 제1 텍스트 정보에서의 제2 부분 사이의 위치 관계와 동일하며, 제4 부분은 제1 템플릿 텍스트에서 유형 정보가 나타내는 유형의 단어이다.
전술한 예를 참조하면, 제1 템플릿 텍스트는 "타오바오를 통해 [상품] 구매"라고 가정한다. 제1 음성 명령이 "타오바오를 통해 윈드브레이커 구매"인 경우, 단말(100)은 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"에서의 적어도 하나의 제3 부분 "타오바오"가 제1 템플릿 텍스트에서 적어도 하나의 제1 부분 "타오바오"와 동일하다고 결정할 수 있고, 적어도 하나의 제3 부분 "타오바오"와 제1 음성 명령에서의 제4 부분 "윈드브레이크" 사이의 위치 관계는 적어도 하나의 제1 부분 "Taobao"와 제1 텍스트 정보 "타오바오를 통해 우유 구매"에서의 제2 부분 "우유" 사이의 위치 관계와 동일하며, 제4 부분 "윈드브레이크"는 제1 템플릿 텍스트 "타오바오를 통해 [상품] 구매"에서 "상품"으로 지시된 상품 유형의 단어이다. 따라서, 단말(100)은 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"가 제1 텍스트 정보 "타오바오를 통해 우유 구매"와 일치한다고 결정할 수 있다.
대안으로, 제1 사용자 문장 템플릿이 "(애플리케이션 식별자)를 통해 [검색어] 구매"이고, 제1 텍스트 정보가 "(타오바오)를 통해 [우유] 구매"라고 가정하면, 제1 애플리케이션 식별자는 "타오바오"이고, 제1 검색어는 "우유"이고, 제1 검색어 "우유"의 유형 정보는 "상품"이다. 단말(100)은 제1 템플릿 텍스트 "타오바오를 통해 [상품] 구매"를 생성할 수 있다.
제1 음성 명령이 "타오바오를 통해 윈드브레이커 구매"인 경우, 단말(100)은 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"가 제1 사용자 문장 템플릿 "(애플리케이션 식별자)를 통해 [검색어] 구매"에 일치한다고 결정할 수 있다. 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"는 제1 애플리케이션 식별자 "타오바오"를 포함하고, 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"에 포함된 제2 검색어 "윈드브레이커"는 상품 유형의 단어이다. 따라서, 단말(100)은 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"가 제1 템플릿 텍스트 "타오바오를 통해 [상품] 구매"와 일치하는 것으로 결정할 수 있다.
조작 정보를 획득한 단말(100)은 조작 정보(제1 조작 정보라고 함)를 저장할 수 있다. 단말(100)은 제1 템플릿 텍스트를 생성한 후, 제1 템플릿 텍스트와 조작 정보 간의 대응 관계를 더 저장할 수 있다. 이와 같이, 단말(100)은 제1 음성 명령이 제1 템플릿 텍스트와 일치한다고 결정한 후, 제1 템플릿 텍스트에 대응하는 제1 조작 정보를 찾을 수 있다. 제1 조작 정보는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함하고, 제1 음성 명령은 제2 검색어를 포함한다. 따라서, 단말(100)은 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제2 검색어 및 조작 지시 정보를 포함하는 제2 조작 정보를 획득할 수 있다. 단말(100)은 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 조작 지시 정보 및 제2 검색어(즉, 제2 조작 정보)에 대응하는 동작을 수행할 수 있다.
예를 들어, 전술한 예를 참조하여, 제1 템플릿 텍스트가 "타오바오에서 [상품] 구매"이고, 제1 음성 명령이 "타오바오에서 [윈드브레이커] 구매"라고 가정하면, 제2 조작 정보는 애플리케이션 식별자 "타오바오", 인터페이스 식별자 "타오바오 홈페이지" 및 검색어 "윈드브레이커"를 포함할 수 있다. 이동 전화(300)는 도 8a에 도시된 음성 제어 인터페이스(801)의 "기록" 버튼(802)에 대한 사용자의 터치 앤 홀드 동작에 응답하여, 사용자에 의해 입력된 제1 음성 명령, 예를 들어 "타오바오를 통해 윈드브레이커 구매"를 수신할 수 있다. 이동 단말(300)은 제1 음성 명령 "타오바오를 통해 윈드브레이커 구매"가 제1 템플릿 텍스트 "타오바오에서 [상품] 구매"와 일치한다고 결정할 수 있다. 따라서, 이동 전화(300)는 조작 지시 정보 a 및 검색어 "윈드브레이커"에 기초하여 사용자가 타오바오 홈페이지(804) 상에서 검색창을 탭하는 조작을 시뮬레이션하고, 도 8b에 도시된 타오바오 홈페이지(804) 상에서 사용자의 손가락이 검색창을 탭하는 인터페이스(804)를 표시하고, 사용자가 타오바오 홈페이지(804) 상의 검색창에 검색어를 입력하는 조작을 시뮬레이션하며, 타오바오 홈페이지(804) 상에서 제2 조작 정보에 있으면서 사용자에 의해 입력되는 검색어 "윈드브레이커"를 표시할 수 있다. 이동 전화(300)는 조작 지시 정보 b(사용자가 검색 창에서 검색 버튼을 탭함을 나타내는 데 사용되는 지시 정보)에 기초하여 사용자가 검색 창에서 검색 버튼을 탭하는 것을 시뮬레이션하여 도 8c에 도시된 디스플레이 인터페이스를 표시할 수 있다. 이어서, 이동 전화(300)는 도 8c에 도시된 검색 창의 검색 버튼에서의 사용자의 탭 조작에 응답하여 도 8d에 도시된 검색 결과 인터페이스(808)를 표시할 수 있다.
도 5a, 도 5b 및 도 5c 및 도 6a 및 도 6b에 도시된 바와 같이, 이동 전화(300)가 기록한 제1 텍스트 정보가 "타오바오를 통해 우유 구매"이지만, 이동 전화(300)는 제1 텍스트 정보의 제1 템플릿 텍스트 "타오바오를 통해 상품 구매"를 생성할 수 있다. 이와 같이 이동 전화(300)의 음성 어시스턴트가 수신한 "타오바오를 통해 상품 구매", 예를 들어, 도 8a에 도시된 "타오바오를 통해 윈드브레이커 구매"와 일치하는 음성 명령에 관계없이, 이동 전화(300)는 사용자가 이동 전화(300)를 트리거링하여 "타오바오를 통해 윈드브레이커 구매"에 대응하는 이벤트를 수행할 때 수행되는 조작을 시뮬레이션하여 도 8b 내지 도 8(d)에 대응하는 동작 인터페이스를 표시할 수 있다.
본 출원의 이 실시예에서, 도 8b에 도시된 손가락 아이콘(805) 및 도 8c에 도시된 손가락 아이콘(807)은 각각 이동 전화(300)가 사용자의 조작을 시뮬레이션할 때 표시되는 사용자의 손가락을 나타내는 데 사용된다. 도 8a에 도시된 손가락 아이콘(803)은 이동 전화(300)가 사용자의 실제 조작을 수신할 때 표시되는 사용자의 손가락을 나타내는 데 사용된다. 도 8b에 도시된 손가락 아이콘(805)은 도 8a에 도시된 손가락 아이콘(803)과 다르다.
선택적으로, 제1 음성 명령이 제1 템플릿 텍스트와 일치하는 것으로 결정되면, 단말(100)은 제2 조작 정보에 대응하는 동작 결과 인터페이스를 직접 표시할 수 있다. 예를 들어, 도 8a에 도시된 음성 제어 인터페이스(801)에 사용자에 의해 입력된 "타오바오를 통해 윈드브레이커 구매"라는 음성 명령을 수신한 후. 이동 전화(300)는 제2 조작 정보에 기초하여 도 8d에 도시된 인터페이스(808)를 직접 표시할 수 있다.
단말(100)은 제1 템플릿 텍스트를 생성한 후, 제1 템플릿 텍스트를 저장할 수 있다. 예로서 이동 전화(300)가 사용된다. 이동 전화(300)는 도 7b에 도시된 바와 같이 제1 템플릿 텍스트를 저장한 후, "타오바오를 통해 상품(우유) 구매"와 같은 하나의 텍스트 정보(703)가 도 4a에 도시된 "커스텀 음성 제어" 인터페이스(401)와 비교하여 이동 전화(300)에 의해 표시되는 "커스텀 음성 제어" 인터페이스(702)에 추가된다.
선택적으로, 제1 템플릿 텍스트를 생성한 후, 단말(100)은 제4 인터페이스를 더 표시할 수 있다. 제4 인터페이스는 사용자에게 제1 템플릿 텍스트와 일치하는 제1 음성 명령을 음성 어시스턴트를 통해 전송하여 단말(100)이 대응하는 조작을 수행하도록 트리거링하도록 하는 데 사용된다.
예를 들어, 사용자가 도 6a에 도시된 제3 인터페이스(601)에서 "타오바오를 통해 [우유] 구매"(602) 옵션을 선택했다고 가정한다. 도 6a에 도시된 제3 인터페이스(601)의 "OK" 버튼에 대해 사용자가 수행한 탭 조작에 응답하여, 이동 전화(300)는 "(타오바오)를 통해 [상품] 구매"라는 제1 템플릿 텍스트를 생성하고, 도 6b에 도시된 제4 인터페이스(603)를 표시할 수 있다. 제4 인터페이스(603)는 "당신의 조작에 기초하여, 다음번에 음성 어시스턴트에 말할 수 있다: 타오바오를 통해 ** 구매"(604)라는 제3 프롬프트 정보를 포함할 수 있다. 선택적으로, 도 6b에 도시된 바와 같이, 제4 인터페이스(603)는 제1 템플릿 텍스트 "타오바오를 통해 ** 구매", 예를 들어 "타오바오를 통해 펜 구매" 및 "타오바오를 통해 우유 구매"의 문장 인스턴스를 더 포함할 수 있다.
본 출원의 본 실시예에서, 단말(100)은 먼저 하나 이상의 조작에 대응하는 조작 정보를 획득한 후, 복수의 텍스트 정보를 포함하는 제3 인터페이스를 표시할 수 있으므로, 사용자는 복수의 텍스트 정보 중에서 사용자의 음성 습관에 일치하는 제1 텍스트 정보를 선택할 수 있다. 복수의 텍스트 정보는 단말(100)에 저장된 사용자 문장 템플릿에 조작 정보를 채워 생성된다. 단말(100)은 제1 사용자 문장 템플릿의 제1 채우기 항목에 제1 애플리케이션 식별자 및/또는 제1 인터페이스 식별자를 채우고, 제1 사용자 문장 템플릿의 제2 채우기 항목에 제1 검색어의 유형 정보를 채워 제1 템플릿 텍스트를 생성한다. 단말(100)이 다음에 템플릿 텍스트와 일치하는 음성 명령을 수신하면, 해당 음성 명령에 대응하는 동작이 단말(100)에 기록되어 있지 않더라도, 단말(100)은 사용자가 단말(100)이 수행하도록 트리거링하도록 시뮬레이션할 수도 있다. 음성 명령에 대응하는 조작을 수행하고 해당 조작 인터페이스를 표시한다. 이러한 방식으로 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
본 출원의 이 실시예에서, 단말이 "여행" 애플리케이션에서 사용자에 의해 수행된 하나 이상의 조작을 기록하는 예가 본 출원의 이 실시예에서의 방법을 설명하기 위해 여기서 사용된다.
단말(100)은 제1 인터페이스에서 사용자의 제4 조작에 응답하여 제2 인터페이스를 표시할 수 있다. 제2 인터페이스는 하나 이상의 조작을 수신하는 데 사용되는 복수의 인터페이스에 대한 일반적인 용어이다. 일반적으로 단말(100)은 제4 조작에 응답하여 제1 서브 인터페이스를 먼저 표시할 수 있다. 예를 들어, 단말(100)은 이동 전화(300)이다. 이동 전화(300)는 도 4c에 도시된 제1 서브 인터페이스(409)를 디스플레이할 수 있다.
사용자가 제1 서브 인터페이스(409)에서 "여행" 애플리케이션 아이콘을 탭했다고 가정한다. 제1 서브 인터페이스(409)에서 "여행" 애플리케이션 아이콘에 대해 사용자가 수행한 탭 조작(즉, 제1 서브 조작)에 응답하여, 이동 전화(300)는 도 10a에 도시된 제2 서브 인터페이스(1001)를 표시하고, 제1 애플리케이션 식별자 "여행"을 획득한다. 제2 서브 인터페이스(1001)는 제2 프롬프트 정보(1002) 및 "여행" 홈페이지(1003)를 포함한다. 예를 들어, 제2 프롬프트 정보(1003)는 " '여행' 애플리케이션의 인터페이스에 텍스트 정보에 대응하는 하나 이상의 조작을 입력한다"이다. 이동 전화(300)는 제2 서브 인터페이스(1001)의 "기차표" 옵션에 대해 사용자가 수행한 탭 조작을 수신할 수 있다. 이동 전화(300)는 "기차표"에 사용자가 수행한 탭 조작에 응답하여 도 10b에 도시된 제3 서브 인터페이스(1005)를 표시할 수 있다. 제3 서브 인터페이스(1005)는 제2 프롬프트 정보 및 기차표 인터페이스(1006)를 포함한다. 이동 전화(300)는 "기차표" 옵션에 대한 사용자의 탭 조작에 응답하여, 사용자가 기차표 인터페이스(1006)의 인터페이스 식별자 및 "기차표" 옵션을 탭하는 것을 나타내는 데 사용되는 조작 지시 정보 c를 획득할 수 있다. 사용자는 출발 장소를 수정하기 위해 기차표 인터페이스(1006)에서 "출발 장소" 옵션을 탭할 수 있다. 도 10b에 도시된 바와 같이, "출발지" 옵션에 현재 표시된 출발지는 상하이이다. 사용자는 목적지를 수정하기 위해 기차표 인터페이스(1006)에서 "목적지" 옵션을 더 탭할 수 있다. 도 10b에 도시된 바와 같이, "목적지" 옵션에 현재 표시된 목적지는 베이징이다. 예를 들어, 사용자가 목적지를 수정한다. 도 10b에 도시된 바와 같이, 사용자가 "목적지" 옵션을 조작하여 목적지를 심천으로 수정한다고 가정한다. 이동 전화(300)는 "목적지" 옵션에 대한 사용자의 조작에 응답하여 도 10c에 도시된 제4 서브 인터페이스(1007)를 표시할 수 있다. 제3 서브 인터페이스(1005)는 제2 프롬프트 정보 및 기차표 인터페이스(1006)를 포함한다. 기차표 인터페이스(1008)의 "목적지" 옵션에 현재 표시된 목적지는 선전이다. 이동 전화(300)는 "출발지" 옵션 및 "목적지" 옵션에 대한 사용자의 조작에 응답하여, 사용자가 "출발지" 옵션 및 "목적지" 옵션을 수정했음을 나타내는 조작 지시 정보 d, "출발지" 옵션에서 사용자에 의해 입력된 검색어 "시안" 및 "목적지" 옵션에서 사용자에 의해 입력된 검색어 "선전"을 획득할 수 있다.
결론적으로, 이동 전화(300)가 획득한 조작 정보는 "여행" 애플리케이션의 애플리케이션 식별자, "여행" 애플리케이션의 홈페이지 식별자, 조작 지시 정보 c, 기차표 인터페이스(1006)의 인터페이스 식별자, 조작 지시 정보 d, "출발지" 옵션에 입력된 검색어 "시안" 및 "목적지" 옵션에 입력된 검색어 "선전"을 포함할 수 있다.
도 10a 내지 도 10c 각각은 종료 버튼(1004)을 포함한다. 예를 들어, 도 10c에 도시된 종료 버튼(1004)에서 사용자가 수행한 탭 조작(즉, 제2 조작)에 응답하여, 이동 전화(300)는 하나 이상의 조작의 기록을 종료하고 제3 인터페이스를 표시할 수 있다.
여행 애플리케이션의 경우, 다음과 같은 복수의 사용자 문장 템플릿 단말(100)에 구성될 수 있다: "(애플리케이션 식별자)에서 [검색어 1]에서 [검색어 2]로 가는 (인터페이스 식별자) 구매", "[검색어 1]에서 [검색어 2]로 가는 (인터페이스 식별자) 구매", "[검색어 1]에서 [검색어 2]로 가는 (인터페이스 식별자) ", "[검색어 2]로 가는 (인터페이스 식별자)" 등. 조작 정보는 애플리케이션 식별자 "여행", 기차표 인터페이스(1006)의 인터페이스 식별자, "출발지" 옵션에 입력된 검색어 "시안", "목적지" 옵션에 입력된 검색어 "선전" 및 기차표 인터페이스(1008)의 인터페이스 식별자를 포함한다고 가정한다. 이동 전화(300)는 다음의 텍스트 정보를 얻기 위해 여행 애플리케이션의 사용자 문장 템플릿에 운영 정보를 채운다: "(여행)에서 [시안]에서 [선전]으로 가능 (기차표) 구매", "[시안]에서 [선전]으로 (기차표) 구매", "[시안]에서 [선전]으로 가는 (기차표)" 등.
예를 들어, 이동 전화(300)는 도 10c에 도시된 종료 버튼(1004)에 대한 사용자의 탭 조작에 응답하여, 도 11c에 도시된 제3 인터페이스(1101)를 표시할 수 있다. 제3 인터페이스(1101)는 복수의 텍스트 정보, 예를 들어, "(여행)에서 [시안]에서 [선전]으로 가는 (기차표) 구매", "[시안]에서 [선전]으로 가는 (기차표) 구매", "[시안]에서 [선전]으로 가는 (기차표)"(1102), "[선전]으로 가는 (기차표)"(1103)를 포함한다.
단말(100)은 제3 인터페이스에서 하나 이상의 텍스트 정보에 대한 사용자의 선택 동작을 수신할 수 있다. 예를 들어, 이동 전화(300)는 제3 인터페이스(1101)에서 "[시안]에서 [선전]으로 가능 (기차표)]"(1102) 및 "[선전]으로 가는 (기차표)"(1103) 텍스트 정보에 대해 사용자가 수행한 선택 동작을 수신할 수 있다. 이동 전화(300)는 제3 인터페이스(1101)에 표시된 "[시안]에서 [선전]으로 가는 기차표"(1102)에 대한 사용자의 선택 동작에 응답하여, 제1 사용자 문장 템플릿 "[출발지]에서 [목적지]"로 가는 제1 사용자 설명 템플릿을 사용하여 "[출발지]에서 [목적지]까지의 (기차표)"라는 제1 템플릿 텍스트를 생성할 수 있다. 이동 전화(300)는 제3 인터페이스(1101)에 표시된 텍스트 정보 "[선전]으로 가는 (기차표)"(1103)에 대한 사용자의 선택 동작에 응답하여, 제1 사용자 문장 템플릿 "[목적지]로 가는 (인터페이스 식별자)"를 생성할 수 있다.
이동 전화(300)는 "[시안]에서 [선전]으로 가는 (기차표)]"(1102) 및 "[선전]으로 가는 (기차표)"라는 제1 텍스트 정보에 대한 사용자의 선택 조작에 응답하여, 도 11c에 도시된 제4 인터페이스(1108)를 표시할 수 있다. 제4 인터페이스(1108)는 제3 프롬프트 정보 "당신의 조작에 따라, 다음번에 음성 어시스턴트에게 말할 수 있다: [출발지]에서 [목적지]로 가는 (기차표) 및 [목적지]로 가는 (기차표)"를 포함할 수 있다. 선택적으로, 도 11c에 도시된 바와 같이, 제4 인터페이스(1108)는 제1 템플릿 텍스트 "[출발지]에서 [목적지]까지의 (기차표)", 예를 들어 "상하이에서 시안으로 가는 기차표"의 문장 인스턴스를 더 포함할 수 있고, 제1 템플릿 텍스트 "[목적지]로 가는 (기차표)", 예를 들어 "시안으로 가는 기차표"의 문장 인스턴스를 더 포함할 수 있다.
이동 전화(300)는 도 12a에 도시된 음성 제어 인터페이스(1201)에서 "기록" 버튼(1202)에 대한 사용자의 터치 및 홀드 동작에 응답하여, 사용자에 의해 입력된 제1 음성 명령, 예를 들어 "상하이에서 시안으로 가는 기차표"를 수신할 수 있다. 이동 전화(300)는 제1 음성 명령 "상하이에서 시안으로 가는 기차표"가 제1 템플릿 텍스트 "[출발지]에서 [목적지]까지의 (기차표)"와 일치한다고 결정할 수 있다. 따라서, 이동 전화(300)는 도 12b 내지 도 12d에 도시된 동작 인터페이스를 순차적으로 표시할 수 있다.
조작 정보(즉, 제1 조작 정보)는 "여행" 애플리케이션의 애플리케이션 식별자, "여행" 애플리케이션의 홈페이지 식별자, 조작 지시 정보 c, 기차표 인터페이스(1006)의 인터페이스 식별자, 작동 지시 정보 d, "출발지" 옵션에 입력된 검색어 "시안", "목적지" 옵션에 입력된 검색어 "선전"을 포함하고, 제1 음성 명령은 "상하이에서 시안으로 가는 기차표"이다. 따라서, 제2 조작 정보는 "여행" 애플리케이션의 애플리케이션 식별자, "여행" 애플리케이션의 홈페이지 식별자, 조작 지시 정보 c, 기차표 인터페이스의 인터페이스 식별자, 조작 지시 정보 d, "출발지" 옵션에 입력된 검색어 "상하이" 및 "목적지" 옵션에 입력된 검색어 "시안"을 포함한다.
사용자가 음성 제어 인터페이스(1201)에 입력한 제1 음성 명령 "상하이에서 시안으로 가는 기차표"에 응답하여, 이동 전화(300)는 제2 조작 정보에서의 애플리케이션 식별자 "여행"을 기반으로 "여행" 애플리케이션을 시작하고, "여행" 애플리케이션의 홈페이지 식별자를 기반으로 "여행" 애플리케이션의 홈페이지를 표시할 수 있다. 이동 전화(300)는 조작 지시 정보 c(사용자가 "여행" 애플리케이션의 홈페이지에서 "기차표" 옵션을 탭했음을 나타내는 데 사용되는 조작 지시 정보)에 기초하여, 사용자가 "여행" 애플리케이션의 홈페이지에서 "기차" 옵션을 탭하도록 시뮬레이션하여, 도 12b에 도시된 인터페이스(1203)를 표시한다. 이어서, 이동 전화(300)는 기차표 인터페이스의 인터페이스 식별자를 기반으로 기차표 인터페이스를 표시하고, 조작 지시 정보 d(사용자가 "출발지" 옵션을 수정했음을 나타내는 데 사용되는 조작 지시 정보)를 기반으로 "출발지" 옵션" 및 "목적지" 옵션을 수정하는 데 사용되는 조작 지시 정보를 시뮬레이션함으로써 도 12c에 도시된 인터페이스(1204)를 표시할 수 있다. 또한, 이동 전화(300)는 "출발지" 옵션에 입력된 검색어 "상하이"와 "목적지" 옵션에 입력된 검색어 "시안"을 기반으로 도 12d에 도시된 디스플레이 인터페이스(1205)를 표시할 수 있다. 이와 같이, 사용자가 도 12a에 도시된 음성 제어 인터페이스(1201)에서 이동 전화(300)에 "상하이에서 시안으로 가는 기차표"라는 음성 명령을 입력한 후, 이동 전화(300)는 도 12b 내지 도 12d에 도시된 동작 인터페이스를 자동으로 표시할 수 있다. 이동 전화(300)가 상하이에서 시안까지의 기차표를 조회하도록 트리거링하기 위해 사용자는 도 12d에 도시된 인터페이스(1205)에서 "질의" 버튼을 탭하기만 하면 된다.
사용자가 동일한 오브젝트에 대해 서로 다른 이름(또는 문장)을 가질 수 있음을 고려하여, 단말(100)은 제4 인터페이스를 표시하기 전에 별칭 입력 창을 포함하는 제5 인터페이스를 더 표시할 수 있다. 이러한 방식으로 사용자는 별칭 입력 창에서 제1 텍스트 정보에 대한 별칭을 만들 수 있다. 구체적으로, 단말(100)이 제4 인터페이스를 표시하는 것은 다음을 포함할 수 있다. 단말(100)은 제5 인터페이스를 표시한다. 제5 인터페이스에는 별칭 입력 창이 있다. 별칭 입력 창은 제2 텍스트 정보를 수신하는 데 사용되며 제2 텍스트 정보는 사용자가 제1 텍스트 정보에 대해 생성한 별칭이다. 단말(100)은 제5 인터페이스에서 사용자가 수행한 제5 조작을 수신한다. 제5 조작은 단말(100)이 텍스트 정보의 기록을 종료하도록 트리거링하는 데 사용된다. 단말(100)은 제5 조작에 응답하여 제4 인터페이스를 표시한다.
예를 들어, 이동 전화(300)는 도 11a에 도시된 제3 인터페이스(1101)에서 제1 텍스트 정보 "[시안]에서 [선전]으로 가는 (기차표)"(1102) 및 "[선전]으로 가는 (기차표)"에 대한 사용자의 선택 조작에 응답하여 도 11b에 도시된 제5 인터페이스(1104)를 표시할 수 있다. 제5 인터페이스(1104)는 별칭 입력 창(1107)을 포함한다.
이동 전화(300)는 도 13a에 도시된 제3 인터페이스(1301)에서 "[타오바오]를 통해 (우유) 구매"(1302)라는 제1 텍스트 정보에 대한 사용자의 선택 동작에 응답하여 도 13b에 도시된 제5 인터페이스(1303)를 표시할 수 있다. 제5 인터페이스(1303)는 별칭 입력 창(1305)를 포함한다.
선택적으로, 제5 인터페이스는 사용자가 별칭 입력 창에 제2 텍스트 정보를 입력하도록 지시하는 데 사용되는 프롬프트 정보를 더 포함할 수 있다. 예를 들어, 도 13b에 도시된 제5 인터페이스(1303)는 "팁: 별칭 입력 창에 앞서 언급한 명령에 대한 별칭을 입력할 수 있다"라는 프롬프트 정보를 더 포함한다.
선택적으로, 제5 인터페이스는 제4 프롬프트 정보를 더 포함할 수 있다. 제4 프롬프트 정보는 사용자가 선택한 제1 텍스트 정보를 나타내는 데 사용된다. 예를 들어, 도 11b에 도시된 제5 인터페이스(1104)는 제4 프롬프트 정보 "[시안]에서 [선전]으로 가는 (기차표)"(1105) 및 "[선전]으로 가는 (기차표)"(1106)를 더 포함한다. 도 13b에 도시된 제5 인터페이스(1303)는 "[타오바오]를 통해 우유 구매"(1304) 프롬프트 정보를 더 포함한다.
제5 인터페이스에서 사용자가 수행하는 제5 조작은 제5 인터페이스에서 "OK" 버튼에 대해 사용자가 수행하는 탭 조작(예를 들어, 단일 탭 조작)일 수 있다. 예를 들어, 제5 조작은 도 11b에 도시된 "OK" 버튼에 대한 사용자의 탭 조작일 수 있다. 대안으로, 제5 인터페이스에서 사용자가 수행하는 제5 조작은 제5 인터페이스에서 사용자에 의해 입력된 미리 설정된 제스처일 수 있다. 예를 들어, 미리 설정된 제스처는 슬라이드 업 제스처, S자 제스처 등일 수 있다.
일부 사용자는 제5 인터페이스의 별칭 입력 창에 제2 텍스트 정보를 입력하지 않는 것을 이해할 수 있다. 다시 말해, 사용자는 제1 텍스트 정보에 대한 별칭을 만들지 않는다. 이 경우, 단말(100)은 제5 조작에 대응하여 제4 인터페이스를 직접 표시할 수 있다. 예를 들어, 이동 전화(300)는 도 11b에 도시된 "확인" 버튼에 대한 사용자의 탭 조작에 응답하여 도 11c에 도시된 제4 인터페이스(1108)를 표시할 수 있다.
일부 다른 사용자는 제1 텍스트 정보의 별칭을 만들기 위해 제5 인터페이스의 별칭 입력 창에 제2 텍스트 정보를 입력한다. 이 경우, 단말(100)이 제5 인터페이스를 표시한 후, 단말(100)은 사용자가 별칭 입력 창에 입력한 제2 텍스트 정보를 수신하고, 별칭 입력 창에 제2 텍스트 정보를 표시할 수 있다. 이에 대응하여, 단말(100)은 제5 인터페이스에서 사용자가 수행한 제5 조작에 대응하여 제2 텍스트 정보 및 제2 텍스트 정보와 조작 정보 간의 대응 관계를 저장할 수 있다. 이와 같이, 단말(100)은 제2 텍스트 정보와 동일한 텍스트의 제2 음성 명령을 수신한 후, 제2 텍스트 정보에 대응하는 조작 정보에 기초하여 조작 정보에 대응하는 조작을 수행할 수 있다.
예를 들어, 이동 전화(300)는 도 13b에 도시된 제5 인터페이스(1303)의 별칭 입력 창(1305)에 사용자에 의해 입력된 제2 텍스트 정보 "타오바오에서 우유"를 수신하고, 도 13c에 도시된 제5 인터페이스(1306)를 표시할 수 있다. 도 13c에 도시된 바와 같이, 별칭 입력 창(1305)에는 제2 텍스트 정보 "타오바오에서 우유"가 표시된다. 이동 전화(300)는 도 13c에 도시된 "OK" 버튼에 대한 사용자의 탭 조작에 응답하여 도 13d에 도시되어 있고 제2 텍스트 정보 "타오바오에서 우유"(1310)를 포함하는 제4 인터페이스(1308)를 표시할 수 있다.
제2 텍스트 정보는 "타오바오에서 우유"이고, 조작 정보는 애플리케이션 식별자 "타오바오", 조작 지시 정보 a, 조작 지시 정보 b 및 검색어 "우유"를 포함한다고 가정한다. 이동 전화(300)는 제2 텍스트 정보 "타오바오에서 우유"와 애플리케이션 식별자 "타오바오", 조작 지시 정보 a, 조작 지시 정보 b 및 검색어 "우유"를 포함하는 조작 정보 간의 대응 관계를 저장할 수 있다. 제2 텍스트 정보와 조작 정보의 대응은 다음과 같은 목적으로 사용된다: 단말(100)이 제2 텍스트 정보와 동일한 텍스트를 갖는 제2 음성 명령을 수신하면, 단말(100)이 수행하도록 트리거링하도록 사용자를 시뮬레이션하도록 단말(100)에 지시한다. 제2 음성 명령에 대응하는 동작을 표시하고, 대응하는 동작 인터페이스를 표시한다.
본 출원의 본 실시예에서 제공되는 음성 제어 명령 생성 방법에 따르면, 단말(100)은 제1 텍스트 정보에 대해 사용자가 생성한 별칭(즉, 제2 텍스트 정보)의 서비스를 더 제공할 수 있다. 또한, 제2 문자 정보를 수신하면, 단말(100)의 음성 어시스턴트는 사용자가 단말(100)이 제2 음성 명령에 대응하는 동작을 수행하도록 트리거링하고 대응하는 조작 인터페이스를 표시하도록 시뮬레이션할 수 있다. 이러한 방식으로 커스텀 음성 제어의 유연성이 향상되고 사용자 경험이 향상될 수 있다.
전술한 기능을 구현하기 위해, 단말 등은 기능을 수행하기 위한 대응하는 하드웨어 구조 및/또는 소프트웨어 모듈을 포함한다는 것을 이해할 수 있을 것이다. 당업자는 본 명세서에 개시된 실시예를 참조하여 설명된 예의 유닛, 알고리즘 및 단계를 쉽게 인식해야 하며, 본 출원의 실시예는 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 조합에 의해 구현될 수 있다. 기능이 하드웨어에 의해 수행되는지 또는 컴퓨터 소프트웨어에 의해 구동되는 하드웨어에 의해 수행되는지는 특정 애플리케이션과 기술 솔루션의 설계 제약에 따라 다르다. 당업자는 각각의 특정 애플리케이션에 대해 설명된 기능을 구현하기 위해 상이한 방법을 사용할 수 있지만, 구현이 본 출원의 실시예의 범위를 벗어나는 것으로 간주되어서는 안 된다.
본 출원의 실시예에서, 단말 등은 전술한 방법 예에 기초하여 기능 모듈로 분할될 수 있다. 예를 들어, 각 기능 모듈은 대응하는 각 기능을 기준으로 분할하여 획득할 수 있거나, 둘 이상의 기능을 하나의 프로세싱 모듈에 통합할 수 있다. 통합 모듈은 하드웨어 형태로 구현되거나 소프트웨어 기능 모듈의 형태로 구현될 수 있다. 본 출원의 실시예에서, 모듈로의 분할은 예시이며 단지 논리적 기능의 분할이며, 실제 구현에서 다른 분할일 수 있음을 유의해야 한다.
각 기능 모듈을 해당 기능별로 나누면 구할 수 있다. 도 14는 전술한 실시예에서의 단말의 가능한 개략적인 구조도이다. 단말(1400)은 디스플레이 유닛(1401), 입력 유닛(1402), 기록 유닛(1403), 결정 유닛(1404) 및 실행 유닛(1405)을 포함한다.
디스플레이 유닛(1401)은 전술한 방법 실시예에서 "제1 조작에 응답하여 프롬프트 정보를 표시"하는 동작, S201, S202 및 S204를 수행하는 데 있어서 단말(1400)을 지원하도록 구성되고, 그리고/또는 본 명세서에 설명된 기술의 다른 프로세스를 수행하도록 구성된다.
입력 유닛(1402)은 단말(1400)이 "사용자에 의해 입력된 제1 조작을 수신하는" 동작, "사용자에 의해 입력된 제2 조작을 수신하는" 동작, "사용자에 의해 입력된 사용자에 의해 입력된 제4 조작 수신하는" 동작, S205, S207, "사용자에 의해 입력된 제5 조작을 수신"하는 동작 및 전술한 방법 실시예에서 "사용자가 별칭 입력 창에 입력한 제2 텍스트 정보를 수신"하는 동작을 수행할 때 단말을 지원하도록 구성되며, 및/또는 본 명세서에 설명된 기술의 다른 프로세스를 수행하도록 구성된다. 기록 유닛(1403)은 전술한 방법 실시예에서 S203을 수행할 때 단말(1400)을 지원하도록 구성되고 및/또는 본 명세서에서 설명된 기술의 다른 프로세스를 수행하도록 구성된다. 결정 유닛(1404)은 전술한 방법 실시예에서 S206을 수행할 때 단말(1400)을 지원하도록 구성되고 및/또는 본 명세서에서 설명된 기술의 다른 프로세스를 수행하도록 구성된다. 실행 유닛(1405)은 전술한 방법 실시예에서 S208 및 S902를 수행할 때 단말(1400)을 지원하도록 구성되고 및/또는 본 명세서에서 설명된 기술의 다른 프로세스를 수행하도록 구성된다.
단말(1400)은 생성 부 및 저장 유닛을 더 포함할 수 있다. 생성 부는 전술한 방법 실시예에서 S901을 수행할 때 단말(1400)을 지원하도록 구성되고 및/또는 본 명세서에서 설명된 기술의 다른 프로세스를 수행하도록 구성된다.
저장 유닛은 조작 정보, 제1 텍스트 정보, 제2 텍스트 정보, 제1 템플릿 텍스트, 제2 텍스트 정보와 조작 정보 사이의 대응 등을 저장하도록 구성된다.
전술한 방법 실시예의 단계의 모든 관련 내용은 대응하는 기능 모듈의 기능 설명에 인용될 수 있다. 자세한 내용은 여기서 다시 설명하지 않는다.
확실히, 단말(1400)은 위에 나열된 유닛 및 모듈을 포함하지만 이에 제한되지 않는다. 예를 들어, 단말(1400)은 수신 유닛 및 전송 유닛을 더 포함할 수 있다. 수신 유닛은 데이터 또는 다른 단말에서 보낸 명령을 수신하도록 구성된다. 전송 유닛은 데이터 또는 명령을 다른 단말로 전송하도록 구성된다. 또한, 기능 유닛에 의해 구체적으로 구현될 수 있는 기능은 전술한 경우의 방법 단계에 대응하는 기능을 포함하지만 이에 제한되지 않는다. 단말(1400)의 다른 유닛에 대한 자세한 설명은 각 유닛에 대응하는 방법 단계에 대한 자세한 설명을 참조한다. 본 출원의 이 실시예에서 자세한 내용은 여기서 다시 설명되지 않는다.
통합 유닛을 사용하는 경우, 도 15는 전술한 실시예에서의 단말의 가능한 개략적인 구조도이다. 단말(1500)은 프로세싱 모듈(1501), 저장 모듈(1502) 및 디스플레이 모듈(1503)을 포함한다. 프로세싱 모듈(1501)은 단말(1500)의 동작을 제어 및 관리하도록 구성된다. 디스플레이 모듈(1503)은 프로세싱 모듈(1501)에 의해 생성된 이미지를 표시하도록 구성된다. 저장 모듈(1502)은 단말의 프로그램 코드 및 데이터를 저장하도록 구성된다. 예를 들어, 저장 모듈(1502)은 조작 정보, 제1 텍스트 정보, 제2 텍스트 정보, 제1 템플릿 텍스트, 제2 텍스트 정보와 조작 정보 간의 대응관계 등을 저장한다. 선택적으로, 단말(1500)은 다른 네트워크 엔티티와 통신할 때 단말을 지원하도록 구성된 통신 모듈을 더 포함할 수 있다. 단말(1500)에 포함된 유닛에 대한 자세한 설명은 전술한 방법 실시예의 설명을 참조한다. 자세한 내용은 여기서 다시 설명하지 않는다.
프로세싱 모듈(1501)은 프로세서 또는 컨트롤러일 수 있으며, 예를 들어 중앙 처리 장치(Central Processing Unit, CPU), 범용 프로세서, 디지털 신호 프로세서(Digital Signal Processor, DSP), 애플리케이션 특정 집적 회로(Application-Specific Integrated Circuit, ASIC), 필드 프로그래밍 가능 게이트 어레이(Field Programmable Gate Array, FPGA), 다른 프로그래밍 가능 논리 장치, 트랜지스터 논리 장치, 하드웨어 구성 요소 또는 이들의 조합. 프로세서는 본 출원에 개시된 내용을 참조하여 설명된 다양한 예시적인 논리 블록, 모듈 및 회로를 구현하거나 실행할 수 있다. 프로세서는 대안으로 컴퓨팅 기능을 구현하는 프로세서의 조합, 예를 들어 하나 이상의 마이크로프로세서의 조합 또는 DSP와 마이크로프로세서의 조합일 수 있다. 통신 모듈은 트랜시버, 트랜시버 회로, 통신 인터페이스 등일 수 있다. 저장 모듈(1502)은 메모리일 수 있다.
프로세싱 모듈(1501)이 프로세서(예를 들어, 도 1에 도시된 프로세서(110))인 경우, 통신 모듈은 Wi-Fi 모듈과 블루투스 모듈(예를 들어, 도 1에 도시된 통신 모듈(160))을 포함한다. Wi-Fi 모듈 및 블루투스 모듈과 같은 통신 모듈은 통칭하여 통신 인터페이스라고 할 수 있다. 스토리지 모듈(1502)은 메모리(예를 들어, 도 1에 도시된 내부 메모리(121))이다. 디스플레이 모듈(1503)이 터치 스크린(도 1에 도시된 디스플레이 스크린(194) 포함)인 경우, 본 출원의 본 실시예에서 제공되는 단말은 도 1에 도시된 단말(100)일 수 있다. 프로세서, 통신 인터페이스, 터치 스크린 및 메모리는 버스를 사용하여 함께 결합될 수 있다.
본 출원의 실시예는 컴퓨터 저장 매체를 더 제공한다. 컴퓨터 저장 매체는 컴퓨터 프로그램 코드를 저장하고, 프로세서가 컴퓨터 프로그램 코드를 실행할 때, 단말은 도 2 또는 도 9의 관련 방법 단계를 수행하여 전술한 실시예의 방법을 구현한다.
본 출원의 실시예는 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 컴퓨터는 도 2 또는 도 9의 관련 방법 단계를 수행하여 전술한 실시예의 방법을 구현할 수 있다.
본 출원의 실시예들에서 제공되는 단말(1400), 단말(1500), 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품은 각각 위에서 제공 한 대응 방법을 수행하도록 구성된다. 따라서, 단말(1400), 단말(1500), 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품이 달성할 수 있는 유익한 효과에 대해서는 상기 제공된 해당 방법의 유익한 효과를 참조한다. 자세한 내용은 여기서 다시 설명하지 않는다.
전술한 구현의 설명에 기초하여, 당업자는 편리하고 간단한 설명을 위해 전술한 기능 모듈로의 분할이 단지 예시를 위한 예로서 사용된다는 것을 명확하게 이해할 수 있다. 실제 적용에서, 전술한 기능은 요구 사항에 따라 구현을 위해 서로 다른 모듈에 할당될 수 있다. 즉, 장치의 내부 구조는 위에서 설명한 기능의 전부 또는 일부를 구현하기 위해 서로 다른 기능 모듈로 분할된다.
본 출원에서 제공되는 여러 실시예에서, 개시된 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 예를 들어, 설명된 장치 실시예는 단지 예일 뿐이다. 예를 들어, 모듈 또는 유닛으로의 분할은 단순히 논리적 기능 분할이며 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성 요소가 결합되거나 다른 장치에 통합될 수 있거나, 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 사이의 간접 결합 또는 통신 연결은 전자적 형태, 기계적 형태 또는 다른 형태로 구현될 수 있다.
분리된 부분으로 기술된 유닛은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있고, 유닛으로 표시되는 부분은 하나 이상의 물리적 유닛일 수 있고 한 장소에 위치할 수도 있고 다른 장소에 분산될 수도 있다. 유닛의 일부 또는 전부는 실시예의 솔루션의 목적을 달성하기 위한 실제 요구 사항에 기초하여 선택될 수 있다.
또한, 본 출원의 실시예의 기능 유닛은 하나의 처리 유닛에 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛에 통합될 수 있다. 통합 유닛은 하드웨어 형태로 구현될 수도 있고 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.
통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되어 독립적인 제품으로 판매 또는 사용되는 경우, 통합 유닛은 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 출원의 실시예의 기술적 솔루션, 또는 종래 기술에 기여하는 부분, 또는 기술적 솔루션의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 저장 매체에 저장되며 장치(단일 칩 마이크로컴퓨터, 칩 등이 될 수 있음) 또는 프로세서(processor)가 조작 단계의 전부 또는 일부를 수행하도록 지시하는 여러 명령을 포함한다. 본 출원의 실시예에서 방법. 저장 매체는 프로그램 코드를 저장할 수 있는 임의의 매체, 예를 들어 USB 플래시 드라이브, 이동식 하드 디스크, ROM, RAM, 자기 디스크 또는 광 디스크를 포함한다.
전술한 설명은 본 출원의 특정 구현일 뿐이며 본 출원의 보호 범위를 제한하려는 것은 아니다. 본 출원에 공개된 기술적 범위 내의 모든 변경 또는 교체는 본 출원의 보호 범위에 속한다. 따라서 본 출원의 보호 범위는 청구 범위의 보호 범위에 따른다.

Claims (20)

  1. 음성 제어 명령 생성 방법으로서,
    단말이 음성 어시스턴트의 제1 인터페이스에 제1 조작에 응답하여 프롬프트 정보를 표시하는 단계 - 상기 프롬프트 정보는 기록될 조작(to-be-recorded operation)을 입력하도록 사용자에게 프롬프트하도록 구성됨 - ;
    상기 단말이 제2 인터페이스에서 상기 사용자에 의해 입력된 하나 이상의 조작을 수신하는 단계;
    상기 단말이 상기 사용자에 의해 입력된 제2 조작에 응답하여 상기 하나 이상의 조작에 대응하는 조작 정보를 기록하는 단계;
    상기 단말이 상기 사용자에 의해 입력된 제3 조작을 수신한 이후에, 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하는 단계 - 상기 제1 텍스트 정보는 제1 부분 및 제2 부분을 포함함 - ;
    상기 단말이 제1 음성 명령을 수신하는 단계; 및
    상기 단말이 상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 일치할 때 상기 조작 정보에 기초하여 대응하는 조작을 수행하는 단계
    를 포함하며,
    상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 일치한다는 것은:
    상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 일치하지 않고; 그리고 상기 제1 음성 명령에 대응하는 텍스트에서 제3 부분과 제4 부분의 위치 관계가 상기 제1 텍스트 정보에서 상기 제1 부분과 상기 제2 부분 사이의 위치 관계와 동일하며; 상기 제3 부분이 상기 제1 부분과 다르거나, 상기 제4 부분이 상기 제2 부분과 다르다는 것
    을 포함하고,
    상기 조작 정보는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함하고; 상기 제1 애플리케이션 식별자는 상기 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 애플리케이션(operation object interface)의 식별자이고, 상기 제1 인터페이스 식별자는 상기 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 인터페이스(operation object interface)의 식별자이고, 상기 조작 지시 정보는 상기 하나 이상의 조작을 통해 상기 오퍼레이션 오브젝트 인터페이스에서 수행되는 조작을 지시하도록 구성되며; 그리고
    상기 제1 부분은 상기 제1 애플리케이션 식별자 및 상기 제1 인터페이스 식별자 중 적어도 하나를 포함하고, 상기 제2 부분은 상기 제1 검색어를 포함하고,
    상기 단말이 상기 사용자에 의해 입력된 제3 조작을 수신한 이후에, 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하는 단계 이전에, 상기 음성 제어 명령 생성 방법은,
    상기 단말이 상기 제2 조작에 응답하여 제3 인터페이스를 표시하는 단계
    를 더 포함하며,
    상기 제3 인터페이스는 적어도 2 개의 텍스트 정보를 포함하고, 상기 적어도 2 개의 텍스트 정보는 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 ⅰ) 상기 제1 애플리케이션 식별자 및 ⅱ) 상기 제1 인터페이스 식별자와 상기 제1 검색어 중 적어도 하나를 연결하여 형성된 구문(statement)인, 음성 제어 명령 생성 방법.
  2. 제1항에 있어서,
    상기 단말이 제2 인터페이스에서 상기 사용자에 의해 입력된 하나 이상의 조작을 수신하는 단계는:
    상기 단말이 상기 제1 인터페이스에서 상기 사용자에 의해 수행된 제4 조작에 응답하여 상기 제2 인터페이스를 표시하는 단계 - 상기 제2 인터페이스는 상기 사용자가 하나 이상의 조작을 입력하는 데 사용되도록 구성됨 - ; 및
    상기 단말이 상기 제2 인터페이스에서 상기 사용자에 의해 입력된 상기 하나 이상의 조작을 수신하는 단계
    를 포함하는, 음성 제어 명령 생성 방법.
  3. 제1항에 있어서,
    상기 단말이 상기 사용자에 의해 입력된 제3 조작을 수신한 이후에, 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하는 단계는:
    상기 단말이 제3 인터페이스의 상기 적어도 2 개의 텍스트 정보 중 상기 제1 텍스트 정보에 대해 상기 사용자에 의해 수행된 상기 제3 조작을 수신하는 단계 - 상기 제3 조작은 상기 적어도 2 개의 텍스트 정보 중에서 상기 제1 텍스트 정보를 선택하도록 구성됨 - ; 및
    상기 단말이 상기 제3 조작에 응답하여 상기 제1 텍스트 정보를 상기 조작 정보에 대응하는 상기 텍스트 정보로 결정하는 단계
    를 포함하는, 음성 제어 명령 생성 방법.
  4. 제3항에 있어서,
    상기 단말이 상기 제3 조작에 응답하여 상기 제1 텍스트 정보를 상기 조작 정보에 대응하는 상기 텍스트 정보로 결정하는 단계 이후에, 상기 단말이 제1 음성 명령을 수신하는 단계 이전에, 상기 음성 제어 명령 생성 방법은:
    상기 단말이 제1 템플릿 텍스트를 생성하는 단계
    를 더 포함하고,
    상기 제1 템플릿 텍스트는 상기 제1 텍스트 정보의 제2 부분을 상기 제1 검색어의 유형 정보로 대체하여 생성하며;
    상기 제1 음성 명령의 텍스트가 상기 제1 텍스트 정보와 일치한다는 것은 구체적으로: 상기 제1 음성 명령의 텍스트가 상기 제1 템플릿 텍스트와 일치한다는 것이며; 그리고
    상기 제1 음성 명령의 텍스트가 상기 제1 템플릿 텍스트와 일치한다는 것은: 상기 제1 음성 명령에 대응하는 상기 텍스트의 상기 제3 부분이 상기 제1 부분과 동일하고, 상기 제1 음성 명령에서 상기 제3 부분과 상기 제4 부분 사이의 위치 관계가 상기 제1 텍스트 정보에서 상기 제1 부분과 상기 제2 부분 사이의 위치 관계와 동일하고, 상기 제4 부분은 상기 제1 템플릿 텍스트의 유형 정보에 의해 지시되는 유형의 단어인 것을 포함하는, 음성 제어 명령 생성 방법.
  5. 제4항에 있어서,
    상기 단말이 제1 템플릿 텍스트를 생성하는 단계 이후, 상기 단말이 제1 음성 명령을 수신하는 단계 이전에, 상기 음성 제어 명령 생성 방법은:
    상기 단말이 제4 인터페이스를 표시하는 단계
    를 더 포함하며,
    상기 제4 인터페이스는 상기 제1 템플릿 텍스트와 일치하는 상기 제1 음성 명령을 음성 어시스턴트를 통해 전송하여 상기 단말이 대응하는 동작을 수행하도록 트리거링하기 위해 상기 사용자에게 프롬프트하도록 구성되는, 음성 제어 명령 생성 방법.
  6. 제5항에 있어서,
    상기 단말이 제4 인터페이스를 표시하는 단계 이전에, 상기 음성 제어 명령 생성 방법은:
    상기 단말이 제5 인터페이스를 표시하는 단계 - 상기 제5 인터페이스는 별칭 입력 창(alias input box)을 포함하고, 상기 별칭 입력 창은 제2 텍스트 정보를 수신하도록 구성되며, 상기 제2 텍스트 정보는 상기 제1 텍스트 정보에 대해 상기 사용자에 의해 생성된 별칭임 - ; 및
    상기 단말이 상기 사용자가 상기 별칭 입력 창에 입력한 상기 제2 텍스트 정보를 수신하고, 상기 제2 텍스트 정보를 상기 별칭 입력 창에 표시하는 단계
    를 더 포함하며,
    상기 단말이 제4 인터페이스를 표시하는 단계는:
    상기 단말이 상기 제5 인터페이스에서 상기 사용자에 의해 수행된 제5 조작을 수신하는 단계 - 상기 제5 조작은 상기 단말이 상기 텍스트 정보의 기록을 종료하도록 트리거링하도록 구성됨 - ; 및
    상기 단말이 상기 제5 조작에 응답하여 상기 제4 인터페이스를 표시하는 단계
    를 포함하며,
    상기 음성 제어 명령 생성 방법은:
    상기 단말이 상기 제5 조작에 응답하여 상기 제2 텍스트 정보 및 상기 제2 텍스트 정보와 상기 조작 정보 간의 대응관계를 저장하는 단계
    를 더 포함하며,
    상기 단말에 의해 표시되는 상기 제4 인터페이스는 상기 제2 텍스트 정보를 더 포함하는, 음성 제어 명령 생성 방법.
  7. 제6항에 있어서,
    상기 음성 제어 명령 생성 방법은:
    상기 단말이 상기 음성 어시스턴트를 통해 사용자에 의해 입력된 제2 음성 명령을 수신하는 단계; 및
    상기 제2 음성 명령의 텍스트가 상기 제2 텍스트 정보와 동일할 때, 상기 단말이 상기 제2 텍스트 정보와 상기 조작 정보 사이의 대응관계에 기초하여 상기 조작 정보에 대응하는 동작을 수행하는 단계
    를 더 포함하는 음성 제어 명령 생성 방법.
  8. 단말로서,
    상기 단말은 하나 이상의 프로세서, 메모리 및 디스플레이를 포함하며, 상기 메모리 및 상기 디스플레이는 상기 프로세서에 결합되고, 상기 디스플레이는 상기 프로세서에 의해 생성된 이미지를 표시하도록 구성되고, 상기 메모리는 컴퓨터 프로그램 코드 및 음성 어시스턴트의 관련 정보를 저장하도록 구성되고, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령을 포함하고, 상기 프로세서가 상기 컴퓨터 명령을 실행할 때,
    상기 프로세서는 제1 조작에 응답하여 프롬프트 정보를 표시하도록 상기 디스플레이를 제어하도록 구성되며, 상기 프롬프트 정보는 기록될 조작(to-be-recorded operation)을 입력하도록 사용자에게 프롬프트하도록 구성되고;
    상기 프로세서는: 상기 사용자에 의해 입력된 하나 이상의 조작을 수신하고, 상기 사용자에 의해 입력된 제2 조작에 응답하여 상기 하나 이상의 조작에 대응하는 조작 정보를 기록하며, 상기 조작 정보를 상기 메모리에 저장하도록 추가로 구성되어 있으며;
    상기 프로세서는: 상기 사용자에 의해 입력된 제3 조작을 수신한 이후에, 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하고 - 상기 제1 텍스트 정보는 제1 부분 및 제2 부분을 포함함 - , 제1 음성 명령을 수신하며, 상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 일치할 때 상기 조작 정보에 기초하여 대응하는 조작을 수행하도록 추가로 구성되어 있으며,
    상기 제1 음성 명령에 대응하는 텍스트가 상기 제1 텍스트 정보와 일치한다는 것은:
    상기 제1 음성 명령에 대응하는 텍스트는 상기 제1 텍스트 정보와 일치하지 않고; 그리고 상기 제1 음성 명령에 대응하는 텍스트에서 제3 부분과 제4 부분의 위치 관계는 상기 제1 텍스트 정보에서 상기 제1 부분과 상기 제2 부분 사이의 위치 관계와 동일하며; 상기 제3 부분은 상기 제1 부분과 다르거나, 상기 제4 부분은 상기 제2 부분과 다르다는 것
    을 포함하고,
    상기 프로세서에 의해 기록되는 조작 정보는 제1 애플리케이션 식별자, 제1 인터페이스 식별자, 제1 검색어 및 조작 지시 정보를 포함하고; 상기 제1 애플리케이션 식별자는 상기 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 애플리케이션(operation object interface)의 식별자이고, 상기 제1 인터페이스 식별자는 상기 하나 이상의 조작에 대응하는 오퍼레이션 오브젝트 인터페이스(operation object interface)의 식별자이고, 상기 조작 지시 정보는 상기 하나 이상의 조작을 통해 상기 오퍼레이션 오브젝트 인터페이스에서 수행되는 조작을 지시하도록 구성되며; 그리고
    상기 제1 부분은 상기 제1 애플리케이션 식별자 및 상기 제1 인터페이스 식별자 중 적어도 하나를 포함하고, 상기 제2 부분은 상기 제1 검색어를 포함하고,
    상기 프로세서는: 상기 사용자에 의해 입력된 제3 조작을 수신한 이후에, 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하기 전에, 상기 제2 조작에 응답하여 제3 인터페이스를 표시하도록 상기 디스플레이를 제어하도록 추가로 구성되어 있으며,
    상기 제3 인터페이스는 적어도 2 개의 텍스트 정보를 포함하고, 상기 적어도 2 개의 텍스트 정보는 연결 단어를 사용하여 미리 설정된 위치 관계에 기초하여 ⅰ) 상기 제1 애플리케이션 식별자 및 ⅱ) 상기 제1 인터페이스 식별자와 상기 제1 검색어 중 적어도 하나를 연결하여 형성된 문장(statement)인, 단말.
  9. 제8항에 있어서,
    상기 프로세서가 상기 제1 조작에 응답하여 프롬프트 정보를 표시하도록 상기 디스플레이를 제어하도록 구성되는 것은:
    상기 프로세서가 상기 제1 조작에 응답하여 음성 어시스턴트의 제1 인터페이스에 상기 프롬프트 정보를 표시하도록 상기 디스플레이를 제어하도록 구성되는 것
    을 포함하며,
    상기 프로세서가 상기 사용자에 의해 입력된 하나 이상의 조작을 수신하도록 구성되는 것은:
    상기 프로세서가: 상기 제1 인터페이스에서 상기 사용자에 의해 수행된 제4 조작에 응답하여 제2 인터페이스를 표시하도록 상기 디스플레이를 제어하고 - 상기 제2 인터페이스는 상기 사용자가 하나 이상의 조작을 입력하는 데 사용되도록 구성됨 - ; 그리고 상기 디스플레이에 의해 표시된 상기 제2 인터페이스에서 상기 사용자에 의해 입력된 상기 하나 이상의 조작을 수신하도록 구성되는 것
    을 포함하는, 단말.
  10. 제8항에 있어서,
    상기 프로세서가 상기 사용자에 의해 입력된 제3 조작을 수신한 이후에, 상기 조작 정보에 대응하는 제1 텍스트 정보를 결정하도록 구성되는 것은:
    상기 프로세서가 상기 디스플레이에 의해 표시된 제3 인터페이스에서 상기 적어도 2 개의 텍스트 정보 중 상기 제1 텍스트 정보에 대해 상기 사용자에 의해 수행된 상기 제3 조작을 수신하고; 그리고 상기 제3 조작에 응답하여 상기 제1 텍스트 정보를 상기 조작 정보에 대응하는 상기 텍스트 정보로 결정하도록 구성되는 것
    을 포함하며,
    상기 제3 조작은 상기 적어도 2개의 텍스트 정보 중에서 상기 제1 텍스트 정보를 선택하도록 구성되는, 단말.
  11. 제8항 또는 제10항에 있어서,
    상기 프로세서는: 상기 제3 조작에 응답하여 상기 제1 텍스트 정보를 상기 조작 정보에 대응하는 상기 텍스트 정보로 결정한 후에, 상기 제1 음성 명령을 수신하기 전에, 제1 템플릿 텍스트를 생성하도록 추가로 구성되고,
    상기 제1 템플릿 텍스트는 상기 제1 텍스트 정보의 제2 부분을 상기 제1 검색어의 유형 정보로 대체하여 생성되며;
    상기 프로세서는: 상기 제1 음성 명령의 텍스트가 상기 제1 템플릿 텍스트와 일치할 때, 상기 제1 음성 명령의 텍스트가 상기 제1 텍스트 정보와 일치한다는 것으로 결정하도록 추가로 구성되어 있으며;
    상기 제1 음성 명령의 텍스트가 상기 제1 템플릿 텍스트와 일치한다는 것은: 상기 제1 음성 명령에 대응하는 상기 텍스트의 상기 제3 부분은 상기 제1 부분과 동일하고, 상기 제3 부분과 상기 제1 텍스트 정보의 상기 제4 부분 사이의 위치 관계는 상기 제1 부분과 상기 제1 텍스트 정보의 제2 부분 사이의 위치 관계와 동일하고, 상기 제4 부분은 상기 제1 템플릿 텍스트의 유형 정보에 의해 지시되는 유형의 단어인 것을 포함하는, 단말.
  12. 제11항에 있어서,
    상기 프로세서는: 상기 제1 템플릿 텍스트를 생성한 후, 상기 제1 음성 명령을 수신하기 전에, 제4 인터페이스를 표시하도록 상기 디스플레이를 제어하도록 추가로 구성되어 있으며,
    상기 제4 인터페이스는 상기 제1 템플릿 텍스트와 일치하는 상기 제1 음성 명령을 상기 음성 어시스턴트를 통해 전송하여 상기 단말이 대응하는 동작을 수행하는 것을 상기 사용자에게 프롬프트하도록 구성되는, 단말.
  13. 제12항에 있어서,
    상기 프로세서는: 상기 제4 인터페이스를 표시하도록 상기 디스플레이를 제어하기 전에, 제5 인터페이스를 표시하도록 상기 디스플레이를 제어하도록 추가로 구성되어 있으며,
    상기 제5 인터페이스는 별칭 입력 창을 포함하고, 상기 별칭 입력 창은 제2 텍스트 정보를 수신하도록 구성되며, 상기 제2 텍스트 정보는 상기 제1 텍스트 정보에 대해 상기 사용자에 의해 생성된 별칭이며;
    상기 프로세서가 상기 제4 인터페이스를 표시하도록 상기 디스플레이를 제어하는 것은:
    상기 프로세서가 상기 디스플레이에 의해 표시된 상기 제5 인터페이스에서 상기 사용자에 의해 수행된 제5 조작을 수신하며 - 상기 제5 조작은 상기 단말이 상기 텍스트 정보의 기록을 종료하도록 트리거링하도록 구성됨 - ; 그리고 상기 제5 조작에 응답하여 상기 제4 인터페이스를 표시하도록 상기 디스플레이를 제어하도록 구성되는 것; 및
    상기 프로세서가 상기 제5 조작에 응답하여 상기 제2 텍스트 정보 및 상기 제2 텍스트 정보와 상기 조작 정보 간의 대응관계를 저장하도록 추가로 구성되는 것
    을 포함하며,
    상기 디스플레이에 의해 표시되는 상기 제4 인터페이스는 상기 제2 텍스트 정보를 더 포함하는, 단말.
  14. 제13항에 있어서,
    상기 프로세서는: 상기 음성 어시스턴트를 통해 사용자에 의해 입력된 제2 음성 명령을 수신하며; 그리고 상기 제2 음성 명령의 텍스트가 상기 제2 텍스트 정보와 동일할 때, 상기 단말이 상기 제2 텍스트 정보와 상기 조작 정보의 대응관계에 기초하여 상기 조작 정보에 대응하는 동작을 수행하도록 추가로 구성되어 있는, 단말.
  15. 컴퓨터 명령을 저장한 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 명령이 단말 상에서 실행될 때, 상기 단말은 제1항 내지 제7항 중 어느 한 항에 따른 음성 제어 명령 생성 방법을 수행할 수 있는, 컴퓨터 명령을 저장한 컴퓨터 판독 가능 저장 매체.
  16. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 상기 컴퓨터는 제1항 내지 제7항 중 어느 한 항에 따른 음성 제어 명령 생성 방법을 수행할 수 있는, 컴퓨터 프로그램.
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020217006712A 2018-08-07 2018-08-07 음성 제어 명령 생성 방법 및 단말 KR102527178B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/099253 WO2020029094A1 (zh) 2018-08-07 2018-08-07 一种语音控制命令生成方法及终端

Publications (2)

Publication Number Publication Date
KR20210040424A KR20210040424A (ko) 2021-04-13
KR102527178B1 true KR102527178B1 (ko) 2023-04-27

Family

ID=69413951

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217006712A KR102527178B1 (ko) 2018-08-07 2018-08-07 음성 제어 명령 생성 방법 및 단말

Country Status (6)

Country Link
US (1) US11848016B2 (ko)
EP (1) EP3826280B1 (ko)
JP (1) JP7173670B2 (ko)
KR (1) KR102527178B1 (ko)
CN (2) CN115050358A (ko)
WO (1) WO2020029094A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447177B (zh) * 2019-09-04 2022-08-23 思必驰科技股份有限公司 全双工语音对话方法及系统
US11474782B2 (en) * 2020-03-31 2022-10-18 Brother Kogyo Kabushiki Kaisha Information processing apparatus, information processing method and non-transitory computer-readable medium
CN114697717A (zh) * 2020-12-28 2022-07-01 深圳Tcl新技术有限公司 一种文本输入方法和终端设备
CN114979366B (zh) * 2021-02-24 2023-10-13 腾讯科技(深圳)有限公司 一种控件提示方法、装置、终端以及存储介质
CN114115790A (zh) * 2021-11-12 2022-03-01 上汽通用五菱汽车股份有限公司 语音对话提示方法、装置、设备及计算机可读存储介质
CN114237025A (zh) * 2021-12-17 2022-03-25 上海小度技术有限公司 语音交互方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278419A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Voice command definitions used in launching application with a command
US20150348551A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4734191B2 (ja) 2006-07-31 2011-07-27 富士通株式会社 オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法
US20080140413A1 (en) 2006-12-07 2008-06-12 Jonathan Travis Millman Synchronization of audio to reading
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR101699720B1 (ko) 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
JP5665659B2 (ja) 2011-06-09 2015-02-04 京セラ株式会社 通信端末装置
CN102510426A (zh) * 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
CN202798881U (zh) * 2012-07-31 2013-03-13 北京播思软件技术有限公司 一种使用语音命令控制移动设备运行的装置
CN102855872B (zh) 2012-09-07 2015-08-05 深圳市信利康电子有限公司 基于终端及互联网语音交互的家电控制方法及系统
KR101505127B1 (ko) * 2013-03-15 2015-03-26 주식회사 팬택 음성 명령에 의한 오브젝트 실행 장치 및 방법
JP6360484B2 (ja) 2013-09-03 2018-07-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話制御方法
CN104951458B (zh) 2014-03-26 2019-03-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN105354199B (zh) 2014-08-20 2019-10-08 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和系统
KR102301880B1 (ko) 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US10192549B2 (en) 2014-11-28 2019-01-29 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
CN105869640B (zh) 2015-01-21 2019-12-31 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
US20160225369A1 (en) 2015-01-30 2016-08-04 Google Technology Holdings LLC Dynamic inference of voice command for software operation from user manipulation of electronic device
CN105895093A (zh) 2015-11-02 2016-08-24 乐视致新电子科技(天津)有限公司 语音信息处理方法及装置
CN106128456A (zh) * 2016-06-16 2016-11-16 美的集团股份有限公司 智能家电的语音控制方法、终端及系统
CN106528531B (zh) 2016-10-31 2019-09-03 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN108010523B (zh) * 2016-11-02 2023-05-09 松下电器(美国)知识产权公司 信息处理方法以及记录介质
JP6733510B2 (ja) 2016-11-10 2020-08-05 株式会社リコー 機器、情報処理システム、情報処理方法及びプログラム
CN107015962A (zh) 2017-03-16 2017-08-04 北京光年无限科技有限公司 面向智能机器人的自定义意图识别的实现方法及装置
CN107015964B (zh) 2017-03-22 2021-10-19 北京光年无限科技有限公司 面向智能机器人开发的自定义意图实现方法及装置
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
CN107277904A (zh) * 2017-07-03 2017-10-20 上海斐讯数据通信技术有限公司 一种终端及语音唤醒方法
CN107506434A (zh) 2017-08-23 2017-12-22 北京百度网讯科技有限公司 基于人工智能分类语音输入文本的方法和装置
CN107861706A (zh) * 2017-11-07 2018-03-30 成都野望数码科技有限公司 一种语音指令的响应方法及装置
KR102361458B1 (ko) * 2018-01-25 2022-02-10 삼성전자주식회사 사용자 발화 응답 방법 및 이를 지원하는 전자 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278419A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Voice command definitions used in launching application with a command
US20150348551A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method

Also Published As

Publication number Publication date
CN111742539A (zh) 2020-10-02
US11848016B2 (en) 2023-12-19
EP3826280B1 (en) 2023-05-24
EP3826280A4 (en) 2021-07-21
JP2021532500A (ja) 2021-11-25
US20210295839A1 (en) 2021-09-23
CN115050358A (zh) 2022-09-13
WO2020029094A1 (zh) 2020-02-13
JP7173670B2 (ja) 2022-11-16
EP3826280A1 (en) 2021-05-26
CN111742539B (zh) 2022-05-06
KR20210040424A (ko) 2021-04-13

Similar Documents

Publication Publication Date Title
KR102470275B1 (ko) 음성 제어 방법 및 전자 장치
KR102527178B1 (ko) 음성 제어 명령 생성 방법 및 단말
CN110134316B (zh) 模型训练方法、情绪识别方法及相关装置和设备
CN111046680B (zh) 一种翻译方法及电子设备
CN110347269B (zh) 一种空鼠模式实现方法及相关设备
US20210263564A1 (en) Display Method for Flexible Display, and Terminal
CN112231025A (zh) Ui组件显示的方法及电子设备
CN110910872A (zh) 语音交互方法及装置
CN113795817A (zh) 一种分屏显示的操作方法及电子设备
CN112312366B (zh) 一种通过nfc标签实现功能的方法、电子设备及系统
CN112119641B (zh) 通过转发模式连接的多tws耳机实现自动翻译的方法及装置
CN112578982A (zh) 一种对电子设备的操作方法及电子设备
CN114077365A (zh) 分屏显示方法和电子设备
CN113141483B (zh) 基于视频通话的共享屏幕方法及移动设备
CN110955452B (zh) 一种非侵入式交互方法及电子设备
CN114115770A (zh) 显示控制的方法及相关装置
CN112740148A (zh) 一种向输入框中输入信息的方法及电子设备
CN115543145A (zh) 一种文件夹管理方法及装置
CN109285563B (zh) 在线翻译过程中的语音数据处理方法及装置
CN113805825B (zh) 设备之间的数据通信方法、设备及可读存储介质
CN113380240B (zh) 语音交互方法和电子设备
US20220036017A1 (en) Method for automatically activating nfc application and terminal
CN115185441A (zh) 控制方法、装置、电子设备及可读存储介质
CN113973152A (zh) 一种未读消息快速回复方法及电子设备
CN114664306A (zh) 一种编辑文本的方法、电子设备和系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant