WO2023103918A1 - 语音控制方法、装置、电子设备及存储介质 - Google Patents

语音控制方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2023103918A1
WO2023103918A1 PCT/CN2022/136342 CN2022136342W WO2023103918A1 WO 2023103918 A1 WO2023103918 A1 WO 2023103918A1 CN 2022136342 W CN2022136342 W CN 2022136342W WO 2023103918 A1 WO2023103918 A1 WO 2023103918A1
Authority
WO
WIPO (PCT)
Prior art keywords
interface
interaction
node
path
voice control
Prior art date
Application number
PCT/CN2022/136342
Other languages
English (en)
French (fr)
Inventor
戴强
陈明
张晓帆
曾理
Original Assignee
杭州逗酷软件科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杭州逗酷软件科技有限公司 filed Critical 杭州逗酷软件科技有限公司
Publication of WO2023103918A1 publication Critical patent/WO2023103918A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Definitions

  • voice assistants Combining artificial intelligence technology and virtual personal assistants (voice assistants), electronic devices can receive voice instructions from users through auditory modes and complete corresponding interactive tasks. Moreover, in some cases, the user will trigger the electronic device to perform cross-interface control operations. However, in the process of performing cross-interface control operations based on voice control, there are still problems of high technical cost and efficiency that needs to be improved.
  • the present application proposes a voice control method, device, electronic equipment and storage medium, so as to improve the above problems.
  • the present application provides a voice control method, the method comprising: acquiring voice control instructions; acquiring an interaction path from the second interface to the first interface and an interaction trigger corresponding to the interaction path according to the interface interaction information mode, the interface interaction information includes the interaction trigger mode between interfaces with interaction relationship, the first interface is the interface pointed to by the voice control instruction, and the second interface is the The interface displayed during voice control commands.
  • the present application provides a voice control device, the device comprising: an instruction processing unit, configured to acquire voice control instructions; an interaction acquiring unit, configured to acquire an interaction from the second interface to the first interface according to the interface interaction information
  • the interaction path and the interaction trigger mode corresponding to the interaction path, the interface interaction information includes the interaction trigger mode between the interfaces with interaction relationship, the first interface is the interface pointed to by the voice control instruction, and the
  • the second interface is an interface displayed when the electronic device acquires the voice control instruction; an interaction executing unit is configured to perform page interaction according to the interaction path and the interaction triggering manner to display the first interface.
  • the present application provides an electronic device, including one or more processors and a memory; one or more programs are stored in the memory and configured to be executed by the one or more processors, The one or more programs are configured to perform the methods described above.
  • the present application provides a computer-readable storage medium, where a program code is stored in the computer-readable storage medium, wherein the above method is executed when the program code is running.
  • the interface interaction information after acquiring the voice control instruction and the interface interaction information including the interaction trigger mode between the interfaces with the interaction relationship, the interface interaction information based on the first
  • the second interface triggers to display the interaction path of the first interface and the interaction trigger mode corresponding to the interaction path, and performs page interaction according to the interaction path and the interaction trigger mode to display the first interface.
  • FIG. 1 shows a schematic diagram of an application scenario of a voice control method proposed in an embodiment of the present application
  • FIG. 2 shows a schematic diagram of an application scenario of another voice control method proposed in the embodiment of the present application
  • FIG. 3 shows a flow chart of a voice control method proposed in an embodiment of the present application
  • Fig. 5 shows a schematic diagram of another interactive triggering manner in the embodiment of the present application.
  • FIG. 6 shows a flowchart of a voice control method proposed in another embodiment of the present application.
  • FIG. 7 shows a schematic diagram of an interface interaction diagram in an embodiment of the present application.
  • Fig. 8 shows a schematic diagram of calculating complete execution probability in the embodiment of the present application.
  • FIG. 9 shows a schematic diagram of an interface interaction diagram in an embodiment of the present application.
  • FIG. 11 shows a structural block diagram of a voice control device proposed in the embodiment of the present application.
  • FIG. 12 shows a structural block diagram of another voice control device proposed by the embodiment of the present application.
  • Fig. 13 shows a structural block diagram of an electronic device proposed by the present application
  • Fig. 14 is a storage unit for storing or carrying program codes for realizing the voice control method according to the embodiment of the present application according to the embodiment of the present application.
  • An embodiment of the present application provides a voice control method, which is applied to an electronic device.
  • the method includes: acquiring a voice control instruction; acquiring an interaction path from the second interface to the first interface according to the interface interaction information, and the interaction path corresponding to the The interaction triggering method, the interface interaction information includes the interaction triggering method between the interfaces with the interaction relationship, the first interface is the interface pointed to by the voice control instruction, and the second interface is obtained by the electronic device The interface displayed when the voice control instruction is received; performing page interaction according to the interaction path and the interaction triggering manner to display the first interface.
  • the interface interaction information includes an interface interaction relationship graph
  • the interface interaction relationship graph includes a plurality of nodes, each of which represents an interface, where a node with a connection relationship represents that the interface corresponding to the node has Interaction relationship
  • the acquisition of the interaction path from the second interface to the first interface according to the interface interaction information and the interaction trigger mode corresponding to the interaction path includes: acquiring the first node and acquiring the second node, the first node is a node corresponding to the first interface in the interface interaction diagram, and the second node is a node corresponding to the second interface in the interface interaction diagram; in the interface interaction diagram Obtain the node path from the second node to the first node as the interaction path from the second interface to the first interface; use the interaction trigger mode corresponding to the node included in the node path as The interaction trigger mode corresponding to the interaction path.
  • the obtaining a node path from the second node to the first node in the interface interaction graph as an interaction path from the second interface to the first interface includes: Obtain the node path from the second node to the first node in the interface interaction diagram; if there are multiple node paths, select a node path from the plurality of node paths based on path selection parameters as the node path from the second node An interaction path from the second interface to the first interface.
  • the path selection parameter includes a complete execution probability of the node path
  • the selection of a node path from multiple node paths based on the path selection parameter as the interaction path from the second interface to the first interface includes : If there is one corresponding node path with the highest complete execution probability, use the corresponding node path with the highest complete execution probability as the interaction path from the second interface to the first interface.
  • the path selection parameter also includes the path length of the node path
  • the method further includes: if there are multiple corresponding node paths with the highest complete execution probability, selecting the corresponding node paths with the highest complete execution probability , the corresponding node path with the shortest path length is used as the interaction path from the second interface to the first interface.
  • the method further includes: obtaining the corresponding interaction failure rate between every two adjacent nodes in the nodes included in the node path to obtain multiple interaction failure rates; obtaining the product of the multiple interaction failure rates As the execution failure rate corresponding to the node path; the difference between the preset value and the execution failure rate is used as the complete execution probability of the node path.
  • the acquiring the second node includes: acquiring the interface features of the second interface; matching the interface features with the interface features of the interface corresponding to the nodes in the interface interaction diagram; matching the interface features of the corresponding interface A node whose feature successfully matches the interface feature of the second interface is used as a second node.
  • the acquiring the interface features of the second interface includes: inputting the properties of the controls included in the second interface into the designated deep neural network model, the properties including the size information of the controls in the interface, the At least one of the position information of the controls, the hierarchical structure of the controls in the interface, and the arrangement information of the controls in the interface; obtaining the feature vector output by the specified deep neural network model as the interface feature of the second interface.
  • the method before acquiring the interaction path from the second interface to the first interface according to the interface interaction information and the interaction trigger mode corresponding to the interaction path, the method further includes: acquiring the text content corresponding to the voice control instruction; The text content is matched with the control operations included in each of the multiple interfaces; the interface whose included control operations are successfully matched with the text content is used as the first interface.
  • using the interface that successfully matches the included control operations with the text content as the first interface includes: if there is an interface that successfully matches the included control operations with the text content, matching the successfully matched The interface is used as the first interface; if there is no interface that successfully matches the included control operation with the text content, a prompt message that cannot respond to the voice control command is issued; record that the electronic device that receives the voice control command receives the voice control command.
  • the interactive operation performed within the specified time period after the voice control instruction, and the interactive operation performed within the specified time period is sent to the server, so as to be used by the server based on the specified time period uploaded by different electronic devices
  • the first interface corresponding to the voice control instruction is updated by the interactive operation performed in the device.
  • the identifying the interface included in the electronic device includes: identifying the interface included in the electronic device by means of icon identification.
  • the acquiring the text content corresponding to the voice control instruction includes: performing a voice-to-text operation on the voice control command to obtain the text content corresponding to the voice control command; or performing voice-to-text conversion on the voice control command
  • the content obtained by the text operation is then obtained by keyword acquisition to obtain the text content corresponding to the voice control instruction.
  • the method further includes: during the page interaction, if the interaction If there is an interface that cannot be successfully interacted with in the path, a prompt message that cannot respond to the voice control command is issued; record the electronic device that receives the voice control command within a specified time period after detecting the interface that cannot be successfully interacted with.
  • the interactive operation performed, and the interactive operation performed within the specified time length is sent to the server, so that the server updates the interface interaction information based on the interactive operation performed within the specified time length uploaded by the electronic device .
  • the method before acquiring the interaction path from the second interface to the first interface according to the interface interaction information and the interaction trigger mode corresponding to the interaction path, the method further includes: the target operation corresponding to the acquired voice control instruction; detecting the Whether the second interface corresponds to the target operation; if the second interface does not correspond to the target operation, perform the acquisition of the interaction path from the second interface to the first interface and the interaction path according to the interface interaction information The corresponding interactive trigger method;
  • An embodiment of the present application provides a voice control device, which runs on electronic equipment, and the device includes: an instruction processing unit, configured to acquire voice control instructions; an interaction acquisition unit, configured to acquire the interaction from the second interface to the second interface according to the interface interaction information.
  • An embodiment of the present application provides an electronic device, including one or more processors and a memory; one or more programs are stored in the memory and configured to be executed by the one or more processors, the One or more programs are configured to execute the methods provided in the embodiments of the present application.
  • An embodiment of the present application provides a computer-readable storage medium, wherein a program code is stored in the computer-readable storage medium, wherein the method provided in the embodiment of the present application is executed when the program code is running.
  • a voice control method provided by the present application, the method includes:
  • the interface interaction information includes the interface interaction diagram
  • the interface interaction diagram includes a plurality of nodes, each of the nodes represents an interface, and the nodes with connection relationship It is characterized that the interface corresponding to the node has an interaction relationship.
  • node 1 represents the setting interface
  • node 2 represents the quick search interface
  • the arrows between the interfaces in FIG. 7 indicate that there is an interaction relationship between the interfaces, and the direction of the arrow indicates the direction of the interaction.
  • the interaction triggering mode between the interfaces represented by the two nodes is also indicated at the arrows. For example, for the interfaces represented by node 1 and node 2, clicking the control named setting in the interface represented by node 2 can trigger the electronic device to switch and display the interface represented by node 1.
  • the acquiring the second node includes: acquiring interface features of the second interface.
  • the acquiring the interface features of the second interface includes: inputting the properties of the controls included in the second interface into the designated deep neural network model, the properties including the size information of the controls in the interface, the At least one of the position information of the controls, the hierarchical structure of the controls in the interface, and the arrangement information of the controls in the interface; obtaining the feature vector output by the specified deep neural network model as the interface feature of the second interface. Matching the interface feature with the interface feature of the interface corresponding to the node in the interface interaction diagram; using the node whose interface feature of the corresponding interface successfully matches the interface feature of the second interface as the second node.
  • node path L1 includes node 1, node 2, and node 3, wherein the interaction failure rate between node 1 and node 2 is r1, and the interaction failure rate between node 2 and node 3 is rate r3, then the complete execution probability corresponding to node path L1 is 1 (preset value) minus r1 ⁇ r2.
  • node path L2 includes node 1, node 4, and node 3, where the interaction failure rate between node 1 and node 4 is r3, and the interaction failure rate between node 4 and node 3 is r4, then the node path The complete execution probability corresponding to L2 is 1 (preset value) minus r3 ⁇ r4.
  • the electronic device may detect whether each interface interaction is successful during the interface interaction process based on the determined interaction path and interaction trigger mode, so as to update the interaction failure rate between the two nodes.
  • the corresponding interaction failure rate between the two nodes may be a ratio of the number of times that the execution of the interaction between the two nodes fails and the number of times the two nodes are determined to be in the interaction path for the final interface interaction. Exemplarily, if the determined node path is the node path L1 shown in FIG.
  • the complete execution probabilities corresponding to multiple node paths are the same.
  • the node path with the shortest path length can be selected as the interaction path from among the node paths with the highest complete execution probability.
  • the path selection parameter also includes the path length of the node path, and the method further includes: if there are multiple corresponding node paths with the highest complete execution probability, select the corresponding multiple nodes with the highest complete execution probability Among the paths, the corresponding node path with the shortest path length is used as an interaction path from the second interface to the first interface.
  • the node path may include the number of nodes needed to pass from the second node to the first node.
  • S250 Perform page interaction according to the interaction path and the interaction triggering manner to display the first interface.
  • a prompt message that cannot respond to the voice control command is issued;
  • the electronic device of the voice control instruction performs an interactive operation within a specified time period after detecting an interface that cannot be successfully interacted with, and sends the interactive operation performed within the specified time period to the server for use in all
  • the server updates the interface interaction information based on the interaction operations performed within the specified time period uploaded by the electronic device.
  • updating includes: updating the failure rate between the first node to be processed and the second node to be processed.
  • the first node to be processed is a node corresponding to an interface that cannot be successfully interacted with
  • the second node to be processed is a node corresponding to an interface that fails to interact based on the interface that cannot be successfully interacted with.
  • the determined node path includes: from node 5 to node 9 first, then from node 9 to node 8, and then from node 8 to node 7.
  • interface that is, the interface corresponding to node 8
  • node 8 can be used as the first node to be processed
  • node 7 can be used as the second node to be processed, so as to update the failure rate from node 8 to node 7.
  • the update may also include: according to the interfaces involved in the user's manual operation process, adding the nodes in the interface interaction diagram or the interaction triggering modes between the interfaces represented by the nodes.
  • the electronic device cannot jump to the interface corresponding to node 7 based on the interface corresponding to node 8, it is detected that the user first performs "swipe up from the bottom of the screen" on the interface corresponding to node 8 to trigger the electronic device.
  • the device displays the interface corresponding to node 5, and then clicks the control whose name is set in the interface corresponding to node 5, triggers the electronic device to display the interface corresponding to node 1, and then clicks the name in the interface corresponding to node 1.
  • the voice control method through the above method, by first obtaining the interface interaction information, after obtaining the interface (the first interface) expected to be accessed by the voice control instruction, it can be directly based on the desired access.
  • the interface, the currently displayed interface, and the interface interaction information match a path from the currently displayed interface interaction to the desired interface, and the interaction triggering method included in the path during execution, for electronic
  • the device can directly execute the path to trigger and display the desired interface, so that there is no need to separately configure the corresponding interface control process for each voice control instruction, reducing the technical cost of voice control.
  • a voice control instruction can be directly triggered to display the finally desired interface, the efficiency of voice control is improved.
  • the interface interaction diagram can be established according to the way in which the interfaces in the electronic device interact with each other, so that when it is necessary to determine the interaction path and the interaction trigger mode corresponding to the interaction path, it can be directly based on the interface interaction diagram.
  • the nodes in the node are used to improve the efficiency of determining the interaction path and the interaction trigger method corresponding to the interaction path.
  • S352 Record the interactive operations performed by the electronic device that receives the voice control instruction within a specified period of time after receiving the voice control instruction, and send the interactive operations performed within the specified period of time to the server,
  • the first interface corresponding to the voice control instruction is updated with the interactive operations performed by the server based on the interactive operations uploaded by different electronic devices within the specified time period.
  • the text content obtained after converting the voice control command is matched with the control operations or labels included in the interface, so that the successfully matched interface is used as the first interface.
  • the interface operated by the user after sending out the voice control command can be recorded and uploaded to the server.
  • the server can analyze the user's control operation after issuing the same voice control command, and can use the same interface in the manual control operation after the same voice control command issued by different users as the first corresponding to the voice control command. interface.
  • the electronic device fails to obtain the corresponding first interface, and starts to record the user's manual control operation, wherein the control operation performed by user A is: node 6 -> node 2 -> node 1->node 7->node 100, the control operation performed by user B is: node 5->node 8->node 7->node 200.
  • node 7 is an interface commonly operated by user A and user B, then it can be determined that the first interface corresponding to voice control m1 is the interface corresponding to node 7 .
  • the electronic device may supplement the text content converted by the voice control m1 in the label corresponding to the node 7 .
  • S342 Obtain an interaction path from the second interface interaction to the first interface and an interaction trigger mode corresponding to the interaction path according to the interface interaction information, where the interface interaction information includes an interaction trigger mode between interfaces with an interaction relationship, the The first interface is the interface pointed to by the voice control instruction, and the second interface is the interface displayed when the electronic device acquires the voice control instruction.
  • S343 Perform page interaction according to the interaction path and the interaction triggering manner to display the first interface.
  • the electronic device determines the first interface according to the voice control instruction, and has successfully executed the determined interaction path to display the determined first interface.
  • the first interface may not be the interface that the user actually expects to access.
  • it may be detected whether multiple users have performed the same operation after the first interface determined for the same voice control command has been displayed. If it is detected that multiple users have performed the same operation, the displayed interface triggered by the same operation is updated to the first interface actually corresponding to the same pair of voice control instructions.
  • the voice control instruction is to start Bluetooth
  • the electronic device originally determines that the first interface is the interface corresponding to node 1 in FIG. Both execute ⁇ click, Bluetooth ⁇ to reach the interface corresponding to node 7. Then the electronic device will update the first interface corresponding to the voice control command "start Bluetooth" to the interface corresponding to the node 7 .
  • the voice control method through the above method, by first obtaining the interface interaction information, after obtaining the interface (the first interface) expected to be accessed by the voice control instruction, it can be directly based on the desired access.
  • the interface, the currently displayed interface, and the interface interaction information match a path from the currently displayed interface interaction to the desired interface, and the interaction triggering method included in the path during execution, for electronic
  • the device can directly execute the path to trigger and display the desired interface, so that there is no need to separately configure the corresponding interface control process for each voice control instruction, reducing the technical cost of voice control.
  • a voice control instruction can be directly triggered to display the finally desired interface, the efficiency of voice control is improved.
  • the user's operation process on the interface can also be uploaded to the server, so that the server can control the corresponding interface.
  • the voice control instruction is updated, so as to increase the probability of matching the first interface according to the user's voice control instruction.
  • a voice control device 400 provided by the present application, the device 400 includes:
  • the instruction processing unit 410 is configured to obtain voice control instructions.
  • the interface whose included control operation successfully matches the text content is used as the first interface.
  • the instruction processing unit 410 is specifically configured to, if there is an interface that successfully matches the included control operation with the text content, use the successfully matched interface as the first interface;
  • the interface where the text content is successfully matched sends out a prompt message that the voice control command cannot be responded to;
  • An interaction acquisition unit 420 configured to acquire an interaction path from the second interface to the first interface and an interaction triggering mode corresponding to the interaction path according to interface interaction information, the interface interaction information including interactions between interfaces with interaction relationships
  • the first interface is the interface pointed to by the voice control instruction
  • the second interface is the interface displayed when the electronic device obtains the voice control instruction.
  • the interaction execution unit 430 is configured to perform page interaction according to the interaction path and the interaction triggering manner to display the first interface.
  • the interface interaction information includes an interface interaction relationship graph
  • the interface interaction relationship graph includes a plurality of nodes, each of which represents an interface, wherein a node with a connection relationship represents an interface corresponding to the node have an interactive relationship.
  • the interaction obtaining unit 420 is specifically configured to obtain a first node and a second node, the first node is a node corresponding to the first interface in the interface interaction diagram, and the The second node is a node corresponding to the second interface in the interface interaction diagram; obtaining a node path from the second node to the first node in the interface interaction diagram as a path from the second node to the first node An interaction path from the second interface to the first interface; using an interaction trigger mode corresponding to a node included in the node path as an interaction trigger mode corresponding to the interaction path.
  • the interaction acquisition unit 420 is specifically configured to acquire a node path from the second node to the first node in the interface interaction diagram; if there are multiple node paths, select parameters based on the path Selecting a node path from multiple node paths as an interaction path from the second interface to the first interface.
  • the path selection parameter includes the complete execution probability of the node path.
  • the interaction obtaining unit 420 is specifically configured to, if there is one corresponding node path with the highest complete execution probability, use the corresponding node path with the highest complete execution probability as the interaction path from the second interface to the first interface.
  • the path selection parameter also includes the path length of the node path.
  • the interaction acquisition unit 420 is specifically configured to acquire the interface features of the second interface; match the interface features with the interface features of the interface corresponding to the nodes in the interface interaction diagram; and match the interface features of the corresponding interface A node whose feature successfully matches the interface feature of the second interface is used as a second node.
  • the interaction acquisition unit 420 is specifically configured to input the attributes of the controls included in the second interface into the specified deep neural network model, the attributes including the size information of the controls in the interface and the position information of the controls in the interface , at least one of the hierarchical structure of the controls in the interface and the arrangement information of the controls in the interface; obtaining the feature vector output by the specified deep neural network model as the interface feature of the second interface.
  • the device further includes an interaction update unit 440, which is used to issue an instruction that cannot be used for voice control if there is an interface that cannot be successfully interacted with in the interaction path during the page interaction process.
  • Response prompt information ; record the interactive operation performed by the electronic device that receives the voice control instruction within a specified time period after receiving the voice control instruction, and record the interactive operation performed within the specified time period and sent to the server, for the server to update the first interface corresponding to the voice control instruction based on the interactive operations performed within the specified time period uploaded by different electronic devices.
  • each functional module in each embodiment of the present application may be integrated into one processing module, each module may exist separately physically, or two or more modules may be integrated into one module.
  • the above-mentioned integrated modules can be implemented in the form of hardware or in the form of software function modules.
  • an embodiment of the present application also provides an electronic device 1000 capable of executing the aforementioned voice control method.
  • the electronic device 1000 includes one or more (only one is shown in the figure) processors 102 , a memory 104 , a camera 106 and an audio collection device 108 coupled to each other.
  • the memory 104 stores programs capable of executing the contents of the foregoing embodiments, and the processor 102 can execute the programs stored in the memory 104 .
  • the processor 102 may include one or more processing cores.
  • the processor 102 uses various interfaces and circuits to connect various parts of the entire electronic device 1000, and executes or executes instructions, programs, code sets, or instruction sets stored in the memory 104, and calls data stored in the memory 104 to execute Various functions of the electronic device 1000 and processing data.
  • the processor 102 may adopt at least one of Digital Signal Processing (Digital Signal Processing, DSP), Field-Programmable Gate Array (Field-Programmable Gate Array, FPGA), and Programmable Logic Array (Programmable Logic Array, PLA). implemented in the form of hardware.
  • DSP Digital Signal Processing
  • FPGA Field-Programmable Gate Array
  • PLA Programmable Logic Array
  • the processor 102 may integrate one or a combination of a central processing unit (Central Processing Unit, CPU), an image processor (Graphics Processing Unit, GPU), a modem, and the like.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the CPU mainly handles the operating system, user interface and application programs, etc.
  • the GPU is used to render and draw the displayed content
  • the modem is used to handle wireless communication.
  • the processor 102 may be a neural network chip.
  • it may be an embedded neural network chip (NPU).
  • the memory 104 may include random access memory (Random Access Memory, RAM), and may also include read-only memory (Read-Only Memory). Memory 104 may be used to store instructions, programs, codes, sets of codes, or sets of instructions. For example, a device may be stored in memory 104 . The device may be the aforementioned device 400 .
  • the memory 104 may include a program storage area and a data storage area, wherein the program storage area may store instructions for implementing an operating system and instructions for implementing at least one function (such as a touch function, a sound playback function, an image playback function, etc.) , instructions for implementing the following method embodiments, and the like.
  • the network module 110 is used to implement information interaction between the electronic device 1000 and other devices, for example, transmitting device control instructions, manipulation request instructions, and status information acquisition instructions. However, when the electronic device 200 is specifically a different device, its corresponding network module 110 may be different.
  • the pressure sensor may be a sensor for detecting pressure generated by pressing on the electronic device 1000 . That is, the pressure sensor detects pressure generated by contact or press between the user and the electronic device, for example, pressure generated by contact or press between the user's ear and the mobile terminal. Therefore, the pressure sensor can be used to determine whether contact or pressure occurs between the user and the electronic device 1000, and the magnitude of the pressure.
  • the acceleration sensor can detect the magnitude of acceleration in various directions (generally three axes), and can detect the magnitude and direction of gravity when it is still, and can be used to identify the application of electronic equipment 1000 attitude (such as horizontal and vertical screen switching, related games, magnetometer, etc.) Attitude calibration), vibration recognition related functions (such as pedometer, tapping), etc.
  • the electronic device 1000 may also be configured with other sensors such as a gyroscope, a barometer, a hygrometer, and a thermometer, which will not be repeated here.
  • the audio collection device 110 is configured to collect audio signals.
  • the audio collection device 110 includes multiple audio collection devices, and the audio collection devices may be microphones.
  • the network module of the electronic device 1000 is a radio frequency module, and the radio frequency module is used to receive and send electromagnetic waves, realize mutual conversion between electromagnetic waves and electrical signals, and communicate with a communication network or other devices.
  • the radio frequency module may include various existing circuit elements for performing these functions, such as antenna, radio frequency transceiver, digital signal processor, encryption/decryption chip, Subscriber Identity Module (SIM) card, memory and so on.
  • SIM Subscriber Identity Module
  • the radio frequency module can interact with external devices by sending or receiving electromagnetic waves.
  • a radio frequency module can send instructions to a target device.
  • FIG. 14 shows a structural block diagram of a computer-readable storage medium provided by an embodiment of the present application.
  • Program codes are stored in the computer-readable medium 800, and the program codes can be invoked by a processor to execute the methods described in the foregoing method embodiments.
  • the computer readable storage medium 800 may be an electronic memory such as flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM, hard disk, or ROM.
  • the computer-readable storage medium 800 includes a non-transitory computer-readable storage medium (non-transitory computer-readable storage medium).
  • the computer-readable storage medium 800 has a storage space for program code 810 for executing any method steps in the above-mentioned methods. These program codes can be read from or written into one or more computer program products.
  • Program code 810 may, for example, be compressed in a suitable form.
  • the voice control method, device, electronic device and storage medium provided by the present application can, after acquiring the voice control instruction and the interface interaction information including the interaction trigger mode between the interfaces with the interaction relationship, according to the interface Acquiring the interaction information is based on the second interface triggering the display of the interaction path of the first interface and the interaction trigger mode corresponding to the interaction path, and performing page interaction according to the interaction path and the interaction trigger mode to display the first interface. Therefore, through the above method, by first obtaining the interface interaction information, after obtaining the interface (the first interface) expected to be accessed by the voice control command, the interface can be directly based on the interface expected to be accessed, the currently displayed interface, and the interface.
  • the interaction information matches a path from the currently displayed interface interaction to the desired interface, and the interaction triggering method included in the execution of the path, so that the electronic device can directly execute the path to trigger the display
  • the interface that is desired to be accessed further eliminates the need to separately configure a corresponding interface control process for each voice control instruction, reducing the technical cost of voice control. Moreover, because a voice control instruction can be directly triggered to display the finally desired interface, the efficiency of voice control is improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种语音控制方法、装置、电子设备及存储介质,该方法包括:获取语音控制指令(S110);根据界面交互信息获取从第二界面交互至第一界面的交互路径以及交互路径对应的交互触发方式,界面交互信息包括具有交互关系的界面之间的交互触发方式,第一界面为语音控制指令所指向的界面,第二界面为电子设备获取到语音控制指令时所显示的界面(S120);根据交互路径以及交互触发方式进行页面交互以显示第一界面(S130)。通过该方法降低了语音控制的技术成本,并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。

Description

语音控制方法、装置、电子设备及存储介质
相关申请的交叉引用
本申请要求于2021年12月7日提交的申请号为202111512007.8的中国申请的优先权,其在此出于所有目的通过引用将其全部内容并入本文。
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种语音控制方法、装置、电子设备及存储介质。
背景技术
结合人工智能技术以及虚拟个人助理(语音助手),可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。并且,在一些情况下用户会触发电子设备进行跨界面的控制操作,然而相关基于语音控制方式进行跨界面的控制操作的过程中,还存在技术成本较高且效率有待提升的问题。
发明内容
鉴于上述问题,本申请提出了一种语音控制方法、装置、电子设备及存储介质,以实现改善上述问题。
第一方面,本申请提供了一种语音控制方法,所述方法包括:获取语音控制指令;根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
第二方面,本申请提供了一种语音控制装置,所述装置包括:指令处理单元,用于获取语音控制指令;交互获取单元,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;交互执行单元,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
第三方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种语音控制方法、装置、电子设备及存储介质,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种语音控制方法的一种应用场景的示意图;
图2示出了本申请实施例提出的另一种语音控制方法的一种应用场景的示意图;
图3示出了本申请实施例提出的一种语音控制方法的流程图;
图4示出了本申请实施例中一种交互方式的示意图;
图5示出了本申请实施例中另一种交互触发方式的示意图;
图6示出了本申请另一实施例提出的一种语音控制方法的流程图;
图7示出了本申请实施例中一种界面交互关系图的示意图;
图8示出了本申请实施例中一种计算完整执行概率的示意图;
图9示出了本申请实施例中一种界面交互关系图的示意图;
图10示出了本申请再一实施例提出的一种语音控制方法的流程图;
图11示出了本申请实施例提出的一种语音控制装置的结构框图;
图12示出了本申请实施例提出的另一种语音控制装置的结构框图;
图13示出了本申请提出的一种电子设备的结构框图;
图14是本申请实施例的用于保存或者携带实现根据本申请实施例的语音控制方法的程序代码的存储单元。
具体实施方式
本申请实施例提供了一种语音控制方法,应用于电子设备,所述方法包括:获取语音控制指令;根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
可选的,所述界面交互信息包括界面交互关系图,所述界面交互关系图包括多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系;所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,包括:获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点;在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径;将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
可选的,所述在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径,包括:在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。
可选的,所述路径选择参数包括节点路径的完整执行概率,所述基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径,包括:若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。
可选的,所述路径选择参数还包括节点路径的路径长度,所述方法还包括:若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。
可选的,所述方法还包括:获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。
可选的,所述获取第二节点,包括:获取第二界面的界面特征;将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。
可选的,所述获取第二界面的界面特征,包括:将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。
可选的,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:获取所述语音控制指令对应的文本内容;基于所述文本内容与多个界面各自所包括的控制操作进行匹配;将所包括的控制操作与所述文本内容成功匹配的界面作为 第一界面。
可选的,所述将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面包括:若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面;若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息;记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
可选的,所述方法还包括:对所述电子设备中所包括的界面进行识别,以获取到界面所包括的控件;根据界面所包括的控件作对应的控制操作,确定每个界面所包括的控制操作。
可选的,所述对所述电子设备中所包括的界面进行识别,包括:通过代码解析方式对所述电子设备中所包括的界面进行识别。
可选的,所述对所述电子设备中所包括的界面进行识别,包括:通过图文识别方式对所述电子设备中所包括的界面进行识别。
可选的,所述对所述电子设备中所包括的界面进行识别,包括:通过图标识别方式对所述电子设备中所包括的界面进行识别。
可选的,所述获取所述语音控制指令对应的文本内容,包括:对语音控制指令进行语音转文字的操作,以得到所述语音控制指令对应的文本内容;或者对语音控制指令进行语音转文字的操作所得到的内容,再进行关键词获取以得到所述语音控制指令对应的文本内容。
可选的,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之后还包括:在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;记录接收到所述语音控制指令的电子设备在检测到无法成功进行交互的界面后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于电子设备上传的所述指定时间长度内所执行的交互操作更新所述界面交互信息。
可选的,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:获取的语音控制指令对应的目标操作;检测所述第二界面是否对应有所述目标操作;若所述第二界面未对应有所述目标操作,执行所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式;
若所述第二界面对应有所述目标操作,对所述第二界面执行所述目标操作。
本申请实施例提供了一种语音控制装置,运行于电子设备,所述装置包括:指令处理单元,用于获取语音控制指令;交互获取单元,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;交互执行单元,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行本申请实施例提供的方法。
本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行本申请实施例提供的方法。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
智能终端设备的普及给生活带来了种种便利。结合人工智能技术以及虚拟个人助理(语音助手),可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。并且,在一些情况下用户会触发电子设备进行跨界面的控制操作。
但是,发明人在研究中发现,相关基于语音控制方式进行跨界面的控制操作的过程中,还存在技术成本较高且效率有待提升的问题。具体的,在相关的基于语音控制方式进行跨界面的控制操作的过程中,需要为每个语音控制指令配置对应的界面控制过程,进而在语音控制指令较多的情况下,需要对较多的界面控制过程进行维护,造成了较高的技术成本。并且,在另外的相关语音控制方式中,一个语音控制指令只能触发一次界面控制操作,使得在需要多次进行跨界面交互的情况下,用户需要触发多次的语音控制指令,造成语音控制的效率不高。
因此,发明人提出了本申请中的一种语音控制方法、装置、电子设备及存储介质,在获取语音 控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。
从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
下面先对本申请实施例所涉及的应用场景进行介绍。
在本申请实施例中,所提供的语音控制方法可以由电子设备执行。在由电子设备执行的这种方式中,本申请实施例提供的语音控制方法中所有步骤可以均由电子设备执行。例如,如图1所示,通过电子设备100的语音采集装置可以采集语音控制指令,并将采集到的语音采集指令以及目标界面均传输给处理器,使得处理器可以获取语音控制指令,根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,再根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
再者,本申请实施例提供的语音控制方法也可以由服务器进行执行。对应的,在由服务器执行的这种方式中,可以由电子设备采集语音指令,并将采集的语音指令发送给服务器,然后由服务器来执行本申请实施例提供的语音控制方法以确定交互路径以及交互路径对应的交互触发方式,然后由服务器触发电子设备根据交互路径以及交互触发方式进行页面交互以显示第一界面。另外,还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中,本申请实施例提供的语音控制方法中的部分步骤由电子设备执行,而另外部分的步骤则由服务器来执行。
示例性的,如图2所示,电子设备100可以执行语音控制方法包括的:获取语音控制指令,然后由服务器200来执行根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,然后再将交互路径以及交互路径对应的交互触发方式返回给电子设备100,并触发电子设备100根据交互路径以及交互触发方式进行页面交互以显示所述第一界面。
需要说明的是,在由电子设备和服务器协同执行的这种方式中,电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式,在实际应用中,可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。
下面则结合附图来对本申请所涉及的实施例进行介绍。
请参阅图3,本申请提供的一种语音控制方法,所述方法包括:
S110:获取语音控制指令。
在本申请实施例中,用户可以通过语音来表达自己的控制意图。对应的,电子设备可以将用户所发出的语音作为语音控制指令。
S120:根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
在获取到语音控制指令后,则可以根据语音控制指令来确定语音控制指令所指向的界面作为第一界面,对应的,第一界面也可以理解为用户期望访问的界面。
在本申请实施例中,可以有多种根据语音控制指令确定第一界面的方式。
作为一种方式,包括:获取语音控制指令对应的文本内容;基于文本内容与多个界面各自所包括的控制操作进行匹配;将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面。在这种方式中,可以预先对电子设备中所包括的界面进行识别,以获取到所包括界面所包括的控件,从而根据界面所包括的控件作对应的控制操作来确定每个界面所包括的控制操作。
可选的,可以通过代码解析方式对所述界面进行识别。可选的,可以基于Google无障碍服务accessibility实现基于代码解析方式对所述界面进行识别。在这种方式中,对于所识别出的控件可以对应有控件的ID、类型以及描述信息等。其中,控件对应的描述信息用于表征该控件可以实现的控制操作。例如,若控件为用于表征应用程序的名称,则该控件的描述信息中则会包括所表征应用程序的名称。再者,若控件是用于触发对应用程序的下载,则该控件的描述信息中包括有下载。
可选的,可以通过图文识别(例如,光学字符识别)的方式对界面进行识别。在这种方式中,可以对电子设备当前所显示的界面进行截图。然后再对截图得到的图像进行图文识别。在这种方式中,对于所识别 出的控件可以对应有控件的位置以及控件的描述信息。并且,在这种方式中,控件的描述信息可以包括有控件中所显示的文本。
可选的,可以通过图标识别的方式对界面进行识别。在这种方式中,可以对电子设备当前所显示的界面进行截图。然后再对截图得到的图像进行图标识别。在这种方式中,对于所识别出的控件可以对应有控件的位置以及控件的描述信息。并且,在这种方式中,控件的描述信息可以包括所识别出的控件的功能的描述内容。
需要说明的是,在界面未被电子设备进行显示的情况下依然可以通过代码解析方式对界面进行识别,但是,可能不是所有界面都支持通过代码解析方式对界面进行识别,以及界面中的部分控件可能无法被代码解析方式所识别出来。在这种情况下,电子设备可以先通过代码解析方式对所包括的界面进行识别,以得到支持进行代码解析方式的界面所包括的控件对应的控制操作。然后,可以在有界面被电子设备进行显示的情况下,对所显示的界面进行截图,从而在对截图的图像进行图文识别和图标识别,以用于可以更加完善该所显示的界面所包括的控制操作。
示例性的,若电子设备所包括的界面有界面A、界面B、界面C、界面D以及界面E。电子设备可以先尝试通过代码解析方式对界面A、界面B、界面C、界面D以及界面E进行解析。其中,所得到的识别结果可以包括:识别出界面A包括控制操作a1、控制操作a2以及控制操作a3,识别出界面B包括控制操作b1、控制操作b2以及控制操作b3,识别出界面C包括控制操作c1、控制操作c2以及控制操作c3,界面D以及界面E则无法进行代码解析识别。那么当电子设备检测到界面D和界面E在进行显示的时候,则可以通过图文识别和图标识别的方式对界面D和界面E进行识别,从而获取界面D和界面E所包括的控制操作。再者,对于前述支持通过代码解析进行识别的界面A、界面B以及界面C,依然可以在被电子设备显示的时候再基于图文识别和图标识别的方式进行识别,从而获取到界面A、界面B以及界面C中可能存在的无法通过代码解析方式所识别出的控件,以完善界面A、界面B以及界面C各自所包括的控制操作。
在获取得到电子设备所包括的多个界面各自所包括的控制操作后,可以将语音控制指令所对应的文本内容与多个界面各自所包括的控制操作进行匹配,从而从多个界面中选择出用户所期望访问的界面作为第一界面。其中,将文本内容与多个界面各自所包括的控制操作进行匹配,可以理解为将文本内容与多个界面各自所包括的用于描述控件的控制操作的描述信息进行匹配,从而将与文本内容成功匹配的描述信息所对应的控件作为用户所期望操作的控件,进而将用户所期望操作的控件所在的界面作为第一界面。
其中,语音控制指令所对应的文本内容可以为直接对语音控制指令进行语音转文字后得到的内容,也可以为对语音控制指令进行语音转文字后得到的内容进行关键词获取后的关键词内容。例如,电子设备可以在接收到语音控制之后基于预先配置的自动语音识别方式(Automatic Speech Recognition)将语音控制指令转换为对应的文本内容。例如,若接收到的语音控制指令为“打开相册”,那么在对该语音控制指令进行转换后所得到的文本内容则包括“打开相册”。若是直接基所转换得到的文本内容与描述信息进行匹配,则可以将“打开相册”与多个界面各自所包括的用于描述控件的控制操作的描述信息进行匹配。并且,在这种方式中,可以将与本文内容共同包括有相同字符,且所包括的相同字符最多的描述信息,作为与文本内容成功匹配的描述信息。
在对语音控制指令进行语音转文字后得到的内容进行关键词获取的这种方式中,可以基于预先配置的方式对该文本内容进行语义识别。可选的,可以基于自然语言理解(NLU)的方式抽取文本内中的意图、控制对象和对象附属信息,整合为样式为{action,object,information}的三元组。其中,action表征意图,或者可以理解为控制目的,object表征控制对象,information则表征对象附属信息。例如,对语音控制指令进行转换得到的文本内容为“播放陈情令”。基于自然语言理解的方式可以理解用户意图为:“播放”。控制对象为“陈情令”,对象附属信息为空,用三元组记为:{播放,陈情令,Φ}。又比如对语音控制指令进行转换得到的文本内容为“帮我搜一下古董局中局”,意图为“查找”,控制对象为“搜索”,对象附属信息为“古董局中局”,用三元组记为:{查找,搜索,古董局中局}。那么这种方式中,可以将三元组中的控制对象与界面所包括的控件的描述信息进行匹配,以确定第一界面。
作为另外一种方式,可以预先对电子设备所包括的界面配置对应的标签。其中,界面所对应的标签用于标明对应界面所支持的操作。例如,若界面所对应的标签包括有支付,那么则该界面可以用于进行支付操作。再例如,若界面所对应的标签包括有音乐播放,那么则该界面可以用于进行音乐播放操作。
在这种方式下,可以将文本内容与界面所包括的标签进行匹配,进而将与文本内容成功匹配的标签所属的界面作为第一界面。其中,界面的标签可以由开发人员进行标注,并存储在安装包中。电子设备在对应用程序进行安装的过程中,则可以从安装包中获取到所安装应用程序中每个界面对应的标签,并存储在本地。而对于系统程序对应的界面,则可以由操作系统的开发人员预先配置好后存储在操作系统中。并且,在这种方式中,将文本内容与标签进行匹配的方式和前述内容中将文本内容与描述信息进行匹配的方式可以是相同的。
作为再一种方式,在电子设备可以通过多种方式来确定第一界面的情况下,电子设备可以同时基于多种方式来确定语音控制指令所对应第一界面,从而提升获取语音控制指令所对应的第一界面的效率。可选的,电子设备可以启动第一线程来执行基于所述文本内容与多个界面各自所包括的控制操作进行匹配的方式来获取得到第一界面,并可以同时启动第二线程来将文本内容与界面对应的标签进行匹配,以获取第一界面。在第一线程和第二线程的共同运行过程中,若有一个线程先成功匹配得到第一界面,则可以停止运行另一个线程。
可选的,据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:获取的语音控制指令对应的目标操作;检测所述第二界面是否对应有所述目标操作;若所述第二界面未对应有所述目标操作,执行所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式;若所述第二界面对应有所述目标操作,对所述第二界面执行所述目标操作。其中,语音控制指令对应的目标操作可以理解为将语音控制指令转换为文本后所得到的文本内容。也可以理解为进一步对该文本内容进行三元组提取后得到的控制对象。
需要说明的是,在电子设备所包括的多个界面中,部分界面之间是具有交互关系的。其中,本申请实施例中的交互关系可以包括界面之间互相进行跳转,还包括在一个界面上触发显示另一个界面。如图4所示,若电子设备当前所显示的界面为图4中所示的界面10,若检测到有作用于界面10中名称为视频的应用图标触控操作,则电子设备可以将所显示的界面由界面10切换为界面11。那么界面10和界面11之间则具有交互关系,界面10和界面11之间的交互关系为界面之间互相进行跳转,并且,由界面10触发显示界面11的交互触发方式为点击界面10中的名称为视频的应用图标,对应的,由界面11触发显示界面10的交互触发方式为点击电子设备的Home键。再例如,如图5所示,在界面11中,若检测有作用于名称为武术视频的控件的操作,可以在界面11中悬浮显示界面12,并在界面12中对该武术视频的视频内容进行播放。那么其中的界面11和界面12之间则具有交互关系,且界面11和界面12之间的交互触发方式包括,在界面11中点击名称为武术视频的控件以触发显示界面12,还包括在界面12中点击关闭控件13,以恢复对界面12的显示。
那么在申请实施例中,可以通过界面交互信息来记录电子设备中的具有交互关系的界面,以及具有交互关系的界面之间的交互触发方式。
其中,第二界面也可以理解为电子设备获取到语音控制指令时所显示的界面,那么在获取得到第一界面以及第二界面之后,可以再借助于界面交互信息来获取得到从第二界面触发显示第一界面所需要途径的界面,以及从第二界面开始到第一界面之间所途径的界面中相邻界面之间所对应的交互触发方式。
示例性的,若电子设备中所存储的界面交互信息包括:界面A与界面B具有交互关系,且交互触发方式包括通过操作a1触发由界面A跳转到界面B,通过操作b1触发由界面B跳转到界面A;界面B与界面C具有交互关系,且交互触发方式包括通过操作b2触发由界面B跳转到界面C,通过操作c1触发由界面C跳转到界面B。界面B与界面D具有交互关系,且交互触发方式包括通过操作b3触发由界面B跳转到界面D,通过操作d1触发由界面D跳转到界面B。若根据语音控制指令所获取到的第一界面为界面C,第二界面为界面A。那么所确定的交互路径包括由界面A触发显示界面B,然后由界面B触发显示界面C。对应的,所确定的交互触发方式包括通过操作a1触发由界面A跳转到界面B,通过操作b2触发由界面B跳转到界面C。再例如,若根据语音控制指令所获取到的第一界面为界面A,第二界面为界面B。那么所确定的交互路径包括由界面B触发显示界面A,对应的,所确定的交互触发方式包括通过操作b1触发由界面B跳转到界面A。
S130:根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
在确定交互路径和交互路径对应的交互触发方式后,可以基于交互触发方式触发电子设备沿着交互路径对电子设备当前所显示的界面进行切换,以使得电子设备最终显示出第一界面。
本实施例提供的一种语音控制方法,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
请参阅图6,本申请提供的一种语音控制方法,所述方法包括:
S210:获取语音控制指令。
S220:获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中 所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点,所述界面交互信息包括界面交互关系图,所述界面交互关系图中包括有多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系。
需要说明的是,在本申请实施例中,可以使用网络爬虫将电子设备所有可交互页面进行爬取并存储,并将所爬取到的交互页面构建为界面交互关系图(Graph)的结构。可选的,电子设备可以先通过网络爬虫对操作系统中的交互界面进行爬取,然后再对电子设备中所安装的应用程序的交互界面进行爬取,从而根据所爬取的交互界面之间的交互触发方式以及交互关系来建立界面交互关系图。
其中,界面交互关系图包括节点(node)与边(edge),不同节点由边相连接。在本技术方案中,每个节点表征一个界面,且不同节点(node)标识不同界面,边(edge)表示一个由节点对应的界面触发显示该边所连节点所对应的界面所需的操控的页面控件以及需要对该控件所执行的操作。如图7所示的一种界面交互关系图,在该界面交互关系图中包括有节点1、节点2、节点3、节点4、节点5、节点6、节点7、节点8以及节点9。其中,每个节点都表征一个界面。例如,节点1表征的设置界面,节点2表征的是快捷搜索界面等。其中,图7中界面之间的箭头表征界面之间具有交互关系,且箭头发的方向表征了交互的方向。在箭头处也标明了两个节点所表征界面之间的交互触发方式。例如,对于节点1和节点2各自所表征的界面,在节点2所表征的界面中通过点击名称为设置的控件,则可以触发电子设备切换显示节点1所表征的界面。
可选的,不同节点之间的有向边所表征的交互操作方式可以由{“动作”,“控件”,“参数”}构成,如节点5跳转到节点4需要点击名称为视频的图标,因此该有向边的“动作”为点击,“控件”为视频,参数为空。如节点5跳转到节点6,有向边的“动作”为下拉,由于下拉是屏幕的全局操作,因此控件为空。若需要从节点6跳转到节点2,则有向边的“动作”为输入,“控件”为搜索框,“参数”为搜索内容“设置”。
在基于该界面交互关系图进行交互路径和交互触发方式的确定的过程中,可以在确定第一界面和第二界面之后,在该界面交互关系图中找到第一界面和第二界面各自所对应的节点,并将第一界面所对应的节点作为第一节点,将第二界面所对应的节点作为第二节点。
作为一种方式,所述获取第二节点,包括:获取第二界面的界面特征。可选的,所述获取第二界面的界面特征,包括:将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。其中,在以特征向量来作为界面的特征的这种方式中,在进行特征匹配的过程中,可以通过计算特征向量之间的距离来进行匹配,若检测到有两个特征向量之间的距离小于指定阈值则确定两个特征向量成功匹配。
S230:在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径。
其中,本申请实施例中的界面交互关系图为有向图,那么在确定第二节点后,则可以根据节点所连接边的指向来确定从第二节点到第一节点的节点路径。示例性的,请再参阅图7,若第二节点为节点5,第一节点为节点8,那么所确定的节点路径可以为由节点5到节点4,然后由节点4到节点8。对应的交互路径包括由第二界面跳转到节点4对应的界面,然后再从节点4对应的界面跳转到第一界面。再者,所确定的节点路径也可以为由节点5到节点9,然后由节点9到节点8。那么对应的交互路径包括由第二界面跳转到节点9对应的界面,然后再从节点9对应的界面跳转到第一界面。再者,所确定的节点路径还可以是直接由节点5到节点8。
作为一种方式,所述在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径,包括:在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。需要说明的是,如前述图7中的节点5到节点8的节点路径,可以有多种的方式。那么在所获取的节点路径有多种的情况下,可以根据预先配置的路径选择参数中多个节点路径中选择一个。
可选的,所述路径选择参数包括完整执行概率,所述基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径,包括:若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。需要说明的是,在本申请实施例中,完整执行概率表征的是节点路径所对应的界面交互可以成功完成的概率,对应完整执行概率越大的节点路径,所对应的界面交互可以成功完成的概率越高。那么通过完整执行概率来从多个节点路径中选择用于进行界面交互的节点路径,有利于提升 成功响应用户的语音控制指令的概率,提升用户体验。
其中,计算节点路径的完整执行概率的方法可以包括:获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。示例性的,如图8所示,节点路径L1包括的节点1、节点2以及节点3,其中,节点1和节点2之间的交互失败率为r1,节点2和节点3之间的交互失败率为r3,那么节点路径L1对应的完整执行概率为1(预设数值)减去r1×r2。对应的,节点路径L2包括的节点1、节点4以及节点3,其中,节点1和节点4之间的交互失败率为r3,节点4和节点3之间的交互失败率为r4,那么节点路径L2对应的完整执行概率为1(预设数值)减去r3×r4。
其中,电子设备可以在基于确定的交互路径和交互触发方式进行界面交互的过程中,对每一次界面交互是否成功进行检测,以用于可以对两个节点之间的交互失败率进行更新。其中,两个节点之间对应的交互失败率可以为该两个节点之间的交互执行失败的次数与该两个节点被确定到最终进行界面交互的交互路径中的次数的比值。示例性的,若确定的节点路径为图8中所示的节点路径L1,那么电子设备在执行节点1与节点2之间界面交互的过程中,可以检测在执行节点1和节点2之间的交互触发方式后,节点2对应的界面是否成功显示,若节点2对应的界面未成功进行显示,则确定节点1和节点2之间的交互失败,对应的,则节点1和节点2之间的交互执行失败的次数则对应增加1次。
需要说明的是,在一些情况下,会有多个节点路径所对应的完整执行概率出现相同的情况。那么在这种情况,可以从多个完整执行概率最高的节点路径中选取路径长度最短的节点路径作为交互路径。在这种情况下,所述路径选择参数还包括节点路径的路径长度,所述方法还包括:若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。其中,节点路径可以包括从第二节点到第一节点所需途径的节点的数量。可以理解的是,在路径长度越长的情况下,电子设备在显示第一界面之前所需要进行的界面跳转的次数则会更多,则整个过程的耗时也就可能越长。在对应的完整执行概率最高的节点路径有多个的情况下,选取该多个完整执行概率最高的节点中路径长度最短的节点路径作为后续的交互路径,可以使得所确定的交互路径既能够有较高的完整执行概率,所对应的节点路径也最短,从而实现能够又快又好的完成用户的语音控制指令。
例如,请再参阅图7,从节点5到节点8,会有三个节点路径。三个节点路径分别为:先从节点5到节点4,然后由节点4到节点8;由节点5到节点9,然后由节点9到节点8;由节点5直接到节点8。若这三个节点路径各自对应的完整执行概率都是100%,则电子设备会进一步的比对这三个节点路径各自对应的路径长度,进而确定由节点5直接到节点8的这条节点路径的路径长度最短,从而确定将由节点5直接到节点8这节点条路径确定为交互路径。
S240:将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
示例性的,若确定的节点路径包括:先从节点2到节点1,然后由节点1到节点7。该节点路径所包括的具有连接关系的节点则为节点2和节点1,以及节点1和节点7,节点2和节点1之间的交互触发方式包括“点击,设置”,节点1和节点7的交互触发方式包括“点击,蓝牙”,那么在本示例中,所确定的交互路径对应的交互触发方式包括“点击,设置”以及“点击,蓝牙”。
S250:根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
需要说明的是,电子设备中的有些界面可能会进行更新,而更新后的界面可能已经不具有原先所具有的一个或者多个控制操作。示例性的,如图9所示,在图9所示的界面20可以通过长按名称为蓝牙的控件实现跳转显示界面21。如果界面20中的名称为蓝牙的控件被删除,那么则通过“长按,蓝牙”这无法实现从界面20跳转到界面21,从而就会出现无法成功进行交互的界面。在这种情况下,作为一种方式,在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;记录接收到所述语音控制指令的电子设备在检测到无法成功进行交互的界面后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于电子设备上传的所述指定时间长度内所执行的交互操作更新所述界面交互信息。
其中,在本申请实施例中,无法成功进行交互的界面可以理解为当前已经被触发进行显示,且所对应用于触发显示交互路径中相邻的下一个界面的交互触发方式失效的界面。在交互过程中,检测到有无法成功进行交互的界面的情况下,用户为了使得电子设备可以触发显示第一界面,则会自己再手动的操作电子设备进行界面的跳转,从而使得电子设备可以学习到当前如何从无法成功进行交互的界面跳转到第一界面,以根据学习的结果对界面交互信息(例如,界面交互关系图)进行更新。
其中,更新包括:更新第一待处理节点和第二待处理节点之间的失败率。该第一待处理节点为无法成功进行交互的界面所对应的节点,第二待处理节点为基于该无法成功进行交互的界面进行交互且交互失败的界面所对应的节点。例如,请再参阅图7,若确定的节点路径包括:由节点5先到节点9,然后由节点9到节点8,再从节点8到节点7。电子设备在显示界面8对应的界面之后,再通过触发“长按,蓝牙”并未成功的触发由节点8对应的界面跳转到界面7所对应的界面,则确定检测到了无法成功进行交互的界面(即节点8所对应的界面),从而可以将节点8作为第一待处理节点,以及将节点7作为第二待处理节点,以更新从节点8到节点7的失败率。
更新还可以包括:根据用户的手动操作过程所涉及的界面,增加界面交互关系图中的节点或者节点所表征界面之间的交互触发方式。例如,请再参阅图7,在电子设备无法基于节点8对应的界面跳转到节点7对应的界面的情况下,检测到了用户先对节点8对应的界面执行了“屏底上滑”触发电子设备显示节点5对应的界面,然后在节点5对应的界面中由点击其中的名称为设置的控件,触发电子设备显示了节点1对应的界面,然后在节点1对应的界面中由点击了名称为蓝牙的控件,从而使得电子设备显示了节点7对应的界面。在这种情况下,对应图7中所示的界面交互关系图,则可以在节点8和节点5之间增加由节点8指向节点5的交互触发操作“屏底上滑”,在节点5和节点1之间增加由节点5指向节点1的交互触发操作“点击,设置”。
本实施例提供的一种语音控制方法,从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。再者,在本实施例可以根据电子设备中界面之间相互进行交互的方式建立界面交互关系图,从而使得在需要确定交互路径和交互路径对应的交互触发方式中,可以直接基于界面交互关系图中的节点来进行,提升了确定交互路径和交互路径对应的交互触发方式的效率。
请参阅图10,本申请提供的一种语音控制方法,所述方法包括:
S310:获取语音控制指令。
S320:获取所述语音控制指令对应的文本内容。
S330:基于所述文本内容与多个界面各自所包括的控制操作进行匹配。
S340:检测是否有与获取的语音控制指令成功匹配的界面。
S341:若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面。
S351:若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息。
S352:记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
如前述内容所示,在获取第一界面的过程中,是将语音控制指令转换后得到的文本内容与界面所包括的控制操作或者标签进行匹配,以将成功匹配的界面作为第一界面的。那么在这种情况下,如果没有界面中所包括的控制操作与文本内容成功匹配,且也没有标签与文本内容成功匹配,那么则该语音控制指令无法成功匹配到对应的界面。在这种情况下,可以记录用户在发出语音控制指令后所操作过的界面,并上传给服务器。服务器可以针对发出同样的语音控制指令所的用户控制操作进行分析,并可以将不同用户发出的同一的语音控制指令后所进行的手动控制操作中相同的界面作为该语音控制指令所对应的第一界面。示例性的,对于语音指令m1,电子设备未成功获取到对应的第一界面,并开始记录用户的手动控制操作,其中,用户A所进行的控制操作为:节点6->节点2->节点1->节点7->节点100,用户B所进行的控制操作为:节点5->节点8->节点7->节点200。其中,节点7为用户A和用户B公共操作过的界面,那么则可以确定语音控制m1对应的第一界面为节点7所对应的界面。对应的,电子设备可以在节点7对应的标签中补充语音控制m1转换得到的文本内容。
S342:根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
S343:根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
再者,在一些情况下,电子设备根据语音控制指令确定出第一界面,且已经成功执行了确定的交互路径以显示出所确定出的第一界面。但是,该第一界面可能并不是用户所实际期望访问的界面。为了能够检测所确定的第一界面是否为用户实际想访问的界面,可以检测已经显示针对同一语音控制指令所确的第一界面后,是否有多个用户执行了相同的操作。若检测到有多个用户执行了相同的操作,将该相同的操作所触发显示的界面更新为该对同一语音控制指令实际对应的第一界面。示例性的,若语音控制指令为启动蓝牙,且电子设备原本确定第一界面为图7中的节点1对应的界面,但是服务器检测到多个用户在到达预判的节点1对应的界面后,均执行{点击,蓝牙}到达节点7对应的界面。则电子设备会将“启动蓝牙”这一语音控制指令对应的第一界面更新为节点7对应的界面。
本实施例提供的一种语音控制方法,从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。再者,在本实施例中,在没有成功匹配到与语音控制指令对应的第一界面后,还可以将用户的对界面的操作过程上传到服务器中,以用于服务器可以对界面所对应的语音控制指令进行更新,从而提升根据用户的语音控制指令匹配到第一界面的概率。
请参阅图11,本申请提供的一种语音控制装置400,所述装置400包括:
指令处理单元410,用于获取语音控制指令。
作为一种方式,指令处理单元410,具体用于获取所述语音控制指令对应的文本内容;基于所述文本内容与多个界面各自所包括的控制操作进行匹配;
将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面。
作为一种方式,指令处理单元410,具体用于若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面;若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息;
记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
作为一种方式,指令处理单元410,还用于获取的语音控制指令对应的目标操作;检测当前所显示的界面是对应有所述目标操作;若当前所显示的界面未对应有所述目标操作,执行所述获取语音控制指令;若当前所显示的界面对应有所述目标操作,交互执行单元430,用于对当前所显示的界面执行所述目标操作。
交互获取单元420,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面。
交互执行单元430,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
作为一种方式,所述界面交互信息包括界面交互关系图,所述界面交互关系图包括多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系。在这种方式中,交互获取单元420,具体用于获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点;在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径;将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
可选的,交互获取单元420,具体用于在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。可选的,所述路径选择参数包括节点路径的完整执行概率。交互获取单元420,具体用于若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。可选的,所述路径选择参数还包括节点路径的路径长度,对应的,交互获取单元420,具体用于若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。
作为一种方式,交互获取单元420,具体用于获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。
作为一种方式,交互获取单元420,具体用于获取第二界面的界面特征;将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。可选的,交互获取单元420,具体用于将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。
作为一种方式,如12所示,装置还包括交互更新单元440,用于在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
本实施例提供的一种语音控制装置,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性。另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
下面将结合图13对本申请提供的一种电子设备进行说明。
请参阅图13,基于上述的语音控制方法、装置,本申请实施例还提供的一种可以执行前述语音控制方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104、摄像头106以及音频采集装置108。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备1000的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。作为一种方式,处理器102可以为神经网络芯片。例如,可以为嵌入式神经网络芯片(NPU)。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。例如,存储器104中可以存储有装置。该装置可以为前述的装置400。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。
再者,电子设备1000除了前述所示的器件外,还可以包括网络模块110以及传感器模块112。
所述网络模块110用于实现电子设备1000与其他设备之间的信息交互,例如,传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当电子设备200具体为不同的设备时,其对应的网络模块110可能会有不同。
传感器模块112可以包括至少一种传感器。具体地,传感器模块112可包括但并不限于:水平仪、光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感器、以及其他传感器。
其中,压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即,压力传感器检测由用户和电子设备之间的接触或按压产生的压力,例如由用户的耳朵与移动终端之间的接触或按压产生的压 力。因此,压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压,以及压力的大小。
其中,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外,电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器,在此不再赘述。
音频采集装置110,用于进行音频信号采集。可选的,音频采集装置110包括有多个音频采集器件,该音频采集器件可以为麦克风。
作为一种方式,电子设备1000的网络模块为射频模块,该射频模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如,该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。例如,射频模块可以向目标设备发送指令。
请参考图14,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
综上所述,本申请提供的一种语音控制方法、装置、电子设备及存储介质,在获取语音控制指令以及包括具有交互关系的界面之间的交互触发方式的界面交互信息后,可以根据界面交互信息获取基于第二界面触发显示第一界面的交互路径以及所述交互路径对应的交互触发方式,并根据交互路径以及交互触发方式进行页面交互以显示第一界面。从而通过上述方式使得,通过先获取界面交互信息的方式,使得在得到语音控制指令所期望访问的界面(第一界面)后,可以直接基于所期望访问的界面、当前所显示的界面以及该界面交互信息匹配出从当前所显示的界面交互到所期望访问的界面的一条路径,以及该路径在执行过程中所包括的交互触发方式,以用于电子设备可以直接通过执行该路径来实现触发显示所期望访问的界面,进而使得不用针对每个语音控制指令单独配置对应的界面控制过程,降低了语音控制的技术成本。并且,因为可以直接响应一个语音控制指令而直接触发显示最终所期望访问的界面,提升了语音控制的效率。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种语音控制方法,其特征在于,应用于电子设备,所述方法包括:
    获取语音控制指令;
    根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;
    根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
  2. 根据权利要求1所述的方法,其特征在于,所述界面交互信息包括界面交互关系图,所述界面交互关系图包括多个节点,每个所述节点表征一个界面,其中,具有连接关系的节点表征所述节点对应的界面具有交互关系;所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,包括:
    获取第一节点以及获取第二节点,所述第一节点为所述第一界面在所述界面交互关系图中所对应的节点,所述第二节点为所述第二界面在所述界面交互关系图中所对应的节点;
    在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径;
    将所述节点路径中所包括节点对应的交互触发方式,作为所述交互路径对应的交互触发方式。
  3. 根据权利要求2所述的方法,其特征在于,所述在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径,作为从第二界面交互到所述第一界面的交互路径,包括:
    在所述界面交互关系图中获取从所述第二节点到所述第一节点的节点路径;
    若所述节点路径有多个,基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径。
  4. 根据权利要求3所述的方法,其特征在于,所述路径选择参数包括节点路径的完整执行概率,所述基于路径选择参数从多个节点路径中选择一个节点路径作为从第二界面交互到所述第一界面的交互路径,包括:
    若对应的完整执行概率最高的节点路径有一个,将对应的完整执行概率最高的节点路径作为从第二界面交互到所述第一界面的交互路径。
  5. 根据权利要求4所述的方法,其特征在于,所述路径选择参数还包括节点路径的路径长度,所述方法还包括:
    若对应的完整执行概率最高的节点路径有多个,将对应的完整执行概率最高的多个节点路径中,所对应的路径长度最短的节点路径作为从第二界面交互到所述第一界面的交互路径。
  6. 根据权利要求4所述的方法,其特征在于,所述方法还包括:
    获取节点路径所包括的节点中每相邻的两个节点之间对应的交互失败率,得到多个交互失败率;
    获取所述多个交互失败率的乘积作为所述节点路径对应的执行失败率;
    将预设数值与所述执行失败率的差值作为所述节点路径的完整执行概率。
  7. 根据权利要求2所述的方法,其特征在于,所述获取第二节点,包括:
    获取第二界面的界面特征;
    将所述界面特征与所述界面交互关系图中的节点所对应界面的界面特征进行匹配;
    将对应界面的界面特征与所述第二界面的界面特征成功匹配的节点作为第二节点。
  8. 根据权利要求7所述的方法,其特征在于,所述获取第二界面的界面特征,包括:
    将第二界面所包括的控件的属性输入到指定深度神经网络模型中,所述属性包括界面中的控件的尺寸信息、界面中的控件的位置信息、界面中的控件的层次结构以及界面中的控件的排布信息中的至少一个;
    获取所述指定深度神经网络模型输出的特征向量作为第二界面的界面特征。
  9. 根据权利要求1-8任一所述的方法,其特征在于,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:
    获取所述语音控制指令对应的文本内容;
    基于所述文本内容与多个界面各自所包括的控制操作进行匹配;
    将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面。
  10. 根据权利要求9所述的方法,其特征在于,所述将所包括的控制操作与所述文本内容成功匹配的界面作为第一界面包括:
    若有所包括的控制操作与所述文本内容成功匹配的界面,将所述成功匹配的界面作为第一界面;
    若没有所包括的控制操作与所述文本内容成功匹配的界面,发出无法对语音控制指令进行响应的提示信息;
    记录接收到所述语音控制指令的电子设备在接收到所述语音控制指令后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于不同电子设备上传的所述指定时间长度内所执行的交互操作更新所述语音控制指令对应的第一界面。
  11. 根据权利要求9所述的方法,其特征在于,所述方法还包括:
    对所述电子设备中所包括的界面进行识别,以获取到界面所包括的控件;
    根据界面所包括的控件作对应的控制操作,确定每个界面所包括的控制操作。
  12. 根据权利要求11所述的方法,其特征在于,所述对所述电子设备中所包括的界面进行识别,包括:
    通过代码解析方式对所述电子设备中所包括的界面进行识别。
  13. 根据权利要求11所述的方法,其特征在于,所述对所述电子设备中所包括的界面进行识别,包括:
    通过图文识别方式对所述电子设备中所包括的界面进行识别。
  14. 根据权利要求11所述的方法,其特征在于,所述对所述电子设备中所包括的界面进行识别,包括:
    通过图标识别方式对所述电子设备中所包括的界面进行识别。
  15. 根据权利要求9所述的方法,其特征在于,所述获取所述语音控制指令对应的文本内容,包括:
    对语音控制指令进行语音转文字的操作,以得到所述语音控制指令对应的文本内容;或者
    对语音控制指令进行语音转文字的操作所得到的内容,再进行关键词获取以得到所述语音控制指令对应的文本内容。
  16. 根据权利要求1所述的方法,其特征在于,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之后还包括:
    在所述页面交互的过程中,若所述交互路径中存在无法成功进行交互的界面,则发出无法对语音控制指令进行响应的提示信息;
    记录接收到所述语音控制指令的电子设备在检测到无法成功进行交互的界面后的指定时间长度内所执行的交互操作,并将所述指定时间长度内所执行的交互操作发送给服务器,以用于所述服务器基于电子设备上传的所述指定时间长度内所执行的交互操作更新所述界面交互信息。
  17. 根据权利要求1所述的方法,其特征在于,所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式之前还包括:
    获取的语音控制指令对应的目标操作;
    检测所述第二界面是否对应有所述目标操作;
    若所述第二界面未对应有所述目标操作,执行所述根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式;
    若所述第二界面对应有所述目标操作,对所述第二界面执行所述目标操作。
  18. 一种语音控制装置,其特征在于,运行于电子设备,所述装置包括:
    指令处理单元,用于获取语音控制指令;
    交互获取单元,用于根据界面交互信息获取从第二界面交互至第一界面的交互路径以及所述交互路径对应的交互触发方式,所述界面交互信息包括具有交互关系的界面之间的交互触发方式,所述第一界面为所述语音控制指令所指向的界面,所述第二界面为所述电子设备获取到所述语音控制指令时所显示的界面;
    交互执行单元,用于根据所述交互路径以及所述交互触发方式进行页面交互以显示所述第一界面。
  19. 一种电子设备,其特征在于,包括一个或多个处理器以及存储器;
    一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-17任一所述的方法。
  20. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-17任一所述的方法。
PCT/CN2022/136342 2021-12-07 2022-12-02 语音控制方法、装置、电子设备及存储介质 WO2023103918A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111512007.8A CN114121013A (zh) 2021-12-07 2021-12-07 语音控制方法、装置、电子设备及存储介质
CN202111512007.8 2021-12-07

Publications (1)

Publication Number Publication Date
WO2023103918A1 true WO2023103918A1 (zh) 2023-06-15

Family

ID=80364129

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/136342 WO2023103918A1 (zh) 2021-12-07 2022-12-02 语音控制方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN114121013A (zh)
WO (1) WO2023103918A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121013A (zh) * 2021-12-07 2022-03-01 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013055709A1 (en) * 2011-10-10 2013-04-18 Microsoft Corporation Speech recognition for context switching
CN109741737A (zh) * 2018-05-14 2019-05-10 北京字节跳动网络技术有限公司 一种语音控制的方法及装置
CN111309283A (zh) * 2020-03-25 2020-06-19 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111736738A (zh) * 2020-06-30 2020-10-02 广州小鹏车联网科技有限公司 一种车载系统的控件对象查询方法和装置
CN112634888A (zh) * 2020-12-11 2021-04-09 广州橙行智动汽车科技有限公司 语音交互方法、服务器、语音交互系统和可读存储介质
CN112685535A (zh) * 2020-12-25 2021-04-20 广州橙行智动汽车科技有限公司 语音交互方法、服务器、语音交互系统和存储介质
CN114121013A (zh) * 2021-12-07 2022-03-01 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013055709A1 (en) * 2011-10-10 2013-04-18 Microsoft Corporation Speech recognition for context switching
CN109741737A (zh) * 2018-05-14 2019-05-10 北京字节跳动网络技术有限公司 一种语音控制的方法及装置
CN111309283A (zh) * 2020-03-25 2020-06-19 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111736738A (zh) * 2020-06-30 2020-10-02 广州小鹏车联网科技有限公司 一种车载系统的控件对象查询方法和装置
CN112634888A (zh) * 2020-12-11 2021-04-09 广州橙行智动汽车科技有限公司 语音交互方法、服务器、语音交互系统和可读存储介质
CN112685535A (zh) * 2020-12-25 2021-04-20 广州橙行智动汽车科技有限公司 语音交互方法、服务器、语音交互系统和存储介质
CN114121013A (zh) * 2021-12-07 2022-03-01 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114121013A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
US11868680B2 (en) Electronic device and method for generating short cut of quick command
US20210065716A1 (en) Voice processing method and electronic device supporting the same
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
WO2023082703A1 (zh) 语音控制方法、装置、电子设备及可读存储介质
CN109947650B (zh) 脚本步骤处理方法、装置和系统
CN102884569A (zh) 嵌入式网络语音识别器集成
KR102440651B1 (ko) 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
US11972761B2 (en) Electronic device for sharing user-specific voice command and method for controlling same
US20220164071A1 (en) Method and device for providing user-selection-based information
US20190369825A1 (en) Electronic device and method for providing information related to image to application through input unit
KR20230014802A (ko) 지정 항목 추천 방법
US20220020358A1 (en) Electronic device for processing user utterance and operation method therefor
WO2023103918A1 (zh) 语音控制方法、装置、电子设备及存储介质
US11163377B2 (en) Remote generation of executable code for a client application based on natural language commands captured at a client device
CN110945455A (zh) 处理用户话语以用于控制外部电子装置的电子装置及其控制方法
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
WO2023103917A1 (zh) 语音控制方法、装置、电子设备及存储介质
US20230081558A1 (en) Electronic device and operation method thereof
CN114970562A (zh) 语义理解方法、装置、介质及设备
EP4261685A1 (en) Method for providing clipboard function, and electronic device supporting same
US20220413988A1 (en) Electronic device and method for processing user input
US20220262359A1 (en) Electronic device and operation method thereof
CN113900621A (zh) 操作指令处理方法、控制方法、装置以及电子设备
CN116467035A (zh) 场景透出方法、装置、介质及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22903340

Country of ref document: EP

Kind code of ref document: A1