WO2019124631A1 - 어플리케이션 실행 방법 및 이를 위한 장치 - Google Patents

어플리케이션 실행 방법 및 이를 위한 장치 Download PDF

Info

Publication number
WO2019124631A1
WO2019124631A1 PCT/KR2018/002467 KR2018002467W WO2019124631A1 WO 2019124631 A1 WO2019124631 A1 WO 2019124631A1 KR 2018002467 W KR2018002467 W KR 2018002467W WO 2019124631 A1 WO2019124631 A1 WO 2019124631A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
input field
field
application
value
Prior art date
Application number
PCT/KR2018/002467
Other languages
English (en)
French (fr)
Inventor
이동현
강세천
서유빈
양희정
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US16/956,833 priority Critical patent/US20220113934A1/en
Priority to CN201880082914.3A priority patent/CN111512282B/zh
Priority to EP18890757.0A priority patent/EP3699750A4/en
Publication of WO2019124631A1 publication Critical patent/WO2019124631A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a method for executing an application based on a user's voice input and an apparatus therefor.
  • a device can receive a user input using a speech recognition device, and can receive a user input using an input device such as a touch panel or a mouse.
  • the user can select another input method. For example, if the user's hand is free, the user can control the device using a screen touch or a mouse, and if the situation is such that the device is not viewable or can not be operated by hand, The device can be controlled by input.
  • each user interface must be controlled using voice input, so that the time used for controlling the application may be long.
  • Various embodiments are provided for executing an application based on a user's voice input.
  • Figures 1a, 1b, 2a and 2b illustrate how a device executes an application, in accordance with some embodiments.
  • FIG. 3 is a flow diagram of a method by which a device executes an application, in accordance with some embodiments.
  • Figures 4, 5a, 5b, and 5c illustrate how a device outputs an inductive query for an input field, in accordance with an order of pages, in accordance with some embodiments.
  • Figures 6A and 6B illustrate how a device performs speech recognition based on values that may be entered in an input field, in accordance with some embodiments.
  • Figure 7 illustrates a method by which a device, using artificial intelligence, determines an input value of an input field, in accordance with some embodiments.
  • Figures 8, 9a, 9b illustrate that if a user responds to an input value for an input field other than the input field corresponding to an inductive query, regardless of the derived query, according to some embodiments, And a method for determining a corresponding input value.
  • 10A and 10B illustrate how a device sets input values for input fields of low importance, according to some embodiments.
  • 11A and 11B illustrate a method for displaying values that may be input in an input field, while a device outputs an acoustic signal representing an inductive query corresponding to an input field, in accordance with some embodiments.
  • 12A and 12B illustrate how a device outputs an inductive query as a page of an application is moved, according to some embodiments.
  • Figures 13A and 13B illustrate how a device outputs an inductive query as it receives a speech input that alters the input value of the input field, in accordance with some embodiments.
  • Figures 14A, 14B, 15A, 15B illustrate an embodiment of switching a method of receiving input values for an input field according to a user's selection, according to some embodiments.
  • 16 is a flowchart of a method by which a device, in conjunction with a server, determines an input value for an input field of an application, in accordance with some embodiments.
  • 17 and 18 are block diagrams of a device according to some embodiments.
  • a first aspect of the present disclosure relates to a device for executing an application including a graphical user interface (GUI) for receiving an input value of an input field, Outputting an acoustic signal representing an inductive query corresponding to an input field through a sound output unit based on whether the user input is a speech input or not, a user input for receiving a user input requesting execution of the application, And a control unit for executing the application by receiving the voice input indicating the response and setting the input value for the input field based on the voice input indicating the response to the inductive query.
  • GUI graphical user interface
  • the control unit If the user input requesting execution of the application is a voice input, the control unit outputs an acoustic signal indicating an inductive query corresponding to the input field. If the input is an application through an icon, It may not output the acoustic signal indicating "
  • the device may further include a display unit, and the control unit may control the display unit to display a GUI including an input field, in addition to outputting an acoustic signal indicating an inductive query corresponding to the input field.
  • the application may comprise a plurality of pages that are displayed in order, the input field including a first input field and a second input field, and the control unit may receive a plurality of Outputs an acoustic signal representing an inductive query corresponding to the input field included in the first page, and as the input value of the input field included in the first page is determined, And outputs an acoustic signal indicating an inductive query corresponding to the input field included in the second page.
  • the GUI includes a plurality of input fields including an input field
  • the control unit determines whether or not a speech input representing a response to the inductive query is a response to another input field other than a response to the input field among the plurality of input fields If so, an input value can be set in another input field based on the voice input.
  • control unit may control the sound output unit to output an acoustic signal indicating an inductive query corresponding to the remaining input fields of the plurality of input fields other than the other input fields, by setting the input values in the other input fields.
  • the device further includes a communication unit, and the communication unit receives from the external server at least one value that can be selected as the input value of the input field, and the control unit determines, based on the received at least one value, Can be determined.
  • control unit may output the sound signal indicating the inductive query corresponding to the input field, without displaying the GUI including the input field, upon receiving the voice input requesting execution of the application.
  • the application includes a plurality of input fields together with an input field
  • the control unit includes at least one required input field which is an input field that is indispensably necessary for receiving a service performed by the application
  • the input values of the remaining input fields may be set to predetermined default values without performing an inductive query on the remaining input fields except for at least one required input field.
  • control unit displays at least one value that can be input to the input field while outputting an acoustic signal indicating an inductive query corresponding to the input field, and displays a text indicating a voice keyword corresponding to at least one value .
  • IA, IB, 2A and 2B illustrate how a device 1000 executes an application, in accordance with some embodiments.
  • the application may include a GUI for receiving an input value of an input field. Accordingly, the device 1000 can determine the input value of the input field based on the user input received via the GUI.
  • the input field may refer to a variable of the application determined by the user.
  • a device can receive a user input for inputting an input value of an input field, and can provide an application service by executing an application based on the input value.
  • the input field may be a movie selection field, a theater selection field, a date and time selection field, a seat selection field, and a approval information input field
  • the input field to the search application may be a search word input field
  • the input field may be a trade name input field, an option selection field, a delivery information input field, and a settlement information input field.
  • the input value of the input field may be one of a plurality of values stored corresponding to the input field.
  • the device may display a drop-down menu for selecting one of a plurality of values stored corresponding to an input field, and upon receiving a user input selecting one of the plurality of values displayed on the drop-down menu, The input value of the input field can be determined.
  • the input value of the input field may be input by the user directly in text format.
  • the device 1000 may receive an audio input that commands to execute an application.
  • the device 1000 may receive a voice input of "execute a movie preview application ", without the movie preview application being executed.
  • the device 1000 may output an acoustic signal representing an inductive query corresponding to an input field of the application.
  • the device 1000 can output a sound signal representing an inductive query corresponding to a movie selection field of "What movie do you want to watch? &Quot; .
  • the device 1000 may determine the received movie name as the input value of the movie selection field as it receives the audio input including the movie name from the user as a response to the inductive query.
  • the situation in which the user executes the application by voice input is a situation in which the user is distant from the device 1000 or difficult to operate the device 1000 by hand so that when the user executes the application by voice input,
  • the device 1000 can provide services to the user even in a situation where the user can not manipulate the device 1000.
  • the device 1000 may receive a user input for executing an application.
  • the device 1000 may receive user input that touches or clicks on a movie preview application.
  • the device 1000 upon receiving a user input for executing an application, the device 1000 can display only an application GUI without outputting an acoustic signal indicating an inductive query corresponding to an input field of the application.
  • the situation where the user executes the application with the touch input may not output the acoustic signal indicating the inductive query because the situation is that the user can operate the device 1000 by hand.
  • FIG. 3 is a flow diagram of a method by which a device 1000 executes an application, in accordance with some embodiments.
  • step S310 the device 1000 may receive a user input requesting execution of the application.
  • the device 1000 may receive a voice input requesting execution of the application.
  • the device 1000 may receive an audio input requesting execution of the application while the application is not executed and may receive an audio input requesting execution of the application while the application is running.
  • the voice input may be, for example, "run movie preview application! If the application is a movie preview application. And may be "Movie Advance! &Quot;, which does not indicate an application execution request.
  • the device 1000 may display the icon of the application on the home screen, and may start execution of the application upon receiving the user input for selecting the icon.
  • step S320 the device 1000 may output an acoustic signal indicating an inductive query corresponding to the input field, based on whether the user input is a voice input.
  • the device 1000 may output an acoustic signal representing an inductive query corresponding to the input field if the user input requesting execution of the application is a voice input.
  • the derived query may be stored in the device 1000 as data corresponding to the input field. Also, one derived query may be stored corresponding to one input field, and one derived query corresponding to a plurality of input fields may be stored. For example, there may be stored an inductive query such as "When would you like to watch a movie? &Quot; corresponding to an input field regarding date and time.
  • An inductive query can be a question, including a question.
  • the question, including the question implies a question, including who, when, where, what, how much, how many, and Why. .
  • the device 1000 may output an acoustic signal representing values that may be input to the input field, along with an inductive query corresponding to the input field.
  • the application may include a plurality of input fields.
  • the plurality of input fields may include a required input field, which is an input field necessary for an application to provide a service, and an additional input field for an additional service that is not necessarily required for an application to provide the service.
  • a required input field may be a movie selection field, a theater selection field, a date and time selection field, a seat selection field, and a payment information input field, Lt; / RTI >
  • the device 1000 can issue an inductive query only to a required input field, and set a default value as an input value for the additional input field.
  • the device 1000 may display a GUI for receiving an input value of an input field and may also output an acoustic signal representing an inductive query corresponding to the input field. In addition, the device 1000 may output only an acoustic signal indicating an inductive query corresponding to an input field, without displaying a GUI for receiving an input value of the input field.
  • the device 1000 sequentially displays a plurality of pages according to the display order, and displays an inductive query corresponding to the displayed page It is possible to output a sound signal.
  • the device 1000 may display a first page of a plurality of pages, output an acoustic signal indicative of an inductive query corresponding to an input field included in the first page,
  • the second page following the first page may be displayed and an acoustic signal representing an inductive query corresponding to the input field included in the second page may be output.
  • the input value of the input field can be set without searching the current page.
  • the user can view the device 1000 but can not operate it by hand, information on the input field for which the current input value is set can be seen, so that the input value can be selected more easily and accurately.
  • the device 1000 can display the GUI of the application without outputting the sound signal indicating the derived query corresponding to the input field.
  • the device 1000 can display only the GUI of the application without outputting the inductive query because the user can control the device 1000 by hand .
  • step S330 the device 1000 may receive a speech input indicating a response to the derived query.
  • the speech input representing the response to the inductive query may include an input value of the input field corresponding to the output derived query and may include an input value of the input field other than the input field corresponding to the output question .
  • step S340 the device 1000 can execute the application by setting the input value for the input field based on the speech input indicating the response to the inductive query.
  • the device 1000 determines the text represented by the speech input by performing speech recognition on the speech input indicating the response to the inductive query and detects the input value to be set in the input field from the determined text, Value can be determined.
  • the device 1000 may perform speech recognition based on values that may be input to the input field when determining the text represented by the speech input by performing speech recognition on the speech input indicating a response to the inductive query . For example, if the values that can be input in the input field are 'Room 7', 'Crime City', and 'Silent', the device 1000 may determine that the voice input indicating the response to the inductive query is' ',' criminal city ', and' silence ', as shown in FIG.
  • the device 1000 also receives a value that can be input to the input field from the external server in real time and performs speech recognition on the speech input indicating the response to the inductive query based on the received value, The corresponding input value can be determined.
  • the device 1000 may determine whether the speech input includes an input value of another input field other than the input value of the input field corresponding to the output derived query. For example, even if the device 1000 outputs only an inductive query corresponding to one input field, the device 1000 can detect input values for a plurality of input fields included in an application from a voice input, And can be set in an input field corresponding to each input value.
  • the device 1000 can detect the input values intended by the user from the user's response. Such an embodiment will be described later with reference to Figs. 8A and 8B.
  • the device 1000 transmits only the inductive query corresponding to the remaining unset input field among the plurality of input fields of the application Can be output.
  • Figures 4 and 5a, 5b, 5c illustrate how device 1000 outputs an inductive query for an input field, in accordance with an order of pages, in accordance with some embodiments.
  • the device 1000 may display the first of a plurality of pages of the application.
  • the application can be composed of a plurality of pages.
  • a first page 510 is a page for selecting a movie
  • a second page 520 is a page for selecting a theater
  • a third page 530 is a date and time
  • the fourth page may be a page for inputting approval information.
  • step S420 as the device 1000 displays the first page, it may output an inductive query corresponding to the input field included in the first page.
  • the device 1000 may display the first page 510 of the application and output an acoustic signal representing an inductive query corresponding to the movie selection field included in the first page 510.
  • an inductive query “What movie do you want to see?” Is stored in correspondence with the movie selection field, the device 1000 can output an inductive query "What movie do you want to see?”.
  • step S430 the device 1000 displays the second page following the first page as the input value of the input field included in the first page is determined, and the derived query corresponding to the input field included in the second page Can be output.
  • the device 1000 may determine" Room 7 "
  • the device 1000 displays the second page 520 and includes the second page 520 in the second page 520 And output an acoustic signal representing an inductive query corresponding to the selected theater selection field. For example, if the inference query "Which theater will you see?" Is stored corresponding to the theater selection field, the device 1000 can output the inductive query "Which theater would you like to see?".
  • the device 1000 can determine "CGV Gangnam" among the plurality of theaters as the input value of the theater selection field .
  • the device 1000 displays the third page 530 and is included in the third page 530 And output the acoustic signal corresponding to the selected date and time selection field.
  • the device 1000 can provide a movie preview service based on the input values.
  • the user can not see the device 1000 but can not operate the device 1000 manually
  • the input value can be selected more easily and accurately.
  • 6A and 6B illustrate a method for device 1000 to perform speech recognition based on values that may be input to an input field, in accordance with some embodiments.
  • step S610 of Fig. 6A the device 1000 may output an acoustic signal representing an inductive query corresponding to the input field.
  • step S620 the device 1000 may receive a speech input indicating a response to the derived query. Steps S610 and S620 may be described with reference to S320 and S330 in Fig.
  • the device 1000 may determine the input value of the input field based on at least one value that can be selected as the input value of the input field.
  • Device 1000 may store at least one value that can be selected as an input value, corresponding to each input field. For example, in the case of an input field in which an input value is selected using a drop down menu, the device 1000 may store a plurality of values displayed when a drop-down menu is clicked.
  • the device 1000 may receive at least one value from the external device, which may be selected as an input value, corresponding to each input field.
  • the device 1000 may request the database 2000 for a value that can be entered into the input field.
  • the database 2000 may be an external server.
  • the database 2000 can communicate with the device 1000 through a broadband network such as the Internet, or can communicate with a local area network (LAN).
  • the device 1000 may store the link address of the database 2000 corresponding to the input field.
  • the device 1000 may request a value that can be entered into the input field to the database 2000 corresponding to the input field.
  • the database 2000 may be a movie information database 2000.
  • the device 1000 may request the movie information database 2000 for values that can be selected as the selection value of the movie selection field.
  • the device 1000 may receive values that can be selected from the movie information database 2000 as a selection value of a movie selection field.
  • the device 1000 may determine the input value of the input field by performing speech recognition on the speech input based on values that may be input to the input field.
  • the device 1000 may perform speech recognition based on values that may be input to the input field when performing speech recognition on the response to the inductive query to determine the text represented by the response. For example, when the device 1000 detects a word from a response, it may set a higher probability that the received values will be detected than other words.
  • the list of movies received from the movie database is "Justice League”, “Room 7", “Happy Death Day”, “Tor Ragnarok” and “Loving Vincent” What kind of movie would you like to see?
  • the device 1000 can determine that the text represented by the response is "Happy Death Day” rather than "Happy Happy Day. &Quot;
  • the device 1000 also determines that the text represented by the response is "Happy Barthe Day “, and then compares the" Happy Barthe Day “with the plurality of values that can be selected as the input value of the movie selection field, Happy death day "as an input value of the movie selection field.
  • the device 1000 may output a voice signal to determine whether the determined input value matches a user-intended input value. For example, the device 1000 can output a voice signal "Let's buy Happy Day Day ".
  • a voice input of "2:30 today” may be received in response to an inductive query "When would you like to see?
  • the device 1000 also determines November 15 as the input value of the date selection field based on the word “Today ", and based on the word” Minute can be determined.
  • the device 1000 can output an acoustic signal indicating "15:30 Wednesday 2:30 movie selected ".
  • the device 1000 may display on the display screen the identification information of the date selection field and the selected date of 15 days, and display the identification information of the time selection field and the selected time of 2:30.
  • the device 1000 may sequentially store the input values for the input fields included in each page and each page, As shown in FIG.
  • the device 1000 can more accurately grasp the intent of the user, and in some cases, by limiting the text represented by the response to a value that can be entered in the input field, it is possible to provide a fast and accurate service.
  • Figure 7 illustrates how device 1000 determines the input value of an input field, using artificial intelligence, in accordance with some embodiments.
  • the device 1000 may determine an input value of an input field using a neural network algorithm.
  • the device 1000 can learn a neural network to output an input value to be input to the input field when a response to the user's inductive query is set as an input of the neural network have.
  • the device 1000 may convert the speech input to text.
  • the device 1000 may detect text similar to values that may be input as input values of the input field from the translated user's response. For example, if the values that can be entered in the movie selection field are "Justice League”, “Room 7", “Happy Death Day”, “Tor Ragnarok”, and “Loving Vincent” Quot ;, the device 1000 can compare the user's response with the name of each movie and detect "Happy Bull-Date" with a text similar to a threshold value or more.
  • the device 1000 can determine the output value that is output when the "happy bullet day" is input as the input of the neural network as the input value to the input field.
  • the device 1000 outputs a voice signal indicating a question to confirm whether the determined input value matches the input value intended by the user and upon receiving a response to the question, Can learn. For example, when the output value of the neural network is "Happy Day” and "Happy Day” is not the movie intended by the user, when the voice input "Happy Happy Day” is inputted as the input of the neural network, The neural network can be learned so that "Happy Day Day” is not outputted as the output value of the neural network.
  • the function of determining the input value of the input field using artificial intelligence can be performed in a server connected to the device 1000 and the server can receive various responses of a plurality of users to the inductive query, 1000) can provide more accurate service.
  • the device 1000 may output an acoustic signal representing an inductive query corresponding to a first input field of the plurality of input fields.
  • Device 1000 may execute an application that includes a plurality of input fields.
  • the device 1000 may output an acoustic signal indicating an inductive query corresponding to the first input field when receiving a voice input requesting execution of the application or during execution of the application.
  • step S820 the device 1000 may receive a speech input indicating a response to the derived query.
  • the user may randomize the input values for previously known input fields.
  • step S830 the device 1000 may detect a value for the second input field from the received voice input, among the plurality of input fields.
  • the device 1000 may detect a value for a second input field other than the first input field corresponding to the derived query. In addition, the device 1000 may detect a value for a second input field, along with a value for a first input field corresponding to an inductive query.
  • the device 1000 may detect " Saturday 2 o'clock “for the time selection field and” 2 digits " for the seat selection field in addition to the value 7 for the movie selection field which is the first input field can do.
  • the device 1000 may also detect values for a second input field other than the first input field from the speech input by comparing values that may be input corresponding to each of the plurality of input fields to the received speech input.
  • step S840 the device 1000 may set the detected value to the input value for the second input field.
  • the device 1000 can set "7 room", which is the value for the movie selection field, which is the first input field, to the input value of the movie selection field, as well as "Saturday 2 o'clock” Value, and "2 digits" can be set as an input value for the seat selection field.
  • step S850 the device 1000 may output an acoustic signal indicating an inductive query corresponding to the remaining input field among the plurality of input fields, for which no input value is set.
  • the device 1000 When the input values for the first input field and the second input field are set, the device 1000 generates an inductive query corresponding to at least one of the plurality of input fields except for the first input field and the second input field, Can be output.
  • the device 1000 determines whether a movie is selected in a certain scene, which is an inductive query corresponding to a theater selection field among the input fields other than the movie selection field, the time selection field, would you like to print? "
  • the user can randomly input a desired value at a time into a known input field without sequentially inputting the input value according to the input field or the page order of the application.
  • FIGS. 10A and 10B illustrate how device 1000 sets input values for low priority input fields, according to some embodiments.
  • the device 1000 may output an acoustic signal representing an inductive query corresponding to a required input field among a plurality of input fields.
  • the plurality of input fields of the application may be constituted of a required input field which is an input field which is indispensably necessary for providing an application service and a supplementary input field for acquiring additional information which is not a required input field.
  • an application may include a subscription function.
  • the ID input field 1010, the password input field 1020, and the contact input field 1030 may be mandatory input fields for the subscription service.
  • the email address input field 1040 may be a supplementary input field.
  • step S1020 the device 1000 may determine an input value for a required input field based on the received voice input as it receives the voice input in response to the derived query.
  • the device 1000 may determine an input value of a remaining input field other than a required input field among the plurality of input fields as a preset default value.
  • the device 1000 does not output an inductive query corresponding to a supplementary input field that is not a required input field among a plurality of input fields of the application, and outputs a default value corresponding to the supplementary input field as an input value of the supplementary input field You can decide.
  • the device 1000 may determine "no input” as an input value corresponding to the email address input field 1040.
  • Figures 11A and 11B illustrate a method for displaying values that may be input to an input field, while device 1000 outputs an acoustic signal representing an inductive query corresponding to an input field, in accordance with some embodiments.
  • the device 1000 may output an acoustic signal representing an inductive query corresponding to the input field.
  • the device 1000 may execute an Internet shopping application.
  • the device 1000 may select a running shoe and receive user input to purchase the selected running shoe.
  • the device 1000 may output an acoustic signal indicative of an inductive query corresponding to an option selection field for selecting an option for the selected sneaker.
  • the device 1000 may output an acoustic signal of "Which option do you want to select? &Quot;.
  • the device 1000 may display at least one value that can be input to the input field, while outputting an acoustic signal representing an inductive query corresponding to the input field.
  • the device 1000 may display at least one value 1140 that may be input to the option selection field, along with the output of the acoustic signal representing the derived query corresponding to the option selection field have. At least one value 1140 that may be entered in the option selection field may be at least one selected item preset corresponding to the option selection field. For example, the device 1000 may display at least one color or at least one size as a value 1140 that may be entered into the option selection field, along with an output of the acoustic signal representing the inductive query corresponding to the option selection field .
  • the user can easily and quickly input The input value of the field can be determined.
  • step S1130 the device 1000 may display text indicating a voice keyword corresponding to at least one value that may be entered in the input field.
  • the device 1000 may display "01_F1XKY00132_WHT”, "02_F1XKX0102_BLK”, “03_F1XKZ5311_BLK”, and "04_F1XKZ5312_GRY" as at least one value that can be input in the option selection field.
  • the device 1000 may display text indicating the voice keywords 1112 to 1118 corresponding to at least one value. For example, a text 1112 indicating "01” as a voice keyword corresponding to "01_F1XKY00132_WHT" may be displayed and a text 1114 indicating "02” as a voice keyword corresponding to "02_F1XKX0102_BLK” may be displayed.
  • the device 1000 may determine a value corresponding to the received speech keyword as an input value of the input field.
  • the device 1000 may determine "02_F1XKX0102_BLK” as a value corresponding to "02" as an input value for the option selection field.
  • the device 1000 detects a voice keyword 1114 of "02" from the voice input and selects "02_F1XKX0102_BLK” as an option based on the detected voice keyword by receiving the voice input indicating "02_Black” Can be determined as an input value for the selected field.
  • the user can easily and quickly set the input value for the input field by uttering a simple voice keyword.
  • the device 1000 can display the voice keywords 1121 and 1123 for controlling the application. For example, the device 1000 displays voice keywords 1121 and 1123 called “forward” and “ back " as commands for moving an application page, and upon receiving a voice keyword 1121 called " , The previous page of the currently displayed page can be displayed.
  • the device 1000 may display the voice keywords to be distinguished from the text contained in the page.
  • 12A and 12B illustrate how the device 1000 outputs an inductive query as the application's page is moved, in accordance with some embodiments.
  • the device 1000 may receive a voice input for moving a page of an application. Upon receiving a voice input of "forward ", the device 1000 can display the previous page of the currently displayed page.
  • the device 1000 may output an inductive query corresponding to an input field in a moved page as the page moves. For example, as the theater selection field is moved to the page containing the device, the device 1000 may output a sound signal representing "Which theater would you like to see?" Stored corresponding to the theater selection field.
  • 13A and 13B illustrate how the device 1000 outputs an inductive query as it receives a speech input that changes the input value of the input field, in accordance with some embodiments.
  • the device 1000 may receive a speech input for changing an input value of an input field.
  • the device 1000 may receive a speech input for changing an input value of a theater selection field "Theater Change! During the running of a movie preview application.
  • the device 1000 determines that the received voice input corresponds to a theater selection field based on the keyword " CHANGE "stored in response to changing the keyword” THEATER " It can be determined that the voice input is for changing.
  • the device 1000 may output an acoustic signal indicating an inductive query corresponding to an input field that the user wishes to change.
  • the device 1000 along with the acoustic signal output, may display a page containing an input field that the user wishes to change.
  • 14A, 14B, 15A, and 15B illustrate an embodiment in which the device 1000 switches the manner in which the device 1000 receives input values for input fields, in accordance with a user's selection, in accordance with some embodiments.
  • the device 1000 can execute a voice mode in which an application is controlled by outputting an acoustic signal indicating an inductive query and receiving a voice input from a user. Further, the device 1000 can receive a user input that touches the screen during voice mode execution.
  • the device 1000 can execute a GUI mode for controlling an application by receiving a user input through a GUI of the application, upon receiving a user input that touches the screen during execution of the voice mode. Accordingly, the device 1000 may no longer output the acoustic signal representing the derived query corresponding to the input field.
  • the device 1000 may receive a user input requesting execution of a voice mode during execution of the GUI mode.
  • the device 1000 may receive a user input requesting a voice mode execution of "Bixbee! Run voice! &Quot;. May be a wakeup keyword for requesting the device 1000 to recognize the voice to be input next.
  • the decryption function j * 1000 can change the GUI mode to the voice mode by detecting the keyword "execute voice mode" from the voice input.
  • the device 1000 when changing to the voice mode, the device 1000 detects at least one input field among the plurality of input fields in which no input value is set, and outputs an inductive query corresponding to the detected at least one input field Can be output.
  • the device 1000 may output an acoustic signal representing an inductive query corresponding to a time selection field "When would you like to see? &Quot;.
  • 16 is a flow diagram of a method by which a device 1000, in conjunction with a server, determines an input value for an input field of an application, in accordance with some embodiments.
  • step S1610 the device 1000 may output an acoustic signal representing an inductive query corresponding to the input field.
  • step S1620 the device 1000 may receive a speech input indicating a response to the derived query.
  • step S1630 the device 1000 may transmit the voice data to the server 3000.
  • the device 1000 converts the received voice input into voice data and transmits the voice data to the server 3000 so that the device 1000 does not perform voice recognition directly and transmits the voice data corresponding to the input field from the server 3000 Input values can be received.
  • the device 1000 may transmit identification information of the application and information on the input field of the application to the server.
  • the information about the input field may be identification information of the input field, at least one value that can be input to the input field, and identification information of the page including the input field.
  • the identification information of the input field may be a "movie selection field"
  • at least one value that can be input in the input field may be at least one movie title.
  • the identification information of the input field may be an "option selection field ", and at least one value that can be input to the input field may correspond to an option value .
  • the server 3000 can acquire information on the input field of the application previously stored in the server 3000, based on the identification information of the application received from the device 1000.
  • the device 1000 may transmit to the server 3000 the identification information of the currently displayed page or the identification information of the input field from which the current derived query is output.
  • step S1640 the server 3000 can perform natural language processing on the voice data to determine the input value represented by the voice data.
  • the server 3000 receives "7th room”, “Saturday”, “2 o'clock”, and “2 o'clock” from the device 1000, Quot ;, "two digits ", and” reserve "can be detected.
  • the server 3000 can determine that the currently executed application is a movie preview application based on the application identification information received from the device 1000.
  • a movie selection field, a movie selection field, a time selection field, and a seat selection field are stored as input fields of a movie preview application.
  • Values that can be input to the movie selection field are " "Gangnam CGV”, “DOGO CGV”, and “GURO CGV” are stored as the values that can be entered into the theater selection field, and "Justice League”, “No. 7 Room”, “Happy Day Day” and “Tor Ragnarok” Quot ;, " one digit “, “two digits ",” three digits "and the like are stored as values that can be input in the seat selection field Can be.
  • the server 3000 can determine the input value of the input field by comparing the word detected from the voice data with values that can be input to the input field. For example, the device 1000 may determine the " Crime Cities "as the input value of the movie selection field, since the" Crime Cities “is one of the values corresponding to the Movie Selection field. Further, since "2:30" of the values corresponding to the time selection field includes “2:00 “, the device 1000 can determine” 2:30 "as the input value corresponding to the time selection field. Also, since "two digits" is one of the values corresponding to the seat selection field, the device 1000 can determine "two digits" as the input value of the seat selection field.
  • step S1650 the server 3000 can transmit the input value indicated by the voice data to the device 1000.
  • the server 3000 may transmit the input values of the input field to the device 1000 together with the determined identification information of the at least one input field.
  • step S1660 the device 1000 may determine an input value for the input field.
  • the device 1000 may determine an input value for the input field based on the identification information and the input values of the at least one input field received from the server 3000.
  • 17 and 18 are block diagrams of a device 1000 according to some embodiments.
  • the device 1000 may include a user input unit 1100, a display unit 1210, an audio output unit 1220, and a control unit 1300. [ However, not all of the components shown in Fig. 17 are essential components of the device 1000. Fig. The device 1000 may be implemented by more components than the components shown in Fig. 17 and the device 1000 may be implemented by fewer components than those shown in Fig.
  • the device 1000 may be implemented by only the control unit 1300, and may be implemented by only the user input unit 1100 and the control unit 13000.
  • the device 1000 may include a user input unit 1100, a display unit 1210, an acoustic output unit 1220, and a control unit 1300, as well as an output
  • the control unit 1200 may further include a communication unit 1500, a sensing unit 1400, an A / V input unit 1600, and a memory 1700.
  • the user input unit 1100 means means for the user to input data for controlling the device 1000.
  • the user input unit 1100 may include a key pad, a dome switch, a touch pad (contact type capacitance type, pressure type resistive type, infrared ray detection type, surface ultrasonic wave conduction type, A tension measuring method, a piezo effect method, etc.), a jog wheel, a jog switch, and the like, but is not limited thereto.
  • the user input section 1100 may include a microphone 1620.
  • a microphone 1620 is shown as a part of the A / V input unit 1600, but when the microphone 1620 receives a voice input for controlling the device, the microphone 1620 is used as the user input unit 1100 Function.
  • the user input unit 1100 can receive a user input requesting execution of an application.
  • the touchpad may receive user input that touches the icon of the application.
  • microphone 1620 may receive a speech input that instructs the application to execute.
  • the microphone 1620 can receive the user's response to the inductive query.
  • the microphone 1620 may also receive a user's voice input for controlling the device 1000.
  • the output unit 1200 may output an audio signal or a video signal or a vibration signal and the output unit 1200 may include a display unit 1210, an acoustic output unit 1220, and a vibration motor 1230 have.
  • the sound output unit 1220 may output an acoustic signal indicating an inductive query corresponding to the input field. Also, the sound output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700.
  • the vibration motor 1230 can output a vibration signal.
  • the display unit 1210 displays and outputs information processed by the device 1000.
  • the display unit 1210 can display the GUI of the application.
  • the display unit 1210 and the touch pad have a layer structure and are configured as a touch screen
  • the display unit 1210 may display an icon of the application, It can be used as an input device in addition to an output device.
  • the display unit 1210 may be a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display A 3D display, and an electrophoretic display.
  • Control unit 1300 typically controls the overall operation of device 1000.
  • the control unit 1300 may include a user input unit 1100, an output unit 1200, a sensing unit 1400, a communication unit 1500, an A / V input unit 1600 ) Can be generally controlled.
  • the control unit 1300 may control the operation of the device 1000 in order to perform the functions of the device 1000 illustrated in FIGS.
  • the sensing unit 1400 includes a magnetism sensor 1410, an acceleration sensor 1420, an on / humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, (E.g., GPS) 1460, an illumination sensor 1495, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490.
  • a magnetism sensor 1410 an acceleration sensor 1420, an on / humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, (E.g., GPS) 1460, an illumination sensor 1495, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490.
  • the communication unit 1500 may include one or more components that allow the device 1000 to communicate with the outside.
  • the communication unit 1500 may include a local communication unit 1510, a mobile communication unit 1520, and a broadcast receiving unit 1530.
  • the short-range wireless communication unit 151 includes a Bluetooth communication unit, a BLE (Bluetooth Low Energy) communication unit, a Near Field Communication unit, a WLAN communication unit, a Zigbee communication unit, IrDA, an infrared data association) communication unit, a WFD (Wi-Fi Direct) communication unit, an UWB (ultra wideband) communication unit, an Ant + communication unit, and the like.
  • a Bluetooth communication unit a BLE (Bluetooth Low Energy) communication unit, a Near Field Communication unit, a WLAN communication unit, a Zigbee communication unit, IrDA, an infrared data association) communication unit, a WFD (Wi-Fi Direct) communication unit, an UWB (ultra wideband) communication unit, an Ant + communication unit, and the like.
  • the mobile communication unit 1520 transmits and receives radio signals to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data depending on a voice call signal, a video call signal, or a text / multimedia message transmission / reception.
  • the broadcast receiving unit 1530 receives broadcast signals and / or broadcast-related information from outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the device 1000 may not include the broadcast receiver 1530 according to an embodiment.
  • the A / V (Audio / Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610, a microphone 1620, and the like.
  • the memory 1700 may store a program for processing and control of the control unit 1300 and may store data input to or output from the device 1000.
  • the memory 1700 may be a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (e.g., SD or XD memory), a RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , An optical disc, and the like.
  • a flash memory type e.g., a hard disk type, a multimedia card micro type, a card type memory (e.g., SD or XD memory), a RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , An optical disc, and the like.
  • a flash memory type e.g., a hard disk type
  • a multimedia card micro type e.g.
  • the programs stored in the memory 1700 can be classified into a plurality of modules according to their functions.
  • the memory 1700 may store information about the input fields of the application.
  • the memory 1700 may store identification information of an application input field, page information including an input field, and information on a value that can be input to the input field.
  • the UI module 1710 can provide a specialized UI, a GUI, and the like that are interlocked with the device 1000 for each application.
  • the touch screen module 1720 senses a touch gesture on the user's touch screen and can transmit information on the touch gesture to the control unit 1300. [
  • the touch screen module 1720 may recognize and analyze the touch code.
  • the touch screen module 1720 may be configured as separate hardware including a controller.
  • the control unit 1300 may execute an application including a graphical user interface (GUI) for receiving an input value of an input field.
  • GUI graphical user interface
  • the control unit 1300 receives the user input requesting execution of the application and determines whether the user input is an audio input or not through the audio output unit 1220, A signal can be output.
  • control unit 1300 can receive, through the microphone 1620, an audio input indicating a response to the inductive query.
  • control unit 1300 can execute the application by setting the input value for the input field based on the speech input indicating the response to the inductive query.
  • control unit 1300 may output an acoustic signal indicating an inductive query corresponding to the input field.
  • control unit 1300 can display only the GUI of the application without outputting the sound signal indicating the inductive query corresponding to the input field .
  • control unit 1300 may control the display unit 1210 to display a GUI including an input field.
  • the control unit 1300 displays the first page of the plurality of pages upon reception of the voice input requesting execution of the application and outputs an acoustic signal representing the inductive query corresponding to the input field included in the first page Outputs an acoustic signal indicating an inductive query corresponding to the input field included in the second page, and outputs the acoustic signal corresponding to the input field included in the second page, as the input value of the input field included in the first page is determined,
  • the display unit 1210 and the sound output unit 1220 can be controlled.
  • the input value can be set.
  • controller 1300 sets the input values in the other input fields, and outputs the acoustic signals corresponding to the input fields other than the other input fields among the plurality of input fields to the acoustic output unit 1220 Can be controlled.
  • the communication unit 15000 can receive at least one value that can be selected as the input value of the input field from the external server.
  • control unit 1300 can determine the input value of the input field based on the received at least one value.
  • control unit 1300 upon receiving the voice input requesting execution of the application, displays the GUI screen including the input field, and outputs the sound signal indicating the inductive query corresponding to the input field to the display unit 1210 And the sound output unit 1220 can be controlled.
  • controller 1300 may set the input values of the remaining input fields to predetermined default values without performing an inductive query on the remaining input fields except for at least one required input field among the plurality of input fields.
  • control unit 1300 may display at least one value that can be input to the input field while outputting an acoustic signal indicating an inductive query corresponding to the input field, and may display text corresponding to at least one value Can be displayed.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.
  • &quot part " may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

입력 필드의 입력값을 수신하기 위한 그래픽 사용자 인터페이스(GUI)를 포함하는 어플리케이션을 실행하는 디바이스에 있어서, 음향 출력부, 어플리케이션의 실행을 요청하는 사용자 입력을 수신하는 사용자 입력부, 및 사용자 입력이 음성 입력인지 여부에 기초하여, 음향 출력부를 통해, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하고, 유도 질의에 대한 응답을 나타내는 음성 입력을 수신하고, 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 입력 필드에 대한 입력값을 설정함으로써, 어플리케이션을 실행하는 제어부를 포함하는, 일 실시예에 따른 디바이스가 개시된다.

Description

어플리케이션 실행 방법 및 이를 위한 장치
본 발명은, 사용자의 음성 입력에 기초하여 어플리케이션을 실행하는 방법 및 이를 위한 장치에 관한 것이다.
음성 인식 기술이 발전함에 따라, 음성 인식 스피커로부터 모바일 디바이스까지 다양한 디바이스가 음성 인식을 이용하여 서비스를 제공하고 있다.
디바이스는 음성 인식 장치를 이용하여 사용자 입력을 수신할 수 있으며, 터치 패널이나, 마우스와 같은 입력 장치를 이용하여 사용자 입력을 수신할 수 있다.
이 경우, 사용자의 상황에 따라, 사용자는 다른 입력 방법을 선택할 수 있다. 예를 들어, 사용자의 손이 자유로운 경우, 사용자는 화면 터치 또는 마우스를 이용하여 디바이스를 제어할 수 있으며, 디바이스를 볼 수 있는 상황이 아니거나, 손으로 조작할 수 없는 상황인 경우, 사용자는 음성 입력으로 디바이스를 제어할 수 있다.
그러나, 사용자가 디바이스의 화면을 보지 않고, 음성 입력으로 디바이스를 제어하는 경우, 디바이스를 제어하기 위해 어떠한 입력이 필요한지 알 수 없다.
특히, 디바이스에서 실행되는 어플리케이션 마다 다양한 사용자 인터페이스를 가지며, 사용자 인터페이스를 통해 선택될 수 있는 값 또한 다양하므로, 사용자가 화면을 보지 않고 어플리케이션을 제어하는 것은 쉽지 않다.
또한, 사용자가 화면을 볼 수 있더라도, 디바이스를 손으로 조작할 수 없는 경우에도, 사용자 인터페이스 각각을 음성 입력을 이용하여 제어해야 하므로, 어플리케이션을 제어하는데 사용되는 시간이 길어질 수 있다.
사용자의 음성 입력에 기초하여 어플리케이션을 실행하는 다양한 실시예가 제공된다.
도 1a, 1b, 2a 및 도 2b는 일부 실시예에 따른, 디바이스가 어플리케이션을 실행하는 방법을 도시한다.
도 3은 일부 실시예에 따른, 디바이스가 어플리케이션을 실행하는 방법의 흐름도이다.
도 4, 5a, 5b, 및 5c는 일부 실시예에 따른, 디바이스가 페이지의 순서에 따라, 입력 필드에 대한 유도 질의를 출력하는 방법을 도시한다.
도 6a 및 6b는 일부 실시예에 따른, 디바이스가 입력 필드에 입력될 수 있는 값들에 기초하여 음성 인식을 수행하는 방법을 도시한다.
도 7은 일부 실시예에 따른, 디바이스가 인공 지능을 이용하여, 입력 필드의 입력값을 결정하는 방법을 도시한다.
도 8, 9a, 9b는 일부 실시예에 따른, 사용자가 유도 질의에 상관없이, 유도 질의에 대응하는 입력 필드 이외의 다른 입력 필드에 대한 입력값에 대해 응답한 경우, 디바이스가 복수의 입력 필드에 대응하는 입력값을 결정하는 방법을 도시한다.
도 10a 및 10b는 일부 실시예에 따른, 디바이스가 중요도가 낮은 입력 필드에 대한 입력값을 설정하는 방법을 도시한다.
도 11a 및 11b는 일부 실시예에 따른, 디바이스가 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하면서, 입력 필드에 입력될 수 있는 값들을 디스플레이하는 방법을 도시한다.
도 12a 및 12b는 일부 실시예에 따른, 어플리케이션의 페이지가 이동됨에 따라, 디바이스가 유도 질의를 출력하는 방법을 도시한다.
도 13a 및 13b는 일부 실시예에 따른, 입력 필드의 입력값을 변경하는 음성 입력을 수신함에 따라, 디바이스가 유도 질의를 출력하는 방법을 도시한다.
도 14a, 14b, 15a, 15b는 일부 실시예에 따른, 디바이스가 사용자의 선택에 따라, 입력 필드에 대한 입력값을 수신하는 방법을 전환하는 실시예를 도시한다.
도 16은 일부 실시예에 따른, 디바이스가 서버와 연동하여, 어플리케이션의 입력 필드에 대한 입력값을 결정하는 방법의 흐름도이다.
도 17 및 도 18은 일부 실시예에 따른 디바이스의 블록도이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 1 측면은, 입력 필드의 입력값을 수신하기 위한 그래픽 사용자 인터페이스(GUI)를 포함하는 어플리케이션을 실행하는 디바이스에 있어서, 음향 출력부, 어플리케이션의 실행을 요청하는 사용자 입력을 수신하는 사용자 입력부, 및 사용자 입력이 음성 입력인지 여부에 기초하여, 음향 출력부를 통해, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하고, 유도 질의에 대한 응답을 나타내는 음성 입력을 수신하고, 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 입력 필드에 대한 입력값을 설정함으로써, 어플리케이션을 실행하는 제어부를 포함하는, 디바이스를 제공할 수 있다.
또한, 제어부는, 어플리케이션의 실행을 요청하는 사용자 입력이 음성 입력인 경우, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하고, 어플리케이션의 아이콘을 통한 입력인 경우, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하지 않을 수 있다.
또한, 디바이스는 디스플레이부를 더 포함하고, 제어부는, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 것에 더하여, 입력 필드를 포함하는 GUI를 디스플레이하도록 디스플레이부를 제어할 수 있다.
또한, 어플리케이션은 순서에 따라 디스플레이되는 복수의 페이지로 구성되고, 입력 필드는 제 1 입력 필드 및 제 2 입력 필드를 포함하고, 제어부는, 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 복수의 페이지 중 제 1 페이지를 디스플레이하고, 제 1 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하고, 제 1 페이지에 포함된 입력 필드의 입력값이 결정됨에 따라, 제 1 페이지 다음의 제 2 페이지를 디스플레이하고, 제 2 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
또한, GUI는 입력 필드를 포함하는 복수의 입력 필드를 포함하고, 제어부는, 유도 질의에 대한 응답을 나타내는 음성 입력이 복수의 입력 필드 중 입력 필드에 대한 응답 이외의, 다른 입력 필드에 대한 응답을 포함하는 경우, 음성 입력에 기초하여 다른 입력 필드에 입력값을 설정할 수 있다.
또한, 제어부는, 다른 입력 필드에 입력값을 설정함에 따라, 복수의 입력 필드 중 다른 입력 필드를 제외한 나머지 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하도록, 음향 출력부를 제어할 수 있다.
또한, 디바이스는, 통신부를 더 포함하고, 통신부는, 입력 필드의 입력값으로 선택될 수 있는 적어도 하나의 값을 외부 서버로부터 수신하고, 제어부는, 수신된 적어도 하나의 값에 기초하여, 입력 필드의 입력값을 결정할 수 있다.
또한, 제어부는, 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 입력 필드를 포함하는 GUI를 디스플레이하지 않고, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
또한, 어플리케이션은 입력 필드와 함께 복수의 입력 필드를 포함하고, 제어부는, 복수의 입력 필드는 어플리케이션이 수행하는 서비스를 제공받기 위해 필수적으로 필요한 입력 필드인 적어도 하나의 필수 입력 필드를 포함하고, 복수의 입력 필드 중 적어도 하나의 필수 입력 필드를 제외한 나머지 입력 필드에 관한 유도 질의를 하지 않고, 나머지 입력 필드의 입력값을 기 설정된 디폴트값으로 설정할 수 있다.
또한, 제어부는, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하면서, 입력 필드에 입력될 수 있는 적어도 하나의 값을 디스플레이하고, 적어도 하나의 값에 대응하는 음성 키워드를 나타내는 텍스트를 표시할 수 있다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
도 1a, 1b, 2a 및 2b는 일부 실시예에 따른, 디바이스(1000)가 어플리케이션을 실행하는 방법을 도시한다.
어플리케이션은 입력 필드의 입력값을 수신하기 위한 GUI를 포함할 수 있다. 이에 따라, 디바이스(1000)는 GUI를 통해 수신된 사용자 입력에 기초하여, 입력 필드의 입력값을 결정할 수 있다.
입력 필드는 사용자에 의해 결정되는 어플리케이션의 변수를 의미할 수 있다. 디바이스는 입력 필드의 입력값을 입력하는 사용자 입력을 수신하고, 입력된 입력값에 기초하여 어플리케이션을 실행함으로써, 어플리케이션의 서비스를 제공할 수 있다.
예를 들어, 영화 예매 어플리케이션에서 입력 필드는 영화 선택 필드, 극장 선택 필드, 날짜 및 시간 선택 필드, 좌석 선택 필드 및 결재 정보 입력 필드일 수 있으며, 검색 어플리케이션에 입력 필드는 검색어 입력 필드일 수 있고, 인터넷 쇼핑몰 어플리케이션에서 입력 필드는 상품명 입력 필드, 옵션 선택 필드, 배송 정보 입력 필드 및 결재 정보 입력 필드일 수 있다.
입력 필드의 입력값은 입력 필드에 대응하여 저장된 복수의 값 중 하나 일 수 있다. 예를 들어, 디바이스는 입력 필드에 대응하여 저장된 복수의 값 중 하나를 선택하기 위한 드랍 다운 메뉴를 디스플레이하고, 드랍 다운 메뉴 상에 디스플레이된 복수의 값 중 하나를 선택하는 사용자 입력을 수신함에 따라, 입력 필드의 입력값을 결정할 수 있다.
또한, 입력 필드의 입력값은 사용자에 의해 직접 텍스트 형식으로 입력될 수도 있다.
도 1a를 참조하면, 디바이스(1000)는, 어플리케이션을 실행할 것을 명령하는 음성 입력을 수신할 수 있다.
예를 들어, 디바이스(1000)는 영화 예매 어플리케이션이 실행되지 않은 상태에서, "영화 예매 어플 실행해!"라는 음성 입력을 수신할 수 있다.
도 1b를 참조하면, 어플리케이션을 실행할 것을 명령하는 음성 입력을 수신함에 따라, 디바이스(1000)는 어플리케이션의 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
예를 들어, 디바이스(1000)는 "영화 예매 어플 실행해!"라는 음성 입력을 수신함에 따라, "어떤 영화를 보시겠습니까"라는 영화 선택 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
디바이스(1000)는 유도 질의에 대한 응답으로써, 사용자로부터 영화명을 포함하는 음성 입력을 수신함에 따라, 수신된 영화명을 영화 선택 필드의 입력값으로 결정할 수 있다.
사용자가 음성 입력으로 어플리케이션을 실행하는 상황은, 사용자가 디바이스(1000)와 거리가 떨어져 있거나, 손으로 디바이스(1000)를 조작하기 어려운 상황이므로, 사용자가 음성 입력으로 어플리케이션을 실행했을 때, 어플리케이션을 조작하기 위한 유도 질의를 제공함으로써, 디바이스(1000)는 사용자가 디바이스(1000)를 조작할 수 없는 상황에서도 사용자에게 서비스를 제공할 수 있다.
도 2의 (a)를 참조하면, 디바이스(1000)는 어플리케이션을 실행하기 위한 사용자 입력을 수신할 수 있다.
예를 들어, 디바이스(1000)는 영화 예매 어플리케이션을 터치 또는 클릭하는 사용자 입력을 수신할 수 있다.
도 2b를 참조하면, 어플리케이션을 실행하기 위한 사용자 입력을 수신함에 따라, 디바이스(1000)는 어플리케이션의 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하지 않고, 어플리케이션의 GUI만을 디스플레이할 수 있다.
사용자가 터치 입력으로 어플리케이션을 실행하는 상황은, 사용자가 손으로 직접 디바이스(1000)를 조작할 수 있는 상황이므로, 유도 질의를 나타내는 음향 신호를 출력하지 않을 수 있다.
도 3은 일부 실시예에 따른, 디바이스(1000)가 어플리케이션을 실행하는 방법의 흐름도이다.
단계 S310에서, 디바이스(1000)는 어플리케이션의 실행을 요청하는 사용자 입력을 수신할 수 있다.
디바이스(1000)는 어플리케이션의 실행을 요청하는 음성 입력을 수신할 수 있다. 디바이스(1000)는 어플리케이션이 실행되지 않은 상태에서, 어플리케이션의 실행을 요청하는 음성 입력을 수신할 수 있으며, 어플리케이션이 실행중인 상태에서, 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신할 수도 있다.
음성 입력은, 예를 들어, 어플리케이션이 영화 예매 어플리케이션인 경우, "영화 예매 어플리케이션을 실행해!" 일 수 있으며, 어플리케이션 실행 요청을 나타내지 않는 "영화 예매 해줘!"일 수도 있다.
또한, 디바이스(1000)는 홈 화면에 어플리케이션의 아이콘을 디스플레이하고, 아이콘을 선택하는 사용자 입력을 수신함에 따라, 어플리케이션의 실행을 시작할 수도 있다.
단계 S320에서, 디바이스(1000)는 사용자 입력이 음성 입력인지 여부에 기초하여, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
디바이스(1000)는 어플리케이션의 실행을 요청하는 사용자 입력이 음성 입력인 경우, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
유도 질의는 입력 필드에 대응하는 데이터로써 디바이스(1000)에 저장되어 있을 수 있다. 또한, 하나의 입력 필드에 대응하여 하나의 유도 질의가 저장되어 있을 수 있으며, 복수개의 입력 필드에 대응하여 하나의 유도 질의가 저장되어 있을 수 있다. 예를 들어, 날짜 및 시간에 관한 입력 필드에 대응하여 "언제 영화를 보시겠습니까? "라는 하나의 유도 질의가 저장되어 있을 수도 있다.
유도 질의는 의문사를 포함하는 의문문 일 수 있다. 의문사를 포함하는 의문문은, 누가(who), 언제(when), 어디서(where), 무엇을(what), 어떻게(how, how much,how many) 및 왜(Why)를 포함하는 의문문을 의미할 수 있다.
이에 따라, 입력 필드에 입력될 수 있는 값들이 많을 때, 입력될 수 있는 값들을 전부 열거하지 않더라도, 간단한 질문만으로 사용자로부터 응답을 수신할 수 있다.
실시예에 따라, 디바이스(1000)는 입력 필드에 대응되는 유도 질의와 함께, 입력 필드에 입력될 수 있는 값들을 나타내는 음향 신호를 출력할 수도 있다.
또한, 어플리케이션은 복수의 입력 필드를 포함할 수 있다. 복수의 입력 필드는 어플리케이션이 서비스를 제공하기 위해 필수적으로 필요한 입력 필드인 필수 입력 필드와 어플리케이션이 서비스를 제공하기 위해 필수적으로 필요하진 않지만 부가적인 서비스를 위한 부가 입력 필드를 포함할 수 있다. 예를 들어, 영화 예매 어플리케이션에서 필수 입력 필드는, 영화 선택 필드, 극장 선택 필드, 날짜 및 시간 선택 필드, 좌석 선택 필드 및 결재 정보 입력 필드일 수 있으며, 부가 입력 필드는, 음료를 함께 구매할지 여부에 관한 입력 필드일 수 있다. 이 경우, 디바이스(1000)는 필수 입력 필드에 대해서만 유도 질의를 하고, 부가 입력 필드에 대해서는 입력값으로써 디폴트값을 설정할 수 있다.
디바이스(1000)는 입력 필드의 입력값을 수신하기 위한 GUI를 디스플레이하고, 더불어 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다. 또한, 디바이스(1000)는 입력 필드의 입력값을 수신하기 위한 GUI를 디스플레이하지 않고 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호만을 출력할 수도 있다.
또한, 어플리케이션이 복수의 페이지로 구성되고, 복수의 페이지의 디스플레이 순서가 기 설정된 경우, 디바이스(1000)는 디스플레이 순서에 따라 복수의 페이지를 순차적으로 디스플레이하면서, 디스플레이된 페이지에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
예를 들어, 디바이스(1000)는 복수의 페이지 중 제 1 페이지를 디스플레이하고, 제 1 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하고, 사용자의 응답에 기초하여 제 1 페이지 내의 입력 필드의 입력값이 결정됨에 따라, 제 1 페이지 다음의 제 2 페이지를 디스플레이하고, 제 2 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
이에 따라, 사용자는 음성 입력으로 디바이스(1000)를 제어하는 중에 다시 터치나 클릭으로 디바이스(1000)를 제어하더라도, 현재 페이지를 찾을 필요 없이 입력 필드의 입력값을 설정할 수 있다. 또한, 사용자가 디바이스(1000)를 볼 수는 있지만, 손으로 조작할 수 없는 상황이라면, 현재 입력값이 설정되는 입력 필드에 관한 정보를 볼 수 있으므로, 보다 쉽고, 정확하게 입력값을 선택할 수 있다. 이러한 실시예에 대해서는 도 4 및 5를 참조하여 후술된다.
또한, 디바이스(1000)는 어플리케이션의 실행을 요청하는 사용자 입력이 어플리케이션의 아이콘을 통한 입력인 경우, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하지 않고, 어플리케이션의 GUI를 디스플레이할 수 있다.
사용자가 터치 또는 마우스를 이용하여 어플리케이션을 실행한 경우, 사용자가 손으로 디바이스(1000)를 제어할 수 있는 상황이므로, 디바이스(1000)는 유도 질의를 출력하지 않고, 어플리케이션의 GUI만을 디스플레이할 수 있다.
단계 S330에서, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력을 수신할 수 있다.
유도 질의에 대한 응답을 나타내는 음성 입력은 출력된 유도 질의에 대응하는 입력 필드의 입력값을 포함할 수 있으며, 출력된 유도 질의에 대응하는 입력 필드가 아닌 다른 입력 필드의 입력값을 포함할 수도 있다.
단계 S340에서, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 입력 필드에 대한 입력값을 설정함으로써, 어플리케이션을 실행할 수 있다.
디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력에 대해 음성 인식을 수행함으로써 음성 입력이 나타내는 텍스트를 결정하고, 결정된 텍스트로부터 입력 필드에 설정될 입력값을 검출함으로써, 입력 필드에 대응하는 입력값을 결정할 수 있다.
또한, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력에 대해 음성 인식을 수행함으로써 음성 입력이 나타내는 텍스를 결정할 때, 입력 필드에 입력될 수 있는 값들에 기초하여 음성 인식을 수행할 수 있다. 예를 들어, 입력 필드에 입력될 수 있는 값이 '7호실', '범죄도시' 및 '침묵'인 경우, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력은 다른 단어 보다 '7호실', '범죄도시' 및 '침묵' 중 하나를 포함할 확률이 높다는 가정하에 음성 인식을 수행할 수 있다.
또한, 디바이스(1000)는 입력 필드에 입력될 수 있는 값을 실시간으로 외부 서버로부터 수신하고, 수신된 값에 기초하여 유도 질의에 대한 응답을 나타내는 음성 입력에 대해 음성 인식을 수행함으로써, 입력 필드에 대응하는 입력값을 결정할 수 있다.
또한, 실시예에 따라, 디바이스(1000)는 음성 입력이, 출력된 유도 질의에 대응하는 입력 필드의 입력값 이외에 다른 입력 필드의 입력값을 포함하는지 여부를 결정할 수 있다. 예를 들어, 디바이스(1000)는 하나의 입력 필드에 대응하는 유도 질의만을 출력하였더라도, 음성 입력으로부터 어플리케이션이 포함하는 복수개의 입력 필드에 대한 입력값들을 검출할 수 있으며, 검출된 각각의 입력값들을 각각의 입력값들에 대응하는 입력 필드에 설정할 수 있다.
이에 따라, 사용자가 유도 질의에 대한 응답이 아닌 생각나는 데로 발화한 경우라도, 디바이스(1000)는 사용자의 응답으로부터 사용자가 의도한 입력값들을 검출할 수 있다. 이러한 실시예에 대해서는 도 8a 및 8b를 참조하여 후술한다.
또한, 디바이스(1000)는 출력된 유도 질의에 대응하는 입력 필드의 입력값 이외에 다른 입력 필드의 입력값을 수신한 경우, 어플리케이션의 복수의 입력 필드 중 설정되지 않은 나머지 입력 필드에 대응하는 유도 질의만을 출력할 수 있다.
도 4 및 5a, 5b, 5c는 일부 실시예에 따른, 디바이스(1000)가 페이지의 순서에 따라, 입력 필드에 대한 유도 질의를 출력하는 방법을 도시한다.
도 4의 단계 S410에서, 디바이스(1000)는 어플리케이션의 복수의 페이지 중 제 1 페이지를 디스플레이할 수 있다.
어플리케이션은 복수의 페이지로 구성될 수 있다. 예를 들어, 도 5를 참조하면, 영화 예매 어플리케이션에서 제 1 페이지(510)는 영화를 선택하는 페이지, 제 2 페이지(520)는 극장을 선택하는 페이지, 제 3 페이지(530)는 날짜와 시간을 선택하는 페이지 및 제 4 페이지는 결재 정보를 입력하는 페이지일 수 있다.
단계 S420에서, 디바이스(1000)는 제 1 페이지를 디스플레이함에따라, 제 1 페이지에 포함된 입력 필드에 대응되는 유도 질의를 출력할 수 있다.
디바이스(1000)는 어플리케이션의 제 1 페이지(510)를 디스플레이하고, 제 1 페이지(510)에 포함된 영화 선택 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다. 예를 들어, 영화 선택 필드에 대응하여 "어떤 영화를 보시겠습니까?"라는 유도 질의가 저장되어 있는 경우, 디바이스(1000)는 "어떤 영화를 보시겠습니까?"라는 유도 질의를 출력할 수 있다.
단계 S430에서, 디바이스(1000)는 제 1 페이지에 포함된 입력 필드의 입력값이 결정됨에 따라, 제 1 페이지 다음의 제 2 페이지를 디스플레이하고, 제 2 페이지에 포함된 입력 필드에 대응되는 유도 질의를 출력할 수 있다.
예를 들어, 도 5a를 참조하면, "7호실!"이라는 제 1 응답을 수신함에 따라, 디바이스(1000)는 복수의 영화 중 "7호실"을 영화 선택 필드의 입력값으로 결정할 수 있다.
또한, 도 5b를 참조하면, 제 1 페이지(510)에 포함된 입력 필드의 입력값이 결정됨에 따라, 디바이스(1000)는 제 2 페이지(520)를 디스플레이하고, 제 2 페이지(520)에 포함된 극장 선택 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다. 예를 들어, 극장 선택 필드에 대응하여 "어느 극장에서 보시겠습니까?"라는 유도 질의가 저장되어 있는 경우, 디바이스(1000)는 "어느 극장에서 보시겠습니까?"라는 유도 질의를 출력할 수 있다.
극장 선택 필드에 대응하는 유도 질의에 대한 응답으로써, "CGV 강남"이라는 제 2 응답을 수신함에 따라, 디바이스(1000)는 복수의 극장 중 "CGV 강남"을 극장 선택 필드의 입력값으로 결정할 수 있다.
또한, 도 5c를 참조하면, 제 2 페이지(520)에 포함된 입력 필드의 입력값이 결정됨에 따라, 디바이스(1000)는 제 3 페이지(530)를 디스플레이하고, 제 3 페이지(530)에 포함된 날짜 및 시간 선택 필드에 대응하는 음향 신호를 출력할 수 있다.
복수의 페이지(510 내지 530)에 포함된 입력 필드들의 입력값들을 모두 결정함에 따라, 디바이스(1000)는 입력값들에 기초하여 영화 예매 서비스를 제공할 수 있다.
이에 따라, 사용자는 음성 입력으로 디바이스(1000)를 제어하는 중에 다시 터치나 클릭으로 디바이스(1000)를 제어하더라도, 또한, 사용자가 디바이스(1000)를 볼 수는 있지만, 손으로 조작할 수 없는 상황이라도, 보다 쉽고, 정확하게 입력값을 선택할 수 있다.
도 6a 및 6b는 일부 실시예에 따른, 디바이스(1000)가 입력 필드에 입력될 수 있는 값들에 기초하여 음성 인식을 수행하는 방법을 도시한다.
도 6a의 단계 S610에서, 디바이스(1000)는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다. 단계 S620에서, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력을 수신할 수 있다. 단계 S610 및 S620은 도 3의 S320 및 S330을 참조하여 설명될 수 있다.
단계 S630에서, 디바이스(1000)는 입력 필드의 입력값으로 선택될 수 있는 적어도 하나의 값에 기초하여, 입력 필드의 입력값을 결정할 수 있다.
디바이스(1000)는 각각의 입력 필드에 대응하여, 입력값으로 선택될 수 있는 적어도 하나의 값을 저장하고 있을 수 있다. 예를 들어, 드랍 다운(Drop down) 메뉴를 이용하여 입력값이 선택되는 입력 필드의 경우, 디바이스(1000)는 드랍 다운 메뉴를 클릭했을 때 디스플레이되는 복수의 값들을 저장하고 있을 수 있다.
또한, 도 6b를 참조하면, 디바이스(1000)는 각각의 입력 필드에 대응하여, 입력값으로 선택될 수 있는 적어도 하나의 값을 외부 디바이스로부터 수신할 수도 있다. 예를 들어, 디바이스(1000)는 데이터베이스(2000)에게 입력 필드에 입력될 수 있는 값을 요청할 수 있다. 데이터베이스(2000)는 외부 서버일 수 있다. 또한, 데이터베이스(2000)는 인터넷과 같은 광대역 네트워크를 통해 디바이스(1000)와 통신할 수 있으며, LAN(Local Area Network)을 통해 통신할 수도 있다. 디바이스(1000)는 입력 필드에 대응하여 데이터베이스(2000)의 링크 주소를 저장하고 있을 수 있다.
디바이스(1000)는 입력 필드에 대응하는 데이터베이스(2000)에게, 입력 필드에 입력될 수 있는 값을 요청할 수 있다. 예를 들어, 영화 예매 어플리케이션인 경우, 데이터베이스(2000)는 영화 정보 데이터베이스(2000)일 수 있다. 이 경우, 디바이스(1000)는 영화 정보 데이터베이스(2000)에게 영화 선택 필드의 선택값으로 선택될 수 있는 값들을 요청할 수 있다. 디바이스(1000)는 영화 정보 데이터베이스(2000)로부터 영화 선택 필드의 선택값으로 선택될 수 있는 값들을 수신할 수 있다.
디바이스(1000)는 입력 필드에 입력될 수 있는 값들에 기초하여 음성 입력에 대한 음성 인식을 수행함으로써, 입력 필드의 입력값을 결정할 수 있다.
예를 들어, 디바이스(1000)는 유도 질의에 대한 응답에 대해 음성 인식을 수행하여 응답이 나타내는 텍스트를 결정할 때, 입력 필드에 입력될 수 있는 값들에 기초하여 음성 인식을 수행할 수 있다. 예를 들어, 디바이스(1000)는 응답으로부터 단어를 검출할 때, 다른 단어들 보다, 수신된 값들이 검출될 확률을 높게 설정할 수 있다.
예를 들어, 도 6b를 참조하면, 영화 데이터베이스로부터 수신된 영화 목록이 "저스티스 리그", "7호실", "해피 데스데이", "토르 라그나로크" 및 "러빙 빈센트"이고, 영화 선택 필드에 대응하는 유도 질의인 "어떤 영화를 보시겠습니까?" 에 대한 사용자의 응답이 "해피 벌뜨데이" 인 경우, 디바이스(1000)는 응답이 나타내는 텍스트가 "해피 벌뜨데이"가 아닌 "해피 데스데이"인 것으로 결정할 수 있다.
또한, 디바이스(1000)는 응답이 나타내는 텍스트가 "해피 벌뜨데이"인 것으로 결정한 후, "해피 벌뜨데이"를 영화 선택 필드의 입력값으로 선택될 수 있는 복수의 값들과 비교함으로써, 가장 유사한 값인 "해피 데쓰데이"를 영화 선택 필드의 입력값으로써 결정할 수도 있다.
실시예에 따라, 디바이스(1000)는 결정된 입력값이 사용자가 의도한 입력값과 일치하는지 여부를 확인하기 위한 음성 신호를 출력할 수 있다. 예를 들어, 디바이스(1000)는 "해피 데쓰데이를 예매할까요"라는 음성 신호를 출력할 수 있다.
또한, 예를 들어, 영화 예매 어플리케이션에서, "언제 보시겠습니까?"라는 유도 질의에 대한 응답으로써 "오늘 2시 반"이라는 음성 입력을 수신할 수 있다. 또한, 디바이스(1000)는 "오늘"이라는 단어에 기초하여 날짜 선택 필드의 입력값으로 11월 15일을 결정하고, "두시 반"이라는 단어에 기초하여, 시간 선택 필드의 입력값으로 2시 30분을 결정할 수 있다.
입력 필드의 입력값이 결정됨에 따라, 디바이스(1000)는 "15일 수요일 2 시 30분 영화가 선택되었습니다"를 나타내는 음향 신호를 출력할 수 있다. 또한, 디바이스(1000)는 디스플레이 화면 상에, 날짜 선택 필드의 식별 정보 및 선택된 날짜인 15일을 디스플레이하고, 시간 선택 필드의 식별 정보 및 선택된 시간인 2시 30분을 디스플레이할 수 있다. 또한, 복수의 페이지에 포함된 복수의 입력 필드에 대한 입력값들을 포함하는 하나의 응답을 수신함에 따라, 디바이스(1000)는 각각의 페이지 및 각각의 페이지에 포함된 입력 필드에 대한 입력값을 순차적으로 디스플레이할 수 있다.
이에 따라, 디바이스(1000)는 보다 정확하게 사용자의 의도를 파악할 수 있으며, 경우에 따라, 응답이 나타내는 텍스트를 입력 필드에 입력될 수 있는 값으로 한정 함으로써, 빠르고 정확한 서비스를 제공할 수 있다.
도 7은 일부 실시예에 따른, 디바이스(1000)가 인공 지능을 이용하여, 입력 필드의 입력값을 결정하는 방법을 도시한다.
도 7을 참조하면, 디바이스(1000)는 신경망 알고리즘을 이용하여 입력 필드의 입력값을 결정할 수 있다.
하나의 입력 필드에 입력될 수 있는 값들이 정해진 경우, 디바이스(1000)는 사용자의 유도 질의에 대한 응답을 신경망의 입력으로 설정했을 때, 입력 필드에 입력될 입력값을 출력하도록 신경망을 학습시킬 수 있다.
유도 질의에 대한 사용자의 응답을 나타내는 음성 입력을 수신함에 따라, 디바이스(1000)는 음성 입력을 텍스트로 변환할 수 있다. 디바이스(1000)는 변환된 사용자의 응답으로부터 입력 필드의 입력값으로 입력될 수 있는 값들과 유사한 텍스트를 검출할 수 있다. 예를 들어, 영화 선택 필드에 입력될 수 있는 값이 "저스티스 리그", "7 호실", "해피 데스데이", "토르 라그나로크" 및 "러빙 빈센트"이고, 사용자로부터 수신된 응답이 "해피 벌뜨데이 예매해줘"인 경우, 디바이스(1000)는 사용자의 응답을 각각의 영화명과 비교하여 임계값 이상 유사한 텍스트로써 "해피 벌뜨데이"를 검출할 수 있다.
디바이스(1000)는 "해피 벌뜨데이"를 신경망의 입력으로 입력하였을 때 출력되는 출력값을 입력 필드에 대한 입력값으로 결정할 수 있다.
결정된 입력값이 사용자가 의도한 입력값과 일치하는지 여부를 확인하기 위한 질문을 나타내는 음성 신호를 출력하고, 질문에 대한 응답을 수신함에 따라, 디바이스(1000)는 사용자의 응답에 기초하여, 신경망을 학습시킬 수 있다. 예를 들어, 신경망의 출력값이 "해피 데쓰데이"이고 "해피 데쓰데이"가 사용자가 의도한 영화가 아님을 확인한 경우, "해피 벌뜨데이 예매해줘"라는 음성 입력이 신경망의 입력으로 입력되었을 때, "해피 데쓰데이"가 신경망의 출력값으로 출력되지 않도록 신경망을 학습시킬 수 있다.
인공 지능을 이용하여 입력 필드의 입력값을 결정하는 기능은 디바이스(1000)와 연결된 서버에서 수행될 수 있으며, 서버는 유도 질의에 대한 복수의 사용자들의 다양한 응답을 수신할 수 있으며, 이에 따라 디바이스(1000)는 보다 정확하게 서비스를 제공할 수 있다.
도 8 및 도 9a, 9b는 일부 실시예에 따른, 사용자가 유도 질의에 상관없이, 유도 질의에 대응하는 입력 필드 이외의 다른 입력 필드에 대한 입력값에 대해 응답한 경우, 디바이스(1000)가 복수의 입력 필드에 대응하는 입력값을 결정하는 방법을 도시한다.
단계 S810에서, 디바이스(1000)는 복수의 입력 필드 중 제 1 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
디바이스(1000)는 복수의 입력 필드를 포함하는 어플리케이션을 실행할 수 있다. 디바이스(1000)는, 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신했을 때, 또는 어플리케이션을 실행 중에, 제 1 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
단계 S820에서, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력을 수신할 수 있다.
사용자가 어플리케이션의 입력 필드에 대해 미리 알고 있는 경우, 사용자는 미리 알고 있는 입력 필드들에 대한 입력값들을 무작위로 발화할 수 있다.
예를 들어, 도 9a를 참조하면, 디바이스(1000)가 영화 선택 필드에 대응하는 "어떤 영화를 보시겠습니까?"라는 유도 질의를 출력했을 때, "7호실 토요일 2시 2자리 예약해줘!"라는 응답을 수신할 수 있다.
단계 S830에서, 디바이스(1000)는 복수의 입력 필드 중, 수신된 음성 입력으로부터 제 2 입력 필드에 대한 값을 검출할 수 있다.
디바이스(1000)는 유도 질의에 대응하는 제 1 입력 필드가 아닌 다른 제 2 입력 필드에 대한 값을 검출할 수 있다. 또한, 디바이스(1000)는 유도 질의에 대응하는 제 1 입력 필드에 대한 값과 함께 다른 제 2 입력 필드에 대한 값을 검출할 수도 있다.
예를 들어, 디바이스(1000)는 제 1 입력 필드인 영화 선택 필드에 대한 값인 "7호실"이외에, 시간 선택 필드에 대한 값인 "토요일 2시" 및 좌석 선택 필드에 대한 값인 "2 자리"를 검출할 수 있다.
디바이스(1000)는 복수의 입력 필드 각각에 대응하여 입력될 수 있는 값들을 수신된 음성 입력과 비교함으로써, 음성 입력으로부터 제 1 입력 필드 이외의 제 2 입력 필드에 대한 값 또한 검출할 수 있다.
단계 S840에서, 디바이스(1000)는 검출된 값을 제 2 입력 필드에 대한 입력값으로 설정할 수 있다.
예를 들어, 디바이스(1000)는 제 1 입력 필드인 영화 선택 필드에 대한 값인 "7호실"을 영화 선택 필드의 입력값으로 설정할 수 있을 뿐만 아니라, "토요일 2 시"를 시간 선택 필드에 대한 입력값으로 설정하고, "2 자리"를 좌석 선택 필드에 대한 입력값으로 설정할 수 있다.
단계 S850에서, 디바이스(1000)는 복수의 입력 필드 중 입력값이 설정되지 않은 나머지 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
제 1 입력 필드 및 제 2 입력 필드에 대한 입력값이 설정된 경우, 디바이스(1000)는 복수의 입력 필드 중 제 1 입력 필드 및 제 2 입력 필드를 제외한 나머지 입력 필드들 중 적어도 하나에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
예를 들어 도 9b를 참조하면, 디바이스(1000)는 복수의 입력 필드 중 영화 선택 필드, 시간 선택 필드 및 좌석 선택 필드를 제외한 나머지 입력 필드 중 극장 선택 필드에 대응하는 유도 질의인 "어느 극장에서 보시겠습니까?"를 출력할 수 있다.
이에 따라, 사용자는 어플리케이션의 입력 필드 또는 페이지 순서에 따라 순차적으로 입력값을 입력하지 않더라도, 알고 있는 입력 필드에 대해 원하는 값을 한꺼번에 랜덤하게 입력할 수 있다.
도 10a 및 10b는 일부 실시예에 따른, 디바이스(1000)가 중요도가 낮은 입력 필드에 대한 입력값을 설정하는 방법을 도시한다.
도 10a의 단계 S1010을 참조하면, 디바이스(1000)는 복수의 입력 필드 중 필수 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
어플리케이션의 복수의 입력 필드는 어플리케이션의 서비스를 제공하기 위해 필수적으로 필요한 입력 필드인 필수 입력 필드와 필수 입력 필드는 아니지만 부수적인 정보를 획득하기 위한 부가 입력 필드로 구성될 수 있다.
예를 들어, 도 10b을 참조하면, 어플리케이션은 회원 가입 기능을 포함할 수 있다. 이 경우, 아이디 입력 필드(1010), 패스워드 입력 필드(1020) 및 연락처 입력 필드(1030)는 회원 가입 서비스를 위한 필수 입력 필드일 수 있다. 그러나, 이메일 주소는 회원 가입 서비스를 위해 필수적으로 필요하지 않으므로, 이메일 주소 입력 필드(1040)는 부가 입력 필드일 수 있다.
단계 S1020에서, 디바이스(1000)는 유도 질의에 대한 응답으로써 음성 입력을 수신함에 따라, 수신된 음성 입력에 기초하여 필수 입력 필드에 대한 입력값을 결정할 수 있다.
단계 S1030에서, 디바이스(1000)는 복수의 입력 필드 중 필수 입력 필드를 제외한 나머지 입력 필드의 입력값을 기 설정된 디폴트값으로 결정할 수 있다.
예를 들어, 디바이스(1000)는 어플리케이션의 복수의 입력 필드 중 필수 입력 필드가 아닌 부가 입력 필드에 대응하는 유도 질의를 출력하지 않고, 부가 입력 필드에 대응하는 디폴트 값을 부가 입력 필드의 입력값으로 결정할 수 있다.
예를 들어, 도 10b를 참조하면, 디바이스(1000)는 이메일 주소 입력 필드(1040)에 대응하는 입력값으로 "입력없음"을 결정할 수 있다.
도 11a 및 11b는 일부 실시예에 따른, 디바이스(1000)가 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하면서, 입력 필드에 입력될 수 있는 값들을 디스플레이하는 방법을 도시한다.
도 11a의 단계 S1110을 참조하면, 디바이스(1000)는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
예를 들어, 도 11b를 참조하면, 디바이스(1000)는 인터넷 쇼핑 어플리케이션을 실행할 수 있다. 또한, 디바이스(1000)는 운동화를 선택하고, 선택된 운동화를 구매하기 위한 사용자 입력을 수신할 수 있다. 선택된 운동화를 구매하기 위한 사용자 입력을 수신함에 따라, 디바이스(1000)는 선택된 운동화에 관한 옵션을 선택하기 위한 옵션 선택 필드에 대응하는 유도 질의 나타내는 음향신호를 출력할 수 있다. 예를 들어, 디바이스(1000)는 "어떤 옵션을 선택하시겠습니까?"라는 음향 신호를 출력할 수 있다.
단계 S1120을 참조하면, 디바이스(1000)는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하면서, 입력 필드에 입력될 수 있는 적어도 하나의 값을 디스플레이할 수 있다.
예를 들어, 도 11b를 참조하면, 디바이스(1000)는 옵션 선택 필드에 대응하는 유도 질의 나타내는 음향신호의 출력과 함께, 옵션 선택 필드에 입력될 수 있는 적어도 하나의 값(1140)을 디스플레이할 수 있다. 옵션 선택 필드에 입력될 수 있는 적어도 하나의 값(1140)은, 옵션 선택 필드에 대응하여 기 설정된 적어도 하나의 선택 항목일 수 있다. 예를 들어, 디바이스(1000)는 옵션 선택 필드에 대응하는 유도 질의 나타내는 음향신호의 출력과 함께, 옵션 선택 필드에 입력될 수 있는 값(1140)으로써 적어도 하나의 색 또는 적어도 하나의 사이즈를 디스플레이할 수 있다.
이에 따라, 사용자가 디바이스(1000)의 화면을 볼 수는 있으나, 손으로 조작할 수 없는 상황일 때, 화면 상에 입력 필드에 입력될 수 있는 값(1140)들을 디스플레이함으로써, 사용자는 쉽고 빠르게 입력 필드의 입력값을 결정할 수 있다.
단계 S1130에서, 디바이스(1000)는 입력 필드에 입력될 수 있는 적어도 하나의 값에 대응하는 음성 키워드를 나타내는 텍스트를 표시할 수 있다.
예를 들어, 도 11b를 참조하면, 디바이스(1000)는 옵션 선택 필드에 입력될 수 있는 적어도 하나의 값으로써, "01_F1XKY00132_WHT", "02_F1XKX0102_BLK", "03_F1XKZ5311_BLK" 및 "04_F1XKZ5312_GRY"를 디스플레이할 수 있다.
이 경우, 디바이스(1000)는 적어도 하나의 값에 대응하는 음성 키워드(1112 내지 1118)를 나타내는 텍스트를 표시할 수 있다. 예를 들어, "01_F1XKY00132_WHT"에 대응하는 음성 키워드로써 "01"을 나타내는 텍스트(1112)를 표시하고, "02_F1XKX0102_BLK"에 대응하는 음성 키워드로써 "02"를 나타내는 텍스트(1114)를 표시할 수 있다.
적어도 하나의 음성 키워드(1112 내지 1118)들 중 하나의 음성 키워드를 나타내는 음성 입력을 수신함에 따라, 디바이스(1000)는 수신된 음성 키워드에 대응하는 값을 입력 필드의 입력값으로써 결정할 수 있다.
예를 들어, "02"라는 음성 키워드(1114)를 나타내는 음성 입력을 수신함에 따라, 디바이스(1000)는 "02"에 대응하는 값인 "02_F1XKX0102_BLK"를 옵션 선택 필드에 대한 입력값으로써 결정할 수 있다.
또한, "02_블랙"을 나타내는 음성 입력을 수신함에 따라, 디바이스(1000)는 음성 입력으로부터 "02"라는 음성 키워드(1114)를 검출하고, 검출된 음성 키워드에 기초하여, "02_F1XKX0102_BLK"를 옵션 선택 필드에 대한 입력값으로써 결정할 수 있다.
이에 따라, 사용자는 입력 필드에 입력될 수 있는 값의 음절 전부를 발화하지 않더라도, 간단한 음성 키워드를 발화함으로써, 쉽고 빠르게 입력 필드에 대한 입력값을 설정할 수 있다.
또한, 디바이스(1000)는 어플리케이션을 제어하기 위한 음성 키워드(1121, 1123)를 디스플레이할 수 있다. 예를 들어, 디바이스(1000)는 어플리케이션의 페이지를 이동하기 위한 명령어로써 "앞으로" 및 "뒤로"라는 음성 키워드(1121, 1123)를 디스플레이하고, "앞으로"라는 음성 키워드(1121)를 수신함에 따라, 현재 디스플레이된 페이지의 이전 페이지를 디스플레이할 수 있다.
또한, 디바이스(1000)는 음성 키워드를 페이지에 기 포함된 텍스트와 구별되도록 디스플레이할 수 있다.
도 12a 및 12b는 일부 실시예에 따른, 어플리케이션의 페이지가 이동됨에 따라, 디바이스(1000)가 유도 질의를 출력하는 방법을 도시한다.
도 12 (a)를 참조하면, 디바이스(1000)는 어플리케이션의 페이지를 이동하기 위한 음성 입력을 수신할 수 있다. "앞으로"라는 음성 입력을 수신함에 따라, 디바이스(1000)는 현재 디스플레이된 페이지의 이전 페이지를 디스플레이할 수 있다.
도 12 (b)를 참조하면, 디바이스(1000)는 페이지를 이동함에 따라 이동된 페이지 내의 입력 필드에 대응하는 유도 질의를 출력할 수 있다. 예를 들어, 극장 선택 필드가 포함된 페이지로 이동됨에 따라, 디바이스(1000)는 극장 선택 필드에 대응하여 저장된 "어느 극장에서 보시겠습니까?"를 나타내는 음향 신호를 출력할 수 있다.
도 13a 및 13b는 일부 실시예에 따른, 입력 필드의 입력값을 변경하는 음성 입력을 수신함에 따라, 디바이스(1000)가 유도 질의를 출력하는 방법을 도시한다.
도 13(a)를 참조하면, 디바이스(1000)는 입력 필드의 입력값을 변경하기 위한 음성 입력을 수신할 수 있다. 예를 들어, 디바이스(1000)는 영화 예매 어플리케이션 실행 중에 "극장 변경!"이라는 극장 선택 필드의 입력값을 변경하기 위한 음성 입력을 수신할 수 있다.
디바이스(1000)는 극장 선택 필드에 대응하여 기 저장된 "극장"이라는 키워드 및 입력 필드의 입력값을 변경하는 동작에 대응하여 저장된 "변경"이라는 키워드에 기초하여, 수신된 음성 입력이 극장 선택 필드를 변경하기 위한 음성 입력임을 결정할 수 있다.
도 13(b)를 참조하면, 디바이스(1000)는 사용자가 변경하고자 하는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
또한, 디바이스(1000)는 음향 신호 출력과 함께, 사용자가 변경하고자 하는 입력 필드를 포함하는 페이지를 디스플레이할 수 있다.
도 14a, 14b, 15a, 및 15b는 일부 실시예에 따른, 디바이스(1000)가 사용자의 선택에 따라, 입력 필드에 대한 입력값을 수신하는 방법을 전환하는 실시예를 도시한다.
도 14a를 참조하면 디바이스(1000)는, 유도 질의를 나타내는 음향 신호를 출력하고, 사용자로부터 음성 입력을 수신함으로써 어플리케이션을 제어하는 음성 모드를 실행할 수 있다. 또한, 디바이스(1000)는 음성 모드 실행 중에, 화면을 터치하는 사용자 입력을 수신할 수 있다.
도 14b를 참조하면, 디바이스(1000)는, 음성 모드 실행 중에, 화면을 터치하는 사용자 입력을 수신함에 따라, 어플리케이션의 GUI를 통해 사용자 입력을 수신함으로써 어플리케이션을 제어하는 GUI 모드를 실행할 수 있다. 이에 따라, 디바이스(1000)는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 더 이상 출력하지 않을 수 있다.
도 15a를 참조하면, 디바이스(1000)는 GUI 모드 실행 중에, 음성 모드 실행을 요청하는 사용자 입력을 수신할 수 있다.
예를 들어, 디바이스(1000)는 "빅스비! 음성으로 실행해줘!"라는 음성 모드 실행을 요청하는 사용자 입력을 수신할 수 있다. "빅스비!"는 디바이스(1000)에게 다음에 입력될 음성을 인식할 것을 요청하기 위한 웨이크업 키워드일 수 있다. 디*牡決*j*(1000)는 음성 입력으로부터 "음성 모드 실행"이라는 키워드를 검출함에 라, GUI 모드를 음성 모드로 변경할 수 있다.
도 15b를 참조하면, 음성 모드로 변경함에 따라, 디바이스(1000)는 복수의 입력 필드 중 입력값이 설정되지 않은 적어도 하나의 입력 필드를 검출하고, 검출된 적어도 하나의 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
예를 들어, 시간 선택 필드에 대한 입력값이 설정되지 않은 경우, 디바이스(1000)는 "언제 보시겠습니까?"라는 시간 선택 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
도 16은 일부 실시예에 따른, 디바이스(1000)가 서버와 연동하여, 어플리케이션의 입력 필드에 대한 입력값을 결정하는 방법의 흐름도이다.
단계 S1610에서, 디바이스(1000)는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다. 단계 S1620에서, 디바이스(1000)는 유도 질의에 대한 응답을 나타내는 음성 입력을 수신할 수 있다.
단계 S1630에서, 디바이스(1000)는 음성 데이터를 서버(3000)에게 전송할 수 있다.
디바이스(1000)는 수신된 음성 입력을 음성 데이터로 변환하고, 음성 데이터를 서버(3000)에게 전송함으로써, 디바이스(1000)가 직접 음성 인식을 수행하지 않고, 서버(3000)로부터 입력 필드에 대응하는 입력값을 수신할 수 있다.
또한, 디바이스(1000)는 어플리케이션의 식별 정보 및 어플리케이션의 입력 필드에 관한 정보를 서버에게 전송할 수도 있다. 입력 필드에 관한 정보는 입력 필드의 식별 정보, 입력 필드에 입력될 수 있는 적어도 하나의 값 및 입력 필드가 포함된 페이지의 식별 정보일 수 있다.
예를 들어, 어플리케이션이 영화 예매 어플리케이션인 경우, 입력 필드의 식별 정보는 "영화 선택 필드"일 수 있으며, 입력 필드에 입력될 수 있는 적어도 하나의 값은 적어도 하나의 영화명일 수 있다.
또한, 예를 들어, 어플리케이션이 인터넷 쇼핑 어플리케이션인 경우, 입력 필드의 식별 정보는 "옵션 선택 필드"일 수 있으며, 입력 필드에 입력될 수 있는 적어도 하나의 값은 입력 필드에 대응하여 기 저장된 옵션값일 수 있다.
실시예에 따라, 서버(3000)는 디바이스(1000)로부터 수신된 어플리케이션의 식별 정보에 기초하여, 서버(3000)에 기 저장된 어플리케이션의 입력 필드에 관한 정보를 획득할 수 있다.
또한, 디바이스(1000)는 현재 디스플레이된 페이지의 식별 정보 또는 현재 유도 질의가 출력된 입력 필드의 식별 정보를 서버(3000)에게 전송할 수도 있다.
단계 S1640에서, 서버(3000)는 음성 데이터에 대한 자연어 처리를 수행함으로써, 음성 데이터가 나타내는 입력값을 결정할 수 있다.
예를 들어, 디바이스(1000)로부터 "7호실 토요일 2시 2자리 예약해줘!"를 나타내는 음성 데이터를 수신함에 따라, 서버(3000)는 음성 데이터로부터 "7호실", "토요일", "2시", "2 자리" 및 "예약해줘"라는 단어를 검출할 수 있다.
서버(3000)는 디바이스(1000)로부터 수신된 어플리케이션 식별 정보에 기초하여, 현재 실행되는 어플리케이션이 영화 예매 어플리케이션임을 결정할 수 있다. 또한, 서버(3000)에는 영화 예매 어플리케이션의 입력 필드로써, 영화 선택 필드, 극장 선택 필드, 시간 선택 필드 및 좌석 선택 필드가 저장되어 있으며, 영화 선택 필드에 입력될 수 있는 값으로써 "7호실", "저스티스 리그", "7호실", 해피 데스데이" 및 "토르 라그나로크"가 저장되어 있고, 극장 선택 필드에 입력될 수 있는 값으로써 "강남 CGV", "도곡 CGV", "구로 CGV"가 저장되어 있고, 시간 선택 필드에 입력될 수 있는 값으로써 각각의 극장에서의 상영 시간이 저장되어 있고, 좌석 선택 필드에 입력될 수 있는 값으로써 "한자리", "두자리", "세자리" 등이 저장되어 있을 수 있다.
서버(3000)는 음성 데이터로부터 검출된 단어를 입력 필드에 입력될 수 있는 값들과 비교함으로써, 입력 필드의 입력값을 결정할 수 있다. 예를 들어, "범죄 도시"는 영화 선택 필드에 대응하는 값들 중 하나이므로, 디바이스(1000)는 "범죄 도시"를 영화 선택 필드의 입력값으로 결정할 수 있다. 또한, 시간 선택 필드에 대응하는 값들 중 "2시 30분"이 "2시"를 포함하고 있으므로, 디바이스(1000)는 "2시 30분"을 시간 선택 필드 대응하는 입력값으로써 결정할 수 있다. 또한, "2자리"는 좌석 선택 필드에 대응하는 값들 중 하나이므로, 디바이스(1000)는 "2자리"를 좌석 선택 필드의 입력값으로써 결정할 수 있다.
단계 S1650에서, 서버(3000)는, 음성 데이터가 나타내는 입력값을 디바이스(1000)에게 전송할 수 있다.
서버(3000)는 결정된 적어도 하나의 입력 필드의 식별 정보와 함께, 입력 필드의 입력값들을 디바이스(1000)에게 전송할 수 있다.
단계 S1660에서, 디바이스(1000)는 입력 필드에 대한 입력값을 결정할 수 있다.
디바이스(1000)는 서버(3000)로부터 수신된 적어도 하나의 입력 필드의 식별 정보 및 입력값들에 기초하여, 입력 필드에 대한 입력값을 결정할 수 있다.
도 17 및 도 18은 일부 실시예에 따른 디바이스(1000)의 블록도이다.
도 17에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 사용자 입력부(1100), 디스플레이부(1210), 음향 출력부(1220) 및 제어부(1300)를 포함할 수 있다. 그러나, 도 17에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 17에 도시된 구성 요소보다 많은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있고, 도 17에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있다.
예를 들어, 일부 실시예에 따른 디바이스(1000)는 제어부(1300)만으로 구현될 수 있으며, 사용자 입력부(1100) 및 제어부(13000)만으로 구현될 수도 있다.
또한, 예를 들어, 도 18에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 사용자 입력부(1100), 디스플레이부(1210), 음향 출력부(1220) 및 제어부(1300) 이외에 출력부(1200), 통신부(1500), 센싱부(1400), A/V 입력부(1600) 및 메모리(1700)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
또한, 예를 들어, 사용자 입력부(1100)는, 마이크로폰(1620)을 포함할 수 있다. 도 18에는 마이크로폰(1620)이 A/V 입력부(1600)의 일부로써 도시되어 있으나, 마이크로폰(1620)이 디바이스를 제어하기 위한 음성 입력을 수신하는 경우, 마이크로폰(1620)은 사용자 입력부(1100)로써 기능할 수 있다.
사용자 입력부(1100)는, 어플리케이션의 실행을 요청하는 사용자 입력을 수신할 수 있다. 예를 들어, 터치 패드는 어플리케이션의 아이콘을 터치하는 사용자 입력을 수신할 수 있다. 또한, 예를 들어, 마이크로폰(1620)은 어플리케이션을 실행할 것을 명령하는 음성 입력을 수신할 수 있다.
또한, 마이크로폰(1620)은, 유도 질의에 대한 사용자의 응답을 수신할 수 있다. 또한, 마이크로폰(1620)은, 디바이스(1000)를 제어하기 위한 사용자의 음성 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
음향 출력부(1220)는 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다. 또한, 음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 진동 모터(1230)는 진동 신호를 출력할 수 있다.
디스플레이부(1210)는 디바이스(1000)에서 처리되는 정보를 표시 출력한다. 예를 들어, 디스플레이부(1210)는, 어플리케이션의 GUI를 디스플레이할 수 있다. *피*j*, 디스플레이부(1210)는, 어플리케이션의 아이콘을 디스플레이할 수 있다.한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다.
제어부(1300)는, 통상적으로 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 제어부(1300)는, 도 1 내지 도 16에 설시된 디바이스(1000)의 기능을 수행하기 위하여, 디바이스(1000)의 동작을 제어할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 조도 센서(1495), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 디바이스(1000)가 외부와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다.
메모리(1700)는, 제어부(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730), 이미지 필터 모듈(1740) 등으로 분류될 수 있다.
메모리(1700)는 어플리케이션의 입력 필드에 관한 정보를 저장할 수 있다. 예를 들어, 메모리(1700)는 어플리케이션의 입력 필드의 식별 정보, 입력 필드가 포함된 페이지 정보 및 입력 필드에 입력될 수 있는 값에 대한 정보를 저장할 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 디바이스(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 제어부(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
제어부(1300)는, 입력 필드의 입력값을 수신하기 위한 그래픽 사용자 인터페이스(GUI)를 포함하는 어플리케이션을 실행할 수 있다.
또한 제어부(1300)는, 어플리케이션의 실행을 요청하는 사용자 입력을 수신함에 따라, 사용자 입력이 음성 입력인지 여부에 기초하여, 음향 출력부(1220)를 통해, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
또한, 제어부(1300)는, 마이크로폰(1620)을 통해, 유도 질의에 대한 응답을 나타내는 음성 입력을 수신할 수 있다.
또한, 제어부(1300)는, 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 입력 필드에 대한 입력값을 설정함으로써, 어플리케이션을 실행할 수 있다.
예를 들어, 제어부(1300)는, 어플리케이션의 실행을 요청하는 사용자 입력이 음성 입력인 경우, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력할 수 있다.
또한, 제어부(1300)는, 어플리케이션의 실행을 요청하는 사용자 입력이 어플리케이션의 아이콘을 통한 입력인 경우, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하지 않고, 어플리케이션의 GUI만을 디스플레이할 수 있다.
또한, 제어부(1300)는, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 것에 더하여, 입력 필드를 포함하는 GUI를 디스플레이하도록 디스플레이부(1210)를 제어할 수 있다.
또한, 제어부(1300)는, 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 복수의 페이지 중 제 1 페이지를 디스플레이하고, 제 1 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하고, 제 1 페이지에 포함된 입력 필드의 입력값이 결정됨에 따라, 제 1 페이지 다음의 제 2 페이지를 디스플레이하고, 제 2 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하도록 디스플레이부(1210) 및 음향 출력부(1220)를 제어할 수 있다.
또한, 제어부(1300)는, 유도 질의에 대한 응답을 나타내는 음성 입력이 복수의 입력 필드 중 입력 필드에 대한 응답 이외의, 다른 입력 필드에 대한 응답을 포함하는 경우, 음성 입력에 기초하여 다른 입력 필드에 입력값을 설정할 수 있다.
또한, 제어부(1300)는, 다른 입력 필드에 입력값을 설정함에 따라, 복수의 입력 필드 중 다른 입력 필드를 제외한 나머지 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하도록, 음향 출력부(1220)를 제어할 수 있다.
또한, 통신부(15000)는, 입력 필드의 입력값으로 선택될 수 있는 적어도 하나의 값을 외부 서버로부터 수신할 수 있다.
또한, 제어부(1300)는, 수신된 적어도 하나의 값에 기초하여, 입력 필드의 입력값을 결정할 수 있다.
또한, 제어부(1300)는, 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 입력 필드를 포함하는 GUI를 디스플레이하지 않고, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하도록 디스플레이부(1210) 및 음향 출력부(1220)를 제어할 수 있다.
또한, 제어부(1300)는, 복수의 입력 필드 중 적어도 하나의 필수 입력 필드를 제외한 나머지 입력 필드에 관한 유도 질의를 하지 않고, 나머지 입력 필드의 입력값을 기 설정된 디폴트값으로 설정할 수 있다.
또한, 제어부(1300)는, 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하면서, 입력 필드에 입력될 수 있는 적어도 하나의 값을 디스플레이하고, 적어도 하나의 값에 대응하는 음성 키워드를 나타내는 텍스트를 표시할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 입력 필드의 입력값을 수신하기 위한 그래픽 사용자 인터페이스(GUI)를 포함하는 어플리케이션을 실행하는 디바이스에 있어서,
    음향 출력부;
    상기 어플리케이션의 실행을 요청하는 사용자 입력을 수신하는 사용자 입력부; 및
    상기 사용자 입력이 음성 입력인지 여부에 기초하여, 상기 음향 출력부를 통해, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하고, 상기 유도 질의에 대한 응답을 나타내는 음성 입력을 수신하고, 상기 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 상기 입력 필드에 대한 입력값을 설정함으로써, 상기 어플리케이션을 실행하는 제어부를 포함하는, 디바이스.
  2. 제 1 항에 있어서,
    제어부는, 상기 어플리케이션의 실행을 요청하는 사용자 입력이 음성 입력인 경우, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하고, 상기 어플리케이션의 아이콘을 통한 입력인 경우, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하지 않는, 디바이스.
  3. 제 1 항에 있어서,
    상기 디바이스는 디스플레이부를 더 포함하고,
    상기 제어부는, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 것에 더하여, 상기 입력 필드를 포함하는 GUI를 디스플레이하도록 상기 디스플레이부를 제어하는, 디바이스.
  4. 제 1 항에 있어서,
    상기 어플리케이션은 순서에 따라 디스플레이되는 복수의 페이지로 구성되고, 상기 입력 필드는 제 1 입력 필드 및 제 2 입력 필드를 포함하고,
    상기 제어부는, 상기 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 상기 복수의 페이지 중 제 1 페이지를 디스플레이하고, 상기 제 1 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하고,
    상기 제 1 페이지에 포함된 입력 필드의 입력값이 결정됨에 따라, 상기 제 1 페이지 다음의 제 2 페이지를 디스플레이하고, 상기 제 2 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하는, 디바이스.
  5. 제 1 항에 있어서,
    상기 GUI는 상기 입력 필드를 포함하는 복수의 입력 필드를 포함하고,
    상기 제어부는, 상기 유도 질의에 대한 응답을 나타내는 음성 입력이 상기 복수의 입력 필드 중 상기 입력 필드에 대한 응답 이외의, 다른 입력 필드에 대한 응답을 포함하는 경우, 상기 음성 입력에 기초하여 상기 다른 입력 필드에 입력값을 설정하는, 디바이스.
  6. 제 5 항에 있어서,
    상기 제어부는,
    상기 다른 입력 필드에 입력값을 설정함에 따라, 상기 복수의 입력 필드 중 상기 다른 입력 필드를 제외한 나머지 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하도록, 상기 음향 출력부를 제어하는, 디바이스.
  7. 제 1 항에 있어서,
    상기 디바이스는, 통신부를 더 포함하고,
    상기 통신부는, 상기 입력 필드의 입력값으로 선택될 수 있는 적어도 하나의 값을 외부 서버로부터 수신하고,
    상기 제어부는, 상기 수신된 적어도 하나의 값에 기초하여, 상기 입력 필드의 입력값을 결정하는, 디바이스.
  8. 제 1 항에 있어서,
    상기 제어부는, 상기 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 상기 입력 필드를 포함하는 GUI를 디스플레이하지 않고, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는, 디바이스.
  9. 제 1 항에 있어서,
    상기 어플리케이션은 상기 입력 필드와 함께 복수의 입력 필드를 포함하고,
    상기 복수의 입력 필드는 상기 어플리케이션이 수행하는 서비스를 제공받기 위해 필수적으로 필요한 입력 필드인 적어도 하나의 필수 입력 필드를 포함하고,
    상기 제어부는, 상기 복수의 입력 필드 중 상기 적어도 하나의 필수 입력 필드를 제외한 나머지 입력 필드에 관한 유도 질의를 하지 않고, 나머지 입력 필드의 입력값을 기 설정된 디폴트값으로 설정하는, 디바이스.
  10. 제 1 항에 있어서,
    상기 제어부는,
    상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하면서, 상기 입력 필드에 입력될 수 있는 적어도 하나의 값을 디스플레이하고, 상기 적어도 하나의 값에 대응하는 음성 키워드를 나타내는 텍스트를 표시하는, 디바이스.
  11. 입력 필드의 입력값을 수신하기 위한 그래픽 사용자 인터페이스(GUI)를 포함하는 어플리케이션을 실행하는 방법에 있어서,
    상기 어플리케이션의 실행을 요청하는 사용자 입력을 수신하는 단계;
    상기 사용자 입력이 음성 입력인지 여부에 기초하여, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 단계;
    상기 유도 질의에 대한 응답을 나타내는 음성 입력을 수신하는 단계; 및
    상기 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 상기 입력 필드에 대한 입력값을 설정함으로써, 상기 어플리케이션을 실행하는 단계를 포함하는, 방법.
  12. 제 11 항에 있어서,
    상기 사용자 입력이 음성 입력인지 여부에 기초하여, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 단계는,
    상기 어플리케이션의 실행을 요청하는 사용자 입력이 음성 입력인 경우, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하고, 상기 어플리케이션의 아이콘을 통한 입력인 경우, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하지 않는 단계를 포함하는, 방법.
  13. 제 11 항에 있어서,
    상기 사용자 입력이 음성 입력인지 여부에 기초하여, 상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 단계는,
    상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 것에 더하여, 상기 입력 필드를 포함하는 GUI를 디스플레이하는 단계를 포함하는, 방법.
  14. 제 11 항에 있어서,
    상기 어플리케이션은 순서에 따라 디스플레이되는 복수의 페이지로 구성되고, 상기 입력 필드는 제 1 입력 필드 및 제 2 입력 필드를 포함하고,
    상기 입력 필드에 대응하는 유도 질의를 나타내는 음향 신호를 출력하는 단계는,
    상기 어플리케이션을 실행할 것을 요청하는 음성 입력을 수신함에 따라, 상기 복수의 페이지 중 제 1 페이지를 디스플레이하고, 상기 제 1 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하는 단계; 및
    상기 제 1 페이지에 포함된 입력 필드의 입력값이 결정됨에 따라, 상기 제 1 페이지 다음의 제 2 페이지를 디스플레이하고, 상기 제 2 페이지에 포함된 입력 필드에 대응되는 유도 질의를 나타내는 음향 신호를 출력하는 단계를 포함하는, 방법.
  15. 제 11 항에 있어서,
    상기 GUI는 상기 입력 필드를 포함하는 복수의 입력 필드를 포함하고,
    상기 유도 질의에 대한 응답을 나타내는 음성 입력에 기초하여 상기 입력 필드에 대한 입력값을 설정함으로써, 상기 어플리케이션을 실행하는 단계는,
    상기 유도 질의에 대한 응답을 나타내는 음성 입력이 상기 복수의 입력 필드 중 상기 입력 필드에 대한 응답 이외의, 다른 입력 필드에 대한 응답을 포함하는 경우, 상기 음성 입력에 기초하여 상기 다른 입력 필드에 입력값을 설정하는 단계를 포함하는, 방법.
PCT/KR2018/002467 2017-12-22 2018-02-28 어플리케이션 실행 방법 및 이를 위한 장치 WO2019124631A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/956,833 US20220113934A1 (en) 2017-12-22 2018-02-28 Method for executing application and apparatus therefor
CN201880082914.3A CN111512282B (zh) 2017-12-22 2018-02-28 执行应用的方法和装置
EP18890757.0A EP3699750A4 (en) 2017-12-22 2018-02-28 METHOD OF EXECUTING AN APPLICATION AND DEVICE FOR IT

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0178472 2017-12-22
KR1020170178472A KR102532300B1 (ko) 2017-12-22 2017-12-22 어플리케이션 실행 방법 및 이를 위한 장치

Publications (1)

Publication Number Publication Date
WO2019124631A1 true WO2019124631A1 (ko) 2019-06-27

Family

ID=66993591

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/002467 WO2019124631A1 (ko) 2017-12-22 2018-02-28 어플리케이션 실행 방법 및 이를 위한 장치

Country Status (5)

Country Link
US (1) US20220113934A1 (ko)
EP (1) EP3699750A4 (ko)
KR (1) KR102532300B1 (ko)
CN (1) CN111512282B (ko)
WO (1) WO2019124631A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113056924A (zh) * 2018-11-14 2021-06-29 (株) 奥菲欧 具有关键词唤醒功能的智能带麦耳机
JP2022110509A (ja) * 2021-01-18 2022-07-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
WO2023234931A1 (en) * 2022-05-31 2023-12-07 Google Llc Human-in-the-loop voice automation system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007033478A (ja) * 2005-07-22 2007-02-08 Hitachi Ltd マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード
KR20070093326A (ko) * 2006-03-13 2007-09-18 인터내셔널 비지네스 머신즈 코포레이션 음성 문법들 내에 포함되어 있는 내용으로부터 이용 가능한음성 명령들을 포함하는 동적 도움말
KR20080013921A (ko) * 2005-05-25 2008-02-13 이샤이 카미엘 소비자 제품들에 대한 음성 인터페이스
KR20130035983A (ko) * 2011-09-30 2013-04-09 애플 인크. 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
JP2014064278A (ja) * 2012-09-20 2014-04-10 Samsung Electronics Co Ltd ユーザデバイスの状況認識サービス提供方法および装置
KR20140112364A (ko) * 2013-03-13 2014-09-23 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어방법
KR101447879B1 (ko) * 2013-08-09 2014-10-08 주식회사 디오텍 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
JP2003076538A (ja) 2001-08-30 2003-03-14 Canon Inc 印刷システムおける印刷制御方法
US7050976B1 (en) * 2001-09-26 2006-05-23 Sprint Spectrum L.P. Method and system for use of navigation history in a voice command platform
US8538757B2 (en) * 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US8886521B2 (en) * 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
KR20090115599A (ko) * 2008-05-02 2009-11-05 엘지전자 주식회사 이동 단말기 및 그 정보 처리방법
US8676828B1 (en) 2009-11-04 2014-03-18 Google Inc. Selecting and presenting content relevant to user input
US20110173537A1 (en) * 2010-01-11 2011-07-14 Everspeech, Inc. Integrated data processing and transcription service
EP2531999A4 (en) * 2010-02-05 2017-03-29 Nuance Communications, Inc. Language context sensitive command system and method
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9081550B2 (en) * 2011-02-18 2015-07-14 Nuance Communications, Inc. Adding speech capabilities to existing computer applications with complex graphical user interfaces
WO2012177646A2 (en) * 2011-06-19 2012-12-27 Mmodal Ip Llc Speech recognition using context-aware recognition models
WO2013136229A1 (en) * 2012-03-16 2013-09-19 Koninklijke Philips N.V. Document creation system and semantic macro editor
US20130246920A1 (en) * 2012-03-19 2013-09-19 Research In Motion Limited Method of enabling voice input for a visually based interface
KR20140004515A (ko) * 2012-07-03 2014-01-13 삼성전자주식회사 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법
KR20140093303A (ko) * 2013-01-07 2014-07-28 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
CN104347075A (zh) * 2013-08-02 2015-02-11 迪欧泰克有限责任公司 以语音识别来选择控制客体的装置及方法
KR102141116B1 (ko) * 2013-08-05 2020-08-04 삼성전자주식회사 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
KR101508444B1 (ko) * 2013-11-19 2015-04-07 (주)스마일게이트엔터테인먼트 디스플레이 장치 및 이를 이용한 하이퍼링크 실행 방법
JP6440513B2 (ja) * 2014-05-13 2018-12-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識機能を用いた情報提供方法および機器の制御方法
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
JP2016072888A (ja) * 2014-09-30 2016-05-09 Kddi株式会社 通信端末装置、通信端末装置用プログラム、および通信端末装置の制御方法
KR20160093471A (ko) * 2015-01-29 2016-08-08 엘지전자 주식회사 이동 단말기 및 그 제어방법
CN106157955A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
KR20170033722A (ko) 2015-09-17 2017-03-27 삼성전자주식회사 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
US10496275B2 (en) * 2015-10-12 2019-12-03 Microsoft Technology Licensing, Llc Multi-window keyboard
CN107454243A (zh) * 2016-05-31 2017-12-08 北京搜狗科技发展有限公司 一种通信处理方法及装置
US10579255B2 (en) * 2017-02-09 2020-03-03 International Business Machines Corporation Computer application for populating input fields of a record
CN107093423A (zh) * 2017-05-27 2017-08-25 努比亚技术有限公司 一种语音输入修正方法、装置及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080013921A (ko) * 2005-05-25 2008-02-13 이샤이 카미엘 소비자 제품들에 대한 음성 인터페이스
JP2007033478A (ja) * 2005-07-22 2007-02-08 Hitachi Ltd マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード
KR20070093326A (ko) * 2006-03-13 2007-09-18 인터내셔널 비지네스 머신즈 코포레이션 음성 문법들 내에 포함되어 있는 내용으로부터 이용 가능한음성 명령들을 포함하는 동적 도움말
KR20130035983A (ko) * 2011-09-30 2013-04-09 애플 인크. 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
JP2014064278A (ja) * 2012-09-20 2014-04-10 Samsung Electronics Co Ltd ユーザデバイスの状況認識サービス提供方法および装置
KR20140112364A (ko) * 2013-03-13 2014-09-23 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어방법
KR101447879B1 (ko) * 2013-08-09 2014-10-08 주식회사 디오텍 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3699750A4 *

Also Published As

Publication number Publication date
CN111512282A (zh) 2020-08-07
KR20190076568A (ko) 2019-07-02
KR102532300B1 (ko) 2023-05-15
CN111512282B (zh) 2024-02-09
EP3699750A1 (en) 2020-08-26
EP3699750A4 (en) 2020-12-30
US20220113934A1 (en) 2022-04-14

Similar Documents

Publication Publication Date Title
WO2020045927A1 (en) Electronic device and method for generating short cut of quick command
WO2014157886A1 (en) Method and device for executing application
WO2019107945A1 (en) Method of providing service based on location of sound source and speech recognition device therefor
WO2017171204A1 (ko) 단말장치 및 그 제어방법
WO2014119889A1 (en) Method of displaying user interface on device, and device
WO2017099483A1 (en) Device and method for providing user-customized content
WO2016017987A1 (en) Method and device for providing image
WO2014025186A1 (en) Method for providing message function and electronic device thereof
EP3335190A1 (en) Device and method for providing user-customized content
WO2012157792A1 (en) Electronic device
WO2016108660A1 (en) Method and device for controlling home device
WO2013022135A1 (en) Electronic device and method of controlling the same
WO2016117836A1 (en) Apparatus and method for editing content
WO2016085170A1 (en) System and method of providing to-do list of user
WO2015194693A1 (ko) 영상 표시 기기 및 그의 동작 방법
WO2015072670A1 (en) System and method of sharing profile image card for communication
WO2021045447A1 (en) Apparatus and method for providing voice assistant service
WO2016064132A1 (en) Wearable device and method of transmitting content
WO2019124963A1 (ko) 음성 인식 장치 및 방법
WO2016099228A1 (en) Method of providing content and electronic apparatus performing the method
WO2013012112A1 (ko) 쿠폰 검색을 수행하는 전자 기기 및 소셜 커머스 서버
WO2019124631A1 (ko) 어플리케이션 실행 방법 및 이를 위한 장치
WO2016048019A1 (en) Method and device for outputting content and recording medium for executing the method
WO2020091183A1 (ko) 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
WO2018124842A1 (ko) 컨텐트에 관한 정보를 제공하는 방법 및 디바이스

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18890757

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018890757

Country of ref document: EP

Effective date: 20200522

NENP Non-entry into the national phase

Ref country code: DE