WO2019103518A1 - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2019103518A1
WO2019103518A1 PCT/KR2018/014509 KR2018014509W WO2019103518A1 WO 2019103518 A1 WO2019103518 A1 WO 2019103518A1 KR 2018014509 W KR2018014509 W KR 2018014509W WO 2019103518 A1 WO2019103518 A1 WO 2019103518A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
voice
command
predetermined
user
Prior art date
Application number
PCT/KR2018/014509
Other languages
English (en)
French (fr)
Inventor
권재성
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to CN201880073896.2A priority Critical patent/CN111344664B/zh
Priority to CN202410124741.4A priority patent/CN117975962A/zh
Priority to US16/652,583 priority patent/US11455990B2/en
Publication of WO2019103518A1 publication Critical patent/WO2019103518A1/ko
Priority to US17/864,577 priority patent/US20220375473A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor

Definitions

  • the present invention relates to an electronic device and a control method thereof, and more particularly to an electronic device and its control method which can be controlled by voice recognition.
  • the user can recognize the voice in the display device such as the smart phone or the smart TV, the user can control the operation of the display device through the voice sound without any extra operation or receive various contents services .
  • the cloud-based speech recognition service generally determines execution of the functional operation based on the speech recognition result in the NLU (Natural Language Understanding) module.
  • NLU Natural Language Understanding
  • the voice recognition server receives the voice command from the electronic device and performs voice recognition.
  • the speech recognition server transmits the speech recognition result to the NLU module (it is also possible to transmit the speech recognition result to the electronic device in addition to promptly execute the pre-registered command in the electronic device).
  • the NLU module Analyzes and derives the appropriate function execution method, and transmits the result to the electronic device.
  • the function may be performed so that only the speech recognition result is executed before the NLU process.
  • a display device such as a TV may be used to register pre-registered commands for basic functions (such as "volume up", "channel up"), voice touch
  • the execution of the instruction based on the technique of executing the instruction) is compared with the character of the instruction and the function operation of the perfectly matching instruction is performed.
  • An electronic device includes a voice input unit, a storage unit for storing a first text according to a first notation format and at least one second text notated by the first text in a second notation format, And a processor for executing a function according to the predetermined instruction if the voice text to which the user voice inputted through the input unit is converted corresponds to a predetermined instruction, wherein the processor includes: And executes the function according to the predetermined command when the voice text is the text in which the first text of the predetermined command is the second text in the second notation format.
  • the speech text is divided into predetermined text units, and if at least one of the text units of the speech text includes the second text, the processor extracts, from the storage unit, Identify the text, and execute a function according to the identified instruction based on the identified first text and the second text.
  • the processor may calculate a first similarity score of the predetermined command and the user's voice based on a text unit of the voice text and whether the identified first text is included in the predetermined command, When the calculated first similarity score is equal to or greater than a preset threshold value, the function according to the predetermined command word can be executed.
  • the predetermined command is divided into predetermined text units, and the processor determines whether or not each of the text units of the predetermined command is included in the text unit of the speech text and the first text
  • a second similarity score of the predetermined command and the user voice is further calculated and when the calculated first and second similarity scores are each equal to or greater than a preset threshold value, the function according to the predetermined command word can be executed.
  • the electronic device further includes a display, and the predetermined command may be displayed in a user interface (UI) provided through the display.
  • UI user interface
  • the processor may control the display to display a screen on which a function according to the preset command is executed.
  • the electronic device may further include a communication unit, and the processor may control the communication unit to transmit an image providing a screen on which a function according to the predetermined command is executed, to a display device connected to the electronic device.
  • the voice input unit may include a microphone.
  • the processor may control the communication unit to transmit the user voice inputted through the voice input unit to an external device and receive the voice text converted by the user voice according to the voice recognition from the external device.
  • the second text may be text that is different from the first text according to at least one of a format of the first text of the first text, a format of the numerical representation, and a format of the symbol representation.
  • a control method for storing a first text according to a first notation format and at least one second text notated by the first notation in a second notation format includes receiving a user voice, And executing a function according to the predetermined command if the voice text in which the input user voice has been converted corresponds to a predetermined command, wherein the executing step includes the step of, when the predetermined command includes the first text And the voice text executes a function according to the predetermined instruction when the first text of the predetermined instruction is text marked with the second text of the second notation type.
  • the speech text is divided into predetermined text units, and the executing step identifies a first text corresponding to each of the second texts if at least one of the text units of the speech text includes the second text And perform a function according to the identified instruction based on the identified first text and the second text.
  • the executing step may further include a step of determining whether or not the first similarity score of the predetermined instruction word and the user voice is determined based on whether the text unit of the voice text and the identified first text are included in the predetermined instruction word And executing the function according to the predetermined command if the calculated first similarity score is equal to or greater than a preset threshold value.
  • the predetermined command is divided into predetermined text units, and the control method is based on whether each of the text units of the predetermined command is included in the text unit of the voice text and the identified first text Further comprising calculating a second similarity score of the predetermined command and the user voice when the calculated first and second similarity scores are equal to or greater than a predetermined threshold value, A function according to an instruction can be executed.
  • the control method may further include a step of displaying a UI including the predetermined command and a step of displaying a screen on which a function according to the predetermined command is executed.
  • control method may further include transmitting an image providing a screen on which a function according to the preset command is executed to a display device connected to the electronic device.
  • the control method may further include transmitting the input user voice to an external device, and receiving the voice text converted by the user voice from the external device in accordance with the voice recognition.
  • the preset text unit may include at least one of a word, a number, and a symbol.
  • the step of receiving the user voice may receive the user voice from a remote control device for controlling the electronic device.
  • the second text may be text that is different from the first text according to at least one of a format of the first text of the first text, a format of the numerical representation, and a format of the symbol representation.
  • the function of the instruction word according to the intention of the user can be performed, thereby increasing the satisfaction and convenience of the user.
  • FIG. 1A-1C are block diagrams schematically illustrating the configuration of an electronic device according to various embodiments of the present invention.
  • FIG. 3 is a view for explaining a speech recognition system according to an embodiment of the present invention.
  • FIG. 4 is a block diagram for explaining a method of performing a function by an extended text according to an embodiment of the present invention
  • FIG. 5 is a diagram for explaining an extended word list according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a voice touch screen on which commands are displayed according to an embodiment of the present invention.
  • FIG. 7 is a block diagram showing a detailed configuration of an electronic device according to another embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present invention.
  • ordinal numbers such as 'first', 'second', etc. may be used for distinguishing between elements. Such an ordinal number is used to distinguish the same or similar elements from one another, and the use of such ordinal numbers should not be construed as limiting the meaning of the term. For example, components in combination with such ordinal numbers should not be construed as limited in their use order or placement order. If necessary, each ordinal number may be used interchangeably.
  • terms such as 'module', 'unit', 'part' and the like are terms for referring to components performing at least one function or operation, Or may be implemented as a combination of hardware and software. It should also be understood that a plurality of modules, units, parts, etc., may be integrated into at least one module or chip, (Not shown).
  • a part when a part is connected to another part, this includes not only a direct connection but also an indirect connection through another medium.
  • the inclusion of a component in an element means that it may include other components, not the exclusion of any other component, unless specifically stated otherwise.
  • FIGs. 1A to 1C are block diagrams schematically illustrating the configuration of an electronic device according to various embodiments of the present invention.
  • an electronic device 100 essentially includes a voice input unit 110, a storage unit 120, and a processor 130. As shown in FIG.
  • the electronic device 100 of the present invention is an apparatus for recognizing a user's uttered voice and performing an operation intended by the user.
  • the electronic device 100 includes a smart TV as shown in FIG. 2 (a) A set-top box such as a bar, a smart phone as shown in FIG. 2 (c), and the like.
  • the electronic device 100 may be implemented by various electronic devices such as a tablet PC, a PDA (personal digital assistant), and a notebook computer.
  • the voice input unit 110 of the electronic device 100 is configured to receive voice from a user.
  • the voice input unit 110 includes a microphone, and can collect voice corresponding to the voice uttered by the user.
  • the microphone may receive an external voice or sound according to the control of the processor 130 to generate an electrical voice signal.
  • the voice input unit 110 may receive a voice signal from a user by performing communication through a wired network or a wireless network.
  • the remote control device 10 for controlling the electronic device 100 includes a microphone
  • the remote control device 10 collects the user's voice and outputs an analog signal of the collected user voice or a digital signal To the electronic device (100).
  • the voice input unit 110 can convert the voice signal into a digital signal.
  • the voice input unit 110 may receive a voice signal through an external microphone connected to the electronic device 100.
  • the storage unit 120 stores various data related to the function of the electronic device 100, speech recognition, content display, and the like.
  • the storage unit 120 stores the first text according to the first notation format and the at least one second text notated with the first notation in the second notation format.
  • the first text may include at least one of a word, a number, a symbol, and a sentence.
  • the first text may include words such as “smart”, “home”, “mode”, “settings”, etc., numbers such as “1", " A symbol such as “# ", a sentence such as " TV off ", " turn on channel 10 "
  • the second text means the text in which the first text is represented by another notation format. More specifically, the second text may be a text that is different from the first text according to at least one of a form by foreign word representation of the first text, a format by numerical notation, and a format by symbol notation.
  • the second text may be " smart " If the first text is " 3 ", the second text may be words such as " three “, “ three “, “ three " If the first text is " + “, the second text may be " plus " or " plus "
  • the storage unit 120 may store one or a plurality of second texts in a second notation format different from the first notation format, based on the first text according to the first notation format.
  • the first text may be preset, and may be a word, a number, or a symbol designated by the user.
  • the first text may be plural, and at least one second text matched to the first text may be stored in the storage unit 120 in a list format, respectively.
  • the matching list of the first text and the at least one second text matching the first text will be described in more detail in FIG.
  • the processor 130 is a configuration for controlling the overall operation of the electronic device 100. [ In particular, the processor 130 executes a function according to a predetermined command if the voice text converted by the user voice input through the voice input unit 110 corresponds to a predetermined command.
  • the preset command includes, for example, "smart tv home” for displaying a menu screen provided by the electronic device 100, "movie mode” for displaying a screen for setting a viewing mode of the movie content currently being watched Setting ", and the like.
  • These predetermined commands may be stored in the storage unit 120 for voice recognition.
  • the preset command is stored in a text format, and can be compared with the text converted by the speech recognition by the speech recognition, and the function according to the instruction matching the text of the user's speech can be executed.
  • the predetermined command may be text indicating a specific content.
  • the preset command may include a movie title such as "mission impossible 4".
  • the UI may include a menu for executing a specific function of the electronic device 100 or a menu for executing a specific content in relation to the currently displayed screen, and the text corresponding to each UI may be a specific It can be the name of a feature or the title of a specific content.
  • the processor 130 executes a function according to a predetermined command if the voice text to which the user voice is converted corresponds to a predetermined command. For example, if the user's voice is a " smart tv home " preset instruction corresponding to the converted voice text, the processor 130 can perform a function to display the main menu screen provided in the electronic device 100 have. In addition, when the predetermined command corresponding to the voice text converted by the user's voice is " mission impossible 4 ", the processor 130 can execute a function of playing the content corresponding to " mission impossible 4 ".
  • the voice text in which the user voice is converted is the text in which the first text of the predetermined instruction is the second text in the second notation format
  • the function according to the set command can be executed.
  • the processor 130 can execute the function corresponding to the preset command " smart tv home " even if the voice text to which the user voice is converted is not " smart tv home & .
  • the electronic device 100A may be implemented as a display device including the display 140 as shown in FIG. 1B. That is, the electronic device 100A includes an electronic device having a display panel such as a TV, a smart phone, a notebook, and a PDA.
  • a display panel such as a TV, a smart phone, a notebook, and a PDA.
  • the processor 130 may control the display 140 to display a UI (User Interface) including a predetermined instruction. Thereafter, when any one of the UIs displayed on the display 140 is selected by the user's voice, the display 140 is controlled to execute a function according to a predetermined command included in the selected UI and to display a screen on which the function is executed can do.
  • UI User Interface
  • the electronic device 100B may be implemented as an electronic device including a communication unit 150 connected to an external display device 200 through a wired or wireless network as shown in FIG. 1C . That is, the electronic device 100B includes an electronic device that is connected to the display device 200 such as a set-top box, a DVD player, and a game device, and provides an image to the display device.
  • the processor 130 may control the communication unit 150 to transmit an image providing a UI (User Interface) including a predetermined command to the display device 200 connected to the electronic device 100B.
  • UI User Interface
  • the processor 130 executes a function according to a predetermined command included in the selected UI, and transmits the image on which the function is executed to the electronic device 100B.
  • the display device 200 connected to the communication unit 150 To the display device 200 connected to the communication unit 150.
  • FIG. 3 is a diagram for explaining a speech recognition system according to an embodiment of the present invention.
  • the electronic device 100 will be described as an example of a display device, and the electronic device will be described as a display device.
  • the electronic device 100 of the present invention is not limited to a display device including a display.
  • the display device 100 of the present invention includes a communication unit 150.
  • the communication unit 150 includes a first communication unit 151 for communicating with an external first server 20 that performs voice recognition, Or a second communication unit 152 for communicating with an external second server 30 that provides content related information.
  • the user's utterance voice can be input to the display apparatus 100.
  • the first user can perform speech to cause the display device 100 to operate in the voice recognition mode.
  • the display device 100 may analyze the voice signal of the inputted utterance voice to determine whether the voice signal is a trigger command for entering the voice recognition mode.
  • the processor 120 can control the display device 100 to enter the voice recognition mode. In this manner, when the user's additional utterance voice is input in the state that the display device 100 enters the voice recognition mode, the display device 100 can perform an operation for internally recognizing the uttered voice additionally uttered.
  • the display apparatus 100 of the present invention may not require a trigger command for entering the voice recognition mode, and may operate in a state of always sensing the user's voice or in a state of detecting the user's voice at a predetermined cycle, Speech recognition may be performed without an instruction.
  • the voice input unit 110 of the display device 100 may be implemented as a microphone to directly sense the user voice uttered by the user and receive the user voice from the remote control device 10 controlling the display device 100 .
  • the remote control device 10 is a device for controlling the operation of the display device 100 by communicating with the display device 100, and includes a remote controller, a keyboard, and the like.
  • the user's speech uttered by the user can be detected through the microphone provided in the remote control apparatus 10 and the display apparatus 100 can receive the user's voice from the remote control apparatus 10.
  • the communication unit 150 may further include a third communication unit 153 for receiving a user's voice from the remote control device 10.
  • the communication unit 153 may be omitted.
  • the display device 100 and the remote control device 10 perform communication using the Wi-Fi module, and the display device 100 and the first server 20 also perform communication using the Wi-Fi module
  • the display apparatus 100 can communicate with the remote control apparatus 10 through the Wi-Fi module included in the first communication unit 151 without separately providing the third communication unit 153.
  • the display device 100 and the remote control device 10 communicate with each other using a Wi-Fi module or a bluetooth module.
  • the display apparatus 100 may include a third communication unit 153 including a Wi-Fi module or a Bluetooth module.
  • a user portable terminal such as a smart phone may serve as the remote control device 10 in order to control the operation of the display device 100.
  • the smartphone may include an infrared transmitter and may transmit a control signal to the display device 100 via an infrared transmitter.
  • the smart phone and the display device 100 can exchange various control signals through Wi-Fi and Bluetooth communication.
  • the display apparatus 100 may be configured to perform various communications with the user portable terminal acting as the remote control apparatus 10 or the remote control apparatus 10, And may include a plurality of communication units.
  • a user may input voice through a microphone included in a smart phone, and transmit the input voice to the display device 200 using a communication such as Wi-Fi.
  • the display apparatus 100 can transmit the received user voice to the first server 20 when the user's voice is received through the voice input unit 110.
  • the first server 20 converts the received user voice to text and transmits the converted text (hereinafter, voice text) to the display device 100.
  • the first server 20 may be implemented as a STT (Speech-To-Text) server for analyzing sound information and converting a voice signal into a text format.
  • STT Sound-To-Text
  • the display device 100 receives the voice text from the first server 20, it can extract the keyword from the received voice text and execute a command corresponding to the extracted keyword.
  • the display apparatus 100 of the present invention may store the speech recognition module according to the embodiment, and may convert the speech signal into a text format by itself. That is, the display apparatus 100 may perform speech recognition based on an embedded method for recognizing a user uttered voice related to a command registered in the storage unit 120 by itself.
  • the display apparatus 100 may transmit a signal according to the request to the second server 30.
  • the second server 30 is a server that provides content related information, and can retrieve information related to a specific content and provide it to a user.
  • the display device 100 can receive and display the content-related information from the second server 30.
  • the display device 100 receives and displays movie information related to " mission impossible 4 " from the second server 30, Can be received and reproduced.
  • the first server 20 and the second server 30 are assumed to be separate servers in the present embodiment, the first server 20 and the second server 30 may be implemented by the same server. That is, the display apparatus 100 of the present invention can perform communication with an integrated server that performs both a role of converting voice signals into a text format and a function of providing broadcast contents or contents related information by analyzing sound information.
  • the first communication unit 151 and the second communication unit 152 are integrated to perform communication with the integration server.
  • FIG. 4 is a block diagram for explaining a function execution method according to an embodiment of the present invention.
  • the processor 130 of the display device 100 searches for a command corresponding to the user voice using the search module 121 and the function execution module 122 stored in the storage unit 120 , A function according to the retrieved command can be executed.
  • the processor 130 extracts the first text stored in the storage unit 120 based on the voice text converted from the user voice. Specifically, when the second text is included in the spoken text, the processor 130 may extract, from the storage unit 120, the first text matched with the second text included in the spoken text.
  • the first text may include various text units such as words, numbers, symbols, and the like.
  • the storage unit 120 of the display device 100 includes a storage unit 120 for storing first and second texts according to a first format, And may store at least one second text.
  • the first text stored in the storage unit 120 is a pre-set text unit (hereinafter referred to as a token) that constitutes a predetermined command
  • the second text stored in the storage unit 120 expands the presentation format of the first text
  • the token may be a token.
  • the storage unit 120 may store a text matching list in which the first text according to the one-notation type and the first text corresponding to the one notation type are matched with the second text written in another notation type.
  • "smart" of the first notation format is “smart” of the second notation format and "4" "Plus” of the second notation type, "plus” of the second notation type, “plus” of the second notation type, and "fourth” notation of the fourth notation type, &Quot; and the like.
  • Such a matching list may be established by an artificial intelligence (AI) system that utilizes a machine learning algorithm.
  • AI artificial intelligence
  • An artificial intelligence system is a computer system that implements human-level intelligence. Since the machine itself learns and judges, There is an advantage that the recognition rate can be improved.
  • Artificial intelligence technology consists of element technologies that simulate the functions of human brain by using machine learning (deep learning) algorithm and machine learning algorithm which use algorithms to classify / learn input data by themselves.
  • machine learning deep learning
  • machine learning algorithm which use algorithms to classify / learn input data by themselves.
  • a linguistic understanding technique for recognizing a human language / character can be applied to the present invention.
  • a linguistic comprehension technique is a technique for recognizing and applying / processing a human language / character, including natural language processing, machine translation, dialog system, query response, speech recognition / synthesis, etc.
  • the second text that represents the first text according to various notation formats among the matching lists stored in the storage unit 120 can be continuously learned by learning by artificial intelligence.
  • a DB for various notational formats of text can be automatically constructed by artificial intelligence. Accordingly, since various expressions of a specific user or a plurality of users reading a specific text or a variety of notation formats of a specific text can be continuously extended, the voice recognition rate can be efficiently and continuously increased.
  • the processor 130 expands the voice text converted from the user voice based on the text matching list stored in the storage unit 120 and executes the search module 121 stored in the storage unit 120 to correspond to the user voice
  • the command can be identified.
  • the search module 121 can identify a command from a predetermined command list 42 by using a token included in the voice text and a token matching the corresponding token as a search term.
  • the predetermined command list 42 may be a list of commands stored in the storage unit 120, and in particular, a list of major commands for executing the main functions of the display apparatus 100.
  • the predetermined command list 42 may be a list of commands displayed on the UI provided on the display 140 of the display device 100. For example, it may be a list of commands displayed in a UI provided in a voice-touch environment.
  • the processor 130 receives a command displayed on the corresponding UI from the second server 30 or displays the command on the display 140 It is possible to generate the command list 42 by performing image analysis on the displayed screen and recognizing the command displayed on the UI.
  • the token included in the voice text may be the first text or the second text included in the text matching list.
  • the processor 120 may identify the second text corresponding to the first text if the token contained in the spoken text is a first text and extend the second text to an additional search term, In the case of a second text, the first text corresponding to the second text may be identified and the first text may be extended to additional search terms.
  • the token for searching for the instruction corresponding to the user voice from the instruction list 42 is “ Smart “, “ tv “, and “ home “, respectively corresponding to "TV”, “home” and “smart”, "TV”
  • tokens for searching for commands corresponding to the user voice from the command list 42 are "TV”, “+”, “ And " plus ".
  • the processor 130 divides the instruction stored in the instruction list 42 into tokens in a predetermined text unit and calculates a similarity score between each extended search word and a word constituting the instruction word stored in the instruction list 42, You can identify commands that have a score.
  • the processor 130 executes the function execution module 122 stored in the storage unit 120 to execute a function corresponding to the identified instruction.
  • a set Q of each token constituting the voice text converted by the user voice and a set Q ex of the token identified from the text matching list based on the voice text are expressed by the following equations.
  • Equation (1) q 1 to q n denote tokens constituting the spoken text.
  • Q may be represented by a set of q 1 (smart), q 2 (home), and q 3 (TV).
  • q (1, m) refers to at least one of a token according to a representation format of the token q 1 constituting the voice and text
  • q (n, 1) to q (n , l) denotes at least one token according to another notation format of the token q n constituting the voice text.
  • FIG. 6 is a view illustrating a voice touch screen in which commands are displayed according to an embodiment of the present invention.
  • FIG. 6 is a view showing a voice touch screen displayed according to an embodiment of the present invention.
  • the user can select and execute the user's voice by uttering each of the UIs 62 to 65 provided in the display 140 of the display device 100.
  • the display 140 includes a UI 62 including a first command "smart tv home", a UI 63 including a second command “movie mode setting", a third command "16: 9 screen
  • the processor 130 divides the " smart TV home” into token units (" smart ", " , And if at least one of the tokens included in the spoken text is included in the second text of the matching list stored in the storage unit 120, the first text corresponding to the second text may be identified from the matching list.
  • the processor 130 can identify the instruction corresponding to the user's voice from the instruction list 42 based on the identified first text and the second text, and execute the function according to the identified instruction. Quot ;, " smart “, “ TV “, and “ home” are included in the second text of the matching list, tv " and " home ".
  • Processor 130 compares the extended tokens "smart”, “TV”, “home”, “smart”, “tv”, “home” with the commands displayed on display 140, And can execute a function corresponding to the UI 62 including the first instruction.
  • the processor 130 distinguishes the first instruction " smart tv home " by token, and if the " smart " is included in any of the extended tokens of the spoken text, Quot; 0 " if the score is not included in any of the extended tokens of the voice text.
  • the processor 130 may assign a score to each of the tokens " tv " and " home " of the first instruction, based on whether each token is included in one of the extended tokens of the voice text.
  • the processor 130 may sum the scores assigned to "smart”, “tv” and “home”, respectively, and calculate a first similarity score divided by the number of tokens of the first instruction "smart tv home" have.
  • the processor 130 recognizes that the instruction corresponding to the user voice is the " smart tv home " as the first instruction, and recognizes the function corresponding to the UI 62 including the " smart tv home & Can be executed.
  • the processor 130 further calculates a second similarity score of the first instruction and the user's voice based on whether each of the tokens constituting the first instruction is included in the extended token of the voice text,
  • each of the second similarity scores may execute a function corresponding to the UI 62 including the first instruction " smart tv home "
  • the second similarity score may be a value obtained by dividing the number of tokens included in the extended token of the voice text among the tokens constituting the first instruction by the number of tokens constituting the first instruction.
  • the second similarity score is not included in the expanded token Quot; 1 " obtained by dividing the number of tokens of the first instruction by 3, which is the number of tokens of the first instruction.
  • the processor 130 classifies the " movie setting " 1 Similarity score can be calculated.
  • the first similarity score can be " 1 ".
  • the second similarity score may be " 2/3 " divided by the number of tokens of the second instruction included in the token of the spoken text, that is, the number of tokens of the second instruction.
  • the processor 130 executes a function corresponding to the UI 63 including the second instruction " movie mode setting " if the second similarity score " 2/3 " is equal to or greater than a preset threshold value, Value, the corresponding function may not be executed.
  • the speech recognition method of the present invention does not consider the order of the tokens constituting the spoken text, the third instruction " 16: 9 " : 9 screen mode ", the first and second similarity scores may all be 1 even if the order of each token is changed. Accordingly, a function corresponding to the UI 64 including the " 16: 9 screen mode " as the third command can be executed.
  • the processor 130 transmits the " mission impossibility sentence " to the token unit (" mission ", " "), And each token included in the spoken text can be extended.
  • Processor 130 may identify "mission”, “impossible”, “4" corresponding to "mission”, “impossibility” and “po” respectively from the matching list.
  • Processor 130 compares the extended tokens " mission, " " impossibility, ", " mission, “ 4 command and can execute a function corresponding to the UI 65 including the fourth command.
  • the first and second similarity scores may be " 1 "
  • the matching list of the present invention can be used as a TV program name " Please take care of the refrigerator " as the first text and a " It can also be saved as text. Accordingly, even if the user utters "cold weather", the user can search for the command with the token "Please take care of the refrigerator", which is the first text matched with the voice texts "cold weather” and "cold weather” , The retrieval probability can be increased.
  • FIG. 7 is a block diagram showing a detailed configuration of an electronic device according to another embodiment of the present invention.
  • an electronic device 100 includes a voice input unit 110, a storage unit 120, a processor 130, a display 1400, a communication unit 150, An audio output unit 170, a video processing unit 180 and a user interface 190.
  • a description overlapping with the description of FIGS. 1A to 1C will be omitted.
  • the storage unit 120 may store various data such as an O / S software module for driving the electronic device 100 'and various multimedia contents.
  • the storage unit 120 includes a base module for processing a signal transmitted from each hardware included in the electronic device 100 ', a storage module for managing a database (DB) or a registry, A graphics processing module, a security module, and the like.
  • DB database
  • the storage unit 120 includes a base module for processing a signal transmitted from each hardware included in the electronic device 100 ', a storage module for managing a database (DB) or a registry, A graphics processing module, a security module, and the like.
  • the storage unit 120 includes a search module 121 for searching for a command from a predetermined command list 42 and a function execution module 122 for executing a function according to the searched command word Can be stored.
  • the processor 130 may include a ROM 131, a RAM 132, a CPU 133, a graphics processing unit 134, a first interface 135-1 to an n-th interface 135-n.
  • the ROM 131, the RAM 132, the CPU 133, the graphics processing unit 134, the first interface 135-1 to the nth interface 135-n may be connected to each other via the bus 136.
  • the CPU 133 accesses the storage unit 120 and performs booting using the O / S stored in the storage unit 120.
  • the CPU 133 executes various programs stored in the storage unit 120, Various operations can be performed using contents and data.
  • the ROM 131 stores a command set for booting the system and the like.
  • the CPU 133 copies the O / S stored in the storage unit 120 to the RAM 132 according to the instruction stored in the ROM 131, executes the O / S, .
  • the CPU 133 copies various application programs stored in the storage unit 120 to the RAM 132, and executes the application program copied to the RAM 132 to perform various operations.
  • the graphic processing unit 134 generates a screen including various objects such as an icon, an image, and a text using an operation unit (not shown) and a rendering unit (not shown).
  • the operation unit calculates an attribute value such as a coordinate value, a shape, a size, and a color to be displayed by each object according to the layout of the screen.
  • the rendering unit generates screens of various layouts including the objects based on the attribute values calculated by the operation unit.
  • the first interface 135-1 to the n-th interface 135-n are connected to the various components described above.
  • One of the interfaces may be a network interface connected to an external device via a network.
  • the operation of the processor 130 may be performed by executing a program stored in the storage unit 120.
  • the display 140 is a configuration for providing a screen including various contents reproducible in the electronic device 100 '.
  • the contents may include contents in various formats such as text, image, moving picture, GUI (Graphic User Interface) and the like.
  • the implementation of the display 140 is not limited.
  • an LCD Liquid Crystal Display
  • OLED Organic Light Emitting Diodes
  • AM-OLED Active-Matrix Organic Light-Emitting Diode
  • Display 140 may additionally include additional configurations depending on the implementation.
  • the display 140 when the display 140 is a liquid crystal type, the display 140 includes an LCD display panel (not shown), a backlight unit (not shown) for supplying light thereto, and a panel drive substrate (Not shown).
  • the communication unit 150 is configured to perform communication with an external device according to various types of communication methods.
  • the communication unit 150 may be an infrared communication system, an RF system, a Near Field Communication (NFC) system, a ZigBee system, a DLNA system, a Wi-Fi system, And Long Term Evolution) according to various communication standards.
  • NFC Near Field Communication
  • ZigBee ZigBee
  • DLNA Low Noise Noise Noise Ratimeter
  • Wi-Fi Wireless Fidelity
  • Long Term Evolution Long Term Evolution
  • the communication unit 150 may include various communication chips such as a Wi-Fi chip, a Bluetooth chip, and a wireless communication chip to perform communication according to the above-described communication method with an external device. And communicate with the device.
  • the communication unit 150 may include a wired communication chip, a wired communication terminal, and the like for performing communication with an external device through a wired communication method.
  • the communication unit 150 includes a first communication unit 151 for performing communication with an external first server 20 for performing voice recognition, an external second server 30 for providing broadcast content or content related information, A third communication unit 153 for receiving a user's voice from the remote control device 10 and an external display device 200 to transmit an image to the display device 200 And a fourth communication unit 154 for performing the communication.
  • the audio processing unit 160 is a component that performs processing on audio data.
  • the audio output unit 170 is a component for outputting the audio data processed by the audio processing unit 160.
  • the video processing unit 180 is a component that performs various image processing such as decoding, scaling, noise filtering, frame rate conversion, resolution conversion, and the like for the contents.
  • the user interface 190 is a component for detecting a user interaction for controlling the overall operation of the electronic device 100 '.
  • the user interface 190 may include various interaction sensing devices such as an IR signal receiver (not shown), a camera (not shown), and the like.
  • the user interface 190 can receive a signal for turning on the electronic device 100 'from the remote control device 10 through the IR signal receiving unit and can receive the signal for turning on the electronic device 100' It is possible to receive various control signals from the device 10.
  • FIG. 8 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present invention.
  • the user's voice can be received through the electronic device (S810).
  • the first text according to the first notation format and the at least one second text in which the first text is expressed in the second notation format are stored.
  • the first text and the second text are directly input Or may be stored in the electronic device in advance in the manufacturing process.
  • the preset command includes the first text according to the first notation format
  • the voice text converted by the user's voice is the text indicated by the second text of the second notation format
  • the spoken text may be divided into predetermined units, and if at least one of the text units of the spoken text includes a second text, identifying the first text corresponding to each of the second text, And perform functions according to the identified command based on the second text.
  • a first similarity score of the predetermined command and the user's voice based on whether the text unit of the speech text and the first text identified are included in the predetermined instruction, and if the calculated first similarity score If it is greater than or equal to the preset threshold value, the function according to the preset command can be executed.
  • the predetermined command may be divided into predetermined text units, and may include a predetermined command and a predetermined command based on whether the text unit of the predetermined command is included in the text unit of the spoken text and the identified first text,
  • the second similarity score of the voice can be calculated. At this time, when each of the calculated first and second similarity scores is greater than or equal to a preset threshold value, a function according to a predetermined command word can be executed.
  • the function of the instruction word according to the intention of the user can be performed even when there is a discrepancy between the speech recognition result and the instruction notation.
  • control method may be implemented as a program and stored in various recording media. That is, a computer program, which is processed by various processors and can execute the various control methods described above, may be stored in the recording medium.
  • a non-transitory computer readable medium may be provided in which a program for performing the step of performing a function according to a predetermined instruction is stored, if the text in which the user's voice has been converted contains the second text.
  • a non-transitory readable medium is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the apparatus.
  • the various applications or programs described above may be stored on non-volatile readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM,

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Signal Processing (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는 음성 입력부, 제1 표기 형식에 따른 제1 텍스트 및 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 저장부 및, 음성 입력부를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 기설정된 명령어에 따른 기능을 실행하는 프로세서를 포함한다. 프로세서는, 기설정된 명령어가 제1 텍스트를 포함하고, 음성 텍스트가, 기설정된 명령어의 제1 텍스트가 제2 표기 형식의 제2 텍스트로 표기된 텍스트인 경우, 기설정된 명령어에 따른 기능을 실행한다.

Description

전자 장치 및 그 제어 방법
본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 음성 인식에 의해 제어될 수 있는 전자 장치 및 그 제어 방법에 관한 것이다.
기술 개발로 인해, 스마트 폰, 스마트 TV와 같은 디스플레이 장치에서 사용자의 음성 인식이 가능해짐에 따라, 사용자는 별도의 조작 없이 발화 음성을 통해 디스플레이 장치의 동작을 제어하거나 다양한 컨텐츠 서비스를 제공받을 수 있다.
또한, 클라우드 기반의 음성 인식 서비스는 NLU(Natural Language Understanding) 모듈에서 음성 인식 결과에 기반한 기능 동작의 실행을 결정하는 것이 일반적이다. 사용자가 전자 장치에 음성 명령어를 입력하면, 음성 인식 서버는 전자 장치로부터 음성 명령어를 전달받아 음성 인식을 수행하게 된다. 이때, 음성 인식 서버는 NLU 모듈에 음성 인식 결과를 전달하고(추가적으로 전자 장치에 음성 인식 결과를 전달하여, 전자 장치에 사전 등록된 명령어를 빠르게 실행하도록 할 수도 있다), NLU 모듈에서는 음성 인식 결과를 분석하여 적절한 기능 실행 방법을 도출하며, 그 결과를 전자 장치에 전달한다.
그러나, NLU 처리가 어려운 상황인 경우, 혹은 응답 시간의 단축이 필요한 경우에는 NLU 처리 전에 음성 인식 결과만으로 기능이 실행되도록 동작하는 경우도 있다. 예를 들어, TV와 같은 디스플레이 장치는 기본적인 기능을 위한 사전 등록된 명령어("볼륨올려", "채널올려"), 보이스 터치(디스플레이 화면에 보이는 선택 항목의 텍스트를 명령어로 등록하여 음성으로 기능을 실행하는 기술)에 기반한 명령어의 실행을 위해서 음성 인식 결과와 명령어의 문자를 비교하고, 완벽히 일치하는 명령어의 기능 동작을 수행하게 된다.
그러나, 이러한 종래 기술은 명령어와 음성인식 결과의 문자를 비교하여 완벽히 일치하는 명령어를 찾기 때문에, 명령어 표기의 불일치가 있거나 명령어의 다양한 표현 방식이 있는 경우 정확한 문자 비교가 되지 않으므로, 사용자에게 음성 인식 기능에 대한 부정적인 인식을 심어줄 우려가 있다.
본 발명은 상술한 문제에 의한 필요성에 따른 것으로, 본 발명의 목적은 다양한 표현 방식에 따른 음성 명령을 처리할 수 있는 전자 장치 및 그 제어 방법을 제공함에 있다.
본 발명의 일 실시 예에 따른 전자 장치는 음성 입력부, 제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 저장부 및, 상기 음성 입력부를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행한다.
이때, 상기 음성 텍스트는 기설정된 텍스트 단위로 구분되고, 상기 프로세서는 상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 저장부로부터, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행할 수 있다.
또한, 상기 프로세서는 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하고, 상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행할 수 있다.
또한, 상기 기설정된 명령어는 기설정된 텍스트 단위로 구분되고, 상기 프로세서는 상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 더 산출하고, 상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행할 수 있다.
또한, 상기 전자 장치는 디스플레이를 더 포함하고, 상기 기설정된 명령어는 상기 디스플레이를 통해 제공되는 UI(User Interface)에 표시될 수 있다.
또한, 상기 프로세서는 상기 기설정된 명령어에 따른 기능이 실행된 화면을 디스플레이하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 전자 장치는 통신부를 더 포함하고, 상기 프로세서는 상기 기설정된 명령어에 따른 기능이 실행된 화면을 제공하는 영상을 상기 전자 장치와 연결된 디스플레이 장치에 전송하도록 상기 통신부를 제어할 수 있다.
또한, 상기 음성 입력부는 마이크로폰(microphone)를 포함할 수 있다.
또한, 상기 프로세서는 상기 음성 입력부를 통해 입력된 상기 사용자 음성을 외부 장치로 전송하고, 상기 외부 장치로부터 상기 사용자 음성이 음성 인식에 따라 변환된 음성 텍스트를 수신하도록 상기 통신부를 제어할 수 있다.
또한, 상기 제2 텍스트는 상기 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 상기 제1 텍스트와 다르게 표기되는 텍스트일 수 있다.
한편, 제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 전자 장치의 일 실시 예에 따른 제어 방법은 사용자 음성을 입력받는 단계 및, 상기 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 단계를 포함하고, 상기 실행하는 단계는 상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행한다.
이때, 상기 음성 텍스트는 기설정된 텍스트 단위로 구분되고, 상기 실행하는 단계는 상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행할 수 있다.
또한, 상기 실행하는 단계는 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여, 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하는 단계 및 상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는 단계를 포함할 수 있다.
또한, 상기 기설정된 명령어는 기설정된 텍스트 단위로 구분되고, 상기 제어 방법은 상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 산출하는 단계를 더 포함하며, 상기 실행하는 단계는 상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행할 수 있다.
또한, 상기 제어 방법은 상기 기설정된 명령어를 포함하는 UI를 표시하는 단계 및, 상기 기설정된 명령어에 따른 기능이 실행된 화면을 표시하는 단계를 더 포함할 수 있다.
또한, 상기 제어 방법은 상기 기설정된 명령어에 따른 기능이 실행된 화면을 제공하는 영상을 상기 전자 장치와 연결된 디스플레이 장치에 전송하는 단계를 더 포함할 수 있다.
또한, 상기 제어 방법은 상기 입력된 사용자 음성을 외부 장치로 전송하는 단계 및, 상기 외부 장치로부터 상기 사용자 음성이 음성 인식에 따라 변환된 음성 텍스트를 수신하는 단계를 더 포함할 수 있다.
또한, 상기 기설정된 텍스트 단위는 단어, 숫자 및 기호 중 적어도 하나를 포함할 수 있다.
또한, 상기 사용자 음성을 입력받는 단계는 상기 전자 장치를 제어하기 위한 원격 제어 장치로부터, 상기 사용자 음성을 수신할 수 있다.
또한, 상기 제2 텍스트는 상기 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 상기 제1 텍스트와 다르게 표기되는 텍스트일 수 있다.
본 발명의 다양한 실시 예에 따르면, 음성 인식 결과와 명령어 표기의 불일치가 있는 경우에도 사용자의 의도에 따른 명령어의 기능이 실행될 수 있으므로, 사용자의 만족도와 편의성을 증대시킬 수 있다.
도 1a 내지 1c는 본 발명의 다양한 실시 예에 따른 전자 장치의 구성을 간략히 도시한 블록도,
도 2는 본 발명의 일 실시 예에 따른 전자 장치의 구현 예를 나타낸 도면,
도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면,
도 4는 본 발명의 일 실시 예에 따른 확장 텍스트에 의한 기능 실행 방법을 설명하기 위한 블록도,
도 5는 본 발명의 일 실시 예에 따른 확장 단어 리스트를 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 따른 명령어들이 표시된 보이스 터치 화면을 나타낸 도면,
도 7은 본 발명의 다른 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도,
도 8은 본 발명의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
-
본 발명에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어일 수 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조 번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명하도록 한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성 요소를 모두 도시하고 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 ‘제1’, ‘제2’ 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성 요소들을 서로 구별하기 위하여 사용하는 것이며, 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안될 것이다. 일 예로, 이러한 서수와 결합된 구성 요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한 해석되어서는 안된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다름을 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, ‘포함하다’ 또는 ‘구성하다’ 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명의 실시 예에서 ‘모듈’, ‘유닛’, ‘부(Part)’ 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성 요소를 지칭하기 위한 용어이며, 이러한 구성 요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수도 있다. 또한, 복수의 ‘모듈’, ‘유닛’, ‘부(part)’ 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
이하, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.
도 1a 내지 1c는 본 발명의 다양한 실시 예에 따른 전자 장치의 구성을 간략히 도시한 블록도이다.
도 1a에 따르면, 본 발명의 일 실시 예에 따른 전자 장치(100)는 음성 입력부(110), 저장부(120) 및 프로세서(130)를 필수적으로 포함한다.
본 발명의 전자 장치(100)는 사용자의 발화 음성을 인식하여 사용자가 의도한 동작을 수행하는 장치로서, 도 2의 (a)에 도시된 바와 같은 스마트 TV, 도 2의 (b)에 도시된 바와 같은 셋탑 박스(set-top box), 도 2의 (c)에 도시된 바와 같은 스마트폰 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 이에도, 전자 장치(100)는 태블릿(tablet) PC, PDA(Personal Digital Assistants), 노트북 등 다양한 전자 장치로 구현될 수 있음은 물론이다.
전자 장치(100)의 음성 입력부(110)는 사용자로부터 음성을 입력받기 위한 구성이다. 음성 입력부(110)는 마이크로폰(microphone)을 포함하며, 사용자로부터 발화된 음성에 대응하는 음성을 수집할 수 있다. 마이크로폰은 프로세서(130)의 제어에 따라, 외부로부터의 음성(voice) 또는 사운드(sound)를 입력받아 전기적인 음성 신호를 생성할 수 있다.
또한, 음성 입력부(110)는 유선 네트워크 또는 무선 네트워크를 통해 통신을 수행하여 사용자로부터 음성 신호를 입력받을 수도 있다. 예를 들어, 전자 장치(100)를 제어하기 위한 원격 제어 장치(10)가 마이크로폰을 포함하고 있는 경우, 원격 제어 장치(10)가 사용자 음성을 수집하고, 수집된 사용자 음성의 아날로그 신호 또는 디지털 신호를 전자 장치(100)에 전송할 수 있다. 음성 입력부(110)는 수신된 음성이 아날로그 신호인 경우, 이를 디지털 신호로 변환할 수 있다.
또한, 음성 입력부(110)는 전자 장치(100)와 연결된 외부의 마이크로폰을 통해 음성 신호를 입력받을 수도 있다.
저장부(120)는 전자 장치(100)의 기능 실행, 음성 인식, 콘텐츠 표시 등과 관련된 다양한 데이터를 저장하는 구성이다. 특히, 저장부(120)는 제1 표기 형식에 따른 제1 텍스트 및 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장한다.
여기서, 제1 텍스트는, 단어(word), 숫자(number), 기호(symbol) 및 문장(sentence) 중 적어도 하나를 포함할 수 있다. 예를 들어, 제1 텍스트는 "smart", "home", "모드", "설정" 등과 같은 단어, "1", "3", "7" 등과 같은 숫자, "+", "*", "#" 등과 같은 기호, "TV 꺼", "10번 채널 틀어줘" 등과 같은 문장 등을 포함할 수 있다.
또한, 제2 텍스트는 제1 텍스트가 다른 표기 형식에 의해 표기된 텍스트를 의미한다. 좀 더 구체적으로, 제2 텍스트는 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 제1 텍스트와 다르게 표기되는 텍스트일 수 있다.
예를 들어, 제1 텍스트가 "smart"인 경우, 제2 텍스트는 "smart"가 한글로 표기된 "스마트"가 될 수 있다. 또한, 제1 텍스트가 "3"인 경우, 제2 텍스트는 "3"이 숫자가 아닌 "삼", "셋", "three", "쓰리" 등의 단어가 될 수 있다. 또한, 제1 텍스트가 "+"인 경우, 제2 텍스트는 "+"가 영어 또는 한글로 표기된 "plus", "플러스" 등이 될 수 있다.
이와 같이, 저장부(120)는 제1 표기 형식에 따른 제1 텍스트를 기준으로, 제1 텍스트가 제1 표기 형식과 다른 제2 표기 형식으로 표기된 하나 또는 복수의 제2 텍스트를 저장할 수 있다. 여기서, 제1 텍스트는 기설정되어 있을 수 있으며, 사용자에 의해 지정된 단어, 숫자 또는 기호일 수도 있다. 제1 텍스트는 복수 개일 수 있으며, 제1 텍스트에 매칭되는 적어도 하나의 제2 텍스트가 각각 리스트 형식으로 저장부(120)에 저장될 수 있다. 제1 텍스트 및 제1 텍스트에 매칭되는 적어도 하나의 제2 텍스트의 매칭 리스트에 대하여는 도 4에서 좀 더 구체적으로 설명하도록 한다.
프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어하는 구성이다. 특히, 프로세서(130)는 음성 입력부(110)를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 기설정된 명령어에 따른 기능을 실행한다.
여기서, 기설정된 명령어는 예를 들어, 전자 장치(100)에서 제공되는 메뉴 화면을 표시하도록 하는 "smart tv home", 현재 시청 중인 영화 콘텐츠의 시청 모드를 설정할 수 있는 화면을 표시하도록 하는 "영화 모드 설정" 등이 될 수 있다. 이러한 기설정된 명령어는 음성 인식을 위해 저장부(120)에 저장될 수 있다. 이때, 기설정된 명령어는 텍스트 형식으로 저장되어, 음성 인식에 의해 사용자 음성이 변환된 텍스트와 비교될 수 있으며, 사용자 음성이 변환된 텍스트와 일치하는 명령어에 따른 기능이 실행될 수 있다.
또한, 기설정된 명령어는 특정 콘텐츠를 가리키는 텍스트가 될 수 있다. 예를 들어, 기설정된 명령어는 "mission impossible 4"와 같이 영화 제목을 포함할 수 있다. 특히, 전자 장치(100)에 포함된 디스플레이 혹은 전자 장치(100)와 연결된 외부 디스플레이 장치에 표시되는 다양한 UI 중 어느 하나를 사용자 음성으로 선택하는 보이스 터치(voice touch) 환경에 있어서, 기설정된 명령어는 각 UI에 포함되는 텍스트가 될 수 있다. 여기서, UI는 현재 표시되는 화면과 관련하여 전자 장치(100)의 특정 기능을 실행하기 위한 메뉴 혹은 특정 콘텐츠를 실행하기 위한 메뉴를 포함할 수 있으며, 각 UI에 대응되는 텍스트는 메뉴에 표시되는 특정 기능의 이름 혹은 특정 콘텐츠의 제목이 될 수 있다.
프로세서(130)는 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면 기설정된 명령어에 따른 기능을 실행한다. 예를 들어, 사용자 음성이 변환된 음성 텍스트에 대응되는 기설정된 명령어가 "smart tv home"인 경우, 프로세서(130)는 전자 장치(100)에서 제공되는 기본 메뉴 화면을 디스플레이하도록 하는 기능을 실행할 수 있다. 또, 사용자 음성이 변환된 음성 텍스트에 대응되는 기설정된 명령어가 "mission impossible 4"인 경우, 프로세서(130)는 "mission impossible 4"에 해당하는 콘텐츠를 재생하도록 하는 기능을 실행할 수 있다.
한편, 프로세서(130)는 기설정된 명령어가 제1 텍스트를 포함하고, 사용자 음성이 변환된 음성 텍스트가, 기설정된 명령어의 제1 텍스트가 제2 표기 형식의 제2 텍스트로 표기된 텍스트인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.
예를 들어, 기설정된 명령어가 "smart tv home"이고, 사용자 음성이 변환된 음성 텍스트가 "스마트 티비 홈"인 경우를 상정하면, 기설정된 명령어인 "smart tv home"에 포함된 "smart", "tv" 및 "home"은 제2 표기 형식으로 표기된 제2 텍스트인 "스마트", "티비" 및 "홈"이 각각 제1 표기 형식으로 표기된 제1 텍스트에 해당한다.
이러한 조선을 만족하면, 프로세서(130)는 사용자 음성이 변환된 음성 텍스트가 "smart tv home"이 아닌 "스마트 티비 홈"이더라도, 기설정된 명령어인 "smart tv home"에 대응되는 기능을 실행할 수 있다.
이러한 본 발명의 특징이 구체화된 실시 예에 대하여는 도 4 내지 6을 참조하여 구체적으로 설명하도록 한다.
한편, 본 발명의 일 실시 예에 따른 전자 장치(100A)는 도 1b에 도시된 바와 같이 디스플레이(140)를 포함하는 디스플레이 장치로 구현될 수 있다. 즉, 전자 장치(100A)는 TV, 스마트폰, 노트북, PDA 등 디스플레이 패널을 구비한 전자 장치를 포함한다.
이때, 프로세서(130)는 기설정된 명령어를 포함하는 UI(User Interface)를 디스플레이하도록 디스플레이(140)를 제어할 수 있다. 이후, 사용자 음성에 의해 디스플레이(140)에 표시된 UI 중 어느 하나가 선택되면, 선택된 UI에 포함된 기설정된 명령어에 따른 기능을 실행하고, 해당 기능이 실행된 화면을 디스플레이하도록 디스플레이(140)를 제어할 수 있다.
또한, 본 발명의 다른 실시 예에 따른 전자 장치(100B)는 도 1c에 도시된 바와 같이 외부의 디스플레이 장치(200)와 유선 또는 무선 네트워크로 연결되는 통신부(150)를 포함하는 전자 장치로 구현될 수 있다. 즉, 전자 장치(100B)는 셋탑 박스(set-top box), DVD 플레이어, 게임기 등 디스플레이 장치(200)와 연결되어, 디스플레이 장치에 영상을 제공하는 전자 장치를 포함한다.
이때, 프로세서(130)는 전자 장치(100B)와 연결된 디스플레이 장치(200)에 기설정된 명령어를 포함하는 UI(User Interface)를 제공하는 영상을 전송하도록 통신부(150)를 제어할 수 있다. 또한, 프로세서(130)는 사용자 음성에 의해 디스플레이 장치에 표시된 UI 중 어느 하나가 선택되면, 선택된 UI에 포함된 기설정된 명령어에 따른 기능을 실행하고, 해당 기능이 실행된 영상을 전자 장치(100B)와 연결된 디스플레이 장치(200)에 전송하도록 통신부(150)를 제어할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
이하에서는, 본 발명의 이해를 돕기 위하여 전자 장치(100)가 디스플레이 장치로 구현된 실시 예에 한정하여 설명하도록 하며, 전자 장치를 디스플레이 장치로 기재하도록 한다. 그러나 본 발명의 전자 장치(100)가 디스플레이를 포함하는 디스플레이 장치에 한정되는 것이 아니라는 것은 상술한 전자 장치(100)의 다양한 구현 예로부터 쉽게 인식될 수 있을 것이다.
본 발명의 디스플레이 장치(100)는 통신부(150)를 포함하며, 통신부(150)는 음성 인식을 수행하는 외부의 제1 서버(20)와 통신을 수행하기 위한 제1 통신부(151) 및 방송 콘텐츠 또는 콘텐츠 관련 정보를 제공하는 외부의 제2 서버(30)와 통신을 수행하기 위한 제2 통신부(152)를 포함할 수 있다.
디스플레이 장치(100)가 음성 인식 모드로 동작할 때, 사용자의 발화 음성이 디스플레이 장치(100)에 입력될 수 있다. 이때, 최초 사용자는 디스플레이 장치(100)가 음성 인식 모드로 동작하도록 하기 위한 발화를 수행할 수 있다. 이와 같은 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성의 음성 신호를 분석하여 해당 음성 신호가 음성 인식 모드로 진입하기 위한 트리거 명령어인지 여부를 판단할 수 있다.
판단 결과, 발화 음성이 음성 인식 모드로 동작하기 위한 명령이라면, 프로세서(120)는 디스플레이 장치(100)가 음성 인식 모드로 진입하도록 제어할 수 있다. 이와 같이, 디스플레이 장치(100)가 음성 인식 모드로 진입한 상태에서 사용자의 추가 발화 음성이 입력되면, 디스플레이 장치(100)는 내부적으로 추가 발화된 발화 음성을 인식하기 위한 동작을 수행할 수 있다.
그러나, 본 발명의 디스플레이 장치(100)는 음성 인식 모드로 진입하기 위한 트리거 명령어를 필요로 하지 않을 수 있으며, 사용자 음성을 항상 감지하는 상태 혹은 기설정된 주기로 사용자 음성을 감지하는 상태로 동작하여, 트리거 명령어 없이 음성 인식이 수행될 수도 있다.
한편, 디스플레이 장치(100)의 음성 입력부(110)는 마이크로폰으로 구현되어, 사용자로부터 발화된 사용자 음성을 직접 감지할 수 있으며, 디스플레이 장치(100)를 제어하는 원격 제어 장치(10)로부터 사용자 음성을 수신할 수도 있다.
구체적으로, 원격 제어 장치(10)는 디스플레이 장치(100)와 통신을 수행하여 디스플레이 장치(100)의 동작을 제어하기 위한 장치로서, 리모콘, 키보드 등을 포함하는 구성이다. 사용자로부터 발화된 사용자 음성은 원격 제어 장치(10)에 구비된 마이크로폰을 통해 감지될 수 있으며, 디스플레이 장치(100)는 원격 제어 장치(10)로부터 사용자 음성을 수신할 수 있다. 이를 위해, 통신부(150)는 원격 제어 장치(10)로부터 사용자 음성을 수신하기 위한 제3 통신부(153)를 더 포함할 수 있다.
다만, 디스플레이 장치(100)와 원격 제어 장치(10)가 수행하는 통신 방식이 디스플레이 장치(100)와 제1 서버(20) 또는 제2 서버(30)가 수행하는 통신 방식과 동일한 경우에는 제3 통신부(153)가 생략될 수도 있다. 예를 들어, 디스플레이 장치(100)와 원격 제어 장치(10)가 와이파이 모듈을 이용한 통신을 수행하고, 디스플레이 장치(100)와 제1 서버(20)가 역시 와이파이 모듈을 이용한 통신을 수행하는 경우, 디스플레이 장치(100)는 제3 통신부(153)를 따로 구비하지 않고, 제1 통신부(151)에 포함된 와이파이 모듈을 통해 원격 제어 장치(10)와 통신을 수행할 수 있다.
또한, 디스플레이 장치(100)와 원격 제어 장치(10)가 와이파이(Wi-Fi) 모듈 혹은 블루투스(bluetooth) 모듈을 이용하여 통신을 수행하고, 디스플레이 장치(100)가 제1 서버(20) 및 제2 서버(20)와 이더넷(ethernet) 모뎀을 이용하여 통신을 수행하는 경우, 디스플레이 장치(100)는 와이파이 모듈 혹은 블루투스 모듈을 포함하는 제3 통신부(153)를 구비하여야 할 것이다.
또한, 디스플레이 장치(100)의 동작을 제어하기 위하여 스마트 폰 등의 사용자 휴대 단말이 원격 제어 장치(10)의 역할을 할 수도 있다. 최근에는 스마트 폰에 여러 외부 장치를 제어할 수 있는 리모트 컨트롤 관련 어플리케이션을 설치하고, 어플리케이션 상에서 제공되는 UI를 조작함으로써 외부 장치를 제어하는 기술이 일반적으로 사용되고 있다. 이를 위해, 스마트 폰은 적외선 송신부를 포함할 수 있고, 적외선 송신부를 통해 제어 신호를 디스플레이 장치(100)로 전송할 수 있다. 혹은 스마트 폰과 디스플레이 장치(100)가 와이파이(Wi-Fi), 블루투스(bluetooth) 통신을 통해 각종 제어 신호를 주고 받을 수도 있다. 이러한 다양한 실시 예에 대응하여, 디스플레이 장치(100)는 원격 제어 장치(10) 또는 원격 제어 장치(10)의 역할을 하는 사용자 휴대 단말과 다양한 방식으로 통신을 수행할 수 있도록, 각 통신 방식에 따른 복수의 통신부를 포함할 수 있다.
따라서, 사용자가 스마트 폰에 포함된 마이크로폰을 통해 음성을 입력하고, 입력된 음성을 와이파이 등의 통신을 이용하여 디스플레이 장치(200)로 전송하는 실시 예도 가능함은 자명할 것이다.
한편, 디스플레이 장치(100)는 음성 입력부(110)를 통해 사용자 음성이 수신되면, 수신된 사용자 음성을 제1 서버(20)로 전송할 수 있다. 제1 서버(20)는 수신된 사용자 음성을 텍스트로 변환하고, 변환된 텍스트(이하, 음성 텍스트)를 디스플레이 장치(100)로 전송한다. 즉, 제1 서버(20)는 소리 정보를 분석하여 음성 신호를 텍스트 포맷으로 변환해주는 STT(Speech-To-Text) 서버로 구현될 수 있다. 디스플레이 장치(100)가 제1 서버(20)로부터 음성 텍스트를 수신하면, 수신된 음성 텍스트에서 키워드를 추출하고, 추출된 키워드에 상응하는 명령어를 실행할 수 있다.
그러나 본 발명의 디스플레이 장치(100)는 실시 예에 따라 음성 인식 모듈을 저장하여, 자체적으로 음성 신호를 텍스트 포맷으로 변환할 수도 있다. 즉, 디스플레이 장치(100)는 저장부(120)에 기등록된 명령어와 관련된 사용자 발화 음성을 자체적으로 인식하는 임베디드 방식에 기반하여 음성 인식을 수행할 수도 있다.
추출된 키워드에 상응하는 명령어가 특정 콘텐츠의 재생 혹은 특정 콘텐츠와 관련된 정보에 대한 요청인 경우, 디스플레이 장치(100)는 해당 요청에 따른 신호를 제2 서버(30)로 전송할 수 있다. 제2 서버(30)는 콘텐츠 관련 정보를 제공하는 서버로서, 특정 콘텐츠와 관련된 정보를 검색하여 사용자에게 제공할 수 있다. 디스플레이 장치(100)는 제2 서버(30)로부터 콘텐츠 관련 정보를 수신하여 디스플레이할 수 있다. 예를 들어, 명령어가 "mission impossible 4"라면, 디스플레이 장치(100)는 제2 서버(30)로부터 "mission impossible 4"와 관련된 영화 정보를 수신하여 디스플레이하거나 "mission impossible 4"에 해당하는 영화 콘텐츠를 수신하여 재생할 수 있다.
한편, 본 실시 예에서는 제1 서버(20) 및 제2 서버(30)가 별개의 서버임을 전제로 하였으나, 제1 서버(20) 및 제2 서버(30)는 동일한 서버로 구현될 수도 있다. 즉, 본 발명의 디스플레이 장치(100)는 소리 정보를 분석하여 음성 신호를 텍스트 포맷으로 변환하는 역할과 방송 콘텐츠 또는 콘텐츠 관련 정보를 제공하는 역할을 동시에 수행하는 통합 서버와 통신을 수행할 수 있다. 이 경우, 제1 통신부(151) 및 제2 통신부(152)는 하나로 통합되어, 통합 서버와 통신을 수행하게 된다.
도 4는 본 발명의 일 실시 예에 따른 확장 텍스트에 의한 기능 실행 방법을 설명하기 위한 블록도이다.
도 4에 도시된 바와 같이, 디스플레이 장치(100)의 프로세서(130)는 저장부(120)에 저장된 검색 모듈(121) 및 기능 실행 모듈(122)을 이용하여 사용자 음성에 대응되는 명령어를 검색하고, 검색된 명령어에 따른 기능을 실행할 수 있다.
먼저, 프로세서(130)는 사용자 음성이 변환된 음성 텍스트를 기초로, 저장부(120)에 저장된 제1 텍스트를 추출한다. 구체적으로, 프로세서(130)는 음성 텍스트에 제2 텍스트가 포함되어 있는 경우, 저장부(120)로부터, 음성 텍스트에 포함된 제2 텍스트와 매칭되는 제1 텍스트를 추출할 수 있다. 제1 텍스트는, 단어, 숫자, 기호 등 다양한 텍스트 단위를 포함할 수 있다.
도 5에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 디스플레이 장치(100)의 저장부(120)는 일 표기 형식에 따른 제1 텍스트 및 일 표기 형식에 따른 해당 텍스트가 다른 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장할 수 있다. 여기서, 저장부(120)에 저장되는 제1 텍스트는 기설정된 명령어를 이루는 기설정된 텍스트 단위(이하, 토큰)로, 저장부(120)에 저장되는 제2 텍스트는 제1 텍스트의 표현 형식을 확장하기 위한 토큰이 될 수 있다. 이때, 저장부(120)는 일 표기 형식에 따른 제1 텍스트와 일 표기 형식에 따른 제1 텍스트를 다른 표기 형식으로 기재한 제2 텍스트를 매칭시킨 텍스트 매칭 리스트를 저장할 수 있다.
도 5에 도시된 바와 같이, 저장부(120)에 저장된 텍스트 매칭 리스트에서 제1 표기 형식의 "smart"는 제2 표기 형식의 "스마트"와, 제1 표기 형식의 "4"는 제2 표기 형식의 "포", 제3 표기 형식의 "사", 제4 표기 형식인 "넷" 등과, 제1 표기 형식의 "+"는 제2 표기 형식의 "플러스", 제3 표기 형식의 "plus" 등과 각각 매칭될 수 있다.
이러한 매칭 리스트는 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템에 의해 수립될 수도 있다, 인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서, 기계가 스스로 학습하고 판단하기 때문에, 사용할수록 음성 인식률이 향상될 수 있다는 이점이 있다.
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성되는데, 요소 기술의 예로서, 인간의 언어/문자를 인식하는 언어적 이해 기술이 본 발명에 적용될 수 있다.
언어적 이해 기술은 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함하게 되는데, 본 발명의 일 실시 예에 따르면, 저장부(120)에 저장되는 매칭 리스트 중 제1 텍스트를 다양한 표기 형식에 따라 표기하는 제2 텍스트는 인공지능에 의해 학습되어 지속적으로 업데이트될 수 있다.
이에 따르면, 인공지능에 의해, 텍스트의 다양한 표기 형식에 대한 DB가 자동적으로 구축될 수 있다. 따라서, 특정 사용자 혹은 복수의 사용자들이 특정 텍스트에 대하여 읽는 다양한 표현 방식 혹은 특정 텍스트의 다양한 표기 형식이 지속적으로 확장될 수 있으므로, 음성 인식률이 효율적이고 지속적으로 증가할 수 있다.
한편, 프로세서(130)는 사용자 음성이 변환된 음성 텍스트를 저장부(120)에 저장된 텍스트 매칭 리스트에 기초하여 확장하고, 저장부(120)에 저장된 검색 모듈(121)을 실행하여 사용자 음성에 대응되는 명령어를 식별할 수 있다. 검색 모듈(121)은 기설정된 명령어 리스트(42)로부터, 음성 텍스트에 포함된 토큰 및 해당 토큰과 매칭되는 토큰을 검색어로 하여, 명령어를 식별할 수 있다.
여기서, 기설정된 명령어 리스트(42)는 저장부(120)에 저장된 명령어 리스트로서, 특히 디스플레이 장치(100)의 주요 기능을 실행하기 위한 주요 명령어의 리스트일 수 있다.
또한, 기설정된 명령어 리스트(42)는 디스플레이 장치(100)의 디스플레이(140)에서 제공되는 UI에 표시되는 명령어의 리스트일 수 있다. 예를 들어, 보이스 터치 환경에서 제공되는 UI에 표시되는 명령어의 리스트가 될 수 있다. 이때, 프로세서(130)는 해당 UI가 콘텐츠 관련 정보를 제공하는 제2 서버(30)로부터 제공되는 UI인 경우, 제2 서버(30)로부터 해당 UI에 표시되는 명령어를 수신하거나 디스플레이(140)에 표시되는 화면에 대한 이미지 분석을 수행하여, UI에 표시되는 명령어를 인식하는 방식으로 명령어 리스트(42)를 생성할 수 있다.
또한, 음성 텍스트에 포함된 토큰은 텍스트 매칭 리스트에 포함된 제1 텍스트 또는 제2 텍스트가 될 수 있다.
프로세서(120)는 음성 텍스트에 포함된 토큰이 제1 텍스트인 경우, 제1 텍스트에 대응되는 제2 텍스트를 식별하고, 제2 텍스트를 추가적인 검색어로 확장할 수 있으며, 음성 텍스트에 포함된 토큰이 제2 텍스트인 경우, 제2 텍스트에 대응되는 제1 텍스트를 식별하고 제1 텍스트를 추가적인 검색어로 확장할 수 있다.
예를 들어, 사용자 음성이 변환된 음성 텍스트가 "스마트 티비 홈"인 경우, 명령어 리스트(42)로부터 사용자 음성에 대응되는 명령어를 검색하기 위한 토큰은 음성 텍스트를 구성하는 단어인 "스마트", "티비", "홈"과, "스마트", "티비", "홈"에 각각 대응되는 "smart", "tv" 및 "home"로 확장될 수 있다.
또한, 사용자 음성이 변환된 음성 텍스트가 "TV +"인 경우, 명령어 리스트(42)로부터 사용자 음성에 대응되는 명령어를 검색하기 위한 토큰은 "TV", "+", "티비", "플러스" 및 "plus"로 확장될 수 있다.
프로세서(130)는 명령어 리스트(42)에 저장된 명령어를 기설정된 텍스트 단위인 토큰으로 구분하고, 확장된 검색어 각각과 명령어 리스트(42)에 저장된 명령어를 이루는 단어와의 유사도 스코어를 산출하여 가장 높은 유사도 스코어를 가지는 명령어를 식별할 수 있다. 프로세서(130)는 명령어가 식별되면, 저장부(120)에 저장된 기능 실행 모듈(122)을 실행하여 식별된 명령어에 대응되는 기능을 실행한다.
사용자 음성이 변환된 음성 텍스트를 구성하는 각 토큰의 집합 Q와, 음성 텍스트에 기초하여 텍스트 매칭 리스트로부터 식별된 토큰의 집합 Qex를 수식으로 표현하면 다음과 같다.
Figure PCTKR2018014509-appb-M000001
Figure PCTKR2018014509-appb-M000002
수학식 1에서, q1 내지 qn은 음성 텍스트를 구성하는 각 토큰을 의미한다. 예를 들어, 음성 텍스트 Q가 "스마트 홈 티비"인 경우, Q는 q1(스마트), q2(홈), q3(티비)의 집합으로 표현될 수 있다.
수학식 2에서 q(1,1) 내지 q(1,m)은 음성 텍스트를 구성하는 토큰 q1의 다른 표기 형식에 따른 적어도 하나의 토큰을 의미하며, q(n,1) 내지 q(n,l)은 음성 텍스트를 구성하는 토큰 qn의 다른 표기 형식에 따른 적어도 하나의 토큰을 의미한다.
이하, 도 6을 참조하여, 보이스 터치 환경에서 사용자 음성에 따른 기능을 실행하는 구체적인 방법을 설명하도록 한다.
도 6은 본 발명의 일 실시 예에 따른 명령어들이 표시된 보이스 터치 화면을 나타낸 도면이다.
도 6은 본 발명의 일 실시 예에 따른 보이스 터치 화면이 디스플레이된 모습을 나타낸 것이다. 사용자는 보이스 터치 환경에서, 디스플레이 장치(100)의 디스플레이(140)에서 제공되는 각 UI(62 내지 65)를 사용자 음성을 발화하여 선택하여 실행할 수 있다.
디스플레이(140)의 화면에는 제1 명령어인 "smart tv home"을 포함하는 UI(62), 제2 명령어인 "영화 모드 설정"을 포함하는 UI(63), 제3 명령어인 "16:9 화면 모드"를 포함하는 UI(64), 제4 명령어인 "mission impossible 4"를 포함하는 UI(65)가 디스플레이될 수 있다.
이때, 사용자가 발화한 음성이 변환된 음성 텍스트가 "스마트 티비 홈"인 경우, 프로세서(130)는 "스마트 티비 홈"을 토큰 단위("스마트", "티비", "홈")로 구분하고, 음성 텍스트에 포함된 각 토큰 중 적어도 하나가 저장부(120)에 저장된 매칭 리스트의 제2 텍스트에 포함되는 경우, 매칭 리스트로부터 제2 텍스트에 대응되는 제1 텍스트를 식별할 수 있다. 이때, 프로세서(130)는 식별된 제1 텍스트 및 제2 텍스트에 기초하여 명령어 리스트(42)로부터 사용자 음성에 대응되는 명령어를 식별하고, 식별된 명령어에 따른 기능을 실행할 수 있다. "스마트", "티비" 및 "홈"은 매칭 리스트의 제2 텍스트에 포함되므로, 프로세서(130)는 매칭 리스트로부터 "스마트", "티비" 및 "홈"에 각각 대응되는 "smart", "tv" 및 "home"을 식별할 수 있다.
한편, 프로세서(130)는 이와 같이 확장된 토큰인 "스마트", "티비", "홈", "smart", "tv", "home"과 디스플레이(140)에 표시된 명령어들을 비교하여 가장 유사한 명령어인 제1 명령어를 식별할 수 있으며, 제1 명령어를 포함하는 UI(62)에 대응되는 기능을 실행할 수 있다.
구체적으로, 프로세서(130)는 확장된 토큰 중 어느 하나가 디스플레이(140)에 표시된 명령어들에 각각 포함되는지 여부에 기초하여, 디스플레이(140)에 표시된 명령어 및 사용자 음성의 제1 유사도 스코어를 산출하고, 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.
예를 들어, 프로세서(130)는 제1 명령어인 "smart tv home"을 토큰 단위로 구분하고, "smart"가 음성 텍스트의 확장된 토큰 중 어느 하나에 포함되면 토큰 "smart"에 대하여 "1"이라는 스코어를, 음성 텍스트의 확장된 토큰 중 어느 하나에 포함되지 않으면 "0"이라는 스코어를 할당할 수 있다. 마찬가지로, 프로세서(130)는 제1 명령어의 토큰 "tv" 및 "home"에 대하여도 각 토큰이 음성 텍스트의 확장된 토큰 중 어느 하나에 포함되는지 여부에 기초하여 스코어를 할당할 수 있다.
이후, 프로세서(130)는 "smart", "tv" 및 "home"에 각각 할당된 스코어를 합산하고, 이를 제1 명령어인 "smart tv home"의 토큰 개수로 나눈 제1 유사도 스코어를 산출할 수 있다.
본 실시 예에서, 제1 명령어의 토큰 "smart", "tv" 및 "home"은 모두 음성 텍스트의 확장된 토큰에 포함되므로, 각각 "1"이라는 스코어가 할당되며, 제1 유사도 스코어는 각 할당된 스코어가 합산된 3을 토큰 개수인 3으로 나눈 "1"이 될 수 있다. 이를 통해, 프로세서(130)는 사용자 음성에 대응되는 명령어가 제1 명령어인 "smart tv home"인 것으로 인식하고, 제1 명령어인 "smart tv home"을 포함하는 UI(62)에 대응되는 기능을 실행할 수 있다.
또한, 프로세서(130)는 제1 명령어를 구성하는 토큰 각각이 음성 텍스트의 확장된 토큰에 포함되는지 여부에 기초하여 제1 명령어 및 사용자 음성의 제2 유사도 스코어를 더 산출하고, 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 제1 명령어인 "smart tv home"을 포함하는 UI(62)에 대응되는 기능을 실행할 수도 있다. 제2 유사도 스코어는 제1 명령어를 구성하는 토큰 중 음성 텍스트의 확장된 토큰에 포함되는 토큰의 개수를 제1 명령어를 구성하는 토큰 개수로 나눈 값이 될 수 있다.
본 실시 예에서, 제1 명령어를 구성하는 토큰 "smart", "tv" 및 "home"은 모두 음성 텍스트의 확장된 토큰에 모두 포함되므로 제2 유사도 스코어는 음성 텍스트의 확장된 토큰에 포함되는 제1 명령어의 토큰 개수를 제1 명령어의 토큰 개수인 3으로 나눈 "1"이 될 수 있다.
다른 실시 예로서, 사용자가 발화한 음성이 변환된 음성 텍스트가 "영화 설정"인 경우, 프로세서(130)는 "영화 설정"을 토큰 단위("영화", "설정")로 구분하고, 마찬가지로 제1 유사도 스코어를 산출할 수 있다. 여기서, 음성 텍스트의 토큰 "영화" 및 "설정"을 다른 표기 형식으로 표기한 토큰은 없는 것으로 가정한다.
음성 텍스트의 토큰 "영화" 및 "설정"이 모두 제2 명령어인 "영화 모드 설정"에 포함되므로, 제1 유사도 스코어는 "1"이 될 수 있다.
그러나, "영화 모드 설정"의 각 토큰인 "영화", "모드" 및 "설정" 중에서 "영화" 및 "모드"는 음성 텍스트의 토큰에 포함되나, "모드"는 음성 텍스트의 토큰에 포함되지 않으므로, 제2 유사도 스코어는 음성 텍스트의 토큰에 포함되는 제2 명령어의 토큰 개수인 2를 제2 명령어의 토큰 개수인 3으로 나눈 "2/3"이 될 수 있다. 프로세서(130)는 제2 유사도 스코어인 "2/3"이 기설정된 임계값 이상이면, 제2 명령어인 "영화 모드 설정"을 포함하는 UI(63)에 대응되는 기능을 실행하고, 기설정된 임계값 이하면, 해당 기능을 실행하지 않을 수 있다.
이와 같이 제1 유사도 스코어에 더하여, 제2 유사도 스코어를 고려하는 경우, 보다 정확한 음성 인식이 가능할 수 있다.
또한, 본 발명의 음성 인식 방법은 음성 텍스트를 이루는 토큰의 순서를 고려하지 않기 때문에 사용자가 발화한 음성이 변환된 음성 텍스트가 "화면모드 16:9"인 경우와 같이, 제3 명령어인 "16:9 화면 모드"를 이루는 각 토큰의 순서가 바뀐 텍스트인 경우라도, 제1 및 제2 유사도 스코어는 모두 1이 될 수 있다. 이에 따라, 제3 명령어인 "16:9 화면 모드"를 포함하는 UI(64)에 대응되는 기능이 실행될 수 있다.
또한, 다른 실시 예로서, 사용자가 발화한 음성이 변환된 음성 텍스트가 "미션 임파서블 포"인 경우, 프로세서(130)는 "미션 임파서블 포"를 토큰 단위("미션", "임파서블", "포")로 구분하고, 음성 텍스트에 포함된 각 토큰을 확장할 수 있다. 프로세서(130)는 매칭 리스트로부터 "미션", "임파서블" 및 "포"에 각각 대응되는 "mission", "impossible", "4"를 식별할 수 있다.
프로세서(130)는 이와 같이 확장된 토큰인 "미션", "임파서블", "포", "mission", "impossible" 및 "4"과 디스플레이(140)에 표시된 명령어들을 비교하여 가장 유사한 명령어인 제4 명령어를 식별할 수 있으며, 제4 명령어를 포함하는 UI(65)에 대응되는 기능을 실행할 수 있다.
이와 같은 실시 예 역시, 제1 및 제2 유사도 스코어는 상술한 방식에 의하면 각각 "1"이 될 수 있다.
또한, 상술한 실시 예를 더 확장하여, 본 발명의 매칭 리스트는 기설정된 명령어인 TV 프로그램명 "냉장고를 부탁해"를 제1 텍스트로, "냉장고를 부탁해"의 줄임말인 "냉부해"를 제2 텍스트로 저장할 수도 있다. 이에 따라, 사용자가 "냉부해"를 발화하더라도 사용자 음성이 변환된 음성 텍스트인 "냉부해" 및 "냉부해"와 매칭되는 제1 텍스트인 "냉장고를 부탁해"를 토큰으로 명령어를 검색할 수 있으므로, 검색 확률이 높아질 수 있다.
한편, 제1 유사도 스코어만을 이용하여 명령어를 식별하거나 제2 유사도 스코어만을 이용하여 명령어를 식별할 수도 있으나, 명령어 식별의 정확도를 높이기 위하여 바람직하게는 상술한 바와 같이 제1 및 제2 유사도 스코어를 모두 이용하여 명령어를 인식할 수 있다.
도 7은 본 발명의 다른 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도이다.
도 7에 도시된 바와 같이, 본 발명의 다른 실시 예에 따른 전자 장치(100')는 음성 입력부(110), 저장부(120), 프로세서(130), 디스플레이(1400, 통신부(150), 오디오 처리부(160), 오디오 출력부(170), 비디오 처리부(180) 및 사용자 인터페이스(190)를 포함한다. 이하에서는, 도 1a 내지 1c에서의 설명과 중복되는 설명은 생략하기로 한다.
저장부(120)는 전자 장치(100')를 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 각종 멀티미디어 콘텐츠와 같은 다양한 데이터를 저장할 수 있다.
구체적으로, 저장부(120)는 전자 장치(100')에 포함된 각 하드웨어들로부터 전달되는 신호를 처리하는 베이스 모듈, 데이터베이스(DB)나 레지스트리를 관리하는 스토리지 모듈, 레이아웃의 화면을 생성하기 위한 그래픽 처리 모듈 및 보안 모듈 등을 저장할 수 있다.
특히, 저장부(120)는 도 4에서 설명한 바와 같이, 기설정된 명령어 리스트(42)로부터 명령어를 검색하기 위한 검색 모듈(121) 및 검색된 명령어에 따른 기능을 실행하기 위한 기능 실행 모듈(122)을 저장할 수 있다.
프로세서(130)는 ROM(131), RAM(132), CPU(133), 그래픽 처리부(134), 제1 인터페이스(135-1) 내지 제n 인터페이스(135-n)를 포함할 수 있다. ROM(131), RAM(132), CPU(133), 그래픽 처리부(134), 제1 인터페이스(135-1) 내지 제n 인터페이스(135-n)는 버스(136)를 통해 서로 연결될 수 있다.
CPU((133)는 저장부(120)에 액세스하고, 저장부(120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, CPU(133)는 저장부(120)에 저장된 각종 프로그램, 콘텐츠 및 데이터 등을 이용하여 다양한 동작을 수행할 수 있다.
ROM(131)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, CPU(133)는 ROM(131)에 저장된 명령어에 따라 저장부(120)에 저장된 O/S를 RAM(132)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(133)는 저장부(120)에 저장된 각종 어플리케이션 프로그램을 RAM(132)에 복사하고, RAM(132)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
그래픽 처리부(134)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다.
제1 인터페이스(135-1) 내지 n 인터페이스(135-n)는 상술한 각종 구성 요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
한편, 상술한 프로세서(130)의 동작은 저장부(120)에 저장된 프로그램이 실행되어 이루어질 수 있다.
디스플레이(140)는 전자 장치(100')에서 재생 가능한 다양한 콘텐츠를 포함하는 화면을 제공하는 구성이다. 여기서, 콘텐츠는 텍스트, 이미지, 동영상, GUI(Graphic User Interface) 등과 같은 다양한 포맷의 콘텐츠를 포함할 수 있다.
디스플레이(140)의 구현 방식은 제한되지 않으며, 예컨대, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, AM-OLED(Active-Matrix Organic Light-Emitting Diode), PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(140)는 그 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 디스플레이(140)가 액정 방식인 경우, 디스플레이(140)는 LCD 디스플레이 패널(미도시), 이에 광을 공급하는 백라이트 유닛(미도시), 패널(미도시)을 구동시키는 패널 구동기판(미도시)을 포함할 수 있다.
통신부(150)는 다양한 유형의 통신 방식에 따라 외부 장치와 통신을 수행하는 구성이다. 통신부(150)는 적외선 방식, RF 방식, 근거리 자기장 통신(Near Field Communication; NFC) 방식, 지그비(ZigBee), DLNA(Digital Living Network Alliance), 와이파이(Wi-Fi), 블루투스(Bluetooth), LTE(Long Term Evolution) 등의 다양한 통신 규격에 따라 외부 장치와 데이터를 송신 또는 수신할 수 있다. 또는, 인터넷망을 포함하는 유/무선 네트워크와 연결되어 외부 장치와 데이터를 송수신할 수 있다.
통신부(150)는 외부 장치와의 상술한 통신 방식에 따른 통신을 수행하기 위해 와이파이 칩, 블루투스 칩, 무선 통신 칩 등 다양한 통신 칩을 포함할 수 있으며, 해당 칩들을 이용하여 서버를 포함하는 타 전자 장치와 통신을 수행할 수 있다. 또한, 통신부(150)는 유선 통신 방식을 통해 외부 장치와 통신을 수행하기 위한 유선 통신 칩, 유선 통신 단자 등을 포함할 수 있다.
통신부(150)는 음성 인식을 수행하는 외부의 제1 서버(20)와 통신을 수행하기 위한 제1 통신부(151), 방송 콘텐츠 또는 콘텐츠 관련 정보를 제공하는 외부의 제2 서버(30)와 통신을 수행하기 위한 제2 통신부(152), 원격 제어 장치(10)로부터 사용자 음성을 수신하기 위한 제3 통신부(153) 및 외부의 디스플레이 장치(200)와 통신하여 디스플레이 장치(200)로 영상을 전송하기 위한 제4 통신부(154)를 포함할 수 있다.
오디오 처리부(160)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다.
오디오 출력부(170)는 오디오 처리부(160)에서 처리된 오디오 데이터를 출력하는 구성요소이다.
비디오 처리부(180)는 컨텐츠에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행하는 구성요소이다.
사용자 인터페이스(190)는 전자 장치(100')의 전반적인 동작을 제어하기 위한 사용자 인터렉션을 감지하기 위한 구성요소이다. 사용자 인터페이스(190)는 IR 신호 수신부(미도시), 카메라(미도시) 등과 같은 다양한 인터렉션 감지 장치를 포함할 수 있다. 사용자 인터페이스(190)는 IR 신호 수신부를 통해, 원격 제어 장치(10)로부터 전자 장치(100')가 턴온되기 위한 신호를 수신할 수 있고, 전자 장치(100')가 턴온되어 있는 상태에서 원격 제어 장치(10)로부터 각종 제어 신호를 수신할 수 있다.
도 8은 본 발명의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 전자 장치를 통해 사용자 음성을 입력받을 수 있다(S810). 본 발명의 전자 장치에는 제1 표기 형식에 따른 제1 텍스트 및 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트가 저장되는데, 이러한 제1 텍스트 및 제2 텍스트는 사용자에 의해 직접 입력될 수도 있으며, 제조공정에서 미리 전자 장치에 저장될 수도 있다.
이후, 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 기설정된 명령어에 따른 기능을 실행한다.
이때, 기설정된 명령어가 제1 표기 형식에 따른 제1 텍스트를 포함하고, 사용자 음성이 변환된 음성 텍스트가, 기설정된 명령어의 제1 텍스트가 제2 표기 형식의 제2 텍스트로 표기된 텍스트인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다. 이때, 음성 텍스트는 기설정된 단위로 구분될 수 있으며, 음성 텍스트의 텍스트 단위 중 적어도 하나가 제2 텍스트를 포함하면, 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 식별된 제1 텍스트 및 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행할 수 있다.
또한, 음성 텍스트의 텍스트 단위 및 식별된 제1 텍스트 중 어느 하나가 기설정된 명령어에 포함되는지 여부에 기초하여, 기설정된 명령어 및 사용자 음성의 제1 유사도 스코어를 산출하고, 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.
또한, 기설정된 명령어는 기설정된 텍스트 단위로 구분될 수 있으며, 기설정된 명령어의 텍스트 단위 각각이 음성 텍스트의 텍스트 단위 및 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 기설정된 명령어 및 사용자 음성의 제2 유사도 스코어를 산출할 수 있다. 이때, 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 기설정된 명령어에 따른 기능을 실행할 수 있다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 음성 인식 결과와 명령어 표기의 불일치가 있는 경우에도 사용자의 의도에 따른 명령어의 기능이 실행될 수 있으므로 사용자의 편의성이 증대될 수 있다.
상술한 다양한 실시 예에 따른 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 다양한 제어 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.
일 예로, i) 제1 표기 형식에 따른 제1 텍스트를 포함하는 기설정된 명령어 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트, ii) 사용자 음성을 입력받는 단계 및 iii) 사용자 음성이 변환된 텍스트가 제2 텍스트를 포함하면, 기설정된 명령어에 따른 기능을 실행하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    음성 입력부;
    제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 저장부; 및
    상기 음성 입력부를 통해 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는 전자 장치.
  2. 제1항에 있어서,
    상기 음성 텍스트는,
    기설정된 텍스트 단위로 구분되고,
    상기 프로세서는,
    상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 저장부로부터, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하고, 상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 전자 장치.
  4. 제3항에 있어서,
    상기 기설정된 명령어는,
    기설정된 텍스트 단위로 구분되고,
    상기 프로세서는,
    상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 더 산출하고, 상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 전자 장치.
  5. 제1항에 있어서,
    디스플레이;를 더 포함하고,
    상기 기설정된 명령어는,
    상기 디스플레이를 통해 제공되는 UI(User Interface)에 표시되는, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 기설정된 명령어에 따른 기능이 실행된 화면을 디스플레이하도록 상기 디스플레이를 제어하는, 전자 장치.
  7. 제1항에 있어서,
    통신부;를 더 포함하고,
    상기 프로세서는,
    상기 기설정된 명령어에 따른 기능이 실행된 화면을 제공하는 영상을 상기 전자 장치와 연결된 디스플레이 장치에 전송하도록 상기 통신부를 제어하는, 전자 장치.
  8. 제1항에 있어서,
    상기 음성 입력부는,
    마이크로폰(microphone)를 포함하는, 전자 장치.
  9. 제1항에 있어서,
    통신부;를 더 포함하고,
    상기 프로세서는,
    상기 음성 입력부를 통해 입력된 상기 사용자 음성을 외부 장치로 전송하고, 상기 외부 장치로부터 상기 사용자 음성이 음성 인식에 따라 변환된 음성 텍스트를 수신하도록 상기 통신부를 제어하는, 전자 장치.
  10. 제1항에 있어서,
    상기 제2 텍스트는,
    상기 제1 텍스트의 외래어 표기에 의한 형식, 숫자 표기에 의한 형식 및 기호 표기에 의한 형식 중 적어도 하나에 따라 상기 제1 텍스트와 다르게 표기되는 텍스트인, 전자 장치.
  11. 제1 표기 형식에 따른 제1 텍스트 및 상기 제1 텍스트가 제2 표기 형식으로 표기된 적어도 하나의 제2 텍스트를 저장하는 전자 장치의 제어 방법에 있어서,
    사용자 음성을 입력받는 단계; 및
    상기 입력된 사용자 음성이 변환된 음성 텍스트가 기설정된 명령어에 대응되면, 상기 기설정된 명령어에 따른 기능을 실행하는 단계;를 포함하고,
    상기 실행하는 단계는,
    상기 기설정된 명령어가 상기 제1 텍스트를 포함하고, 상기 음성 텍스트가, 상기 기설정된 명령어의 상기 제1 텍스트가 제2 표기 형식의 상기 제2 텍스트로 표기된 텍스트인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 제어 방법.
  12. 제11항에 있어서,
    상기 음성 텍스트는,
    기설정된 텍스트 단위로 구분되고,
    상기 실행하는 단계는,
    상기 음성 텍스트의 텍스트 단위 중 적어도 하나가 상기 제2 텍스트를 포함하면, 상기 제2 텍스트 각각에 대응되는 제1 텍스트를 식별하고, 상기 식별된 제1 텍스트 및 상기 제2 텍스트에 기초하여 식별된 명령어에 따른 기능을 실행하는, 제어 방법.
  13. 제12항에 있어서,
    상기 실행하는 단계는,
    상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나가 상기 기설정된 명령어에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제1 유사도 스코어를 산출하는 단계; 및
    상기 산출된 제1 유사도 스코어가 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는 단계;를 포함하는, 제어 방법.
  14. 제13항에 있어서,
    상기 기설정된 명령어는,
    기설정된 텍스트 단위로 구분되고,
    상기 기설정된 명령어의 텍스트 단위 각각이 상기 음성 텍스트의 텍스트 단위 및 상기 식별된 제1 텍스트 중 어느 하나에 포함되는지 여부에 기초하여 상기 기설정된 명령어 및 상기 사용자 음성의 제2 유사도 스코어를 산출하는 단계;를 더 포함하고,
    상기 실행하는 단계는,
    상기 산출된 제1 및 제2 유사도 스코어 각각이 기설정된 임계값 이상인 경우, 상기 기설정된 명령어에 따른 기능을 실행하는, 제어 방법.
  15. 제11항에 있어서,
    상기 기설정된 명령어를 포함하는 UI를 표시하는 단계; 및
    상기 기설정된 명령어에 따른 기능이 실행된 화면을 표시하는 단계;를 더 포함하는, 제어 방법.
PCT/KR2018/014509 2017-11-24 2018-11-23 전자 장치 및 그 제어 방법 WO2019103518A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201880073896.2A CN111344664B (zh) 2017-11-24 2018-11-23 电子设备及其控制方法
CN202410124741.4A CN117975962A (zh) 2017-11-24 2018-11-23 电子设备及其控制方法
US16/652,583 US11455990B2 (en) 2017-11-24 2018-11-23 Electronic device and control method therefor
US17/864,577 US20220375473A1 (en) 2017-11-24 2022-07-14 Electronic device and control method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170158057A KR102455067B1 (ko) 2017-11-24 2017-11-24 전자 장치 및 그 제어 방법
KR10-2017-0158057 2017-11-24

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/652,583 A-371-Of-International US11455990B2 (en) 2017-11-24 2018-11-23 Electronic device and control method therefor
US17/864,577 Continuation US20220375473A1 (en) 2017-11-24 2022-07-14 Electronic device and control method therefor

Publications (1)

Publication Number Publication Date
WO2019103518A1 true WO2019103518A1 (ko) 2019-05-31

Family

ID=66632036

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/014509 WO2019103518A1 (ko) 2017-11-24 2018-11-23 전자 장치 및 그 제어 방법

Country Status (4)

Country Link
US (2) US11455990B2 (ko)
KR (2) KR102455067B1 (ko)
CN (2) CN117975962A (ko)
WO (1) WO2019103518A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230102506A (ko) * 2021-12-30 2023-07-07 삼성전자주식회사 전자 장치 및 이의 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102141A1 (en) * 2003-11-11 2005-05-12 Mitsubishi Denki Kabushiki Kaisha Voice operation device
KR20140080089A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
US20160358603A1 (en) * 2014-01-31 2016-12-08 Hewlett-Packard Development Company, L.P. Voice input command
KR20170035529A (ko) * 2015-09-23 2017-03-31 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
EP3226239A1 (en) * 2016-03-30 2017-10-04 Panasonic Automotive & Industrial Systems Europe GmbH Voice command system

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6584322B1 (en) * 1998-09-01 2003-06-24 Mitsubishi Denki Kabushiki Kaisha Device for and method of processing information
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP2007226388A (ja) 2006-02-22 2007-09-06 Konica Minolta Medical & Graphic Inc コマンド入力装置及びプログラム
JP2009163643A (ja) 2008-01-09 2009-07-23 Sony Corp 映像検索装置、編集装置、映像検索方法およびプログラム
JP2009258293A (ja) 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
US20100057435A1 (en) * 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
US9002699B2 (en) * 2011-11-14 2015-04-07 Microsoft Technology Licensing, Llc Adaptive input language switching
JP5929399B2 (ja) * 2012-03-26 2016-06-08 富士ゼロックス株式会社 情報提供装置、情報提供システム及びプログラム
KR101301148B1 (ko) 2013-03-11 2013-09-03 주식회사 금영 음성 인식을 이용한 노래 선곡 방법
KR20140116642A (ko) * 2013-03-25 2014-10-06 삼성전자주식회사 음성 인식 기반의 기능 제어 방법 및 장치
KR20140131093A (ko) * 2013-05-03 2014-11-12 삼성전자주식회사 음성 인식을 위한 방법 및 그 전자 장치
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
KR102357321B1 (ko) 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR102298457B1 (ko) 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9558740B1 (en) 2015-03-30 2017-01-31 Amazon Technologies, Inc. Disambiguation in speech recognition
CN107016991A (zh) * 2015-10-27 2017-08-04 福特全球技术公司 处理语音命令
US20180069815A1 (en) * 2016-09-02 2018-03-08 Bose Corporation Application-based messaging system using headphones

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102141A1 (en) * 2003-11-11 2005-05-12 Mitsubishi Denki Kabushiki Kaisha Voice operation device
KR20140080089A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
US20160358603A1 (en) * 2014-01-31 2016-12-08 Hewlett-Packard Development Company, L.P. Voice input command
KR20170035529A (ko) * 2015-09-23 2017-03-31 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
EP3226239A1 (en) * 2016-03-30 2017-10-04 Panasonic Automotive & Industrial Systems Europe GmbH Voice command system

Also Published As

Publication number Publication date
CN117975962A (zh) 2024-05-03
US20220375473A1 (en) 2022-11-24
CN111344664A (zh) 2020-06-26
CN111344664B (zh) 2024-02-13
US11455990B2 (en) 2022-09-27
KR20190060157A (ko) 2019-06-03
KR102455067B1 (ko) 2022-10-17
KR20220143622A (ko) 2022-10-25
US20200243084A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2012169737A2 (en) Display apparatus and method for executing link and method for recognizing voice thereof
WO2020180013A1 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
WO2014035061A1 (en) Display device and speech search method
WO2015111845A1 (en) Electronic device and voice recognition method thereof
WO2018034552A1 (en) Language translation device and language translation method
WO2019093744A1 (en) Display apparatus and control method thereof
WO2014106986A1 (en) Electronic apparatus controlled by a user's voice and control method thereof
WO2019135623A1 (ko) 디스플레이장치 및 그 제어방법
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
WO2018074681A1 (ko) 전자 장치 및 그 제어 방법
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2020184935A1 (en) Electronic apparatus and method for controlling thereof
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2019103518A1 (ko) 전자 장치 및 그 제어 방법
WO2021045503A1 (en) Electronic apparatus and control method thereof
WO2020080812A1 (en) Electronic device and controlling method of electronic device
WO2019216484A1 (ko) 전자 장치 및 그 동작방법
WO2016117854A1 (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
WO2020159047A1 (ko) 보이스 어시스턴트 서비스를 이용한 컨텐츠 재생 장치 및 그 동작 방법
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2021172747A1 (ko) 전자 장치 및 그 제어 방법
WO2023128721A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2020096193A1 (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18881661

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18881661

Country of ref document: EP

Kind code of ref document: A1