WO2019088571A1 - 전자 장치, 음성 인식 방법 및 기록 매체 - Google Patents

전자 장치, 음성 인식 방법 및 기록 매체 Download PDF

Info

Publication number
WO2019088571A1
WO2019088571A1 PCT/KR2018/012750 KR2018012750W WO2019088571A1 WO 2019088571 A1 WO2019088571 A1 WO 2019088571A1 KR 2018012750 W KR2018012750 W KR 2018012750W WO 2019088571 A1 WO2019088571 A1 WO 2019088571A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
ratio
sets
words
electronic device
Prior art date
Application number
PCT/KR2018/012750
Other languages
English (en)
French (fr)
Inventor
배재현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP18874744.8A priority Critical patent/EP3678131B1/en
Priority to US16/756,382 priority patent/US11223878B2/en
Publication of WO2019088571A1 publication Critical patent/WO2019088571A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4314Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to an electronic device, a speech recognition method, and a recording medium, and more particularly, to a speech recognition method and a recording medium, A voice recognition method, and a recording medium.
  • the electronic device is a device that performs a specific function electronically according to a command of a user.
  • an electronic device receives a command from a user, a technique of recognizing the user's voice and performing a function intended by the user has started to be provided in earnest .
  • a conventional technique of performing post-processing on the speech recognition result is also limited in that the final result is recognized only when the final result matches the candidate word or sentence.
  • an object of the present invention is to provide an electronic device, a speech recognition method, and a recording medium that enable recognition of a whole text by using only a part of texts by using a ratio of words extracted from texts converted from the input speech .
  • an electronic device including a microphone for inputting a voice, a memory for storing a plurality of text sets, a voice input through the microphone, Retrieving a common word with the transformed text for each set and determining at least one text set of the plurality of text sets based on the ratio of the retrieved common words.
  • the processor may then determine at least one text set based on a first rate of the retrieved common words in the text set and a second rate of the retrieved common words in the translated text.
  • the processor may determine at least one text set as a text set in which a ratio of at least one of the first ratio and the second ratio exceeds a predetermined ratio.
  • the processor arranges the plurality of text sets in the order of the ratio of at least one of the first ratio and the second ratio of each of the plurality of text sets, Can be displayed.
  • the processor may also determine a text set of the plurality of text sets based on the ratio of the extracted words in the plurality of text sets and the order of the extracted words.
  • the processor is further configured to search for a candidate text set based on the order of the extracted words and the extracted words in the plurality of text sets and to search for a candidate text set based on the ratio of the extracted words in the retrieved candidate text set, ≪ / RTI >
  • the processor may perform an event corresponding to the determined text set.
  • the electronic device may further include a communication unit for receiving the EPG information, and the processor may store the program information included in the EPG information in the memory with the text set.
  • the processor can generate an event related to the broadcast program corresponding to the EPG information.
  • the event related to the broadcast program may be at least one of a channel move to the broadcast program, a recording, a reserved recording, and a viewing reservation.
  • a speech recognition method in an electronic device includes a step of converting an inputted speech into text, extracting a plurality of words based on the converted text, Retrieving a word common to the extracted plurality of words for each of the plurality of text sets, determining at least one text set of the plurality of text sets based on the retrieved common word ratio, .
  • the determining comprises: calculating a first ratio of the searched common words in the text set, calculating a second ratio of the searched common words in the translated text, And selecting at least one text set based on the calculated second ratio.
  • the selecting step may select, as at least one text set, a text set in which a ratio of at least one of the first ratio and the second ratio exceeds a predetermined ratio.
  • the speech recognition method may further include arranging the plurality of text sets in the order of at least one of the first ratio and the second ratio of each of the plurality of text sets if the number of the text sets exceeds a predetermined ratio And displaying a UI.
  • the determining may also determine a text set of the plurality of text sets based on the ratio of the extracted words in the plurality of text sets and the order of the extracted words.
  • the determining may comprise: a first step of searching for a candidate text set based on the order of the extracted word and the extracted word among the plurality of text sets; a step of extracting a ratio of the extracted words in the retrieved candidate text set And a second step of determining at least one text set based on the at least one text set.
  • the speech recognition method may further include receiving EPG information and storing the broadcast program information included in the EPG information in a memory as a text set.
  • performing the event may perform an event related to the broadcast program corresponding to the EPG information.
  • the event related to the broadcast program may be at least one of a channel move to the broadcast program, a recording, a reserved recording, and a viewing reservation.
  • a computer readable recording medium including a program for executing a speech recognition method in an electronic device, the method comprising: Extracting a plurality of words based on the transformed text, determining at least one text set of the plurality of text sets based on a ratio of the extracted words in a previously stored plurality of text sets, And performing an event corresponding to the set.
  • FIG. 1 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure
  • Figure 2 is a block diagram illustrating the configuration of an electronic device according to various embodiments of the present disclosure for speech recognition result matching
  • Figure 3 is a block diagram illustrating the configuration of the processor and the stored text set in memory, in accordance with Figure 1;
  • FIG. 4 is a diagram for explaining an example of an electronic device for recognizing an entire text with only a part of the text utterance of a user and executing a function corresponding to the whole text,
  • FIG. 5 is a diagram for explaining an example of an electronic device for sharing speech signals and text information with a server for matching speech recognition results and outputting recognition results;
  • FIG. 6 is a diagram for explaining an example of applying the speech recognition result matching in the present disclosure to the EPG
  • Fig. 7 is a flowchart showing steps of a speech recognition method in an electronic device, as one embodiment of the present disclosure.
  • FIG. 8 is a flowchart for explaining another embodiment showing a judgment process for speech recognition in the electronic device.
  • ordinal numbers such as “first ", " second ", etc. may be used for distinguishing between elements. These ordinals are used to distinguish between identical or similar components, and the use of such ordinal numbers should not be construed as limiting the meaning of the term. For example, the components associated with such an ordinal number should not be limited in their order of use or placement order by their numbers. If necessary, each ordinal number may be used interchangeably.
  • modules such as "module, “ unit, “ or “ part, “ and the like are terms used to refer to components that perform at least one function or operation, Or may be implemented as a combination of hardware and software. It should also be understood that a plurality of “ modules “, “ units “, “ parts “, etc. may be integrated into at least one module or chip, . ≪ / RTI >
  • a part when a part is connected to another part, this includes not only a direct connection but also an indirect connection through another medium. Also, the meaning that a part includes an element does not exclude other elements, but may include other elements, unless specifically stated otherwise.
  • an electronic device 100 includes a microphone 110, a memory 120, and a processor 130.
  • the electronic device 100 may be, for example, an analog TV, a digital TV, a 3D-TV, a smart TV, an LED TV, an OLED TV, a plasma TV, a monitor, a curved TV with a fixed curvature screen, A flexible TV having a screen having a curvature, a bended TV having a screen having a fixed curvature, and a curvature variable TV capable of changing a curvature of a current screen by a received user input, But is not limited thereto.
  • the microphone 110 receives a user's voice and can generate a voice signal corresponding to the received voice.
  • the microphone 110 may be an external microphone that is external to the electronic device 100 and is electrically connected to the electronic device 100, although the microphone 110 is implemented in the electronic device 100.
  • the memory 120 may be implemented as a nonvolatile memory (e.g., a hard disk, a solid state drive (SSD), a flash memory), a volatile memory, etc. and may store information related to text information, Can be stored.
  • a nonvolatile memory e.g., a hard disk, a solid state drive (SSD), a flash memory
  • SSD solid state drive
  • volatile memory e.g., a volatile memory
  • the memory 120 may be implemented as a nonvolatile memory (e.g., a hard disk, a solid state drive (SSD), a flash memory), a volatile memory, etc. and may store information related to text information, Can be stored.
  • the memory 120 may store a plurality of text sets.
  • each text set may include a sentence related to daily information such as " What time is it now? &Quot; or " How is the weather today ?, a command sentence about a function that the electronic device 100 can perform, A sentence for requesting specific information, and EPG (Electronic Program Guide) information.
  • the text set is not limited to the above-described configurations.
  • information on a plurality of text sets stored in the memory 120 may be added, deleted, or changed under the control of the processor 130.
  • the processor 130 may control the microphone 110 to receive a voice input or may control the memory 120 to store data or may receive data from the memory 120. [ Meanwhile, the processor 130 may be a configuration for controlling the configurations included in the electronic device 100. [
  • the processor 130 may convert the speech signal obtained by inputting the speech of the user through the microphone 110 into text and compare it with the respective text sets stored in the memory 120 on a word-by-word basis.
  • a word unit may be a syllable, a consonant, a vowel, or each letter or alphabet unit.
  • the processor 130 also determines the text set with the highest degree of agreement, taking into account the ratio or sequence of matching words between the text converted voice signal and the respective text set stored in the memory.
  • the processor 130 may determine one or more candidates of the text based on the order of the words, and may determine the final one of the text sets considering the ratio of the words that match the text converted speech signal only for the predetermined candidates have.
  • the present embodiment can be said to have both quickness and accuracy of speech recognition result matching.
  • the processor 130 calculates the ratio of words that match the text converted from the speech signal, so that only the text sets exceeding a preset threshold value are candidates, and the speech signal among the candidates.
  • the text set having the highest ratio of the words matched with the converted text can be selected.
  • the processor 130 determines whether the electronic device 100 informs the user that there is no result, requests additional utterance, or sets a preset threshold again And to perform functions such as asking questions.
  • the processor 130 searches for each of the stored plurality of text sets and a word common to the translated speech text, and determines a first rate of common words found in each text set, And determine at least one text set based on a second ratio of the searched common words.
  • a text set having a ratio of at least one of a first ratio and a second ratio exceeding a predetermined ratio may be determined as a resultant text set. If there are a plurality of sets of texts exceeding a predetermined ratio, the first or second ratio of the plurality of sets of text may be selected as the resultant text set, or a plurality of sets of texts A UI arranged in the order of at least one of the first ratio and the second ratio may be displayed so that the user can select the UI.
  • the ratios of the first ratio and the second ratio to be the threshold value can be set differently, respectively. For each of the first and second ratios, if the text set exceeds a preset ratio, if it is more than necessary, the ratio of the threshold value will be lower, and if there is no text set exceeding the predetermined ratio, It will be possible.
  • the predetermined threshold value may be set to a predetermined threshold based on the type of language, the frequency of use of each word included in the text converted from the speech signal, the type of electronic device, the number of standard text including each word included in the converted text, The degree of completeness of sentences of the text converted from the voice signal, the degree of noise of the voice signal, and the like.
  • the words there are a plurality of methods for judging whether or not the words coincide with each other. For example, if the syllables are completely matched by each syllable or letter, or if the syllables match exactly or more than a predetermined ratio, the words can be said to match each other. Or, based on the language-specific basic character units such as each consonant or vowel and alphabet You can decide.
  • the unit to be used for judging whether or not the words are matched is determined based on the time length of the voice signal, the data capacity of the text converted from the voice signal, the kind of the language, the type of the electronic device, The frequency of use, or the error probability determined by the electronic device for each word included in the converted text.
  • the processor 130 which has determined the text set according to the various determination methods described above, may perform an event corresponding to the determined text set.
  • FIG. 2 is a block diagram showing a configuration in the case where the electronic device 100 is implemented as a TV, as one of various embodiments of the present disclosure for speech recognition result matching.
  • the description of the configuration overlapping with FIG. 1 is omitted.
  • the electronic device 100 includes a microphone 110, a memory 120, a processor 130, a display 140, a voice output unit 150, and a communication unit 160 in a hardware configuration . And a broadcast receiver 170 for receiving broadcast signals.
  • the processor 130 may include a RAM 131, a ROM 132, a CPU 133, and a system bus 134.
  • the RAM 131, the ROM 132, the CPU 133, and the like are connected to each other through the system bus 134 to transmit and receive various data and signals.
  • the CPU 133 stores an operating system stored in a storage unit (not shown) of the electronic device 100 in the RAM 131 (not shown) according to an instruction stored in the ROM 132, ) And boot the system by executing O / S.
  • the CPU 133 can copy various applications stored in the storage unit of the electronic device 100 to the RAM 131, execute it, and perform various operations. Although only one CPU 133 is shown in FIG. 3, it can be realized by a plurality of CPUs, DSPs, SoCs, and the like at the time of implementation.
  • the CPU 123 accesses a storage unit (not shown) and performs booting using the O / S stored in the storage unit. And performs various operations using various programs, contents, data, and the like stored in the storage unit.
  • the memory 120 may be included in the storage unit, or the storage unit may be included in the memory 120.
  • the display 140 may be implemented as a liquid crystal display (LCD), a cathode-ray tube (CRT), a plasma display panel (PDP), organic light emitting diodes (OLED), or a transparent OLED.
  • the display 120 may include a driving circuit, a backlight unit, and the like that can be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, an OTFT (organic TFT)
  • the display 140 may be implemented as a touch screen capable of sensing a user's touch operation.
  • the audio output unit 150 is configured to output audio and includes audio included in a broadcast signal received through a tuner (not shown) or audio input through a communication unit 160, a microphone 110, Or the audio included in the audio file stored in the memory 120.
  • the audio output unit 150 may include a speaker 151 and a headphone output terminal 152.
  • the audio output unit 150 may receive a result signal from the processor 130 and output audio corresponding to the control of the processor 130.
  • the communication unit 160 is configured to perform communication with various types of external devices according to a communication method.
  • the communication unit 160 may be connected to an external device through a local area network (LAN) or an Internet network and may be a wireless communication device (for example, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, , Wi-Fi Direct, GSM, UMTS, LTE, WiBRO, etc.) to the external device.
  • LAN local area network
  • Internet network for example, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, , Wi-Fi Direct, GSM, UMTS, LTE, WiBRO, etc.
  • the communication unit 160 includes various communication chips such as a Wi-Fi chip 161, a Bluetooth chip 162, an NFC chip 163, a wireless communication chip 164, and the like.
  • the Wi-Fi chip 161, the Bluetooth chip 162, and the NFC chip 163 perform communication using the WiFi method, the Bluetooth method, and the NFC method, respectively.
  • the communication unit 160 may also include a light receiving unit 165 capable of receiving a control signal (e.g., an IR pulse) from an external device (not shown) or a server (not shown).
  • a control signal e.g., an IR pulse
  • the wireless communication chip 164 refers to a chip that performs communication according to various communication standards such as IEEE, ZigBee, 3G (3rd Generation), 3GPP (3rd Generation Partnership Project), LTE (Long Term Evolution)
  • the CPU 133 determines a text set suitable for the speech signal from among a plurality of text sets previously stored in the memory 120, and then performs a function corresponding to the determined text set.
  • the CPU 133 can control the display 140 to display on the display 140 the result of performing the function corresponding to the text, the determined text set, or the determined text set of the input voice signal.
  • the CPU 133 can control the voice output unit 150 to output a result of performing the function corresponding to the determined text set or the determined text set through the speaker 151 or the headphone 152 or the like .
  • the communication unit 160 capable of transmitting and receiving data with an external device (not shown) transmits the converted text of the voice signal or the voice signal or the determined text set information to the external device under the control of the CPU 133, Additional text set information may be received.
  • the CPU 133 may add, change or delete the text set information stored in the memory 120.
  • the broadcast receiver 170 tunes only the frequencies of channels to be received by the electronic device 100 among many radio wave components through amplification, mixing, and resonance of broadcast signals received via wire or wireless, (tuning).
  • the broadcast signal may include video, audio, and additional data (e.g., an EPG (Electronic Program Guide).
  • the broadcast receiving unit 170 may receive video, audio, and data in a frequency band corresponding to a channel number corresponding to a user input.
  • the broadcast receiver 170 can receive broadcast signals from various sources such as terrestrial broadcast, cable broadcast, or satellite broadcast.
  • the broadcast receiver 170 may receive a broadcast signal from a source such as an analog broadcast or a digital broadcast from various sources.
  • the broadcast receiver may be a separate device (e.g., a set-top box) having an all-in-one with the electronic device 100 or having a broadcast receiving unit electrically connected to the electronic device 100 box, and a tuner connected to an input / output unit (not shown).
  • a separate device e.g., a set-top box
  • the broadcast receiver may be a separate device (e.g., a set-top box) having an all-in-one with the electronic device 100 or having a broadcast receiving unit electrically connected to the electronic device 100 box, and a tuner connected to an input / output unit (not shown).
  • the processor 130 may include a speech recognition unit 310 and a matching unit 320.
  • the speech recognition unit 310 may convert the speech signal obtained by inputting the user's utterance from the microphone 110 into text data and transmit the text data obtained by converting the speech signal to the matching unit 320.
  • the matching unit 320 receives each of the text sets stored in the memory 120 from the memory 120 and compares each received text set with the speech signal conversion text transmitted by the speech recognition unit, May be determined as the text set corresponding to the user's utterance.
  • the input speech signal is divided into words, the words are converted into words, the words included in each text set are calculated, and the text having the highest degree of coincidence Can be determined.
  • FIG. 4 is a diagram for explaining an example of an electronic device that recognizes the entire text with only a part of the text utterance of the user and executes a function corresponding to the entire text.
  • FIG. 4 there is shown a user 410 and an electronic device 420 that utter voice.
  • the user 410 who is curious about the current time may want to receive information about the current time from the electronic device 420, either visually or audibly, by uttering the sentence "What time is it now?".
  • the sentence "What time is it now?" Is an example of the above-mentioned text set.
  • the electronic device 420 generates a speech signal based on the utterance of the user After converting the text "What time now", you can detect "What", “Time” and “Now” from "What time now”.
  • the text sets having the words matching the "What", "time” or “now” at a certain ratio are selected as candidates, and the text set corresponding to the highest ratio "What time is it now?" Can be determined by the user's intended sentence.
  • the embodiment of the present disclosure is not limited to Fig. 4, so if, for example, the electronic device 420 is a TV and the user's speech content is determined to be a text set that wishes to change the channel to 999, 999 to perform the functions of the electronic device 100 itself.
  • FIG. 5 is a diagram for explaining embodiments of an electronic device or a server for transmitting and receiving voice signals and text information for matching speech recognition results and outputting recognition results.
  • One of the embodiments of Figure 5 is that when the user 510 speaks to the electronic device 500, the electronic device 500 transmits the voice signal that has translated the user's voice to the server 520, Converts the signal to the corresponding text.
  • the server 520 After receiving the voice signal, the server 520 converts the voice signal into the corresponding text, extracts a word common to the voice-converted text for each of the plurality of text sets stored in the server 520 , A text set that is a candidate is selected in consideration of an order or a ratio including common words.
  • the electronic device 500 determines that the candidate text set has been selected by the server 520, Extracts the words, and determines a text set of one of the candidate text sets in consideration of the order or the ratio in which the common words are included.
  • the electronic device 500 may transmit data for the text converted from the voice signal to the server 520, instead of the voice signal.
  • the server 520 does not need to convert the voice signal into text by itself.
  • the electronic device 500 transmits all the data on the text converted from the voice signal and the voice signal to the server 520, and the server 520 also converts the voice signal into text, It is also possible for the server 520 to feed back information on the text converted from the voice signal to the electronic device 500 when the text converted from the voice signal does not match the text converted from the voice signal in the server 520.
  • the electronic device 610 sends the candidate text determined in real time to the electronic device 500 in succession and the electronic device 610 calculates the ratio for each candidate text set received from the server 520 in real time to derive the final result
  • the advantage is that time can be reduced.
  • the electronic device 500 mainly performs inputting and outputting of a voice signal in relation to the user, and the server 520 corresponds to the voice signal received from the electronic device 500 And then transmit the selected text set back to the electronic device 500.
  • the selected text set may be transmitted to the electronic device 500 via the network.
  • the server 520 can determine one or more candidates of the text set based on the order of the words, and finally, considering the ratio of the words that match the text converted from the speech signal only to the predetermined candidates, .
  • the server 520 calculates the ratio of words that match the text converted from the speech signal, so that only the text sets exceeding a predetermined threshold value are candidates, and the speech signal The text set having the highest ratio of the words matched with the converted text can be selected.
  • the server 520 searches for each of the stored plurality of text sets and a word common to the converted text, and generates a first ratio of the common words found in the respective text sets, And determine at least one text set based on a second ratio of the searched common words.
  • the server 520 may set different ratios for the first and second ratios to be threshold values. This is because, for each of the first ratio and the second ratio, the ratio of the threshold value when the text set exceeds the preset ratio is lower than the threshold value when the text set is larger than the predetermined ratio, .
  • the predetermined threshold value may be set to a predetermined threshold based on the type of language, the frequency of use of each word included in the text converted from the speech signal, the type of electronic device, the number of standard text including each word included in the converted text, The degree of completeness of sentences of the text converted from the voice signal, the degree of noise of the voice signal, and the like.
  • the server 520 informs the user that the electronic device 500 has no result, A command for requesting an ignition or a function for asking whether to reset a predetermined threshold value, and the like.
  • the plurality of text set information stored in the server 520 may be updated, deleted or changed using data transmitted from the external apparatus (not shown) connectable to the server 520 to the server 520 .
  • the electronic device 500 may transmit the converted speech signal to the server 590 or may transmit it to the server 590 as a voice signal or other data format other than text . If received in a form other than text, the text corresponding to the voice signal will be directly extracted in the server 520.
  • the server 520 may send data for the determined text set to the electronic device 500, and may additionally send an output command of the determined text set or an execution command of the event corresponding to the determined text set to the electronic device 500 .
  • the electronic device 500 can display the text set determined by the server 520 via the display, or output audio through the speaker or headphone, in accordance with a command from the server 520.
  • the electronic device 500 displays the answer to the question via the display 560, or displays it on the speaker 541 or the headphone 542 Voice output can be performed.
  • the electronic device 500 may also perform functions or events corresponding to the text set determined by the server 590 in response to an instruction from the server 590. [ In addition, the electronic device 500 may send the report data to the server that it has output or performed after outputting the text set determined by the server 590 or performing the function according to the command of the server 590 . In this case, the server 590, which has not received the report data for a predetermined time, can transmit the command again.
  • the update, deletion, or change of the plurality of text set information stored in the server 520 can take into account the number and the ratio of each stored text set selected by the voice recognition result of external devices connectable to the server.
  • the server 520 can store a plurality of pieces of text set information by classifying the types of external devices connectable to the server and capable of voice recognition.
  • the plurality of text sets stored in the server 520 for the voice recognition of the electronic device 500 by the type of the electronic device 500 may include a text set corresponding to the local name or traffic related information It will be high.
  • the electronic device 500 is a TV
  • a plurality of text sets stored in the server 520 for voice recognition of the TV will have a high proportion of the text set related to the broadcast program or the TV function.
  • a plurality of text sets stored in the server 520 for voice recognition of the smart phone may be stored separately for each type of application used in the smart phone.
  • a function divided between the electronic device 500 and the server 520 may be divided into two configurations in one electronic device.
  • FIG. 6 is a diagram for explaining an example of applying the speech recognition result matching of the present disclosure to the EPG. 6 shows speech recognition and matching between the user 610, the electronic device 600, and the server 620 as one of the embodiments in which the electronic device 600 is a TV.
  • the electronic device 600 receives electronic program guide (EPG) information from the server 620 using a communication unit (not shown) or transmits EPG information to a broadcast signal received from the outside through a broadcast receiving unit
  • FIG. 6 is a block diagram showing a configuration of a mobile terminal according to an embodiment of the present invention. Referring to FIG. 6, the EPG information included in the EPG information received by the electronic device 100 is extracted as a text set, (Not shown).
  • the electronic device 600 may generate an event associated with the corresponding EPG information. (Not shown) and a memory (not shown) may be provided in the electronic device 600 itself or may be separately configured and electrically and electrically connected.)
  • the EPG information 605 related to the current time of the received EPG information may be displayed on the electronic device 600 as the corresponding time EPG information 605 by an instruction of the user 610,
  • the broadcast program information belonging to the EPG 605 of the time is converted into a text set and stored in the memory.
  • the user 610 can view the EPG information 605 of the corresponding time displayed and change the channel to the channel on which the desired program "Now Testing Broadcast” 606 is broadcast or the "Now Testing Broadcast” 606, even when pronouncing only "Now Test” or “Now Testing” or “Testing Broadcast” without having to utter the whole "Now Testing Broadcast” 606, the electronic device 606 Quot; Now Testing Broadcast " 606, which has the highest concordance among the programs and functions belonging to the corresponding time EPG information 705, corresponds to the user's utterance intention, considering that the present EPG is displayed It will be possible.
  • the electronic device 600 may move the channel to a channel that is being broadcasted by the "Now Testing Broadcast” 606, display detailed information about the "Nos Testing Broadcast” 606, Recording, scheduled recording, viewing reservation, and the like.
  • Fig. 7 is a flowchart showing steps of a speech recognition method in an electronic apparatus according to one embodiment of the present disclosure
  • the speech input through the speech of the user is converted into a speech signal through a microphone, and the converted speech signal is converted into text again (S710).
  • the voice of the user to be converted may have a blank space of voice equal to or less than a predetermined time, and the total time length of the user voice may not exceed another predetermined time.
  • words included in the text converted from the speech signal are extracted (S720).
  • the number of extracted words can be stored in the electronic device.
  • the part that is not extracted as a word may be a word that has not been stored previously, data on the external device that can be connected to the electronic device can be transmitted to obtain necessary information on the part that is not extracted as a word.
  • a syllable it is not necessarily the unit of a word that is extracted on the text converted from the speech signal. That is, a syllable, a letter, a consonant, a vowel, an alphabet, or the like, and can be compared with a plurality of previously stored text sets.
  • words included in the text converted from the speech signal are extracted, and a word common to the text converted from the speech signal for each pre-stored text set can be searched and extracted (S730). At this time, the number of words common to the text converted from the voice signal for each pre-stored text set can be stored.
  • a set of texts is determined as a result using a ratio including a word common to the text converted from the speech signal (S740). At this time, not only the ratio but also the order in which common words are included can be considered.
  • candidates among a plurality of previously stored text sets may be designated based on the order in which common words and common words are included, and a single text set may be finally determined using the ratio of common words in the candidate text set.
  • the use of a ratio including a word common to the converted text means that a first ratio of the number of common words to the number of words extracted from the converted text of the speech signal,
  • the second ratio of the number of common words and the number of words extracted from each pre-stored text set may be calculated and used.
  • a threshold value may be set for the first ratio or the second ratio so that only the text set having a ratio exceeding the threshold value can be designated as a candidate, or a candidate can be designated based on the order in which common words are included. Then, using at least one of the first rate or the second rate, one of the candidate text sets can be determined.
  • a UI in which a plurality of text sets are arranged in the order of at least one of the first ratio and the second ratio can be displayed.
  • an event corresponding to the determined text set is performed (S750). Specifically, it may display or output the text set itself, which is simply determined, or may display or output an answer according to the question if the determined text set is a question. If the determined text set is for a particular function of the electronic device, the function will be performed by the electronic device.
  • information on a voice signal not matched to an external device such as a server may be transmitted, and additional information related thereto may be received again and stored in the electronic device.
  • additional information stored may be used to perform functions corresponding to the user's intention.
  • one of the embodiments related to FIG. 7 may further include a step of receiving the EPG information and storing the broadcast program information included in the EPG information in a memory as a text set in advance.
  • the step of performing the event corresponding to the determined text set (S750) is performed. If the determined text set corresponds to the EPG information in which the determined text set has been stored, the channel moving, recording, reservation It is possible to provide functions such as recording, viewing reservation and information provision to the user.
  • FIG. 8 is a flowchart for explaining another specific embodiment showing a judgment process for speech recognition in an electronic device.
  • the number of candidate sentences is denoted by n
  • the recognition result sentence is denoted by A
  • the currently processed candidate sentence is denoted by S i . 8
  • the candidate sentence corresponds to the pre-stored text sets
  • the recognition result sentence corresponds to the text converted from the speech signal.
  • Fig. 8 it is assumed that 1? I? N.
  • the candidate sentence may be simply selected as a candidate for all previously stored sentences, or may be selected based on at least one of an order and a ratio including words common to the recognition result sentence.
  • a voice recognition result sentence A based on the voice can be extracted (S810). This is a process of converting a voice signal to obtain text in correspondence with the previous description.
  • words AS i commonly included between the recognition result text A and each candidate sentence S i can be extracted (S815). Based on this, it is possible to calculate the inclusion degree of the recognition result of AS i , that is, Ratio (A i ) that includes AS i for A (S 820). Also included candidate sentences for the S i of the i AS also, that can also calculate the ratio Ratio (S i) containing the AS for the i S i (S825).
  • steps S815 to S825 can be repeated for all of the pre-stored candidate sentences (S830). As a result, this process is repeated n times as the number of candidate sentences.
  • the number of words in the sentence is extracted and used in order to calculate the ratio in the above procedure, it may be based on any one of the number of letters, the number of wading and the number of syllables as well as the number of non-word words. no.
  • the language to be the basis of the speech recognition may be set to the default language, the user's manual setting, or automatically based on the language constituting the objects handled by the electronic device 100.
  • the automatic setting for example, by applying optical character recognition (OCR) to the objects displayed on the electronic device 100, the language constituting the object can be confirmed.
  • OCR optical character recognition
  • the embodiments described in this disclosure may be implemented as application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays ), A processor, microcontrollers, microprocessors, and an electrical unit for carrying out other functions.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • field programmable gate arrays programmable gate arrays
  • a processor microcontrollers, microprocessors, and an electrical unit for carrying out other functions.
  • embodiments described herein may be implemented by processor 130 itself. According to a software implementation, embodiments such as the procedures and functions described herein may be implemented with separate software modules. Each of the above-described software modules may perform one or more of the functions and operations described herein.
  • the computer instructions for performing the processing operations in the electronic device 100 according to the various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium .
  • the computer instructions stored in this non-volatile computer-readable medium cause the above-described specific device to perform the processing operations in the electronic device 100 according to the above-described various embodiments when executed by the processor of the specific device.
  • Non-transitory computer readable media is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the device.
  • Specific examples of non-transitory computer readable media include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 음성을 입력받는 마이크, 복수의 텍스트 세트를 저장하는 메모리, 마이크를 통하여 입력된 음성을 텍스트로 변환하고, 복수의 텍스트 세트 각각에 대하여 변환된 텍스트와 공통된 단어를 검색하고, 검색된 공통된 단어의 비율에 기초하여 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 프로세서를 포함한다.

Description

전자 장치, 음성 인식 방법 및 기록 매체
본 개시는 전자 장치와 음성 인식 방법 및 기록 매체에 관한 것으로, 보다 상세하게는 입력된 음성을 변환한 텍스트에서 추출된 단어가 포함된 비율을 이용함으로써 일부 텍스트만의 발화로 전체 텍스트의 인식이 가능하게 하는 전자 장치, 음성 인식 방법 및 기록 매체에 관한 것이다.
전자 장치는 사용자의 명령에 따라 특정한 기능을 전자적으로 수행하는 장치로서, 전자 장치가 사용자의 명령을 받음에 있어 사용자의 음성을 인식하여 사용자가 의도한 기능을 수행하는 기술이 본격적으로 제공되기 시작하였다.
종래 사용자의 음성을 통해 사용자의 명령을 인식함에 있어, 음성인식 결과가 후보 단어 혹은 문장과 일치할 때, 해당 단어 혹은 문장을 인식하였음을 결정하였고, 상술한 인식 결과를 이용하여 기능을 동작시키거나, 사용자에게 피드백을 제공하였다.
따라서, 인식하여야 하는 후보 단어 혹은 문장이 길거나 사용자가 전체를 발성하지 않은 경우 해당 후보 단어 혹은 문장을 인식한 것으로 판단하지 않아 기능 동작 혹은 피드백이 이루어지지 않았고, 결과적으로 사용자의 의도에 반하여 음성인식의 사용성을 저해하는 문제점이 있었다.
또한, 음성인식 결과에 대해 후처리를 하는 종래의 기술 역시, 기본적으로 최종 결과가 후보 단어 혹은 문장과 일치하여야만 인식이 되는 것으로 하였으므로 한계가 있었다.
따라서, 본 개시의 목적은 입력된 음성을 변환한 텍스트에서 추출된 단어가 포함된 비율을 이용함으로써 일부 텍스트만의 발화로 전체 텍스트의 인식이 가능하게 하는 전자 장치, 음성 인식 방법 및 기록 매체를 제공함에 있다.
상술한 목적을 달성하기 위한 본 개시의 일 실시예에 따른 전자 장치는 음성을 입력받는 마이크, 복수의 텍스트 세트를 저장하는 메모리, 상기 마이크를 통하여 입력된 음성을 텍스트로 변환하고, 상기 복수의 텍스트 세트 각각에 대하여 상기 변환된 텍스트와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 프로세서를 포함한다.
이때, 상기 프로세서는, 상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율 및 상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.
이 경우, 상기 프로세서는, 상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 결정할 수 있다.
이때, 상기 프로세서는, 상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하도록 할 수 있다.
또한, 상기 프로세서는, 상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정할 수 있다.
그리고, 상기 프로세서는, 상기 복수의 텍스트 세트 중 상기 추출된 단어 및 상기 추출된 단어의 순서에 기초하여 후보 텍스트 세트를 검색하고, 상기 검색된 후보 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.
또한, 상기 프로세서는, 상기 결정된 텍스트 세트에 대응되는 이벤트를 수행할 수 있다.
한편, 본 전자 장치는 EPG 정보를 수신하는 통신부를 더 포함하고, 상기 프로세서는, EPG 정보에 포함된 방송 프로그램 정보를 상기 텍스트 세트로 상기 메모리에 저장할 수 있다.
이때, 상기 프로세서는, 상기 결정된 텍스트 세트가 상기 EPG 정보에 대응되면, 상기 EPG 정보에 대응되는 방송 프로그램과 관련된 이벤트를 생성할 수 있다.
이 경우, 상기 방송 프로그램과 관련된 이벤트는, 상기 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 중 적어도 하나일 수 있다.
한편, 본 개시의 다른 실시 예에 따른 전자 장치에서의 음성 인식 방법은, 입력된 음성을 텍스트로 변환하는 단계, 상기 변환된 텍스트를 기초로 복수의 단어를 추출하는 단계, 기저장된 복수의 텍스트 세트 각각에 대하여 상기 추출된 복수의 단어와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 단계, 상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계를 포함한다.
이때, 상기 결정하는 단계는, 상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율을 계산하는 단계, 상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율을 계산하는 단계, 상기 계산된 제1 비율 및 상기 계산된 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 선정하는 단계를 포함할 수 있다.
이 경우, 상기 선정하는 단계는, 상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 선정할 수 있다.
이때, 본 음성 인식 방법은, 상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하는 단계를 더 포함할 수 있다.
또한, 상기 결정하는 단계는, 상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정할 수도 있다.
또는, 상기 결정하는 단계는, 상기 복수의 텍스트 세트 중 상기 추출된 단어 및 상기 추출된 단어의 순서에 기초하여 후보 텍스트 세트를 검색하는 제1단계, 상기 검색된 후보 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 적어도 하나의 텍스트 세트를 결정하는 제2단계를 포함할 수도 있다.
또는, 상기 음성 인식 방법은, EPG 정보를 수신하는 단계와 상기 EPG 정보에 포함된 방송 프로그램 정보를 텍스트 세트로 메모리에 저장하는 단계를 더 포함할 수 있다.
이 경우, 상기 이벤트를 수행하는 단계는, 상기 결정된 텍스트 세트가 상기 EPG 정보에 대응되면, 상기 EPG 정보에 대응되는 방송 프로그램과 관련된 이벤트를 수행할 수 있다.
이에 더하여, 상기 방송 프로그램과 관련된 이벤트는, 상기 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 중 적어도 하나일 수 있다.
한편, 본 개시의 또 다른 일 실시 예에 따르면, 전자 장치에서의 음성 인식 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서 상기 음성 인식 방법은 입력된 음성을 텍스트로 변환하는 단계, 상기 변환된 텍스트를 기초로 복수의 단어를 추출하는 단계, 기저장된 복수의 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 단계, 상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계를 포함할 수 있다.
도 1은 본 개시의 일 실시 예의 전자 장치의 구성을 나타내는 블럭도,
도 2는 음성 인식 결과 매칭을 위한 본 개시의 다양한 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도,
도 3은 도 1을 구체화하여, 프로세서의 구성 및 메모리 내 저장된 텍스트 세트를 나타내는 블럭도,
도 4는 사용자의 일부 텍스트 발성만으로 전체 텍스트를 인식하여 상기 전체 텍스트에 대응되는 기능을 실행하는 전자 장치의 일 예를 설명하기 위한 도면,
도 5는 음성 인식 결과 매칭을 위해 서버와 음성 신호 및 텍스트 정보를 공유하며 인식 결과를 출력하는 전자 장치의 일 예를 설명하기 위한 도면,
도 6은 본 개시의 음성 인식 결과 매칭을 EPG에 적용한 일 예를 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예로서, 전자 장치에서의 음성 인식 방법을 단계별로 나타내는 흐름도, 그리고
도 8은 전자 장치에서의 음성 인식을 위한 판단 과정을 나타내는 또 다른 실시 예를 설명하기 위한 흐름도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 도면을 이용하여 본 개시에 대해 구체적으로 설명한다.
도 1은 본 개시의 일 실시 예의 전자 장치의 구성을 나타내는 블럭도이다. 도 1에 따르면, 전자 장치(100)는 마이크(110), 메모리(120) 및 프로세서(130)를 포함한다.
전자 장치(100)는 예를 들어 아날로그 TV, 디지털 TV, 3D-TV, 스마트 TV, LED TV, OLED TV, 플라즈마 TV, 모니터, 고정 곡률(curvature)인 화면을 가지는 커브드(curved) TV, 고정 곡률인 화면을 가지는 플렉시블(flexible) TV, 고정 곡률인 화면을 가지는 벤디드(bended) TV, 및/또는 수신되는 사용자 입력에 의해 현재 화면의 곡률을 변경 가능한 곡률 가변형 TV 등으로 구현될 수 있으나, 이에 한정되지는 않는다.
마이크(110)는 사용자의 음성을 입력받고, 수신된 음성에 대응하는 음성 신호를 생성할 수 있다. 도 1에서 마이크(110)는 전자 장치(100) 내에 구비된 것으로 구현되었으나, 전자 장치(100) 외부에 별도로 구성되며 전자장치(100)와 전자적으로 연결된 외장형 마이크일 수 있다.
메모리(120)는 비휘발성 메모리(ex, 하드디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있으며 텍스트 정보, 영상 컨텐츠 및 전자 장치(100)의 기능과 관련된 정보를 저장할 수 있다.
메모리(120)는 복수의 텍스트 세트를 저장할 수 있다. 예를 들면 각각의 텍스트 세트는, "What time is it now?"나 "How is the weather today?"와 같은 일상 정보와 관련된 문장, 전자 장치(100)가 수행할 수 있는 기능에 대한 명령문장 또는 특정한 정보를 요청하는 문장 등을 포함할 수 있고, EPG(Electronic Program Guide) 정보도 포함될 수 있다. 다만, 텍스트 세트는 상술한 구성들에만 국한되지는 않는다.
한편, 메모리(120)에 저장된 복수의 텍스트 세트에 대한 정보는 프로세서(130)의 제어에 의해 추가, 삭제 또는 변경될 수 있다.
프로세서(130)는 마이크(110)가 음성을 입력받도록 제어하거나 메모리(120)가 데이터를 저장하도록 제어하거나 또는 메모리(120)로부터 데이터를 받아올 수 있다. 한편, 프로세서(130)는 전자 장치(100)에 포함된 구성들을 제어하는 구성일 수 있다.
프로세서(130)는 사용자의 발화가 마이크(110)를 통해 입력되어 얻어진 음성신호를 텍스트로 변환한 뒤, 이를 메모리(120)에 저장된 각각의 텍스트 세트와 단어 단위로 비교할 수 있다. 다만, 반드시 단어 단위에 한정된다고 할 수 없으며, 음절이나 자음, 모음 또는 각 글자나 알파벳 단위 등일 수 있다.
또한 프로세서(130)는 음성신호를 변환한 텍스트와 메모리에 저장된 각각의 텍스트 세트 간에 일치하는 단어의 비율 또는 순서를 고려하여, 가장 일치하는 정도가 높은 텍스트 세트를 결정한다.
한편 프로세서(130)는 단어의 순서를 기초로 텍스트 중 하나 이상의 후보를 정할 수 있고, 정해진 후보들에 대해서만 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 고려하여 최종적으로 하나의 텍스트 세트를 결정할 수도 있다.
이 경우, 후보를 정할 때는 공통된 단어의 순서를 이용함으로써, 기저장된 모든 텍스트 세트에 대해서 비율을 계산할 필요는 없게 되므로 전체 과정의 속도가 향상되는 장점이 있다.
또한, 후보 텍스트 세트를 추려낸 뒤에는 비율을 이용한 정밀한 결정이 가능하므로, 본 실시 예는 음성 인식 결과 매칭의 신속성과 정확성이 모두 구비된 것이라 할 수 있다.
또한, 프로세서(130)는 각각의 텍스트 세트들에 대하여, 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 계산하여, 기설정된 임계값을 넘는 텍스트 세트들만 후보로 삼고, 그 후보 중 음성신호를 변환한 텍스트와 일치하는 단어의 비율이 가장 높은 텍스트 세트를 선정할 수 있다.
이 경우, 만약 기설정된 임계값을 넘는 텍스트 세트가 존재하지 않는다면, 프로세서(130)는 전자 장치(100)가 사용자에게 결과가 없음을 알리거나 추가적인 발화를 요구하거나 또는 기설정된 임계값을 다시 설정할 것인지 물어보는 등의 기능을 수행하도록 제어할 수 있다.
한편, 프로세서(130)는 저장된 복수의 텍스트 세트 각각에 대해서 음성신호를 변환한 텍스트와 공통된 단어를 검색하고, 각각의 텍스트 세트 내에서 검색된 공통된 단어의 제1 비율 및 음성신호를 변환한 텍스트 내에서 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.
이 경우, 제1 비율 및 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 결과 텍스트 세트로 결정할 수 있다. 만약, 기설정된 비율을 넘는 텍스트 세트가 복수 개이면, 복수 개의 텍스트 세트 중 제1 비율 또는 제2 비율이 가장 높은 텍스트 세트를 결과 텍스트 세트로 선정하거나, 또는 기설정된 비율을 만족하는 복수 개의 텍스트 세트 각각의 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하여 사용자가 선택할 수 있도록 할 수 있다.
또한, 제1 비율 및 제2 비율에 대하여, 임계값이 되는 비율을 각각 달리 설정할 수 있다. 제1 비율과 제2 비율 각각에 대하여, 기설정된 비율을 넘는 텍스트 세트가 필요 이상으로 많은 경우 임계값이 되는 비율을 낮출 것이고, 기설정된 비율을 넘는 텍스트 세트가 없는 경우 임계값이 되는 비율을 높일 수 있을 것이다.
이때, 기설정된 임계값은 언어의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어의 사용 빈도, 전자 장치의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어를 포함하는 표준 텍스트의 수, 음성 신호를 변환한 텍스트의 문장 완성도 또는 음성 신호의 노이즈 정도 등에 따라 설정된 것일 수 있다.
한편, 각 단어가 일치하는 지를 판단하는 방법도 복수 개 존재한다. 일 예로, 각 음절 또는 글자별로 비교하여 모든 음절이 완전히 일치하는 경우 또는 기설정된 비율 이상 일치하는 경우에만 단어가 서로 일치한다고 할 수 있고, 또는 각 자음이나 모음 및 알파벳 등 언어별 기본 문자 단위를 토대로 결정할 수도 있다.
단어의 일치 여부를 판단함에 있어 어떤 단위를 이용할 것인지는 음성신호의 시간 길이, 음성 신호를 변환한 텍스트의 데이터 용량, 언어의 종류, 전자 장치의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어의 사용 빈도 또는 음성 신호를 변환한 텍스트가 포함하는 각각의 단어에 대해 전자장치가 판단한 오차 확률 등을 이용하여 결정될 수 있다.
상술한 여러 가지 결정 방법에 따라 텍스트 세트를 결정한 프로세서(130)는 결정된 텍스트 세트에 대응되는 이벤트를 수행할 수 있다.
도 2는 음성 인식 결과 매칭을 위한 본 개시의 다양한 실시 예 중 하나로, 전자 장치(100)가 TV로 구현된 경우의 구성을 나타내는 블럭도이다. 도 2를 설명함에 있어, 도 1과 중복되는 구성에 대한 설명은 생략한다.
도 2를 참조하면, 전자 장치(100)는 하드웨어적 구성으로써 마이크(110), 메모리(120), 프로세서(130), 디스플레이(140), 음성 출력부(150), 통신부(160)를 포함할 수 있다. 또한 방송 신호를 수신하는 방송 수신부(170)를 포함할 수 있다.
프로세서(130)는 RAM(131), ROM(132), CPU(133), 시스템 버스(134)를 포함할 수 있다. RAM(131), ROM(132), CPU(133) 등은 시스템 버스(134)를 통해 서로 연결되어 각종 데이터나 신호를 송수신할 수 있다.
ROM(132)은 시스템 부팅을 위한 명령어 세트가 저장되는 것으로, CPU(133)는 ROM(132)에 저장된 명령어에 따라서 전자 장치(100)의 저장부(도시되지 않음)에 저장된 운영체제를 RAM(131)에 복사하고 O/S를 실행시켜 시스템을 부팅시킨다.
부팅 이후, CPU(133)는 전자 장치(100)의 저장부에 저장된 각종 애플리케이션을 RAM(131)에 복사하고 실행시켜 여러가지 동작을 수행할 수 있다. 도 3에서는 하나의 CPU(133)만을 포함하고 있지만, 구현 시 복수의 CPU 또는 DSP, SoC 등으로 구현될 수 있다.
CPU(123)는 저장부(도시되지 않음)에 액세스하여, 저장부에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 저장부에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다. 한편, 메모리(120)는 저장부에 포함된 구성이거나 또는 저장부는 메모리(120)에 포함된 구성일 수 있다.
디스플레이(140)는 LCD(Liquid Crystal Display), CRT(cathode-ray tube), PDP(plasma display panel), OLED(organic light emitting diodes), TOLED(transparent OLED) 등으로 구현될 수 있다. LCD로 구성되는 경우, 디스플레이(120) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(140)는 사용자의 터치 조작을 감지할 수 있는 터치스크린 형태로 구현될 수도 있다.
음성 출력부(150)는 오디오를 출력하기 위한 구성으로서, 예컨대, 튜너(도시되지 않음)를 통해 수신된 방송 신호에 포함된 오디오, 또는 통신부(160)나 마이크(110) 등을 통해 입력되는 오디오, 또는 메모리(120)에 저장된 오디오 파일에 포함된 오디오를 출력할 수 있다.
또한, 오디오 출력부(150)는 스피커(151) 및 헤드폰 출력 단자(152)를 포함할 수 있다. 음성 출력부(150)는 프로세서(130)로부터 결과 신호를 받아서, 프로세서(130)의 제어에 대응되는 음성을 출력할 수 있다.
통신부(160)는 통신방식에 따라 다양한 종류의 외부 기기와 통신을 수행하는 구성이다. 통신부(160)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다.
통신부(160)는 와이파이칩(161), 블루투스 칩(162), NFC칩(163), 무선 통신 칩(164) 등과 같은 다양한 통신 칩을 포함한다. 와이파이 칩(161), 블루투스 칩(162), NFC 칩(163)은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 또한 통신부(160)는 외부장치(도시되지 않음) 또는 서버(도시되지 않음)로부터 제어신호(예를 들어 IR 펄스)를 수신할 수 있는 광 수신부(165)를 포함할 수 있다.
무선 통신 칩(164)은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.
CPU(133)는 메모리(120)에 기저장된 복수의 텍스트 세트 중에서 음성 신호에 맞는 텍스트 세트를 결정한 후, 결정된 텍스트 세트에 대응되는 기능을 수행한다.
또한, CPU(133)는 디스플레이(140)가 입력된 음성 신호를 변환한 텍스트, 결정된 텍스트 세트 또는 결정된 텍스트 세트에 대응되는 기능을 수행한 결과를 디스플레이(140)에 표시하도록 제어할 수 있다.
한편, CPU(133)는 결정된 텍스트 세트 또는 결정된 텍스트 세트에 대응되는 기능을 수행한 결과를 음성출력부(150)가 스피커(151) 또는 헤드폰(152) 등을 통해서 음성으로 출력하도록 제어할 수 있다.
외부 장치(도시되지 않음)와 데이터의 송수신이 가능한 통신부(160)는, CPU(133)의 제어에 따라, 음성신호나 음성신호의 변환 텍스트 또는 결정된 텍스트 세트 정보를 외부장치에 전송하거나 또는 외부장치로부터 추가적인 텍스트 세트 정보를 받을 수 있다. CPU(133)는 메모리(120)에 저장된 텍스트 세트 정보를 추가, 변경 또는 삭제할 수 있다.
방송 수신부(170)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance) 등을 통하여 많은 전파 성분 중에서 전자 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 비디오(video), 오디오(audio) 및 부가 데이터(예를 들어, EPG(Electronic Program Guide)를 포함할 수 있다.
방송 수신부(170)는 사용자 입력에 대응되는 채널 번호에 대응되는 주파수 대역에서 비디오, 오디오 및 데이터를 수신할 수 있다.
방송 수신부(170)는 지상파 방송, 케이블 방송, 또는, 위성 방송 등과 같이 다양한 소스에서부터 방송 신호를 수신할 수 있다. 방송 수신부(170)는 다양한 소스에서부터 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.
방송 수신부는 전자 장치(100)와 일체형(all-in-one)으로 구현되거나 또는 전자 장치(100)와 전기적으로 연결되는 방송 수신 유닛을 가지는 별개의 장치(예를 들어, 셋톱박스(set-top box), 입/출력부(도시되지 않음)에 연결되는 튜너)로 구현될 수 있다.
도 3은 프로세서의 구성 및 텍스트 세트가 저장된 메모리를 포함하는 일 실시예에 대한 블럭도이다. 도 3을 참조하면 프로세서(130)는, 음성인식부(310) 및 매칭부(320)를 포함할 수 있다.
음성인식부(310)는 사용자의 발화가 마이크(110)로부터 입력되어 얻어진 음성 신호를 텍스트 데이터로 변환하고, 음성신호를 변환하여 얻어진 텍스트 데이터를 매칭부(320)로 전송할 수 있다.
매칭부(320)는 메모리(120)에 저장된 각각의 텍스트 세트를 메모리(120)로부터 받고, 받은 각각의 텍스트 세트를 음성인식부가 전송한 음성신호 변환 텍스트와 비교하여, 가장 일치 정도가 높은 텍스트 세트를 사용자의 발화에 대응되는 텍스트 세트로 결정할 수 있다.
일 실시 예로, 입력된 음성 신호가 변환된 텍스트를 단어 단위로 나누고, 나눠진 단어와 일치하는 단어를 각각의 텍스트 세트가 포함한 수를 계산하고, 포함한 수의 비율에 기초하여 가장 일치하는 정도가 높은 텍스트 세트를 결정할 수 있다.
도 4는 사용자의 일부 텍스트 발성만으로 전체 텍스트를 인식하여 전체 텍스트에 대응되는 기능을 실행하는 전자 장치의 일 예를 설명하기 위한 도면이다.
도 4를 참조하면, 음성을 발화하는 사용자(410)와 전자 장치(420)가 도시되어 있다. 도 4에서 현재 시간이 궁금한 사용자(410)는 "What time is it now?"라는 문장을 발성함으로써 전자 장치(420)로부터 현재 시간에 대한 정보를 시각 또는 청각적으로 제공받기를 원할 수 있다. 문장 "What time is it now?"는 앞서 언급한 텍스트 세트의 한 예이다.
도 4는 사용자(410)가 "What time is it now?"라는 문장 전체가 아니라, "What time now"만을 발성한 경우이고, 이 경우, 전자 장치(420)는 사용자의 발화에 기초한 음성신호를 변환하여 텍스트 "What time now"를 얻은 뒤, "What time now"로부터 "What", "time", "now"를 검출할 수 있다.
이때, 복수 개의 기저장된 텍스트 세트들 중 "What", "time" 또는 "now"와 일치하는 단어를 일정 비율 이상 소유한 텍스트 세트들을 후보로 선정하고, 그 중 가장 높은 비율에 해당하는 텍스트 세트인 "What time is it now?"를 사용자가 의도한 문장으로 결정할 수 있다.
도 4를 참조하면, 복수의 텍스트 세트들 중 "What", "time" 또는 "now" 중 어느 하나와 일치하는 단어를 가장 높은 비율로 가진 "What time is it now?"를 사용자의 발화로 결정한 결과를 토대로, 전자 장치(420)가 "What time is it now?"를 인식했음을 디스플레이함은 물론, 해당 텍스트 즉 "What time is it now?"가 질문 문장이므로, 그에 대한 대답인 "It's 2 PM."을 "What time is it now?"와 함께 디스플레이하고 음성으로도 출력하는 것이 가능하다.
본 개시의 실시 예는 도 4에 한정되지 않으므로, 예를 들어 전자 장치(420)가 TV이고 사용자의 발화 내용이 채널을 999번으로 변경하기를 원하는 텍스트 세트인 것으로 결정된 경우 그에 따라 TV의 채널을 999번으로 변경하는 등 전자 장치(100) 자체의 기능을 수행하도록 할 수 있다.
도 5는 음성 인식 결과 매칭을 위해 음성 신호 및 텍스트 정보를 송수신하며 인식 결과를 출력하는 전자 장치 또는 서버의 실시 예들을 설명하기 위한 도면이다.
도 5의 실시 예 중 하나는, 사용자(510)가 전자 장치(500)에 대해 발화를 하면, 전자 장치(500)는 사용자의 음성을 변환한 음성 신호를 서버(520)에 전송함과 동시에 음성 신호를 대응되는 텍스트로 변환한다.
이후, 음성 신호를 받은 서버(520)는 음성 신호를 대응되는 텍스트로 변환한 뒤, 서버(520)에 기저장되어 있던 복수의 텍스트 세트 각각에 대하여 음성신호가 변환된 텍스트와 공통된 단어를 추출하고, 공통된 단어가 포함된 순서 또는 비율을 고려하여 후보인 텍스트 세트를 선정한다.
다음으로, 서버(520)가 선정된 후보 텍스트 세트를 전자 장치(500)에 전송하면, 전자 장치(500)는 서버(520)에서 선정된 후보 텍스트 세트 각각에 대하여 음성신호가 변환된 텍스트와 공통된 단어를 추출하고, 공통된 단어가 포함된 순서 또는 비율을 고려하여 후보 텍스트 세트 중 하나의 텍스트 세트를 결정한다.
또한, 전자 장치(500)는, 음성신호가 아니라 음성 신호를 변환한 텍스트에 대한 데이터를 서버(520)에 전송할 수도 있다. 이 경우, 서버(520)는 자체적으로 음성 신호를 텍스트로 변환할 필요는 없게 된다.
한편, 전자 장치(500)가 음성신호 및 음성신호를 변환한 텍스트에 대한 데이터를 모두 서버(520)에 전송하고, 서버(520) 역시 음성 신호를 텍스트로 변환하여 보고, 전자 장치(500)에서 음성신호를 변환한 텍스트가 서버(520)에서 음성신호를 변환한 텍스트와 일치하지 않는 경우 서버(520)가 전자 장치(500)에 음성신호를 변환한 텍스트에 대한 정보를 피드백하는 것도 가능하다.
이는, 수많은 기저장된 텍스트 세트 중에서 후보를 선정하는 과정이 오래 걸릴 수 있다는 점을 보완할 수 있는 것으로써, 서버(520)가 기저장된 전체 텍스트 세트 각각이 후보 텍스트가 될 수 있는지를 결정함은 물론, 실시간으로 결정된 후보 텍스트를 전자 장치(500)에 연속적으로 보냄과 동시에, 전자 장치(610)는 서버(520)로부터 받는 후보 텍스트 세트 각각에 대한 비율 계산을 실시간으로 하여, 최종적인 결과를 도출하는 시간이 줄어들 수 있다는 장점이 있다.
한편, 도 5의 실시 예 중 다른 하나로, 전자 장치(500)는 주로 사용자와의 관계에서 음성 신호의 입력과 결과 출력을 수행하고, 서버(520)는 전자 장치(500)로부터 받은 음성신호에 대응되는 데이터 및 서버(520)에 기저장된 복수의 텍스트 세트를 이용하여 결과 텍스트 세트를 선정한 뒤 선정된 텍스트 세트를 다시 전자 장치(500)로 전송할 수 있다.
이때, 서버(520)는, 단어의 순서를 기초로 텍스트 세트 중 하나 이상의 후보를 정할 수 있고, 정해진 후보들에 대해서만 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 고려하여 최종적으로 하나의 텍스트 세트를 결정할 수도 있다.
또한, 서버(520)는 저장된 각각의 텍스트 세트에 대하여, 음성신호를 변환한 텍스트와 일치하는 단어의 비율을 계산하여, 기설정된 임계값을 넘는 텍스트 세트들만 후보로 삼고, 그 후보 중 음성신호를 변환한 텍스트와 일치하는 단어의 비율이 가장 높은 텍스트 세트를 선정할 수 있다.
한편, 서버(520)는 저장된 복수의 텍스트 세트 각각에 대해서 음성신호를 변환한 텍스트와 공통된 단어를 검색하고, 각각의 텍스트 세트 내에서 검색된 공통된 단어의 제1 비율 및 음성신호를 변환한 텍스트 내에서 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정할 수 있다.
이 경우, 제1 비율 및 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 결정할 수 있다. 만약, 기설정된 비율을 넘는 텍스트 세트가 복수 개이면, 복수 개의 텍스트 세트 중 제1 비율 또는 제2 비율이 가장 높은 텍스트 세트를 결과 텍스트 세트로 선정하여 전자 장치(500)에 전송하거나, 또는 기설정된 비율을 만족하는 복수 개의 텍스트 세트들을 각각의 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 데이터를 전자 장치(500)에 전송하고, 그 데이터에 대응되는 UI를 전자 장치(500)에 표시하여 사용자가 직접 텍스트 세트를 선택할 수 있도록 할 수 있다.
또한 서버(520)는, 제1 비율 및 제2 비율에 대하여, 임계값이 되는 비율을 각각 달리 설정할 수 있다. 이는, 제1 비율과 제2 비율 각각에 대하여, 기설정된 비율을 넘는 텍스트 세트가 필요 이상으로 많은 경우 임계값이 되는 비율을 낮출 것이고, 기설정된 비율을 넘는 텍스트 세트가 없는 경우 임계값이 되는 비율을 높일 수 있을 것이다.
이때, 기설정된 임계값은 언어의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어의 사용 빈도, 전자 장치의 종류, 음성 신호를 변환한 텍스트가 포함하는 각 단어를 포함하는 표준 텍스트의 수, 음성 신호를 변환한 텍스트의 문장 완성도 또는 음성 신호의 노이즈 정도 등에 따라 설정된 것일 수 있다.
이 경우, 만약 서버(520)에 저장된 복수의 텍스트 세트 가운데, 기설정된 임계값을 넘는 텍스트 세트가 존재하지 않는다면, 서버(520)는, 전자 장치(500)가 사용자에게 결과가 없음을 알리거나 추가 발화를 요구하거나 또는 기설정된 임계값을 다시 설정할 것인지 물어보는 등의 기능을 수행도록 하는 명령을 전송할 수 있다.
이 경우, 서버(520)에 저장된 복수의 텍스트 세트 정보는 서버(520)와 연결 가능한 다른 외부장치(도시되지 않음)로부터 서버(520)로 전송된 데이터를 이용하여 갱신, 삭제 또는 변경될 수 있다.
한편, 도 5의 실시 예들에 있어, 전자 장치(500)는, 음성신호를 변환한 텍스트를 서버(590)로 전송하거나 또는 음성 신호 또는 텍스트 이외의 다른 데이터 형태로서 서버(590)에 전송할 수 있다. 텍스트 이외의 형태로 전송받은 경우, 서버(520) 내에서 음성 신호에 대응하는 텍스트를 직접 추출할 것이다.
또한, 서버(520)는 결정된 텍스트 세트에 대한 데이터를 전자 장치(500)에 전송할 수 있으며, 이에 더하여 결정된 텍스트 세트의 출력 명령 또는 결정된 텍스트 세트에 대응되는 이벤트의 수행 명령을 전자 장치(500)에 전송할 수도 있다.
이 경우, 전자 장치(500)는 서버(520)의 명령에 따라, 서버(520)가 결정한 텍스트 세트를 디스플레이를 통해 표시하거나 스피커 또는 헤드폰을 통해 음성 출력할 수 있다.
이때, 결정된 텍스트 세트가 질문 문장인 경우, 전자 장치(500)는 서버(520)의 명령에 따라 그 질문에 대한 답변내용을 디스플레이(560)를 통해 표시하거나 스피커(541) 또는 헤드폰(542)을 통해 음성 출력할 수 있다.
또한, 전자 장치(500)는 서버(590)의 명령에 따라 서버(590)가 결정한 텍스트 세트에 대응되는 기능이나 이벤트를 수행할 수 있다. 이에 더하여, 전자 장치(500)는, 서버(590)가 결정한 텍스트 세트를 출력하거나 또는 서버(590)의 명령에 따른 기능을 수행한 이후에, 출력 또는 수행하였다는 보고 데이터를 서버에 전송할 수 있다. 이 경우, 기설정된 시간이 지나도록 보고 데이터를 받지 못한 서버(590)는, 재차 명령을 전송할 수 있다.
한편, 서버(520)에 저장된 복수의 텍스트 세트 정보의 갱신이나 삭제 또는 변경은, 서버와 연결 가능한 외부 장치들의 음성 인식 결과로 각각의 저장된 텍스트 세트가 선정된 횟수나 비율을 고려할 수 있다.
또한, 서버(520)는 복수의 텍스트 세트 정보를, 서버와 연결 가능하고 음성 인식이 가능한 외부장치의 종류별로 구분하여 저장할 수 있다.
이를, 전자 장치(500)의 종류별로 예를 들면, 전자 장치(500)가 네비게이션가 음성 인식을 위해 서버(520)에 저장된 복수의 텍스트 세트는 지역명이나 교통 관련 정보에 대응되는 텍스트 세트의 비율이 높을 것이다.
또한, 전자 장치(500)가 TV라면, TV의 음성인식을 위해 서버(520)에 저장된 복수의 텍스트 세트는 방송 프로그램이나 TV 기능에 관련된 텍스트 세트의 비율이 높을 것이다.
만약, 전자 장치(500)가 스마트폰이라면, 스마트폰의 음성인식을 위해 서버(520)에 저장되는 복수의 텍스트 세트는 스마트폰 내에서 사용되는 애플리케이션의 종류마다 구분되어 저장될 수 있을 것이다.
한편, 도 5와 관련된 위의 각 실시 예에 있어 전자 장치(500)와 서버(520)가 나누어 한 기능은, 하나의 전자 장치에서 두 가지 구성이 나누어 하는 것도 가능할 것이다.
도 6은 본 개시의 음성 인식 결과 매칭을 EPG에 적용한 일 예를 설명하기 위한 도면이다. 도 6은 전자 장치(600)가 TV인 경우의 실시 예 중 하나로서 사용자(610), 전자 장치(600), 서버(620) 간의 음성 인식 및 매칭을 나타낸다.
전자 장치(600)는 통신부(도시되지 않음)를 이용하여 서버(620)로부터 EPG(Electronic Program Guide) 정보를 수신하거나 또는 방송 수신부(도시되지 않음)를 통해 외부로부터 수신되는 방송 신호에 EPG 정보가 포함된 형태로 EPG 정보를 수신할 수 있고, 도 6은 전자 장치(100)가 수신한 EPG 정보에 속해있는 방송 프로그램 정보 및 EPG 기능에 대한 정보를 텍스트 세트 형태로 추출하여 추출된 텍스트 세트들을 메모리(도시되지 않음)에 저장해둔 상태이다.
이 경우, 만약 사용자의 발화로 인해 결정된 텍스트 세트가 위의 EPG 정보 중 어느 하나와 대응되면, 전자 장치(600)는 대응되는 EPG 정보와 관련된 이벤트를 생성할 수 있다. (참고로, 위의 통신부(도시되지 않음)와 메모리(도시되지 않음)는 전자 장치(600) 자체 내에 구비되거나 또는 별도로 구성되어 전기전자적으로 연결될 수 있다.)
도 6을 참조하면, 수신된 EPG 정보 중 현재시간과 관련된 EPG 정보(605)는 사용자(610)의 명령에 의해 해당시간 EPG 정보(605)로서 전자 장치(600)에 디스플레이될 수 있고, 이미 해당시간의 EPG(605)에 속한 방송 프로그램 정보들은 텍스트 세트로 변환되어 메모리 상에 저장되어 있는 상황이다.
이러한 상황에서, 사용자(610)가 디스플레이된 해당시간의 EPG 정보(605)를 보고 그 중 원하는 방송 프로그램인 "Now Testing Broadcast"(606)가 방영되는 채널로 채널을 변경하거나 "Now Testing Broadcast"(606)에 대한 정보를 얻고자 할 때, "Now Testing Broadcast"(606) 전체를 발화할 필요없이 예를 들면 "Now Test"나 "Now Testing" 또는 "Testing Broadcast"만을 발음하더라도, 전자 장치(606)는 현재 EPG가 디스플레이되어 있는 상황인 것을 고려하여 해당시간 EPG 정보(705)에 속하는 방송 프로그램이나 기능 중 가장 단어의 일치율이 높은 "Now Testing Broadcast"(606)가 사용자의 발화 의도에 대응됨을 알아낼 수 있을 것이다.
이 경우, 전자 장치(600)는 "Now Testing Broadcast"(606)가 방영 중인 채널로 채널을 이동하거나, "Nos Testing Broadcast"(606)에 대한 상세한 정보를 디스플레이할 수 있고, 또는 해당 채널에 대한 녹화, 예약 녹화, 시청 예약 등도 가능할 것이다.
도 7은 본 개시의 일 실시 예로서, 전자 장치에서의 음성 인식 방법을 단계별로 나타내는 순서도이다.
도 7을 참조하면, 먼저 사용자의 발화를 통해 입력된 음성을 마이크를 통해 음성신호로 변환하고, 변환된 음성신호를 다시 텍스트로 변환한다(S710). 이때, 변환되는 사용자의 음성은 음성의 공백이 기설정된 시간 이하인 것일 수 있고, 사용자 음성의 전체 시간 길이가 또다른 기설정된 시간을 넘지 않는 것일 수 있다.
이어서, 음성신호를 변환한 텍스트에 포함된 단어를 추출한다(S720). 이 경우, 추출된 단어의 수를 전자 장치에 저장해둘 수 있다. 이때 단어로써 추출되지 않는 부분은, 기저장되지 않은 단어일 수 있으므로, 전자장치와 연결 가능한 외부장치에 그에 대한 데이터를 전송하여 단어로써 추출되지 않는 부분에 대해 필요한 정보를 얻을 수 있다.
한편, 음성신호를 변환한 텍스트 상에서 추출되는 것은 반드시 단어 단위일 필요는 없다. 즉 음절, 글자, 자음, 모음, 알파벳 등 각 언어 종류에 따라 다른 종류의 단위로써 추출되어 기저장된 복수의 텍스트 세트와 비교될 수 있다.
이후, 음성신호를 변환한 텍스트에 포함된 단어를 추출한 다음 각각의 기저장된 텍스트 세트에 대하여 음성신호를 변환한 텍스트와 공통된 단어를 검색 및 추출할 수 있다(S730). 이때 각각의 기저장된 텍스트 세트에 대하여 음성신호를 변환한 텍스트와 공통된 단어의 수를 저장해둘 수 있다.
다음으로는, 각각의 기저장된 텍스트에 대하여, 음성신호를 변환한 텍스트와 공통된 단어가 포함된 비율을 이용하여, 결과적으로 하나의 텍스트 세트를 결정한다(S740). 이때, 비율 뿐만 아니라, 공통된 단어들이 포함된 순서도 고려할 수 있다.
이때 공통된 단어들 및 공통된 단어들이 포함된 순서를 기초로 기저장된 복수의 텍스트 세트 중 후보를 지정하고, 후보 텍스트 세트 중에서는 공통된 단어의 비율을 이용하여 최종적으로 하나의 텍스트 세트를 결정할 수 있다.
여기서, 각각의 기저장된 텍스트 세트에 대하여, 변환한 텍스트와 공통된 단어가 포함된 비율을 이용한다는 것의 의미는, 공통된 단어의 수와 음성신호를 변환한 텍스트에서 추출된 단어의 수의 제1 비율 및 공통된 단어의 수와 각각의 기저장된 텍스트 세트에서 추출된 단어의 수의 제2 비율 중 적어도 어느 하나를 계산하여 이용한다는 것일 수 있다.
이 경우, 제1 비율 또는 제2 비율에 대하여 임계값을 설정하여, 임계값을 넘는 비율을 가진 텍스트 세트만을 후보로 지정하거나, 공통된 단어가 포함된 순서에 기초하여 후보를 지정할 수 있다. 그 후, 제1 비율 또는 제2 비율 중 적어도 어느 하나를 이용하여, 후보로 지정된 텍스트 세트 가운데 하나의 텍스트 세트를 결정할 수 있다.
한편, 기설정된 비율을 넘는 텍스트 세트가 복수 개이면, 복수 개의 텍스트 세트를 각각의 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시할 수 있다.
그리고, 하나의 텍스트 세트가 결정되면 결정된 텍스트 세트에 대응되는 이벤트를 수행한다(S750). 구체적으로, 단순히 결정된 텍스트 세트 자체를 디스플레이 또는 음성 출력할 수도 있고, 결정된 텍스트 세트가 질문이라면 질문에 맞는 답변을 디스플레이 또는 음성 출력할 수도 있다. 만약 결정된 텍스트 세트가 전자 장치의 특정한 기능에 대한 것이라면, 해당 기능을 전자 장치가 수행하게 될 것이다.
한편, 제1 비율 또는 제2 비율 중 적어도 하나를 고려하였는데, 기설정된 임계값을 넘는 기저장된 텍스트 세트가 없는 경우, 결과가 없음 또는 추가 발화가 필요함을 디스플레이하거나 음성 출력할 수 있을 것이다.
또는, 서버 등 외부장치에 매칭되지 않은 음성 신호에 대한 정보를 전송하고, 그와 관련된 추가 정보를 다시 수신하여 전자 장치에 저장할 수 있을 것이다. 이 경우, 사용자의 다른 상황에서의 발화에 의해 동일한 음성 신호 및 변환 텍스트를 얻게 된다면, 저장해 둔 추가 정보를 이용하여 사용자의 의도에 맞는 기능을 수행할 수도 있을 것이다.
한편, 본 개시에 있어, 도 7과 관련된 실시 예 중 하나로, EPG 정보를 수신하여 EPG 정보에 포함된 방송 프로그램 정보를 텍스트 세트로 메모리에 저장하는 단계가 사전에 더 포함되어 있을 수 있다.
이 경우, 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계(S750)에 대한 실시 예로, 결정된 텍스트 세트가 기저장되었던 EPG 정보에 대응되면 그 EPG 정보에 대응되는 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 및 정보 제공 등의 기능을 사용자에게 제공하는 것이 가능하다.
도 8은 전자 장치에서의 음성 인식을 위한 판단 과정을 나타내는 다른 하나의 구체적인 실시 예를 설명하기 위한 흐름도이다.
도 8을 설명하기에 앞서, 후보 문장의 개수를 n, 인식결과 문장을 A, 현재 처리중인 후보문장을 Si 라고 표기함을 밝힌다. 도 8 이전까지의 설명과 대응시켜 보자면, 후보문장은 기저장된 텍스트 세트들에 해당하는 구성이고, 인식결과 문장은 음성신호를 변환한 텍스트에 해당하는 구성이다. 이때, 도 8에 있어, 1 ≤ i ≤ n로 가정한다.
한편, 기저장된 모든 문장 중 후보문장의 선정은, 단순히 기저장된 모든 문장을 후보로 선정했을 수도 있고, 인식결과 문장과 공통되는 단어를 포함한 순서 및 비율 중 적어도 어느 하나에 기초한 선정일 수도 있다.
도 8을 참조했을 때, 먼저 음성이 입력되면(S805), 그 음성에 기초한 음성인식결과 문장 A를 추출할 수 있다(S810). 이는 이전까지의 설명과 대응시켜 보자면, 음성신호를 변환하여 텍스트를 얻어내는 과정이다.
다음으로는 인식결과 텍스트(A)와 각 후보문장(Si) 간에 공통으로 포함되는 단어들(ASi)을 추출할 수 있다(S815). 이를 토대로 ASi의 A에 대한 인식결과포함도, 즉 A 에 대해 ASi 가 포함된 비율인 Ratio(Ai)를 계산할 수 있다(S820). 또한 ASi의 Si에 대한 후보문장포함도, 즉 Si에 대해 ASi가 포함된 비율 Ratio(Si)도 계산할 수 있다(S825).
상술한 S815 내지 S825의 과정을 각각의 기저장된 후보문장 모두에 대해서 반복할 수 있는데(S830), 그 결과 이 과정을 후보문장 개수인 n번만큼 반복하게 된다.
다음은, 모든 후보문장 중에서, Ratio(Ai)가 인식결과포함도의 임계치 TH(A)보다 크거나 같고, Ratio(Si)가 후보문장포함도의 임계치 TH(S)보다 크거나 같은 후보문장들을 추출할 수 있다(S835). 그 후, S835에서 추출된 후보문장들 중에서 인식결과포함도가 최대인 후보문장 Sk 를 추출할 수 있다(S840).
이 경우, 만약 S835에서 추출된 후보문장이 없는 경우라면 Sk 를 추출하는 것이 불가능하므로 Sk 를 출력하지 못하여(S845-N), 종료할 수 있다. 한편, 그와 달리 S835에서 추출된 후보문장이 있어서 Sk 추출된 경우(S845-Y)라면, Sk를 출력하고(S850), Sk에 대응하는 기능을 실행(S855)할 수 있다.
위 과정에서 비율(Ratio)을 계산하기 위해 문장의 단어 수를 추출하여 사용했지만, 비단 단어수 뿐만 아니라 글자수나 워딩수 및 음절수 중 어느 하나에 기초할 수도 있는 바, 상술한 예들에만 국한되는 것은 아니다.
한편, 음성인식의 기초가 될 언어는 디폴트 언어로 설정된 언어이거나, 사용자의 수동 설정에 의해 설정되거나, 전자 장치(100)에서 다루는 객체들을 구성하는 언어에 기초하여 자동 설정될 수 있다. 자동 설정에 있어, 예컨대 전자 장치(100)에 표시된 객체들에 OCR(Optical character recognition)을 적용하여 객체를 구성하는 언어를 확인할 수 있다.
상술한 다양한 실시 예들에 따르면 다양한 언어로 구성된 객체들에 대한 음성 컨트롤이 가능하며, 문장의 처음부터 끝까지 사용자가 모두 발성할 필요 없이 핵심 단어 몇 개만을 발성하여도 이에 대해 음성인식을 수행할 수 있으므로 사용자 편의성을 증대시킬 수 있다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.
일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(130) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    음성을 입력받는 마이크;
    복수의 텍스트 세트를 저장하는 메모리; 및
    상기 마이크를 통하여 입력된 음성을 텍스트로 변환하고, 상기 복수의 텍스트 세트 각각에 대하여 상기 변환된 텍스트와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 프로세서;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율 및 상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 결정하는 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 결정하는 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하도록 하는 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 텍스트 세트 중 상기 추출된 단어 및 상기 추출된 단어의 순서에 기초하여 후보 텍스트 세트를 검색하고, 상기 검색된 후보 텍스트 세트 내의 상기 추출된 단어의 비율에 기초하여 적어도 하나의 텍스트 세트를 결정하는 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 전자 장치.
  8. 제1항에 있어서,
    EPG 정보를 수신하는 통신부;를 더 포함하고,
    상기 프로세서는,
    EPG 정보에 포함된 방송 프로그램 정보를 상기 텍스트 세트로 상기 메모리에 저장하는 전자 장치.
  9. 제8항에 있어서,
    상기 프로세서는,
    상기 결정된 텍스트 세트가 상기 EPG 정보에 대응되면, 상기 EPG 정보에 대응되는 방송 프로그램과 관련된 이벤트를 생성하는 전자 장치.
  10. 제9항에 있어서,
    상기 방송 프로그램과 관련된 이벤트는,
    상기 방송 프로그램으로의 채널 이동, 녹화, 예약 녹화, 시청 예약 중 적어도 하나인 전자 장치.
  11. 전자 장치에서의 음성 인식 방법에 있어서,
    입력된 음성을 텍스트로 변환하는 단계;
    상기 변환된 텍스트를 기초로 복수의 단어를 추출하는 단계;
    기저장된 복수의 텍스트 세트 각각에 대하여 상기 추출된 복수의 단어와 공통된 단어를 검색하고, 상기 검색된 공통된 단어의 비율에 기초하여 상기 복수의 텍스트 세트 중 적어도 하나의 텍스트 세트를 결정하는 단계; 및
    상기 결정된 텍스트 세트에 대응되는 이벤트를 수행하는 단계;를 포함하는 음성 인식 방법.
  12. 제11항에 있어서,
    상기 결정하는 단계는,
    상기 텍스트 세트 내의 상기 검색된 공통된 단어의 제1 비율을 계산하는 단계;
    상기 변환된 텍스트 내의 상기 검색된 공통된 단어의 제2 비율을 계산하는 단계; 및
    상기 계산된 제1 비율 및 상기 계산된 제2 비율에 기초하여 적어도 하나의 텍스트 세트를 선정하는 단계;를 포함하는 음성 인식 방법.
  13. 제12항에 있어서,
    상기 선정하는 단계는,
    상기 제1 비율 및 상기 제2 비율 중 적어도 하나의 비율이 기설정된 비율을 넘는 텍스트 세트를 적어도 하나의 텍스트 세트로 선정하는 음성 인식 방법.
  14. 제13항에 있어서,
    상기 기설정된 비율을 넘는 텍스트 세트가 복수개이면, 상기 복수개의 텍스트 세트를 상기 복수개의 텍스트 세트 각각의 상기 제1 비율 및 제2 비율 중 적어도 하나의 비율의 순서대로 정렬한 UI를 표시하는 단계;를 더 포함하는 음성 인식 방법.
  15. 제11항에 있어서,
    상기 결정하는 단계는,
    상기 복수의 텍스트 세트 내의 상기 추출된 단어의 비율 및 상기 추출된 단어의 순서에 기초하여 상기 복수의 텍스트 세트 중 하나의 텍스트 세트를 결정하는 음성 인식 방법.
PCT/KR2018/012750 2017-10-31 2018-10-25 전자 장치, 음성 인식 방법 및 기록 매체 WO2019088571A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP18874744.8A EP3678131B1 (en) 2017-10-31 2018-10-25 Electronic device and speech recognition method
US16/756,382 US11223878B2 (en) 2017-10-31 2018-10-25 Electronic device, speech recognition method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170143213A KR102452644B1 (ko) 2017-10-31 2017-10-31 전자 장치, 음성 인식 방법 및 기록 매체
KR10-2017-0143213 2017-10-31

Publications (1)

Publication Number Publication Date
WO2019088571A1 true WO2019088571A1 (ko) 2019-05-09

Family

ID=66332139

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/012750 WO2019088571A1 (ko) 2017-10-31 2018-10-25 전자 장치, 음성 인식 방법 및 기록 매체

Country Status (4)

Country Link
US (1) US11223878B2 (ko)
EP (1) EP3678131B1 (ko)
KR (1) KR102452644B1 (ko)
WO (1) WO2019088571A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120135855A (ko) * 2011-06-07 2012-12-17 삼성전자주식회사 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
JP2015052743A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
KR20150089145A (ko) * 2014-01-27 2015-08-05 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR20160060405A (ko) * 2014-11-20 2016-05-30 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
US6473778B1 (en) * 1998-12-24 2002-10-29 At&T Corporation Generating hypermedia documents from transcriptions of television programs using parallel text alignment
KR100828884B1 (ko) * 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US7065524B1 (en) * 2001-03-30 2006-06-20 Pharsight Corporation Identification and correction of confounders in a statistical analysis
US7110664B2 (en) * 2001-04-20 2006-09-19 Front Porch Digital, Inc. Methods and apparatus for indexing and archiving encoded audio-video data
US7035468B2 (en) * 2001-04-20 2006-04-25 Front Porch Digital Inc. Methods and apparatus for archiving, indexing and accessing audio and video data
US7295965B2 (en) 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
US7908628B2 (en) * 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US7092888B1 (en) * 2001-10-26 2006-08-15 Verizon Corporate Services Group Inc. Unsupervised training in natural language call routing
WO2003061285A2 (en) * 2001-12-24 2003-07-24 Scientific Generics Limited Captioning system
US8522267B2 (en) * 2002-03-08 2013-08-27 Caption Colorado Llc Method and apparatus for control of closed captioning
US7440895B1 (en) * 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US20070124788A1 (en) * 2004-11-25 2007-05-31 Erland Wittkoter Appliance and method for client-sided synchronization of audio/video content and external data
US7873654B2 (en) * 2005-01-24 2011-01-18 The Intellection Group, Inc. Multimodal natural language query system for processing and analyzing voice and proximity-based queries
US7739253B1 (en) * 2005-04-21 2010-06-15 Sonicwall, Inc. Link-based content ratings of pages
US7382933B2 (en) * 2005-08-24 2008-06-03 International Business Machines Corporation System and method for semantic video segmentation based on joint audiovisual and text analysis
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
KR100764247B1 (ko) 2005-12-28 2007-10-08 고려대학교 산학협력단 2단계 탐색을 이용한 음성인식 장치 및 그 방법
US8209724B2 (en) * 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US7593927B2 (en) * 2006-03-10 2009-09-22 Microsoft Corporation Unstructured data in a mining model language
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US8045054B2 (en) * 2006-09-13 2011-10-25 Nortel Networks Limited Closed captioning language translation
KR100825690B1 (ko) 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US7509385B1 (en) * 2008-05-29 2009-03-24 International Business Machines Corporation Method of system for creating an electronic message
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US20100091187A1 (en) * 2008-10-15 2010-04-15 Echostar Technologies L.L.C. Method and audio/video device for processing caption information
KR101495183B1 (ko) 2008-12-01 2015-02-24 엘지전자 주식회사 단말기 및 그 제어 방법
US8423363B2 (en) * 2009-01-13 2013-04-16 CRIM (Centre de Recherche Informatique de Montréal) Identifying keyword occurrences in audio data
US9183834B2 (en) * 2009-07-22 2015-11-10 Cisco Technology, Inc. Speech recognition tuning tool
US8843368B2 (en) * 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
JP5474723B2 (ja) 2010-09-30 2014-04-16 Kddi株式会社 音声認識装置およびその制御プログラム
US8571857B2 (en) * 2010-10-20 2013-10-29 At&T Intellectual Property I, L.P. System and method for generating models for use in automatic speech recognition
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9183832B2 (en) 2011-06-07 2015-11-10 Samsung Electronics Co., Ltd. Display apparatus and method for executing link and method for recognizing voice thereof
US9542936B2 (en) 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
KR102342117B1 (ko) * 2015-03-13 2021-12-21 엘지전자 주식회사 단말기, 및 이를 구비하는 홈 어플라이언스 시스템
US9392324B1 (en) * 2015-03-30 2016-07-12 Rovi Guides, Inc. Systems and methods for identifying and storing a portion of a media asset

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
KR20120135855A (ko) * 2011-06-07 2012-12-17 삼성전자주식회사 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
JP2015052743A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
KR20150089145A (ko) * 2014-01-27 2015-08-05 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR20160060405A (ko) * 2014-11-20 2016-05-30 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3678131A4 *

Also Published As

Publication number Publication date
EP3678131A4 (en) 2020-10-21
US11223878B2 (en) 2022-01-11
KR20190048334A (ko) 2019-05-09
KR102452644B1 (ko) 2022-10-11
EP3678131B1 (en) 2023-05-24
EP3678131A1 (en) 2020-07-08
US20200280767A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
WO2019216529A1 (en) Electronic apparatus and controlling method thereof
WO2013022135A1 (en) Electronic device and method of controlling the same
WO2018034552A1 (en) Language translation device and language translation method
WO2012169737A2 (en) Display apparatus and method for executing link and method for recognizing voice thereof
WO2016035933A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2013012107A1 (ko) 전자 기기 및 그 제어 방법
WO2018026200A1 (en) Language translation device and language translation method
EP3039531A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2013187715A1 (en) Server and method of controlling the same
WO2014051219A1 (en) Image processing apparatus and control method thereof and image processing system
WO2021049795A1 (en) Electronic device and operating method thereof
WO2020251122A1 (ko) 컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법
WO2019225892A1 (en) Electronic apparatus, controlling method and computer readable medium
WO2016129840A1 (en) Display apparatus and information providing method thereof
WO2020184935A1 (en) Electronic apparatus and method for controlling thereof
WO2017146518A1 (en) Server, image display apparatus, and method of operating the image display apparatus
WO2018021750A1 (ko) 전자 장치 및 그의 음성 인식 방법
WO2019124830A1 (en) Electronic apparatus, electronic system and control method thereof
WO2020213884A1 (ko) 텍스트를 제공하는 전자 장치 및 그 제어 방법.
WO2021020825A1 (ko) 전자장치와 그의 제어방법, 및 기록매체
WO2019088571A1 (ko) 전자 장치, 음성 인식 방법 및 기록 매체
WO2019112332A1 (en) Electronic apparatus and control method thereof
WO2020101174A1 (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2022025410A1 (ko) 제공되는 컨텐츠를 기반으로 검색어를 추천하는 전자 장치 및 그 제어 방법
WO2019168392A1 (en) Electronic apparatus, controlling method and computer-readable medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18874744

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018874744

Country of ref document: EP

Effective date: 20200330

NENP Non-entry into the national phase

Ref country code: DE