WO2011028051A2 - Electronic device and a voice recognition method using the same - Google Patents

Electronic device and a voice recognition method using the same Download PDF

Info

Publication number
WO2011028051A2
WO2011028051A2 PCT/KR2010/005984 KR2010005984W WO2011028051A2 WO 2011028051 A2 WO2011028051 A2 WO 2011028051A2 KR 2010005984 W KR2010005984 W KR 2010005984W WO 2011028051 A2 WO2011028051 A2 WO 2011028051A2
Authority
WO
WIPO (PCT)
Prior art keywords
voice
recognition
electronic device
keyword
received
Prior art date
Application number
PCT/KR2010/005984
Other languages
French (fr)
Korean (ko)
Other versions
WO2011028051A3 (en
Inventor
김유진
신원호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of WO2011028051A2 publication Critical patent/WO2011028051A2/en
Publication of WO2011028051A3 publication Critical patent/WO2011028051A3/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to speech recognition, and more particularly, to an electronic device capable of efficiently recognizing speech including numbers and a speech recognition method using the same.
  • speech recognition of a string containing a plurality of numbers is more difficult and speech recognition rate is lower than speech recognition of a character.
  • speech recognition rate is lower than speech recognition of a character.
  • the speech recognition rate for all 10 numbers is (90%) ⁇ 10. Degrades.
  • a function of recognizing a phone number may be provided.
  • a more efficient and effective method is required for voice recognition of a telephone number string having at least seven to more than ten digits with a reliable recognition rate.
  • An object of the present invention is to provide an electronic device capable of efficiently and effectively recognizing a voice including a number and a voice recognition method using the same.
  • Another object of the present invention is to provide an electronic device and a voice recognition method using the same, which improves a user's accessibility to a voice recognition result and enables the user to easily and conveniently modify the voice recognition result.
  • An electronic device includes a display unit; A voice receiver configured to receive a voice including a plurality of numbers; And a controller configured to recognize the received voice and to display, on the display unit, a plurality of recognition candidates corresponding to a plurality of different numeric strings as a voice recognition result for the plurality of numbers.
  • the result of the speech recognition between the different numeric strings is characterized in that the different numbers are highlighted.
  • An electronic device includes a voice receiver for receiving a voice; And a controller configured to perform voice recognition on the received voice, wherein the controller includes the voice receiver following the first keyword when the received voice includes a first predefined keyword representing an international call.
  • the second keyword may be recognized by assuming a second keyword received through the country code number.
  • An electronic device includes a voice receiver for receiving a voice including a plurality of numbers; And a controller configured to perform voice recognition with respect to the received voice, wherein the controller is configured to perform at least one received priority over the detected pause whenever a pause, which is a silent section, is detected in the received voice. It is characterized by performing a voice recognition for the number.
  • a voice recognition method of an electronic device includes: receiving a voice including a plurality of numbers; Recognizing the received voice; And a plurality of recognition candidates corresponding to a plurality of different numeric strings, respectively, as a speech recognition result of the plurality of numbers, wherein the speech recognition results of the different numeric strings are highlighted. It comprises a step.
  • a voice recognition method of an electronic device includes: receiving a voice; And recognizing the second keyword by assuming a second keyword received after the first keyword as a country code number when the received voice includes a predefined first keyword indicating an international call. It is done by
  • a voice recognition method of an electronic device includes: receiving a voice including a plurality of numbers; And whenever a pause, which is a silent section, is detected in the received voice, performing voice recognition on the received at least one number in preference to the detected pause.
  • FIG. 1 is a block diagram of an electronic device according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a case where the electronic device 100 according to an embodiment of the present invention is a mobile terminal.
  • FIG. 3 is a conceptual diagram in which the electronic device 100 and the external server 300 are connected to the Internet 400.
  • FIG. 4 is a flowchart of a voice recognition method of an electronic device according to a first embodiment of the present invention.
  • 5 to 8 are diagrams for describing a voice recognition method of an electronic device according to a first embodiment of the present invention.
  • FIG. 9 is a flowchart of a voice recognition method of an electronic device according to a second embodiment of the present invention.
  • 10 to 15 are diagrams for describing a voice recognition method of an electronic device according to a second embodiment of the present invention.
  • 16 is a flowchart of a voice recognition method of an electronic device according to a third embodiment of the present invention.
  • 17 to 19 are diagrams for describing a voice recognition method of an electronic device according to a third embodiment of the present invention.
  • 20 is a diagram showing an example in which the fourth embodiment of the present invention is implemented.
  • 21 is a diagram showing an example in which the fifth embodiment of the present invention is implemented.
  • Speech recognition technology is an application of pattern matching technique.
  • the feature parameters of the recognition word or phoneme are stored in advance, and when a voice is input, the feature is extracted, the feature is extracted, and the similarities with the features of the prestored word or phoneme are measured and output as the recognition result. do. Since the voice changes over time, the voice characteristic is stable only for a short frame. Therefore, the feature of speech is analyzed for each frame to generate a feature vector, which is represented as a column of feature vectors.
  • a method of recognizing speech as a kind of pattern by measuring similarity between a registered pattern and an input pattern there is a method of modeling the speech utterance and assigning a unique model to each target word or phoneme to measure and recognize which voice model the input voice has the highest probability of originating.
  • methods using neural networks, mixed forms of various methods, and the like there are methods using neural networks, mixed forms of various methods, and the like.
  • a language model including knowledge information related to a language system may be applied to the speech recognition process.
  • the electronic device described herein includes a mobile phone, a smart phone, a laptop computer, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia player (PMP), a navigation terminal, and a digital television (DTV). ), And IPTV (Internet Protocol Television).
  • PDA personal digital assistant
  • PMP portable multimedia player
  • DTV digital television
  • IPTV Internet Protocol Television
  • 1 is a block diagram of an electronic device according to an embodiment of the present invention.
  • 2 is a diagram illustrating a case where the electronic device 100 according to an embodiment of the present invention is a mobile terminal.
  • the electronic device 100 may include a wireless communication unit 110, an A / V input unit 120, a user input unit 130, a sensing unit 140, an output unit 150, a memory unit 160,
  • the interface unit 170, the controller 180, the voice detector 182, the voice recognizer 183, the voice synthesizer 184, and the power supply 190 may be included.
  • FIG. 1 Since the components shown in FIG. 1 are not essential, an electronic device having more or fewer components may be implemented.
  • the wireless communication unit 110 may include one or more modules that enable wireless communication between the electronic device 100 and the wireless communication system or between a network in which the electronic device 100 and the electronic device 100 are located.
  • the wireless communication unit 110 may include a broadcast receiving module 111, a mobile communication module 112, a wireless internet module 113, a short range communication module 114, a location information module 115, and the like. .
  • the broadcast receiving module 111 receives a broadcast signal and / or broadcast related information from an external broadcast management server through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the broadcast management server may mean a server that generates and transmits a broadcast signal and / or broadcast related information, or a server that receives a previously generated broadcast signal and / or broadcast related information and transmits the same to an electronic device.
  • the broadcast signal may include not only a TV broadcast signal, a radio broadcast signal, and a data broadcast signal, but also a broadcast signal having a data broadcast signal combined with a TV broadcast signal or a radio broadcast signal.
  • the broadcast related information may mean information related to a broadcast channel, a broadcast program, or a broadcast service provider.
  • the broadcast related information may also be provided through a mobile communication network. In this case, it may be received by the mobile communication module 112.
  • the broadcast related information may exist in various forms. For example, it may exist in the form of Electronic Program Guide (EPG) of Digital Multimedia Broadcasting (DMB) or Electronic Service Guide (ESG) of Digital Video Broadcast-Handheld (DVB-H).
  • EPG Electronic Program Guide
  • DMB Digital Multimedia Broadcasting
  • ESG Electronic Service Guide
  • DVB-H Digital Video Broadcast-Handheld
  • the broadcast receiving module 111 receives broadcast signals using various broadcasting systems, and in particular, digital multimedia broadcasting-terrestrial (DMB-T), digital multimedia broadcasting-satellite (DMB-S), and media forward link (MediaFLO). Digital broadcast signals can be received using digital broadcasting systems such as only), digital video broadcast-handheld (DVB-H), integrated services digital broadcast-terrestrial (ISDB-T), and the like.
  • the broadcast receiving module 111 may be configured to be suitable for not only the above-described digital broadcast system but also other broadcast system for providing a broadcast signal.
  • the broadcast signal and / or broadcast related information received through the broadcast receiving module 111 may be stored in the memory unit 160.
  • the mobile communication module 112 transmits and receives a wireless signal with at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call call signal, or a text / multimedia message.
  • the wireless internet module 113 refers to a module for wireless internet access, and the wireless internet module 113 may be internal or external to the electronic device 100.
  • Wireless Internet technologies may include Wireless LAN (Wi-Fi), Wireless Broadband (Wibro), World Interoperability for Microwave Access (Wimax), High Speed Downlink Packet Access (HSDPA), and the like.
  • the short range communication module 114 refers to a module for short range communication.
  • Bluetooth Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, and the like may be used.
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • UWB Ultra Wideband
  • ZigBee ZigBee
  • the location information module 115 is a module for checking or obtaining the location of the electronic device.
  • the location information module 115 may obtain location information using a global navigation satellite system (GNSS).
  • GNSS global satellite navigation system
  • the Global Satellite Navigation System (GNSS) includes Global Position System (GPS) operated in the United States, Galileo operated in Europe, Global Orbiting Navigational Satelite System operated in Russia, COMPASS operated in China and Japan.
  • QZSS Quasi-Zenith Satellite System operated by.
  • the location information module 115 may be a global position system (GPS) module.
  • the GPS module calculates information about a distance at which a point (object) is separated from three or more satellites, information about a time at which the distance information is measured, and then applies a triangulation method to the calculated distance information. Three-dimensional position information according to latitude, longitude, and altitude of one point (object) can be calculated. Furthermore, a method of calculating position and time information using three satellites and correcting the error of the calculated position and time information using another satellite is also used. The GPS module continuously calculates the current position in real time and uses the same to calculate speed information.
  • GPS global position system
  • the A / V input unit 120 is for inputting an audio signal or a video signal, and may include a camera 121 and an audio receiver 122.
  • the camera 121 processes image frames such as still images or moving images obtained by the image sensor in the video call mode or the photographing mode.
  • the processed image frame may be displayed on the display unit 151.
  • the image frame processed by the camera 121 may be stored in the memory unit 160 or transmitted to the outside through the wireless communication unit 110. Two or more cameras 121 may be provided according to the configuration aspect of the electronic device 100.
  • the audio receiver 122 receives an external sound signal by a microphone in a call mode, a recording mode, a voice recognition mode, etc., and processes the external sound signal into electrical voice data.
  • the processed voice data may be converted into a form transmittable to the mobile communication base station through the mobile communication module 112 and output in the call mode.
  • the audio receiver 122 may implement various noise removing algorithms for removing noise generated in the process of receiving an external sound signal.
  • the user input unit 130 generates input data for the user to control the operation of the electronic device 100.
  • the user input unit 130 may include a key pad dome switch, a touch pad (static pressure / capacitance), a jog wheel, a jog switch, and the like.
  • the sensing unit 140 is an electronic device 100 such as an open / closed state of the electronic device 100, a location of the electronic device 100, a presence or absence of a user contact, an orientation of the electronic device 100, an acceleration / deceleration of the electronic device 100, or the like.
  • a sensing signal for controlling the operation of the electronic device 100 is generated by detecting a current state or an external environment. For example, when the electronic device 100 is in the form of a slide phone, it may sense whether the slide phone is opened or closed. In addition, it may be responsible for sensing functions related to whether the power supply unit 190 is supplied with power, whether the interface unit 170 is coupled to an external device, and the like.
  • the sensing unit 140 may include a proximity sensor 142.
  • the output unit 150 is used to generate an output related to sight, hearing, or tactile sense, and may include a display unit 151, an audio output module 152, an alarm unit 153, and a haptic module 154. have.
  • the display unit 151 displays and outputs information processed by the electronic device 100. For example, when the electronic device 100 is in a call mode, the electronic device 100 displays a user interface (UI) or a graphic user interface (GUI) related to the call. When the electronic device 100 is in a video call mode or a photographing mode, the electronic device 100 displays a photographed and / or received image, a UI, or a GUI.
  • UI user interface
  • GUI graphic user interface
  • the display unit 151 may be a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, or a three-dimensional display. 3D display).
  • Some of these displays can be configured to be transparent or light transmissive so that they can be seen from the outside. This may be referred to as a transparent display.
  • a representative example of the transparent display is a transparent LCD.
  • the rear structure of the display unit 151 may also be configured as a light transmissive structure. With this structure, the user can see an object located behind the body of the electronic device 100 through the area occupied by the display unit 151 of the body of the electronic device 100.
  • Two or more display units 151 may exist according to the implementation form of the electronic device 100.
  • a plurality of display units may be spaced apart or integrally disposed on one surface of the electronic device 100, or may be disposed on different surfaces.
  • the display unit 151 and a sensor for detecting a touch operation form a mutual layer structure (hereinafter, abbreviated as “touch screen”)
  • the display unit 151 is an output device. It can also be used as an input device.
  • the touch sensor may have, for example, a form of a touch film, a touch sheet, a touch pad, or the like.
  • the touch sensor may be configured to convert a change in pressure applied to a specific portion of the display unit 151 or capacitance generated in a specific portion of the display unit 151 into an electrical input signal.
  • the touch sensor may be configured to detect not only the position and area of the touch but also the pressure at the touch.
  • the touch controller processes the signal (s) and then transmits the corresponding data to the controller 180. As a result, the controller 180 can know which area of the display unit 151 is touched.
  • the proximity sensor 142 may be disposed in an inner region of the electronic device 100 covered by the touch screen or near the touch screen.
  • the proximity sensor 142 refers to a sensor that detects the presence or absence of an object approaching a predetermined detection surface or an object present in the vicinity without using mechanical force by using an electromagnetic force or infrared rays.
  • the proximity sensor 142 has a longer life and higher utilization than a contact sensor.
  • Examples of the proximity sensor 142 include a transmission photoelectric sensor, a direct reflection photoelectric sensor, a mirror reflection photoelectric sensor, a high frequency oscillation proximity sensor, a capacitive proximity sensor, a magnetic proximity sensor, and an infrared proximity sensor.
  • the touch screen When the touch screen is capacitive, the touch screen is configured to detect the proximity of the pointer by the change of the electric field according to the proximity of the pointer.
  • the touch screen touch sensor
  • the touch screen may be classified as a proximity sensor.
  • the act of allowing the pointer to be recognized without being in contact with the touch screen so that the pointer is located on the touch screen is referred to as a "proximity touch", and the touch
  • the act of actually touching the pointer on the screen is called “contact touch.”
  • the position where the proximity touch is performed by the pointer on the touch screen refers to a position where the pointer is perpendicular to the touch screen when the pointer is in proximity proximity.
  • the proximity sensor 142 detects a proximity touch and a proximity touch pattern (for example, a proximity touch distance, a proximity touch direction, a proximity touch speed, a proximity touch time, a proximity touch position, and a proximity touch movement state). Information corresponding to the sensed proximity touch operation and proximity touch pattern may be output on the touch screen.
  • a proximity touch and a proximity touch pattern for example, a proximity touch distance, a proximity touch direction, a proximity touch speed, a proximity touch time, a proximity touch position, and a proximity touch movement state.
  • Information corresponding to the sensed proximity touch operation and proximity touch pattern may be output on the touch screen.
  • the sound output module 152 may output audio data received from the wireless communication unit 110 or stored in the memory unit 160 in a call signal reception, a call mode or a recording mode, a voice recognition mode, a broadcast reception mode, and the like.
  • the sound output module 152 outputs a sound signal related to a function (for example, a call signal reception sound or a message reception sound) performed in the electronic device 100.
  • the sound output module 152 may include a receiver, a speaker, a buzzer, and the like.
  • the sound output module 152 may output sound through the earphone jack 116. The user can hear the sound output by connecting the earphone to the earphone jack 116.
  • the alarm unit 153 outputs a signal for notifying occurrence of an event of the electronic device 100. Examples of events generated in the electronic device 100 include call signal reception, message reception, key signal input, and touch input.
  • the alarm unit 153 may output a signal for notifying occurrence of an event in a form other than a video signal or an audio signal, for example, vibration.
  • the video signal or the audio signal may also be output through the display unit 151 or the sound output module 152.
  • the haptic module 154 generates various haptic effects that a user can feel. Vibration is a representative example of the haptic effect generated by the haptic module 154.
  • the intensity and pattern of vibration generated by the haptic module 154 can be controlled. For example, different vibrations may be synthesized and output or may be sequentially output.
  • the haptic module 154 may be used for the effects of stimulation by the arrangement of pins vertically moving with respect to the contact skin surface, the effect of the injection force of the air through the injection or inlet or the stimulation through the suction force, and the stimulation that rubs the skin surface.
  • Various tactile effects may be generated, such as effects by stimulation through contact of electrodes, effects by stimulation using electrostatic force, and effects of reproducing a sense of warmth and heat using an endothermic or heat generating element.
  • the haptic module 154 may not only deliver the haptic effect through direct contact, but also implement the haptic effect through the muscle sense of the user's finger or arm. Two or more haptic modules 154 may be provided according to a configuration aspect of the electronic device 100.
  • the memory unit 160 may store a program for the operation of the controller 180 and may temporarily store input / output data (for example, a phone book, a message, a still image, a video, etc.).
  • the memory unit 160 may store data regarding vibration and sound of various patterns output when a touch input on the touch screen is performed.
  • the memory unit 160 may include an acoustic model and a recognition dictionary required for speech recognition.
  • the memory unit 160 may include a language model.
  • the recognition dictionary may include at least one of a word, a word, a keyword, and an expression formed in a specific language.
  • the memory unit 160 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory), Random Access Memory (RAM), Static Random Access Memory (SRAM), Read-Only Memory (ROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Programmable Read-Only Memory (PROM) Magnetic Memory, Magnetic It may include a storage medium of at least one type of disk, optical disk.
  • the electronic device 100 may operate in association with a web storage that performs a storage function of the memory unit 160 on the Internet.
  • the interface unit 170 serves as a path with all external devices connected to the electronic device 100.
  • the interface unit 170 receives data from an external device or receives power and transmits the data to each component in the electronic device 100, or transmits the data inside the electronic device 100 to an external device.
  • wired / wireless headset ports, external charger ports, wired / wireless data ports, memory card ports, ports for connecting devices with identification modules, audio input / output (I / O) ports, The video input / output (I / O) port, the earphone port, and the like may be included in the interface unit 170.
  • the identification module is a chip that stores various types of information for authenticating the use authority of the electronic device 100, and includes a user identification module (UIM), a subscriber identify module (SIM), and a universal user authentication module ( Universal Subscriber Identity Module (USIM), and the like.
  • a device equipped with an identification module (hereinafter referred to as an 'identification device') may be manufactured in the form of a smart card. Therefore, the identification device may be connected to the electronic device 100 through a port.
  • the interface unit 170 may be a passage through which power from the cradle is supplied to the electronic device 100 when the electronic device 100 is connected to an external cradle, or various commands input by the user from the cradle. It may be a passage through which a signal is transmitted to the electronic device 100. Various command signals or power input from the cradle may operate as signals for recognizing that the electronic device 100 is correctly mounted on the cradle.
  • the voice detector 182 detects a voice signal included in the audio signal input through the audio receiver 122.
  • the voice detector 182 may determine whether voice is present in the audio signal.
  • the voice detector 182 is generally referred to as a voice activity detector (VAD).
  • VAD voice activity detector
  • the voice detector 182 may detect the voice while buffering the audio signal for a predetermined period or a predetermined time.
  • the voice recognition unit 183 performs voice recognition on the audio signal or the voice signal input through the audio receiver 122, and obtains at least one recognition candidate corresponding to the recognized voice.
  • the voice recognition unit 183 may recognize the input voice signal by detecting a voice section from the input voice signal, performing a sound analysis, and recognizing it as a recognition unit.
  • the voice recognition unit 183 may obtain the at least one recognition candidate corresponding to the speech recognition result by referring to a recognition dictionary and a translation database stored in the memory 160.
  • the voice recognition unit 183 may include the voice detection unit 182.
  • the speech synthesizer 184 converts text into speech using a text-to-speech engine.
  • TTS technology is a technology that converts the character information or symbols into a human voice to hear.
  • TTS technology generates a continuous speech by building a pronunciation database for all phonemes of the language and connecting them.
  • natural speech processing technology is synthesized by adjusting the size, length, and height of the voice. This may be included.
  • TTS technology can be easily found in electronic communication fields such as CTI, PC, PDA, and mobile phones, and in consumer electronics such as recorders, toys, and game machines, and is widely used in home automation systems for improving productivity in the factory or for more convenient everyday life. It is written. Since the TTS technology is a known technology, a detailed description thereof will be omitted.
  • the voice detector 182 and the voice recognizer 183 are not necessarily provided in the electronic device 100.
  • at least one of the voice detector 182 and the voice recognizer 183 may exist outside the electronic device 100.
  • 3 is a conceptual diagram in which the electronic device 100 and the external server 300 are connected to the Internet 400.
  • the external server 300 may include the voice recognition unit 183.
  • the electronic device 100 may include the voice detector 182 and may not include the voice recognizer 183.
  • the electronic device 100 may detect a voice section from the audio signal received from the audio receiver 122 using the voice detector 182 and transmit the detected voice section to the external server 300. have.
  • the external server 300 may recognize the voice section transmitted from the electronic device 100 through the voice recognition unit 183, and transmit the recognition result to the electronic device 100.
  • the external server 300 may include the voice detector 182 and the voice recognizer 183.
  • the electronic device 100 may transmit the audio signal received from the audio receiver 122 to the external server 300.
  • the external server 300 detects the voice from the audio signal received from the electronic device 100 using the voice detector 182 and the voice recognizer 183 to recognize the voice, and recognizes the recognition result. It may transmit to the electronic device 100.
  • the controller 180 typically controls the overall operation of the electronic device 100. For example, it performs related control and processing for voice call, data communication, video call, voice recognition and the like.
  • the controller 180 may include a multimedia module 181 for playing multimedia.
  • the multimedia module 181 may be implemented in the controller 180 or may be implemented separately from the controller 180.
  • the controller 180 may perform a pattern recognition process for recognizing a writing input or a drawing input performed on the touch screen as text and an image, respectively.
  • the power supply unit 190 receives an external power source and an internal power source under the control of the controller 180 to supply power for operation of each component.
  • Various embodiments described herein may be implemented in a recording medium readable by a computer or similar device using, for example, software, hardware or a combination thereof.
  • the embodiments described herein include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs), and the like. It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and electrical units for performing the functions. It may be implemented by the controller 180.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • embodiments such as procedures or functions may be implemented with separate software modules that allow at least one function or operation to be performed.
  • the software code may be implemented by a software application written in a suitable programming language.
  • the software code may be stored in the memory unit 160 and executed by the controller 180.
  • Embodiments of the present invention may be implemented in the electronic device 100 described with reference to FIGS. 1 to 3.
  • the embodiments of the present invention will be described assuming that the electronic device 100 is a mobile terminal.
  • the technical idea disclosed in the present document can be applied to various electronic devices.
  • FIG. 4 is a flowchart of a voice recognition method of an electronic device according to a first embodiment of the present invention.
  • 5 to 8 are diagrams for describing a voice recognition method of an electronic device according to a first embodiment of the present invention.
  • a voice recognition method of an electronic device and an operation of the electronic device 100 for implementing the same will be described in detail with reference to the accompanying drawings.
  • the controller 180 receives a voice through the audio receiver 122 [S100].
  • the voice may include a plurality of numbers.
  • FIG. 5A illustrates an example of a screen corresponding to a standby mode for receiving a voice of a user.
  • the controller 180 can receive a user's voice in the screen state shown in FIG. 5A (see FIG. 5B).
  • the controller 180 controls the voice recognition unit 183 to perform voice recognition on the received voice [S110].
  • the controller 180 may recognize voice by separating “Call” and the remaining numeric part from “Call 225 6142” spoken by a user. "Call” is a command corresponding to a call function.
  • the controller 180 may recognize the number received after the "Call" by voice recognition and send a call to the receiver corresponding to the recognized number.
  • the controller 180 highlights different portions of the results of the voice recognition and displays a plurality of recognition candidates on the display unit 151 [S120].
  • FIG. 5C illustrates an example in which the plurality of recognition candidates are displayed on the display unit 151.
  • the controller 180 is a voice recognition result for the plurality of numbers 225 6142, and as shown in FIG. 5C, a plurality of different numeric strings 10.
  • a plurality of recognition candidates 10 respectively corresponding to may be displayed on the display unit 151.
  • the controller 180 highlights and displays numbers having different voice recognition results between the different strings of numbers 10.
  • the different numbers of emphasis can be made in a variety of ways.
  • the controller 180 highlights numbers having different voice recognition results or uses different numbers of voice recognition results by using at least one of colors, fonts, and sizes of numbers with different voice recognition results. Can be emphasized.
  • the controller 180 displays the plurality of recognition candidates 10 on the display unit 151 in the order of recognition candidates having the highest recognition scores as the speech recognition result.
  • the controller 180 displays the first recognition candidate 10a having the highest recognition score at the top. Then, the second recognition candidate 10b and the third recognition candidate 10c are displayed in the order of the recognition scores being high.
  • the controller 180 compares the numbers corresponding to the same position with respect to the different strings of numbers 10, and if the numbers corresponding to the same positions are different from each other, the different numbers are highlighted. can do.
  • the controller 180 may have a number corresponding to the same position (eg, first to seventh column) of a number string constituting each of the plurality of recognition candidates 10. Compare the sameness between the fields.
  • the first to third columns, the fifth and sixth columns are the same, and the fourth and seventh columns include different numbers.
  • the controller 180 receives a selection signal for a specific recognition candidate among the plurality of recognition candidates 10 [S130], and sends a call to the selected specific recognition candidate as a receiving side [S140].
  • the controller 180 when a user selects the first recognition candidate 10a, the controller 180 makes a call using a number string corresponding to the first recognition candidate 10a as a received telephone number. Send.
  • the controller 180 can receive a call originating command from the user in another way, and send a call.
  • the controller 180 may display an ordinal number as an identifier of each recognition candidate.
  • the first recognition candidate 10a corresponds to "1”
  • the second recognition candidate 10b corresponds to "2”
  • the third recognition candidate 10c corresponds to "3". It is.
  • the user may speak an ordinal number corresponding to a recognition candidate desired by the user, from among the plurality of recognition codes 10 (see FIG. 8B).
  • the controller 180 recognizes the user's voice, selects a recognition candidate indicated by an ordinal corresponding thereto, and sends a call to the selected recognition candidate as a receiving side (see FIG. 8C).
  • the user can easily recognize the result of the contents spoken by the user, and the accessibility to the desired candidate can be improved.
  • the user can easily access the desired result and select it quickly.
  • FIG. 9 is a flowchart of a voice recognition method of an electronic device according to a second embodiment of the present invention.
  • 10 to 15 are diagrams for describing a voice recognition method of an electronic device according to a second embodiment of the present invention.
  • a voice recognition method of an electronic device and an operation of the electronic device 100 to implement the same will be described in detail with reference to the accompanying drawings.
  • the controller 180 receives a voice through the audio receiver 122 [S200].
  • the controller 180 performs voice recognition on the received voice to determine whether the received voice includes a first predefined keyword representing an international call [S210].
  • the first keyword may vary. In general, "+" is a symbol for international calls.
  • the controller 180 determines whether the received voice includes the first keyword indicating an international call as a result of performing voice recognition on the received voice.
  • the controller 180 performs voice recognition assuming a second keyword received after the first keyword as a country code number, when the received voice includes the first keyword. [S220]. The controller 180 performs voice recognition assuming a plurality of syllables received after the second keyword as a phone number [S230].
  • the controller 180 receives a voice from a voice recognition screen for performing a call origination function (see FIG. 10 (a)) (FIG. 10 (b)). See).
  • the content of the voice spoken by the user shown in FIG. 10 (b) has the structure shown in FIG. 11.
  • the structure shown in Fig. 11 starts with a keyword 30 corresponding to a call origination function, and includes the first keyword 31 representing the international call following the keyword 30.
  • the controller 180 assumes a second keyword 32 received after the first keyword 31 as a country code number and performs voice recognition.
  • the memory 160 may store a database in which a country and a country code number are matched. For example, the country “Korea” matches the country code number "82" and the country “USA” matches the country code number "1".
  • the controller 180 may perform voice recognition with respect to the second keyword 32 that is received after the first keyword 31 with reference to the database. That is, the controller 180 may perform voice recognition on the second keyword 32 by comparing the second keyword 32 with a country name or country code number included in the database.
  • the controller 180 compares the second keyword 32 with a country code number included in the database.
  • the “820” 32 is not present in the database. "0” cannot follow the country code number, and "82" corresponding to "Korea” exists in the database, so that "820” may be modified to "82".
  • the controller 180 may recognize a plurality of syllables 33 received after the second keyword 32 as a phone number.
  • the second keyword 32 received following the first keyword 31 may be a country name in addition to a country code number.
  • the controller 180 can perform voice recognition with reference to the database on the country name received after the first keyword 31.
  • the recognition rate of a voice composed of numbers can be greatly improved.
  • FIG. 13 is a view for explaining the structure of a number recognizer according to the prior art
  • FIG. 14 is a view for explaining the structure of a number recognizer according to the present invention.
  • the number recognizer according to the prior art is composed of a search space in which all digits (0 to 9) can come for each digit.
  • the selection of a path to each leaf node is determined by an acoustic matching process based on the similarity of speech and acoustic models.
  • the structure of the number recognizer according to the prior art requires a large amount of computation in order to calculate the number in all cases, and the recognition rate also decreases exponentially with the length of the digit.
  • the number of cases for recognizing a string of numbers having four digits is 10000 (10 ⁇ 4 ).
  • FIG. 14 illustrates a case where speech recognition is performed on a numeric string having four digits as in the case of FIG. 13.
  • a number may be designated for each digit according to a country code in a search space. Accordingly, unlike the case of FIG. 13, the size of the search space is greatly reduced, and the complexity of the search space is greatly reduced. Therefore, while the calculation amount is greatly reduced, the number of cases of the recognition result is greatly reduced (about 300 or less). Therefore, according to the number recognizer according to the present invention, a recognition rate for a speech composed of a string of numbers can be greatly improved.
  • the controller 180 may recognize, as a predetermined identification number, a third keyword starting first among the plurality of syllables received after the second keyword. For example, referring to FIG. 15, the controller 180 may recognize the third keyword 34 received after the second keyword 32 as a mobile phone identification number.
  • the method and process of recognizing the mobile phone identification number is the same as or similar to the method and process of recognizing the second keyword 32.
  • 16 is a flowchart of a voice recognition method of an electronic device according to a third embodiment of the present invention.
  • 17 to 19 are diagrams for describing a voice recognition method of an electronic device according to a third embodiment of the present invention.
  • a voice recognition method of an electronic device and an operation of the electronic device 100 for implementing the same will be described in detail with reference to the accompanying drawings.
  • the controller 180 receives a voice through the audio receiver 122 [S300].
  • the controller 180 determines whether a pause, which is a silent section, is detected in the received voice [S310].
  • the controller 180 may detect the pose by using the voice detector 182 or determine that the pose exists when no voice is received from the audio receiver 122 for a predetermined time.
  • the controller 180 When the pose is detected in the received voice as a result of the determination in step S210, the controller 180 performs voice recognition on the received number in preference to the detected pose [S320], and in step S320 The execution result of the performed voice recognition is output [S330].
  • the controller 180 may return to step S300 to repeat steps S300 to S330.
  • the controller 180 whenever the pose is detected in the received voice, the controller 180 performs voice recognition on at least one number received in preference to the detected pose. Each time the voice recognition is performed on the at least one number, a result of the voice recognition may be output.
  • the user utters each of the sections 40, 41, 42, 43 with a pose between the sections 40, 41, 42, 43.
  • a first pose exists between the first numeric sequence 41 and the second numeric sequence 42, and the second numeric sequence 42 and the third numeric sequence 43 are present.
  • the controller 180 performs voice recognition on the received numeric strings prior to the respective detected poses, and outputs the result.
  • voice recognition is performed on the first numeric string 41 and the result is output to the display unit 151 (see FIG. 18A).
  • voice recognition is performed on the second string of numbers 42, and the result is output to the display unit 151 (see FIG. 18B), and the third pose is detected.
  • the voice recognition is performed on the third numeric string 43 and the result is output to the display unit 151 (see FIG. 18C).
  • the results of the speech recognition like the first embodiment of the present invention, highlight the different numbers of the results.
  • FIG. 19 (a) shows a case in which the user speaks by breaking the numeric string by three digits
  • FIG. 19 (b) shows a case in which the user speaks by breaking the numeric string by two digits.
  • the display unit 151 may display a voice recognition result for the numeric string that is prioritized whenever a pose is detected in the same manner as in FIG. 18.
  • a partial recognition result can be subsequently output by detecting a pose which is a silent section in the middle of the user's utterance.
  • the user generally does not talk off the phone number from beginning to end. In France, for example, it is a common culture to speak two digits. Therefore, when the pose detection is used, the voice recognition may be performed for each section of the telephone number rather than the voice recognition after the user's utterance is completely stopped, resulting in an increase in the recognition rate.
  • a fourth embodiment of the present invention discloses a method for modifying a voice recognition result and a mobile terminal implementing the same.
  • 20 is a diagram showing an example in which the fourth embodiment of the present invention is implemented.
  • the controller 180 may display the recognition candidate group 50 according to the recognition score (see FIG. 20B).
  • the user may select a desired number from the recognition candidate group 50.
  • the method of selecting a number desired by the user may vary. For example, as shown in FIG. 20B, when the display unit 151 is a touch screen, the user may touch a desired number. Also, for example, the user can select a desired number by voice. Referring to FIG. 20B, when the user says "6", the controller 180 recognizes the user's voice and selects "6" from the recognition candidate group 50.
  • the controller 180 changes the number corresponding to the corresponding place among the voice recognition results into a number selected by the user and displays the number.
  • the user may select a desired number by using the voice recognition function. For example, if the user says "5" in the state of FIG. 20 (a), the controller 180 may recognize the user's voice and output a screen as shown in FIG. 20 (b).
  • a fifth embodiment of the present invention discloses another method for modifying a voice recognition result and a mobile terminal implementing the same.
  • 21 is a diagram showing an example in which the fifth embodiment of the present invention is implemented.
  • FIG. 21 shows another form of displaying voice recognition results according to the first embodiment of the present invention described with reference to FIG.
  • FIG. 21A shows a case where only the recognition candidate 10a having the highest recognition score is output among the speech recognition results shown in FIG. 5C (see the first embodiment of the present invention).
  • the controller 180 may highlight and display different numbers among the plurality of recognition candidates.
  • the controller 180 When the user selects the first "6" on the screen of Figure 21 (a), as shown in Figure 21 (b), the controller 180 corresponds to the position corresponding to the selected "6", and recognize A recognition candidate group 51 including a number included in another recognition candidate having a low score may be displayed. The user may select a number desired by the recognition candidate group 51.
  • the controller 180 corresponds to the position corresponding to the selected "6", and recognize A recognition candidate group 52 including a number included in another recognition candidate having a low score may be displayed. The user may select a number desired by the recognition candidate group 51.
  • the situation shown in FIG. 21 is the same as the example shown in FIG. However, the way that the recognition candidate group is provided to the user is different.
  • the speech recognition method of the electronic device according to the present invention described above may be provided by recording on a computer-readable recording medium as a program for executing in a computer.
  • the speech recognition method of the electronic device can be executed through software.
  • the constituent means of the present invention are code segments that perform the necessary work.
  • the program or code segments may be stored on a processor readable medium or transmitted by a computer data signal coupled with a carrier on a transmission medium or network.
  • Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording devices include ROM, RAM, CD-ROM, DVD ⁇ ROM, DVD-RAM, magnetic tape, floppy disks, hard disks, optical data storage devices, and the like.
  • the computer readable recording medium can also be distributed over network coupled computer devices so that the computer readable code is stored and executed in a distributed fashion.
  • the recognition rate for a voice including a number such as a telephone number can be greatly improved, and the user's accessibility to a voice recognition result for a voice including a number can be improved. It is possible to provide an electronic device and a voice recognition method using the same, which can improve and improve the voice recognition result of the voice including numbers.

Abstract

The present invention relates to an electronic device and to a voice recognition method using the same. Provided are: an electronic device which effectively recognises voices including numbers and which can facilitate user access to and correction of recognition results; and a voice recognition method using the same.

Description

전자 기기 및 이를 이용한 음성인식 방법 Electronic device and voice recognition method using same
본 발명은, 음성인식에 관한 것으로서, 특히 숫자를 포함하는 음성을 효율적으로 인식할 수 있는 전자 기기 및 이를 이용한 음성인식 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to speech recognition, and more particularly, to an electronic device capable of efficiently recognizing speech including numbers and a speech recognition method using the same.
문자에 대한 음성인식보다, 복수의 숫자들을 포함하는 숫자열에 대한 음성인식이 더 난해하고 인식률이 저하되는 것이 일반적이다. 예를 들어, 10개의 숫자를 포함하는 숫자열에 대한 음성인식의 경우, 각 숫자에 대한 인식률이 90%라고 하더라도, 상기 10개의 숫자 모두에 대한 음성인식률은, (90%)^10이므로, 현저하게 저하된다.In general, speech recognition of a string containing a plurality of numbers is more difficult and speech recognition rate is lower than speech recognition of a character. For example, in the case of speech recognition for a string of numbers containing 10 numbers, even if the recognition rate for each number is 90%, the speech recognition rate for all 10 numbers is (90%) ^ 10. Degrades.
콜 기능을 제공하는 이동통신 단말기의 경우, 전화번호를 음성으로 인식하는 기능을 제공할 수 있다. 이 경우, 적어도 7자리에서 많게는 10자리를 초과하는 전화번호 숫자열을 신뢰성있는 인식률로 음성인식하기 위해서는, 보다 효율적이고 효과적인 방식이 요구되는 실정이다.In the case of a mobile communication terminal providing a call function, a function of recognizing a phone number may be provided. In this case, a more efficient and effective method is required for voice recognition of a telephone number string having at least seven to more than ten digits with a reliable recognition rate.
본 발명의 과제는, 숫자를 포함하는 음성에 대한 인식을 효율적이고 효과적으로 할 수 있는 전자 기기 및 이를 이용한 음성인식 방법을 제공하는 것이다.Disclosure of Invention An object of the present invention is to provide an electronic device capable of efficiently and effectively recognizing a voice including a number and a voice recognition method using the same.
본 발명의 다른 과제는, 음성인식 결과에 대한 사용자의 접근성을 향상시키고, 사용자가 상기 음성인식 결과의 수정을 쉽고 편리하게 할 수 있도록 하는 전자 기기 및 이를 이용한 음성인식 방법을 제공하는 것이다.Another object of the present invention is to provide an electronic device and a voice recognition method using the same, which improves a user's accessibility to a voice recognition result and enables the user to easily and conveniently modify the voice recognition result.
본 발명의 제1 양상에 따른 전자 기기는, 디스플레이부; 복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부; 및 상기 수신된 음성을 인식하고, 상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 상기 디스플레이부에 표시하는 제어부를 포함하고, 상기 제어부는, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하여 이루어진다.An electronic device according to a first aspect of the present invention includes a display unit; A voice receiver configured to receive a voice including a plurality of numbers; And a controller configured to recognize the received voice and to display, on the display unit, a plurality of recognition candidates corresponding to a plurality of different numeric strings as a voice recognition result for the plurality of numbers. In addition, the result of the speech recognition between the different numeric strings is characterized in that the different numbers are highlighted.
본 발명의 제2 양상에 따른 전자 기기는, 음성을 수신하는 음성 수신부; 상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고, 상기 제어부는, 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 상기 음성 수신부를 통해 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 인식하는 것을 특징으로 하여 이루어진다.An electronic device according to a second aspect of the present invention includes a voice receiver for receiving a voice; And a controller configured to perform voice recognition on the received voice, wherein the controller includes the voice receiver following the first keyword when the received voice includes a first predefined keyword representing an international call. The second keyword may be recognized by assuming a second keyword received through the country code number.
본 발명의 제3 양상에 따른 전자 기기는, 복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부; 상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고, 상기 제어부는, 상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 것을 특징으로 하여 이루어진다.An electronic device according to a third aspect of the present invention includes a voice receiver for receiving a voice including a plurality of numbers; And a controller configured to perform voice recognition with respect to the received voice, wherein the controller is configured to perform at least one received priority over the detected pause whenever a pause, which is a silent section, is detected in the received voice. It is characterized by performing a voice recognition for the number.
본 발명의 제4 양상에 따른 전자 기기의 음성인식 방법은, 복수의 숫자들을 포함하는 음성을 수신하는 단계; 상기 수신된 음성을 인식하는 단계; 및 상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 표시하되, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 단계를 포함하여 이루어진다.A voice recognition method of an electronic device according to a fourth aspect of the present invention includes: receiving a voice including a plurality of numbers; Recognizing the received voice; And a plurality of recognition candidates corresponding to a plurality of different numeric strings, respectively, as a speech recognition result of the plurality of numbers, wherein the speech recognition results of the different numeric strings are highlighted. It comprises a step.
본 발명의 제5 양상에 따른 전자 기기의 음성인식 방법은, 음성을 수신하는 단계; 및 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 음성인식하는 단계를 포함하여 이루어진다.A voice recognition method of an electronic device according to a fifth aspect of the present invention includes: receiving a voice; And recognizing the second keyword by assuming a second keyword received after the first keyword as a country code number when the received voice includes a predefined first keyword indicating an international call. It is done by
본 발명의 제6 양상에 따른 전자 기기의 음성인식 방법은, 복수의 숫자들을 포함하는 음성을 수신하는 단계; 및 상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 단계를 포함하여 이루어진다.A voice recognition method of an electronic device according to a sixth aspect of the present invention includes: receiving a voice including a plurality of numbers; And whenever a pause, which is a silent section, is detected in the received voice, performing voice recognition on the received at least one number in preference to the detected pause.
본 발명에 따른 전자 기기 및 이를 이용한 음성인식 방법에 의하면, 다음과 같은 효과가 있다.According to the electronic device and the voice recognition method using the same according to the present invention, the following effects are obtained.
본 발명에 의하면, 전화번호와 같은 숫자를 포함하는 음성에 대한 인식률을 대폭 향상시킬 수 있는 효과가 있다.According to the present invention, there is an effect that can significantly improve the recognition rate for the voice containing a number such as a telephone number.
또한 본 발명에 의하면, 숫자를 포함하는 음성에 대한 음성인식 결과에 대한 사용자의 접근성이 향상되는 효과가 있다.In addition, according to the present invention, there is an effect of improving the accessibility of the user to the voice recognition result for the voice including the number.
또한 본 발명에 의하면, 숫자를 포함하는 음성에 대한 음성인식 결과를 사용자가 쉽고 편리하게 수정할 수 있는 효과가 있다.In addition, according to the present invention, there is an effect that the user can easily and conveniently modify the voice recognition result for the voice including the number.
도 1은 본 발명의 일 실시예와 관련된 전자 기기의 블록 구성도(block diagram)이다.1 is a block diagram of an electronic device according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 전자 기기(100)가 이동 단말기인 경우를 나타낸 도면이다.2 is a diagram illustrating a case where the electronic device 100 according to an embodiment of the present invention is a mobile terminal.
도 3은 상기 전자 기기(100)와 외부 서버(300)가 인터넷(400)으로 연결된 개념도이다.3 is a conceptual diagram in which the electronic device 100 and the external server 300 are connected to the Internet 400.
도 4는 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다.4 is a flowchart of a voice recognition method of an electronic device according to a first embodiment of the present invention.
도 5 내지 도 8은, 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 5 to 8 are diagrams for describing a voice recognition method of an electronic device according to a first embodiment of the present invention.
도 9는 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다.9 is a flowchart of a voice recognition method of an electronic device according to a second embodiment of the present invention.
도 10 내지 도 15는, 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다.10 to 15 are diagrams for describing a voice recognition method of an electronic device according to a second embodiment of the present invention.
도 16은 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다.16 is a flowchart of a voice recognition method of an electronic device according to a third embodiment of the present invention.
도 17 내지 도 19는, 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 17 to 19 are diagrams for describing a voice recognition method of an electronic device according to a third embodiment of the present invention.
도 20은, 본 발명의 제4 실시예가 구현되는 예를 도시한 도면이다.20 is a diagram showing an example in which the fourth embodiment of the present invention is implemented.
도 21은, 본 발명의 제5 실시예가 구현되는 예를 도시한 도면이다.21 is a diagram showing an example in which the fifth embodiment of the present invention is implemented.
본 발명의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들을 상세히 설명한다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 또한, 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.The above objects, features and advantages of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. Like numbers refer to like elements throughout. In addition, when it is determined that the detailed description of the known function or configuration related to the present invention may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.
음성인식 기술은 패턴 매칭 기법의 응용이라 볼 수 있다. 즉 인식 대상 단어 또는 음소의 특징 파라미터를 미리 저장하여 놓고 음성이 입력되면 이를 분석하여 특징을 추출한 후 미리 저장되어 있는 단어 또는 음소의 특징들과 유사도(likelihood)를 측정하여 가장 유사한 것을 인식 결과로 출력한다. 음성은 시간의 진행에 따라 변화하므로 음성의 특성은 짧은 구간(frame) 동안에만 안정적인 특성을 갖는다. 따라서 음성의 특징은 각 프레임별로 분석되어 특징벡터가 생성되며 이 특징벡터들의 열로써 표현된다.Speech recognition technology is an application of pattern matching technique. In other words, the feature parameters of the recognition word or phoneme are stored in advance, and when a voice is input, the feature is extracted, the feature is extracted, and the similarities with the features of the prestored word or phoneme are measured and output as the recognition result. do. Since the voice changes over time, the voice characteristic is stable only for a short frame. Therefore, the feature of speech is analyzed for each frame to generate a feature vector, which is represented as a column of feature vectors.
음성인식의 방법은 크게 두 가지로 분류된다. 첫째, 음성을 일종의 패턴으로 간주하여 등록되어 있는 패턴과 입력되는 패턴과의 유사도를 측정하여 인식하는 방법이 있다. 둘째, 음성이 발성되는 과정을 모델링하여 각 대상 단어 또는 음소마다 고유의 모델을 할당하여 입력되는 음성이 어떤 음성모델로부터 발생되었을 확률이 가장 높은지를 측정하여 인식하는 방법이 있다. 이외에도, 신경회로망을 이용하는 방법, 여러 가지 방법의 혼합형태 등이 있다. 음성인식 과정에는, 이와 같은 신호처리 측면 이외에도, 언어 체계와 관련된 지식정보를 포함하는 언어모델(language model)이 적용될 수 있다.There are two main methods of speech recognition. First, there is a method of recognizing speech as a kind of pattern by measuring similarity between a registered pattern and an input pattern. Second, there is a method of modeling the speech utterance and assigning a unique model to each target word or phoneme to measure and recognize which voice model the input voice has the highest probability of originating. In addition, there are methods using neural networks, mixed forms of various methods, and the like. In addition to such a signal processing aspect, a language model including knowledge information related to a language system may be applied to the speech recognition process.
이하, 본 발명과 관련된 전자 기기에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.EMBODIMENT OF THE INVENTION Hereinafter, the electronic device which concerns on this invention is demonstrated in detail with reference to drawings. The suffixes "module" and "unit" for components used in the following description are given or used in consideration of ease of specification, and do not have distinct meanings or roles from each other.
본 명세서에서 설명되는 전자 기기에는, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 단말, DTV(Digital Television), IPTV(Internet Protocol Television) 등이 포함될 수 있다.The electronic device described herein includes a mobile phone, a smart phone, a laptop computer, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia player (PMP), a navigation terminal, and a digital television (DTV). ), And IPTV (Internet Protocol Television).
도 1은 본 발명의 일 실시예와 관련된 전자 기기의 블록 구성도(block diagram)이다. 도 2는 본 발명의 일 실시예에 따른 전자 기기(100)가 이동 단말기인 경우를 나타낸 도면이다.1 is a block diagram of an electronic device according to an embodiment of the present invention. 2 is a diagram illustrating a case where the electronic device 100 according to an embodiment of the present invention is a mobile terminal.
상기 전자 기기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 사용자 입력부(130), 센싱부(140), 출력부(150), 메모리부(160), 인터페이스부(170), 제어부(180), 음성 검출부(182), 음성 인식부(183), 음성 합성부(184) 및 전원 공급부(190) 등을 포함할 수 있다.The electronic device 100 may include a wireless communication unit 110, an A / V input unit 120, a user input unit 130, a sensing unit 140, an output unit 150, a memory unit 160, The interface unit 170, the controller 180, the voice detector 182, the voice recognizer 183, the voice synthesizer 184, and the power supply 190 may be included.
도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 전자 기기가 구현될 수도 있다.Since the components shown in FIG. 1 are not essential, an electronic device having more or fewer components may be implemented.
이하, 상기 구성요소들에 대해 차례로 살펴본다.Hereinafter, the components will be described in order.
무선 통신부(110)는 전자 기기(100)와 무선 통신 시스템 사이 또는 전자 기기(100)와 전자 기기(100)가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치정보 모듈(115) 등을 포함할 수 있다.The wireless communication unit 110 may include one or more modules that enable wireless communication between the electronic device 100 and the wireless communication system or between a network in which the electronic device 100 and the electronic device 100 are located. For example, the wireless communication unit 110 may include a broadcast receiving module 111, a mobile communication module 112, a wireless internet module 113, a short range communication module 114, a location information module 115, and the like. .
방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. The broadcast receiving module 111 receives a broadcast signal and / or broadcast related information from an external broadcast management server through a broadcast channel.
상기 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 상기 방송 관리 서버는, 방송 신호 및/또는 방송 관련 정보를 생성하여 송신하는 서버 또는 기 생성된 방송 신호 및/또는 방송 관련 정보를 제공받아 전자 기기에 송신하는 서버를 의미할 수 있다. 상기 방송 신호는, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호를 포함할 뿐만 아니라, TV 방송 신호 또는 라디오 방송 신호에 데이터 방송 신호가 결합한 형태의 방송 신호도 포함할 수 있다. The broadcast channel may include a satellite channel and a terrestrial channel. The broadcast management server may mean a server that generates and transmits a broadcast signal and / or broadcast related information, or a server that receives a previously generated broadcast signal and / or broadcast related information and transmits the same to an electronic device. The broadcast signal may include not only a TV broadcast signal, a radio broadcast signal, and a data broadcast signal, but also a broadcast signal having a data broadcast signal combined with a TV broadcast signal or a radio broadcast signal.
상기 방송 관련 정보는, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보를 의미할 수 있다. 상기 방송 관련 정보는, 이동통신망을 통하여도 제공될 수 있다. 이러한 경우에는 상기 이동통신 모듈(112)에 의해 수신될 수 있다.The broadcast related information may mean information related to a broadcast channel, a broadcast program, or a broadcast service provider. The broadcast related information may also be provided through a mobile communication network. In this case, it may be received by the mobile communication module 112.
상기 방송 관련 정보는 다양한 형태로 존재할 수 있다. 예를 들어, DMB(Digital Multimedia Broadcasting)의 EPG(Electronic Program Guide) 또는 DVB-H(Digital Video Broadcast-Handheld)의 ESG(Electronic Service Guide) 등의 형태로 존재할 수 있다.The broadcast related information may exist in various forms. For example, it may exist in the form of Electronic Program Guide (EPG) of Digital Multimedia Broadcasting (DMB) or Electronic Service Guide (ESG) of Digital Video Broadcast-Handheld (DVB-H).
상기 방송 수신 모듈(111)은, 각종 방송 시스템을 이용하여 방송 신호를 수신하는데, 특히, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다. 물론, 상기 방송 수신 모듈(111)은, 상술한 디지털 방송 시스템뿐만 아니라 방송 신호를 제공하는 다른 방송 시스템에 적합하도록 구성될 수도 있다.The broadcast receiving module 111 receives broadcast signals using various broadcasting systems, and in particular, digital multimedia broadcasting-terrestrial (DMB-T), digital multimedia broadcasting-satellite (DMB-S), and media forward link (MediaFLO). Digital broadcast signals can be received using digital broadcasting systems such as only), digital video broadcast-handheld (DVB-H), integrated services digital broadcast-terrestrial (ISDB-T), and the like. Of course, the broadcast receiving module 111 may be configured to be suitable for not only the above-described digital broadcast system but also other broadcast system for providing a broadcast signal.
방송 수신 모듈(111)을 통해 수신된 방송 신호 및/또는 방송 관련 정보는 메모리부(160)에 저장될 수 있다.The broadcast signal and / or broadcast related information received through the broadcast receiving module 111 may be stored in the memory unit 160.
이동통신 모듈(112)은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. The mobile communication module 112 transmits and receives a wireless signal with at least one of a base station, an external terminal, and a server on a mobile communication network. The wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call call signal, or a text / multimedia message.
무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 무선 인터넷 모듈(113)은 전자 기기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. The wireless internet module 113 refers to a module for wireless internet access, and the wireless internet module 113 may be internal or external to the electronic device 100. Wireless Internet technologies may include Wireless LAN (Wi-Fi), Wireless Broadband (Wibro), World Interoperability for Microwave Access (Wimax), High Speed Downlink Packet Access (HSDPA), and the like.
근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.The short range communication module 114 refers to a module for short range communication. As a short range communication technology, Bluetooth, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, and the like may be used.
위치정보 모듈(115)은 전자 기기의 위치를 확인하거나 얻기 위한 모듈이다. 상기 위치정보 모듈(115)은 범지구적 위성항법시스템(Global Navigation Satellite System, GNSS)를 이용하여 위치정보를 획득할 수 있다. 여기서, 범지구적 위성 항법 시스템(GNSS)은 지구를 공전하여 무선 항법 수신기들의 소정의 타입들이 지표면 또는 지표면 근처의 그들의 위치를 결정할 수 있는 기준 신호들을 보내는 무선 항법위성 시스템들을 설명하기 위해 이용되는 용어이다. 상기 범지구적 위성 항법 시스템(GNSS)에는 미국에서 운영하는 GPS(Global Position System), 유럽에서 운영하는 갈릴레오(Galileo), 러시아에서 운영하는 GLONASS(Global Orbiting Navigational Satelite System), 중국에서 운영하는 COMPASS 및 일본에서 운영하는 QZSS(Quasi-Zenith Satellite System)등이 있다. The location information module 115 is a module for checking or obtaining the location of the electronic device. The location information module 115 may obtain location information using a global navigation satellite system (GNSS). Here, global satellite navigation system (GNSS) is a term used to describe radionavigation satellite systems that revolve around the earth and send reference signals from which certain types of radio navigation receivers can determine their location near or on the earth's surface. . The Global Satellite Navigation System (GNSS) includes Global Position System (GPS) operated in the United States, Galileo operated in Europe, Global Orbiting Navigational Satelite System operated in Russia, COMPASS operated in China and Japan. QZSS (Quasi-Zenith Satellite System) operated by.
GNSS의 대표적인 예를 들면, 상기 위치정보 모듈(115)은 GPS(Global Position System) 모듈일 수 있다. 상기 GPS 모듈은, 일 지점(개체)이 3개 이상의 위성으로부터 떨어진 거리에 관한 정보와, 상기 거리 정보가 측정된 시간에 관한 정보를 산출한 다음 상기 산출된 거리 정보에 삼각법을 적용함으로써, 일 시간에 일 지점(개체)에 대한 위도, 경도, 및 고도에 따른 3차원의 위치 정보를 산출할 수 있다. 나아가, 3개의 위성을 이용하여 위치 및 시간 정보를 산출하고, 또 다른 1개의 위성을 이용하여 상기 산출된 위치 및 시간 정보의 오차를 수정하는 방법 또한 사용되고 있다. 상기 GPS 모듈은 현 위치를 실시간으로 계속 산출하고 그를 이용하여 속도 정보를 산출하기도 한다.As a representative example of the GNSS, the location information module 115 may be a global position system (GPS) module. The GPS module calculates information about a distance at which a point (object) is separated from three or more satellites, information about a time at which the distance information is measured, and then applies a triangulation method to the calculated distance information. Three-dimensional position information according to latitude, longitude, and altitude of one point (object) can be calculated. Furthermore, a method of calculating position and time information using three satellites and correcting the error of the calculated position and time information using another satellite is also used. The GPS module continuously calculates the current position in real time and uses the same to calculate speed information.
도 1을 참조하면, A/V(Audio/Video) 입력부(120)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(121)와 오디오 수신부(122) 등이 포함될 수 있다. 카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다.Referring to FIG. 1, the A / V input unit 120 is for inputting an audio signal or a video signal, and may include a camera 121 and an audio receiver 122. The camera 121 processes image frames such as still images or moving images obtained by the image sensor in the video call mode or the photographing mode. The processed image frame may be displayed on the display unit 151.
카메라(121)에서 처리된 화상 프레임은 메모리부(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 카메라(121)는 전자 기기(100)의 구성 태양에 따라 2개 이상이 구비될 수도 있다.The image frame processed by the camera 121 may be stored in the memory unit 160 or transmitted to the outside through the wireless communication unit 110. Two or more cameras 121 may be provided according to the configuration aspect of the electronic device 100.
상기 오디오 수신부(122)는, 통화모드 또는 녹음모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화 모드인 경우 이동통신 모듈(112)을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 상기 오디오 수신부(122)에는 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.The audio receiver 122 receives an external sound signal by a microphone in a call mode, a recording mode, a voice recognition mode, etc., and processes the external sound signal into electrical voice data. The processed voice data may be converted into a form transmittable to the mobile communication base station through the mobile communication module 112 and output in the call mode. The audio receiver 122 may implement various noise removing algorithms for removing noise generated in the process of receiving an external sound signal.
사용자 입력부(130)는 사용자가 전자 기기(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키 패드(key pad) 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. The user input unit 130 generates input data for the user to control the operation of the electronic device 100. The user input unit 130 may include a key pad dome switch, a touch pad (static pressure / capacitance), a jog wheel, a jog switch, and the like.
센싱부(140)는 전자 기기(100)의 개폐 상태, 전자 기기(100)의 위치, 사용자 접촉 유무, 전자 기기(100)의 방위, 전자 기기(100)의 가속/감속 등과 같이 전자 기기(100)의 현재 상태 또는 외부 환경을 감지하여 전자 기기(100)의 동작을 제어하기 위한 센싱 신호를 발생시킨다. 예를 들어 전자 기기(100)가 슬라이드 폰 형태인 경우 슬라이드 폰의 개폐 여부를 센싱할 수 있다. 또한, 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등과 관련된 센싱 기능을 담당할 수도 있다. 한편, 상기 센싱부(140)는 근접 센서(142)를 포함할 수 있다. The sensing unit 140 is an electronic device 100 such as an open / closed state of the electronic device 100, a location of the electronic device 100, a presence or absence of a user contact, an orientation of the electronic device 100, an acceleration / deceleration of the electronic device 100, or the like. A sensing signal for controlling the operation of the electronic device 100 is generated by detecting a current state or an external environment. For example, when the electronic device 100 is in the form of a slide phone, it may sense whether the slide phone is opened or closed. In addition, it may be responsible for sensing functions related to whether the power supply unit 190 is supplied with power, whether the interface unit 170 is coupled to an external device, and the like. The sensing unit 140 may include a proximity sensor 142.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 디스플레이부(151), 음향 출력 모듈(152), 알람부(153) 및 햅틱 모듈(154) 등이 포함될 수 있다.The output unit 150 is used to generate an output related to sight, hearing, or tactile sense, and may include a display unit 151, an audio output module 152, an alarm unit 153, and a haptic module 154. have.
디스플레이부(151)는 전자 기기(100)에서 처리되는 정보를 표시 출력한다. 예를 들어, 전자 기기(100)가 통화 모드인 경우 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 전자 기기(100)가 화상 통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다. The display unit 151 displays and outputs information processed by the electronic device 100. For example, when the electronic device 100 is in a call mode, the electronic device 100 displays a user interface (UI) or a graphic user interface (GUI) related to the call. When the electronic device 100 is in a video call mode or a photographing mode, the electronic device 100 displays a photographed and / or received image, a UI, or a GUI.
디스플레이부(151)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. The display unit 151 may be a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, or a three-dimensional display. 3D display).
이들 중 일부 디스플레이는 그를 통해 외부를 볼 수 있도록 투명형 또는 광투과형으로 구성될 수 있다. 이는 투명 디스플레이라 호칭될 수 있는데, 상기 투명 디스플레이의 대표적인 예로는 투명 LCD 등이 있다. 디스플레이부(151)의 후방 구조 또한 광 투과형 구조로 구성될 수 있다. 이러한 구조에 의하여, 사용자는 전자 기기(100) 바디의 디스플레이부(151)가 차지하는 영역을 통해 전자 기기(100) 바디의 후방에 위치한 사물을 볼 수 있다.Some of these displays can be configured to be transparent or light transmissive so that they can be seen from the outside. This may be referred to as a transparent display. A representative example of the transparent display is a transparent LCD. The rear structure of the display unit 151 may also be configured as a light transmissive structure. With this structure, the user can see an object located behind the body of the electronic device 100 through the area occupied by the display unit 151 of the body of the electronic device 100.
전자 기기(100)의 구현 형태에 따라 디스플레이부(151)이 2개 이상 존재할 수 있다. 예를 들어, 전자 기기(100)에는 복수의 디스플레이부들이 하나의 면에 이격되거나 일체로 배치될 수 있고, 또한 서로 다른 면에 각각 배치될 수도 있다. Two or more display units 151 may exist according to the implementation form of the electronic device 100. For example, a plurality of display units may be spaced apart or integrally disposed on one surface of the electronic device 100, or may be disposed on different surfaces.
디스플레이부(151)와 터치 동작을 감지하는 센서(이하, '터치 센서'라 함)가 상호 레이어 구조를 이루는 경우(이하, '터치 스크린'이라 약칭함)에, 디스플레이부(151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 센서는, 예를 들어, 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다.When the display unit 151 and a sensor for detecting a touch operation (hereinafter, referred to as a touch sensor) form a mutual layer structure (hereinafter, abbreviated as “touch screen”), the display unit 151 is an output device. It can also be used as an input device. The touch sensor may have, for example, a form of a touch film, a touch sheet, a touch pad, or the like.
터치 센서는 디스플레이부(151)의 특정 부위에 가해진 압력 또는 디스플레이부(151)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는 터치 되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. The touch sensor may be configured to convert a change in pressure applied to a specific portion of the display unit 151 or capacitance generated in a specific portion of the display unit 151 into an electrical input signal. The touch sensor may be configured to detect not only the position and area of the touch but also the pressure at the touch.
터치 센서에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기로 보내진다. 터치 제어기는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 디스플레이부(151)의 어느 영역이 터치 되었는지 여부 등을 알 수 있게 된다.If there is a touch input to the touch sensor, the corresponding signal (s) is sent to the touch controller. The touch controller processes the signal (s) and then transmits the corresponding data to the controller 180. As a result, the controller 180 can know which area of the display unit 151 is touched.
상기 터치스크린에 의해 감싸지는 전자 기기(100)의 내부 영역 또는 상기 터치 스크린의 근처에 상기 근접 센서(142)가 배치될 수 있다. 상기 근접 센서(142)는 소정의 검출면에 접근하는 물체, 혹은 근방에 존재하는 물체의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 상기 근접 센서(142)는 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다. The proximity sensor 142 may be disposed in an inner region of the electronic device 100 covered by the touch screen or near the touch screen. The proximity sensor 142 refers to a sensor that detects the presence or absence of an object approaching a predetermined detection surface or an object present in the vicinity without using mechanical force by using an electromagnetic force or infrared rays. The proximity sensor 142 has a longer life and higher utilization than a contact sensor.
상기 근접 센서(142)의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다.Examples of the proximity sensor 142 include a transmission photoelectric sensor, a direct reflection photoelectric sensor, a mirror reflection photoelectric sensor, a high frequency oscillation proximity sensor, a capacitive proximity sensor, a magnetic proximity sensor, and an infrared proximity sensor.
상기 터치스크린이 정전식인 경우에는 상기 포인터의 근접에 따른 전계의 변화로 상기 포인터의 근접을 검출하도록 구성된다. 이 경우 상기 터치 스크린(터치 센서)은 근접 센서로 분류될 수도 있다.When the touch screen is capacitive, the touch screen is configured to detect the proximity of the pointer by the change of the electric field according to the proximity of the pointer. In this case, the touch screen (touch sensor) may be classified as a proximity sensor.
이하에서는 설명의 편의를 위해, 상기 터치스크린 상에 포인터가 접촉되지 않으면서 근접되어 상기 포인터가 상기 터치스크린 상에 위치함이 인식되도록 하는 행위를 "근접 터치(proximity touch)"라고 칭하고, 상기 터치스크린 상에 포인터가 실제로 접촉되는 행위를 "접촉 터치(contact touch)"라고 칭한다. 상기 터치스크린 상에서 포인터로 근접 터치가 되는 위치라 함은, 상기 포인터가 근접 터치될 때 상기 포인터가 상기 터치스크린에 대해 수직으로 대응되는 위치를 의미한다.Hereinafter, for convenience of explanation, the act of allowing the pointer to be recognized without being in contact with the touch screen so that the pointer is located on the touch screen is referred to as a "proximity touch", and the touch The act of actually touching the pointer on the screen is called "contact touch." The position where the proximity touch is performed by the pointer on the touch screen refers to a position where the pointer is perpendicular to the touch screen when the pointer is in proximity proximity.
상기 근접센서(142)는, 근접 터치 및 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 상기 감지된 근접 터치 동작 및 근접 터치 패턴에 상응하는 정보는 터치 스크린상에 출력될 수 있다. The proximity sensor 142 detects a proximity touch and a proximity touch pattern (for example, a proximity touch distance, a proximity touch direction, a proximity touch speed, a proximity touch time, a proximity touch position, and a proximity touch movement state). Information corresponding to the sensed proximity touch operation and proximity touch pattern may be output on the touch screen.
음향 출력 모듈(152)은 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리부(160)에 저장된 오디오 데이터를 출력할 수도 있다. 음향 출력 모듈(152)은 전자 기기(100)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력한다. 이러한 음향 출력 모듈(152)에는 리시버(Receiver), 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다. 또한 상기 음향 출력 모듈(152)은, 이어폰잭(116)을 통해 음향을 출력할 수 있다. 사용자는 상기 이어폰잭(116)에 이어폰을 연결하여 출력되는 음향을 들을 수 있다.The sound output module 152 may output audio data received from the wireless communication unit 110 or stored in the memory unit 160 in a call signal reception, a call mode or a recording mode, a voice recognition mode, a broadcast reception mode, and the like. The sound output module 152 outputs a sound signal related to a function (for example, a call signal reception sound or a message reception sound) performed in the electronic device 100. The sound output module 152 may include a receiver, a speaker, a buzzer, and the like. In addition, the sound output module 152 may output sound through the earphone jack 116. The user can hear the sound output by connecting the earphone to the earphone jack 116.
알람부(153)는 전자 기기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 전자 기기(100)에서 발생 되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 터치 입력 등이 있다. 알람부(153)는 비디오 신호나 오디오 신호 이외에 다른 형태, 예를 들어 진동으로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 비디오 신호나 오디오 신호는 디스플레이부(151)이나 음향 출력 모듈(152)을 통해서도 출력될 수 있다.The alarm unit 153 outputs a signal for notifying occurrence of an event of the electronic device 100. Examples of events generated in the electronic device 100 include call signal reception, message reception, key signal input, and touch input. The alarm unit 153 may output a signal for notifying occurrence of an event in a form other than a video signal or an audio signal, for example, vibration. The video signal or the audio signal may also be output through the display unit 151 or the sound output module 152.
햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(154)이 발생하는 진동의 세기와 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다. The haptic module 154 generates various haptic effects that a user can feel. Vibration is a representative example of the haptic effect generated by the haptic module 154. The intensity and pattern of vibration generated by the haptic module 154 can be controlled. For example, different vibrations may be synthesized and output or may be sequentially output.
햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열에 의한 자극에 의한 효과, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력을 통한 자극에 의한 효과, 피부 표면을 스치는 자극에 의한 효과, 전극(eletrode)의 접촉을 통한 자극에 의한 효과, 정전기력을 이용한 자극에 의한 효과, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다. In addition to the vibration, the haptic module 154 may be used for the effects of stimulation by the arrangement of pins vertically moving with respect to the contact skin surface, the effect of the injection force of the air through the injection or inlet or the stimulation through the suction force, and the stimulation that rubs the skin surface. Various tactile effects may be generated, such as effects by stimulation through contact of electrodes, effects by stimulation using electrostatic force, and effects of reproducing a sense of warmth and heat using an endothermic or heat generating element.
햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과의 전달할 수 있을 뿐만 아니라, 사용자의 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구현할 수도 있다. 햅틱 모듈(154)은 전자 기기(100)의 구성 태양에 따라 2개 이상이 구비될 수 있다.The haptic module 154 may not only deliver the haptic effect through direct contact, but also implement the haptic effect through the muscle sense of the user's finger or arm. Two or more haptic modules 154 may be provided according to a configuration aspect of the electronic device 100.
메모리부(160)는 제어부(180)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 폰북, 메시지, 정지영상, 동영상 등)을 임시 저장할 수도 있다. 상기 메모리부(160)는 상기 터치스크린 상의 터치 입력시 출력되는 다양한 패턴의 진동 및 음향에 관한 데이터를 저장할 수 있다.The memory unit 160 may store a program for the operation of the controller 180 and may temporarily store input / output data (for example, a phone book, a message, a still image, a video, etc.). The memory unit 160 may store data regarding vibration and sound of various patterns output when a touch input on the touch screen is performed.
상기 메모리부(160)는, 음성 인식에 필요한 음향 모델, 인식 사전을 포함할 수 있다. 또한 상기 메모리부(160)는, 언어 모델을 포함할 수 있다.The memory unit 160 may include an acoustic model and a recognition dictionary required for speech recognition. In addition, the memory unit 160 may include a language model.
상기 인식 사전은, 특정 언어로 구성되는 단어, 어절, 키워드 및 표현 중 적어도 하나를 포함할 수 있다.The recognition dictionary may include at least one of a word, a word, a keyword, and an expression formed in a specific language.
메모리부(160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 전자 기기(100)는 인터넷(internet)상에서 상기 메모리부(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.The memory unit 160 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory), Random Access Memory (RAM), Static Random Access Memory (SRAM), Read-Only Memory (ROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Programmable Read-Only Memory (PROM) Magnetic Memory, Magnetic It may include a storage medium of at least one type of disk, optical disk. The electronic device 100 may operate in association with a web storage that performs a storage function of the memory unit 160 on the Internet.
인터페이스부(170)는 전자 기기(100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(170)는 외부 기기로부터 데이터를 전송받거나 전원을 공급받아 전자 기기(100) 내부의 각 구성 요소에 전달하거나 전자 기기(100) 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 인터페이스부(170)에 포함될 수 있다. The interface unit 170 serves as a path with all external devices connected to the electronic device 100. The interface unit 170 receives data from an external device or receives power and transmits the data to each component in the electronic device 100, or transmits the data inside the electronic device 100 to an external device. For example, wired / wireless headset ports, external charger ports, wired / wireless data ports, memory card ports, ports for connecting devices with identification modules, audio input / output (I / O) ports, The video input / output (I / O) port, the earphone port, and the like may be included in the interface unit 170.
식별 모듈은 전자 기기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module, UIM), 가입자 인증 모듈(Subscriber Identify Module, SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module, USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 포트를 통하여 전자 기기(100)와 연결될 수 있다. The identification module is a chip that stores various types of information for authenticating the use authority of the electronic device 100, and includes a user identification module (UIM), a subscriber identify module (SIM), and a universal user authentication module ( Universal Subscriber Identity Module (USIM), and the like. A device equipped with an identification module (hereinafter referred to as an 'identification device') may be manufactured in the form of a smart card. Therefore, the identification device may be connected to the electronic device 100 through a port.
상기 인터페이스부(170)는 전자 기기(100)가 외부 크래들(cradle)과 연결될 때 상기 크래들로부터의 전원이 상기 전자 기기(100)에 공급되는 통로가 되거나, 사용자에 의해 상기 크래들에서 입력되는 각종 명령 신호가 상기 전자 기기(100)로 전달되는 통로가 될 수 있다. 상기 크래들로부터 입력되는 각종 명령 신호 또는 상기 전원은 상기 전자 기기(100)가 상기 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작될 수도 있다.The interface unit 170 may be a passage through which power from the cradle is supplied to the electronic device 100 when the electronic device 100 is connected to an external cradle, or various commands input by the user from the cradle. It may be a passage through which a signal is transmitted to the electronic device 100. Various command signals or power input from the cradle may operate as signals for recognizing that the electronic device 100 is correctly mounted on the cradle.
상기 음성 검출부(182)는, 상기 오디오 수신부(122)를 통해 입력된 오디오 신호에 포함된 음성 신호를 검출한다. 상기 음성 검출부(182)는, 상기 오디오 신호에 음성의 존재 여부를 판별할 수 있다. 상기 음성 검출부(182)는 일반적으로 VAD(Voice Activity Detector, Voice Activity Detection)로 호칭된다.The voice detector 182 detects a voice signal included in the audio signal input through the audio receiver 122. The voice detector 182 may determine whether voice is present in the audio signal. The voice detector 182 is generally referred to as a voice activity detector (VAD).
상기 음성 검출부(182)는, 상기 오디오 신호를 일정 구간 또는 일정 시간만큼 버퍼링(buffering)하면서, 음성을 검출할 수 있다.The voice detector 182 may detect the voice while buffering the audio signal for a predetermined period or a predetermined time.
상기 음성 인식부(183)는, 상기 오디오 수신부(122)를 통해 입력된 오디오 신호 또는 음성 신호에 대한 음성인식을 수행하고, 상기 인식된 음성에 대응되는 적어도 하나의 인식후보를 획득한다.The voice recognition unit 183 performs voice recognition on the audio signal or the voice signal input through the audio receiver 122, and obtains at least one recognition candidate corresponding to the recognized voice.
예를 들어, 상기 음성 인식부(183)는, 상기 입력된 음성 신호로부터 음성구간을 검출하고 음향분석을 수행한 후 이를 인식 단위로 인식함으로써 상기 입력된 음성 신호를 인식할 수 있다. 그리고 상기 음성 인식부(183)는, 상기 메모리(160)에 저장된 인식 사전과 번역 데이터베이스를 참조하여 상기 음성인식된 결과에 대응되는 상기 적어도 하나의 인식후보를 획득할 수 있다.For example, the voice recognition unit 183 may recognize the input voice signal by detecting a voice section from the input voice signal, performing a sound analysis, and recognizing it as a recognition unit. The voice recognition unit 183 may obtain the at least one recognition candidate corresponding to the speech recognition result by referring to a recognition dictionary and a translation database stored in the memory 160.
상기 음성 인식부(183)는, 상기 음성 검출부(182)를 포함하여 구성될 수도 있다.The voice recognition unit 183 may include the voice detection unit 182.
상기 음성 합성부(184)는, TTS(Text-To-Speech) 엔진을 이용하여 텍스트를 음성으로 변환한다. TTS 기술은 문자 정보 또는 기호를 인간의 음성으로 변환하여 들려주는 기술이다. TTS 기술은, 언어의 모든 음소에 대한 발음 데이터베이스를 구축하고 이를 연결시켜 연속된 음성을 생성하게 되는데, 이때 음성의 크기, 길이, 높낮이 등을 조절하여 자연스러운 음성을 합성해 내는 것으로서 이를 위해 자연어 처리 기술이 포함될 수 있다. TTS 기술은 CTI, PC, PDA 및 이동전화 등의 전자통신 분야와 녹음기, 장난감, 게임기 등의 가전 분야에서 쉽게 볼 수 있고, 공장에서 생산성 향상에 기여하거나 보다 편리한 일상생활을 위한 홈오토메이션 시스템 등에 널리 쓰여지고 있다. TTS 기술은 공지 기술이므로 더 이상의 상세한 설명은 생략하기로 한다.The speech synthesizer 184 converts text into speech using a text-to-speech engine. TTS technology is a technology that converts the character information or symbols into a human voice to hear. TTS technology generates a continuous speech by building a pronunciation database for all phonemes of the language and connecting them. In this case, natural speech processing technology is synthesized by adjusting the size, length, and height of the voice. This may be included. TTS technology can be easily found in electronic communication fields such as CTI, PC, PDA, and mobile phones, and in consumer electronics such as recorders, toys, and game machines, and is widely used in home automation systems for improving productivity in the factory or for more convenient everyday life. It is written. Since the TTS technology is a known technology, a detailed description thereof will be omitted.
한편 상기 음성 검출부(182) 및 상기 음성 인식부(183)가 반드시 상기 전자 기기(100)에 구비되어야 하는 것은 아니다. 예를 들어, 상기 음성 검출부(182) 및 상기 음성 인식부(183) 중 적어도 하나는, 상기 전자 기기(100)의 외부에 존재할 수도 있다. 도 3은 상기 전자 기기(100)와 외부 서버(300)가 인터넷(400)으로 연결된 개념도이다.Meanwhile, the voice detector 182 and the voice recognizer 183 are not necessarily provided in the electronic device 100. For example, at least one of the voice detector 182 and the voice recognizer 183 may exist outside the electronic device 100. 3 is a conceptual diagram in which the electronic device 100 and the external server 300 are connected to the Internet 400.
상기 외부 서버(300)는, 상기 음성 인식부(183)를 포함할 수 있다. 상기 전자 기기(100)는, 상기 음성 검출부(182)를 구비하고 상기 음성 인식부(183)를 구비하지 않을 수 있다. 상기 전자 기기(100)는, 상기 음성 검출부(182)를 이용하여 상기 오디오 수신부(122)로부터 수신된 오디오 신호로부터 음성 구간을 검출하고, 상기 검출된 음성 구간을 상기 외부 서버(300)로 전송할 수 있다.The external server 300 may include the voice recognition unit 183. The electronic device 100 may include the voice detector 182 and may not include the voice recognizer 183. The electronic device 100 may detect a voice section from the audio signal received from the audio receiver 122 using the voice detector 182 and transmit the detected voice section to the external server 300. have.
상기 외부 서버(300)는 상기 전자 기기(100)로부터 전송된 상기 음성 구간을 상기 음성 인식부(183)를 통해 음성 인식하고, 그 인식 결과를 상기 전자 기기(100)로 전송할 수 있다.The external server 300 may recognize the voice section transmitted from the electronic device 100 through the voice recognition unit 183, and transmit the recognition result to the electronic device 100.
한편 상기 외부 서버(300)는, 상기 음성 검출부(182)와 상기 음성 인식부(183)를 포함할 수 있다. 상기 전자 기기(100)는, 상기 오디오 수신부(122)로부터 수신된 오디오 신호를 상기 외부 서버(300)로 전송할 수 있다.The external server 300 may include the voice detector 182 and the voice recognizer 183. The electronic device 100 may transmit the audio signal received from the audio receiver 122 to the external server 300.
상기 외부 서버(300)는, 상기 음성 검출부(182) 및 상기 음성 인식부(183)를 이용하여 상기 전자 기기(100)로부터 수신된 오디오 신호로부터 음성을 검출하여 음성 인식하고, 그 인식 결과를 상기 전자 기기(100)로 전송할 수 있다.The external server 300 detects the voice from the audio signal received from the electronic device 100 using the voice detector 182 and the voice recognizer 183 to recognize the voice, and recognizes the recognition result. It may transmit to the electronic device 100.
제어부(180)는 통상적으로 상기 전자 기기(100)의 전반적인 동작을 제어한다. 예를 들어 음성 통화, 데이터 통신, 화상 통화, 음성 인식 등을 위한 관련된 제어 및 처리를 수행한다. 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(181)을 구비할 수도 있다. 멀티미디어 모듈(181)은 제어부(180) 내에 구현될 수도 있고, 제어부(180)와 별도로 구현될 수도 있다.The controller 180 typically controls the overall operation of the electronic device 100. For example, it performs related control and processing for voice call, data communication, video call, voice recognition and the like. The controller 180 may include a multimedia module 181 for playing multimedia. The multimedia module 181 may be implemented in the controller 180 or may be implemented separately from the controller 180.
상기 제어부(180)는 상기 터치스크린 상에서 행해지는 필기 입력 또는 그림 그리기 입력을 각각 문자 및 이미지로 인식할 수 있는 패턴 인식 처리를 행할 수 있다. The controller 180 may perform a pattern recognition process for recognizing a writing input or a drawing input performed on the touch screen as text and an image, respectively.
전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.The power supply unit 190 receives an external power source and an internal power source under the control of the controller 180 to supply power for operation of each component.
여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.Various embodiments described herein may be implemented in a recording medium readable by a computer or similar device using, for example, software, hardware or a combination thereof.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 그러한 실시예들이 제어부(180)에 의해 구현될 수 있다.According to a hardware implementation, the embodiments described herein include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs), and the like. It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and electrical units for performing the functions. It may be implemented by the controller 180.
소프트웨어적인 구현에 의하면, 절차나 기능과 같은 실시예들은 적어도 하나의 기능 또는 작동을 수행하게 하는 별개의 소프트웨어 모듈과 함께 구현될 수 있다. 소프트웨어 코드는 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다. 또한, 소프트웨어 코드는 메모리부(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.In a software implementation, embodiments such as procedures or functions may be implemented with separate software modules that allow at least one function or operation to be performed. The software code may be implemented by a software application written in a suitable programming language. In addition, the software code may be stored in the memory unit 160 and executed by the controller 180.
이하 본 발명의 실시예들을 설명하기로 한다. 본 발명의 실시예들은, 도 1 내지 도 3을 참조하여 설명한 상기 전자 기기(100)에서 구현될 수 있다. 이하 설명의 편의를 위하여 상기 전자 기기(100)를 이동 단말기로 가정하여 본 발명의 실시예들을 설명하기로 한다. 전술한 바와 같이, 본 문서에서 개시되는 기술적 사상은, 다양한 전자 기기에 적용될 수 있음을 분명히 밝혀둔다.Hereinafter, embodiments of the present invention will be described. Embodiments of the present invention may be implemented in the electronic device 100 described with reference to FIGS. 1 to 3. Hereinafter, for convenience of description, the embodiments of the present invention will be described assuming that the electronic device 100 is a mobile terminal. As mentioned above, it is clear that the technical idea disclosed in the present document can be applied to various electronic devices.
도 4는 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다. 도 5 내지 도 8은, 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 이하 필요한 도면들을 참조하여, 본 발명의 제1 실시예에 따른 전자 기기의 음성 인식 방법과, 이를 구현하기 위한 상기 전자 기기(100)의 동작을 상세히 설명하기로 한다.4 is a flowchart of a voice recognition method of an electronic device according to a first embodiment of the present invention. 5 to 8 are diagrams for describing a voice recognition method of an electronic device according to a first embodiment of the present invention. Hereinafter, a voice recognition method of an electronic device and an operation of the electronic device 100 for implementing the same will be described in detail with reference to the accompanying drawings.
상기 제어부(180)는, 상기 오디오 수신부(122)를 통해 음성을 수신한다[S100]. 상기 음성은, 복수의 숫자들을 포함할 수 있다.The controller 180 receives a voice through the audio receiver 122 [S100]. The voice may include a plurality of numbers.
도 5(a)는 사용자의 음성을 입력받기 위한 대기 모드에 대응되는 화면의 예를 도시한다. 상기 제어부(180)는, 도 5(a)에 도시된 화면 상태에서 사용자의 음성을 수신할 수 있다(도 5(b)를 참조).5A illustrates an example of a screen corresponding to a standby mode for receiving a voice of a user. The controller 180 can receive a user's voice in the screen state shown in FIG. 5A (see FIG. 5B).
상기 제어부(180)는, 상기 음성 인식부(183)를 제어하여 상기 수신된 음성에 대해 음성인식(voice recognition)을 수행한다[S110].The controller 180 controls the voice recognition unit 183 to perform voice recognition on the received voice [S110].
도 5의 예에서, 상기 제어부(180)는, 사용자가 말한 "Call 225 6142"에서 "Call"과 나머지 숫자 부분을 분리하여 음성인식할 수 있다. "Call"은 콜 기능에 대응되는 명령어이다.In the example of FIG. 5, the controller 180 may recognize voice by separating “Call” and the remaining numeric part from “Call 225 6142” spoken by a user. "Call" is a command corresponding to a call function.
상기 제어부(180)는, "Call"을 인식하면, "Call" 이후에 수신되는 숫자를 음성인식하여 상기 인식된 숫자에 대응되는 수신측으로 콜을 발신할 수 있다.When the controller 180 recognizes the "Call", the controller 180 may recognize the number received after the "Call" by voice recognition and send a call to the receiver corresponding to the recognized number.
상기 제어부(180)는, 상기 음성인식의 결과가 서로 다른 부분을 강조하여, 복수의 인식후보들을 상기 디스플레이부(151)에 표시한다[S120].The controller 180 highlights different portions of the results of the voice recognition and displays a plurality of recognition candidates on the display unit 151 [S120].
도 5(c)는, 상기 복수의 인식후보들이 상기 디스플레이부(151)에 표시되는 예를 도시한다.FIG. 5C illustrates an example in which the plurality of recognition candidates are displayed on the display unit 151.
도 5의 예에서, 상기 제어부(180)는, 상기 복수의 숫자들(225 6142)에 대한 음성인식 결과로서, 도 5(c)에 도시된 바와 같이, 복수의 서로 다른 숫자열들(10)에 각각 대응되는 복수의 인식후보들(10)을 상기 디스플레이부(151)에 표시할 수 있다.In the example of FIG. 5, the controller 180 is a voice recognition result for the plurality of numbers 225 6142, and as shown in FIG. 5C, a plurality of different numeric strings 10. A plurality of recognition candidates 10 respectively corresponding to may be displayed on the display unit 151.
여기서 상기 제어부(180)는, 상기 서로 다른 숫자열들(10) 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시한다.In this case, the controller 180 highlights and displays numbers having different voice recognition results between the different strings of numbers 10.
상기 서로 다른 숫자들의 강조는, 다양한 방식으로 이루어질 수 있다. 예를 들어 상기 제어부(180)는, 상기 음성인식 결과가 서로 다른 숫자들을 하이라이트하거나, 상기 음성인식 결과가 서로 다른 숫자들의 색상, 폰트 및 크기 중 적어도 하나를 이용하여 상기 음성인식 결과가 서로 다른 숫자들을 강조할 수 있다.The different numbers of emphasis can be made in a variety of ways. For example, the controller 180 highlights numbers having different voice recognition results or uses different numbers of voice recognition results by using at least one of colors, fonts, and sizes of numbers with different voice recognition results. Can be emphasized.
또한 상기 제어부(180)는, 상기 음성인식 결과로서 인식 스코어가 가장 높은 인식후보 순으로 정렬하여 복수의 인식후보들(10)을 상기 디스플레이부(151)에 표시한다.In addition, the controller 180 displays the plurality of recognition candidates 10 on the display unit 151 in the order of recognition candidates having the highest recognition scores as the speech recognition result.
예를 들어 도 5(c)를 참조하면, 상기 제어부(180)는, 인식 스코어가 가장 높은 제1 인식후보(10a)를 제일 상단에 표시한다. 그리고, 인식 스코어가 높은 순서대로 제2 인식후보(10b)와 제3 인식후보(10c)를 표시한다.For example, referring to FIG. 5C, the controller 180 displays the first recognition candidate 10a having the highest recognition score at the top. Then, the second recognition candidate 10b and the third recognition candidate 10c are displayed in the order of the recognition scores being high.
상기 제어부(180)는, 상기 서로 다른 숫자열들(10)에 대해 동일한 위치에 해당하는 숫자끼리 비교하고, 상기 비교 결과 상기 동일한 위치에 해당하는 숫자가 서로 다르면, 상기 서로 다른 숫자들을 강조하여 표시할 수 있다.The controller 180 compares the numbers corresponding to the same position with respect to the different strings of numbers 10, and if the numbers corresponding to the same positions are different from each other, the different numbers are highlighted. can do.
예를 들어 도 6을 참조하면, 상기 제어부(180)는 상기 복수의 인식후보들(10) 각각을 구성하는 숫자열의 동일한 위치(예를 들어, 제1 내지 제7 열(column))에 해당하는 숫자들끼리 동일성을 비교한다. 도 6에서는, 제1열 내지 제3열과, 제5열 및 제6열은 동일하고, 제4열 및 제7열이 서로 다른 숫자를 포함한다.For example, referring to FIG. 6, the controller 180 may have a number corresponding to the same position (eg, first to seventh column) of a number string constituting each of the plurality of recognition candidates 10. Compare the sameness between the fields. In FIG. 6, the first to third columns, the fifth and sixth columns are the same, and the fourth and seventh columns include different numbers.
상기 제어부(180)는, 상기 복수의 인식후보들(10) 중 특정 인식후보에 대한 선택 신호를 수신하고[S130], 상기 선택된 특정 인식후보를 수신측으로 하여 콜(call)을 발신한다[S140].The controller 180 receives a selection signal for a specific recognition candidate among the plurality of recognition candidates 10 [S130], and sends a call to the selected specific recognition candidate as a receiving side [S140].
예를 들어 도 7을 참조하면, 사용자가 상기 제1 인식후보(10a)를 선택하면, 상기 제어부(180)는 상기 제1 인식후보(10a)에 대응되는 숫자열을 수신 전화번호로 하여 콜을 발신한다.For example, referring to FIG. 7, when a user selects the first recognition candidate 10a, the controller 180 makes a call using a number string corresponding to the first recognition candidate 10a as a received telephone number. Send.
한편 상기 제어부(180)는 다른 방식으로 사용자로부터 콜 발신 명령을 수신하여, 콜을 발신할 수 있다.On the other hand, the controller 180 can receive a call originating command from the user in another way, and send a call.
예를 들어 도 8을 참조하면, 상기 제어부(180)는, 상기 복수의 인식후보들(10)을 제공함에 있어서, 각 인식후보의 식별자로서 서수를 대응시켜 표시할 수 있다. 도 8(a)에서는, 상기 제1 인식후보(10a)는 "1"에, 상기 제2 인식후보(10b)는 "2"에, 상기 제3 인식후보(10c)는 "3"에 각각 대응되어 있다.For example, referring to FIG. 8, in providing the plurality of recognition candidates 10, the controller 180 may display an ordinal number as an identifier of each recognition candidate. In FIG. 8A, the first recognition candidate 10a corresponds to "1", the second recognition candidate 10b corresponds to "2", and the third recognition candidate 10c corresponds to "3". It is.
사용자는 상기 복수의 인식부호들(10) 중 자신이 원하는 인식후보에 대응된 서수를 음성으로 말할 수 있다(도 8(b)를 참조). 상기 제어부(180)는 사용자의 음성을 인식하고, 이에 대응되는 서수가 지시하는 인식후보를 선택하고, 상기 선택된 인식후보를 수신측으로 하여 콜을 발신한다(도 8(c)를 참조).The user may speak an ordinal number corresponding to a recognition candidate desired by the user, from among the plurality of recognition codes 10 (see FIG. 8B). The controller 180 recognizes the user's voice, selects a recognition candidate indicated by an ordinal corresponding thereto, and sends a call to the selected recognition candidate as a receiving side (see FIG. 8C).
전술한 본 발명의 제1 실시예에 의하면, 사용자는 자신이 발성한 내용에 대한 결과를 쉽게 인지하고, 원하는 인식후보에 대한 접근성이 향상될 수 있다. 따라서, 사용자는 자신이 원하는 결과에 쉽게 접근하고, 이를 빨리 선택할 수 있다.According to the first embodiment of the present invention described above, the user can easily recognize the result of the contents spoken by the user, and the accessibility to the desired candidate can be improved. Thus, the user can easily access the desired result and select it quickly.
도 9는 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다. 도 10 내지 도 15는, 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 이하 필요한 도면들을 참조하여, 본 발명의 제2 실시예에 따른 전자 기기의 음성 인식 방법과, 이를 구현하기 위한 상기 전자 기기(100)의 동작을 상세히 설명하기로 한다.9 is a flowchart of a voice recognition method of an electronic device according to a second embodiment of the present invention. 10 to 15 are diagrams for describing a voice recognition method of an electronic device according to a second embodiment of the present invention. Hereinafter, a voice recognition method of an electronic device and an operation of the electronic device 100 to implement the same will be described in detail with reference to the accompanying drawings.
상기 제어부(180)는, 상기 오디오 수신부(122)를 통해 음성을 수신한다[S200].The controller 180 receives a voice through the audio receiver 122 [S200].
상기 제어부(180)는, 상기 수신된 음성에 대해 음성인식을 수행하여, 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는지를 판단한다[S210].The controller 180 performs voice recognition on the received voice to determine whether the received voice includes a first predefined keyword representing an international call [S210].
상기 제1 키워드는 다양할 수 있다. 일반적으로 "+"는 국제전화를 의미하는 기호로 통용된다.The first keyword may vary. In general, "+" is a symbol for international calls.
상기 제1 키워드의 예를 들면, "+", "plus", "international" 등이 있다. 즉 상기 제어부(180)는, 상기 수신된 음성에 대한 음성인식의 수행 결과, 상기 수신된 음성이 국제전화를 나타내는 상기 제1 키워드를 포함하는지를 판단하게 된다.Examples of the first keyword include "+", "plus", "international", and the like. That is, the controller 180 determines whether the received voice includes the first keyword indicating an international call as a result of performing voice recognition on the received voice.
상기 제어부(180)는, 상기 S210 단계의 판단 결과, 상기 수신된 음성이 상기 제1 키워드를 포함하면, 상기 제1 키워드에 이어서 수신되는 제2 키워드를 국가코드번호로 가정하여 음성인식을 수행한다[S220]. 그리고 상기 제어부(180)는, 상기 제2 키워드에 이어서 수신되는 복수의 음절들을 전화번호로 가정하여 음성인식을 수행한다[S230].If the received voice includes the first keyword, the controller 180 performs voice recognition assuming a second keyword received after the first keyword as a country code number, when the received voice includes the first keyword. [S220]. The controller 180 performs voice recognition assuming a plurality of syllables received after the second keyword as a phone number [S230].
예를 들어 도 10 및 도 11을 참조하면, 상기 제어부(180)는, 콜 발신 기능을 수행하기 위한 음성인식 화면에서(도 10(a)를 참조), 음성을 입력받는다(도 10(b)를 참조).For example, referring to FIGS. 10 and 11, the controller 180 receives a voice from a voice recognition screen for performing a call origination function (see FIG. 10 (a)) (FIG. 10 (b)). See).
도 10(b)에 도시된 사용자가 발성한 음성의 내용은, 도 11에 도시된 구조를 갖는다. 도 11에 도시된 구조는, 전화 발신 기능에 대응되는 키워드(30)로 시작하고, 상기 키워드(30)에 뒤이어 국제전화를 나타내는 상기 제1 키워드(31)를 포함한다.The content of the voice spoken by the user shown in FIG. 10 (b) has the structure shown in FIG. 11. The structure shown in Fig. 11 starts with a keyword 30 corresponding to a call origination function, and includes the first keyword 31 representing the international call following the keyword 30.
상기 제어부(180)는, 상기 제1 키워드(31)를 음성인식함에 따라, 상기 제1 키워드(31)에 이어서 수신되는 제2 키워드(32)를 국가코드번호로 가정하여 음성인식하게 된다.As the voice recognition of the first keyword 31, the controller 180 assumes a second keyword 32 received after the first keyword 31 as a country code number and performs voice recognition.
상기 메모리(160)는, 국가와 국가코드번호를 매칭시킨 데이터베이스를 저장할 수 있다. 예를 들어, 국가 "Korea"는 국가코드번호 "82"에 매칭되고, 국가 "USA"는 국가코드번호 "1"에 매칭되어 있다.The memory 160 may store a database in which a country and a country code number are matched. For example, the country "Korea" matches the country code number "82" and the country "USA" matches the country code number "1".
상기 제어부(180)는, 상기 데이터베이스를 참조하여, 상기 제1 키워드(31)에 이어서 수신되는 상기 제2 키워드(32)에 대한 음성인식을 수행할 수 있다. 즉 상기 제어부(180)는, 상기 제2 키워드(32)를 상기 데이터베이스에 포함된 국가명 또는 국가코드번호와 비교하여, 상기 제2 키워드(32)에 대한 음성인식을 수행할 수 있다.The controller 180 may perform voice recognition with respect to the second keyword 32 that is received after the first keyword 31 with reference to the database. That is, the controller 180 may perform voice recognition on the second keyword 32 by comparing the second keyword 32 with a country name or country code number included in the database.
도 10 및 도 11의 경우, 상기 제어부(180)는, 상기 제2 키워드(32)를 상기 데이터베이스에 포함된 국가코드번호와 비교함에 있어서, 상기 "820"(32)은 상기 데이터베이스에 존재하지 않고 국가코드번호 뒤에는 "0"이 올 수 없으며, 상기 데이터베이스에는 "Korea"에 대응되는 "82"가 존재하므로, "820"을 "82"로 수정하여 인식할 수 있다.10 and 11, the controller 180 compares the second keyword 32 with a country code number included in the database. The “820” 32 is not present in the database. "0" cannot follow the country code number, and "82" corresponding to "Korea" exists in the database, so that "820" may be modified to "82".
상기 제어부(180)는, 상기 제2 키워드(32)에 이어서 수신되는 복수의 음절들(33)을 전화번호로 인식할 수 있다.The controller 180 may recognize a plurality of syllables 33 received after the second keyword 32 as a phone number.
한편 상기 제1 키워드(31)에 이어서 수신되는 상기 제2 키워드(32)는, 도 12에 도시된 바와 같이, 국가코드번호 이외에 국가명일 수도 있다. 상기 제어부(180)는, 상기 국가코드번호의 음성인식 과정과 마찬가지로, 상기 제1 키워드(31)에 이어서 수신되는 국가명에 대해, 상기 데이터베이스를 참조하여 음성인식을 수행할 수 있다.Meanwhile, as shown in FIG. 12, the second keyword 32 received following the first keyword 31 may be a country name in addition to a country code number. As in the voice recognition process of the country code number, the controller 180 can perform voice recognition with reference to the database on the country name received after the first keyword 31.
본 발명의 제2 실시예에 의하면, 숫자들로 구성되는 음성의 인식률이 대폭 향상될 수 있다.According to the second embodiment of the present invention, the recognition rate of a voice composed of numbers can be greatly improved.
도 13은, 종래 기술에 따른 숫자 인식기의 구조를 설명하기 위한 도면이고, 도 14는, 본 발명에 따른 숫자 인식기의 구조를 설명하기 위한 도면이다.FIG. 13 is a view for explaining the structure of a number recognizer according to the prior art, and FIG. 14 is a view for explaining the structure of a number recognizer according to the present invention.
도 13을 참조하여 종래 기술에 따른 숫자 인식기의 구조를 설명하면 다음과 같다. 종래 기술에 따른 숫자 인식기는, 각 자리수마다 모든 숫자(0~9)가 올 수 있는 탐색 공간(search space)로 구성된다. 각 리프(leaf) 노드로 이동하는 경로(path)의 선택은, 발성과 음향 모델의 유사도에 의한 음향 매칭(acoustic matching) 과정으로 결정된다.Referring to FIG. 13, the structure of the number recognizer according to the prior art will be described. The number recognizer according to the prior art is composed of a search space in which all digits (0 to 9) can come for each digit. The selection of a path to each leaf node is determined by an acoustic matching process based on the similarity of speech and acoustic models.
이와 같은 종래 기술에 따른 숫자 인식기의 구조는, 모든 경우의 수를 계산하기 위해서는 많은 연산량이 필요하고, 자리수의 길이에 따라 인식률도 기하급수적으로 저하된다. 예를 들어, 4자리의 자리수를 갖는 숫자열에 대한 인식을 위한 경우의 수는, 10000개(10^4)이다.The structure of the number recognizer according to the prior art requires a large amount of computation in order to calculate the number in all cases, and the recognition rate also decreases exponentially with the length of the digit. For example, the number of cases for recognizing a string of numbers having four digits is 10000 (10 ^ 4 ).
도 14를 참조하여 본 발명에 따른 숫자 인식기의 구조를 설명하면 다음과 같다. 도 14는, 도 13의 경우와 마찬가지로 4자리의 자리수를 갖는 숫자열에 대한 음성인식을 수행하는 경우를 도시한다.Referring to Figure 14 describes the structure of the number recognizer according to the present invention. FIG. 14 illustrates a case where speech recognition is performed on a numeric string having four digits as in the case of FIG. 13.
도 14를 참조하면, 탐색공간에서 국가코드에 따라서 각 자리수마다 숫자가 지정될 수 있다. 따라서, 도 13의 경우와는 달리, 탐색 공간의 크기가 크게 줄어들게 되어, 탐색 공간의 복잡도가 대폭 낮아지게 된다. 따라서, 계산량이 크게 감소함과 동시에, 인식 결과의 경우의 수가 크게 줄어든다(약 300개 이하). 따라서, 본 발명에 따른 숫자 인식기에 의하면, 숫자열로 구성된 음성에 대한 인식률이 대폭 향상될 수 있다.Referring to FIG. 14, a number may be designated for each digit according to a country code in a search space. Accordingly, unlike the case of FIG. 13, the size of the search space is greatly reduced, and the complexity of the search space is greatly reduced. Therefore, while the calculation amount is greatly reduced, the number of cases of the recognition result is greatly reduced (about 300 or less). Therefore, according to the number recognizer according to the present invention, a recognition rate for a speech composed of a string of numbers can be greatly improved.
한편, 상기 제어부(180)는, 상기 제2 키워드에 이어서 수신되는 상기 복수의 음절들 중 최초에 시작하는 제3 키워드를 미리 정해진 식별번호로 인식할 수 있다. 예를 들어 도 15를 참조하면, 상기 제어부(180)는, 상기 제2 키워드(32)에 이어서 수신되는 제3 키워드(34)를 이동전화 식별번호로 가정하여 인식할 수 있다. 상기 이동전화 식별번호를 인식하는 방식 및 과정은, 상기 제2 키워드(32)를 인식하는 방식 및 과정과 동일하거나 유사하다.The controller 180 may recognize, as a predetermined identification number, a third keyword starting first among the plurality of syllables received after the second keyword. For example, referring to FIG. 15, the controller 180 may recognize the third keyword 34 received after the second keyword 32 as a mobile phone identification number. The method and process of recognizing the mobile phone identification number is the same as or similar to the method and process of recognizing the second keyword 32.
도 16은 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법의 흐름도이다. 도 17 내지 도 19는, 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법을 설명하기 위한 도면들이다. 이하 필요한 도면들을 참조하여, 본 발명의 제3 실시예에 따른 전자 기기의 음성 인식 방법과, 이를 구현하기 위한 상기 전자 기기(100)의 동작을 상세히 설명하기로 한다.16 is a flowchart of a voice recognition method of an electronic device according to a third embodiment of the present invention. 17 to 19 are diagrams for describing a voice recognition method of an electronic device according to a third embodiment of the present invention. Hereinafter, a voice recognition method of an electronic device and an operation of the electronic device 100 for implementing the same will be described in detail with reference to the accompanying drawings.
상기 제어부(180)는, 상기 오디오 수신부(122)를 통해 음성을 수신한다[S300].The controller 180 receives a voice through the audio receiver 122 [S300].
그리고 상기 제어부(180)는, 상기 수신된 음성에서 묵음 구간인 포즈(pause)가 검출되는지를 판단한다[S310].The controller 180 determines whether a pause, which is a silent section, is detected in the received voice [S310].
상기 제어부(180)는, 상기 음성 검출부(182)를 이용하여 상기 포즈를 검출하거나, 미리 지정된 시간 동안 상기 오디오 수신부(122)로부터 음성이 수신되지 않으면 상기 포즈가 존재하는 것으로 판단할 수 있다.The controller 180 may detect the pose by using the voice detector 182 or determine that the pose exists when no voice is received from the audio receiver 122 for a predetermined time.
그리고 상기 제어부(180)는, 상기 S210 단계의 판단 결과, 상기 수신된 음성에서 포즈가 검출되면, 상기 검출된 포즈에 우선하여 수신된 숫자에 대한 음성인식을 수행하고[S320], 상기 S320 단계에서 수행된 음성인식의 수행 결과를 출력한다[S330].When the pose is detected in the received voice as a result of the determination in step S210, the controller 180 performs voice recognition on the received number in preference to the detected pose [S320], and in step S320 The execution result of the performed voice recognition is output [S330].
그리고 상기 제어부(180)는, 상기 S300 단계로 회귀하여, 상기 S300 내지 상기 S330 단계를 반복 수행할 수 있다.The controller 180 may return to step S300 to repeat steps S300 to S330.
즉, 본 발명의 제3 실시예에 의하면, 상기 제어부(180)는, 상기 수신된 음성에서 포즈가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하고, 상기 적어도 하나의 숫자에 대한 음성인식을 수행할 때마다 상기 음성인식의 결과를 출력할 수 있다.That is, according to the third embodiment of the present invention, whenever the pose is detected in the received voice, the controller 180 performs voice recognition on at least one number received in preference to the detected pose. Each time the voice recognition is performed on the at least one number, a result of the voice recognition may be output.
도 17 및 도 18을 참조하여, 본 발명의 제3 실시예가 실제 구현되는 예를 설명하기로 한다.17 and 18, an example in which the third embodiment of the present invention is actually implemented will be described.
사용자는, 도 17에 도시된 바와 같이, 각 구간(40, 41, 42, 43)의 사이에 포즈를 두고 상기 각 구간(40, 41, 42, 43)을 발성한다. 도 17의 경우, 숫자열만 상정하면, 제1 숫자열(41)과 제2 숫자열(42) 사이에 제1 포즈가 존재하고, 상기 제2 숫자열(42)과 제3 숫자열(43) 사이에 제2 포즈가 존재하고, 상기 제3 숫자열(43)을 수신한 이후에 제3 포즈가 존재하여, 모두 3개의 포즈들이 존재한다.As shown in FIG. 17, the user utters each of the sections 40, 41, 42, 43 with a pose between the sections 40, 41, 42, 43. In the case of FIG. 17, if only a numeric sequence is assumed, a first pose exists between the first numeric sequence 41 and the second numeric sequence 42, and the second numeric sequence 42 and the third numeric sequence 43 are present. There is a second pose in between, and a third pose exists after receiving the third sequence 43, so there are three poses in all.
상기 제어부(180)는, 도 18에 도시된 바와 같이, 상기 각 포즈가 검출될 때마다, 상기 각각 검출되는 포즈에 우선하여 수신된 숫자열에 대한 음성인식을 수행하여, 그 결과를 출력한다.As shown in FIG. 18, whenever the respective poses are detected, the controller 180 performs voice recognition on the received numeric strings prior to the respective detected poses, and outputs the result.
예를 들어, 상기 제1 포즈가 검출되면, 상기 제1 숫자열(41)에 대한 음성인식을 수행하여 그 결과를 상기 디스플레이부(151)에 출력하고(도 18(a)를 참조), 상기 제2 포즈가 검출되면, 상기 제2 숫자열(42)에 대한 음성인식을 수행하여 그 결과를 상기 디스플레이부(151)에 출력하고(도 18(b)를 참조), 상기 제3 포즈가 검출되면, 상기 제3 숫자열(43)에 대한 음성인식을 수행하여 그 결과를 상기 디스플레이부(151)에 출력한다(도 18(c)를 참조).For example, when the first pose is detected, voice recognition is performed on the first numeric string 41 and the result is output to the display unit 151 (see FIG. 18A). When the second pose is detected, voice recognition is performed on the second string of numbers 42, and the result is output to the display unit 151 (see FIG. 18B), and the third pose is detected. In response to this, the voice recognition is performed on the third numeric string 43 and the result is output to the display unit 151 (see FIG. 18C).
도 18(a) 내지 도 18(c)에 도시된 음성인식 결과들은, 본 발명의 제1 실시예와 마찬가지로, 그 결과가 서로 다른 숫자들을 강조하여 표시하고 있다.18 (a) to 18 (c), the results of the speech recognition, like the first embodiment of the present invention, highlight the different numbers of the results.
도 19(a)는 사용자가 숫자열을 3자리씩 끊어서 발성하는 경우를 도시하고, 도 19(b)는 사용자가 숫자열을 2자리씩 끊어서 발성하는 경우를 도시한다. 도 19(a) 및 도 19(b)의 경우, 도 18과 동일한 방식으로 포즈가 검출될 때마다 우선하는 숫자열에 대한 음성인식 결과가 상기 디스플레이부(151)에 표시될 수 있다.FIG. 19 (a) shows a case in which the user speaks by breaking the numeric string by three digits, and FIG. 19 (b) shows a case in which the user speaks by breaking the numeric string by two digits. In FIGS. 19A and 19B, the display unit 151 may display a voice recognition result for the numeric string that is prioritized whenever a pose is detected in the same manner as in FIG. 18.
본 발명의 제3 실시예에 의하면, 사용자의 발성 중간에 묵음 구간인 포즈를 검출함으로써, 부분적인 인식 결과를 이어서 출력할 수 있다. 사용자는 일반적으로 전화번호를 처음부터 끝까지 쉬지 않고 발성하지 않는다. 예를 들어, 프랑스의 경우, 2자리의 숫자씩 발성하는 것이 일반적인 문화이다. 따라서 상기 포즈 검출을 이용하게 되면, 사용자의 발성이 완전히 멈춘 후 음성인식을 수행하는 방식보다, 전화번호의 일부 구간별로 음성인식을 수행할 수 있고, 결과적으로 인식률이 증가하게 된다.According to the third embodiment of the present invention, a partial recognition result can be subsequently output by detecting a pose which is a silent section in the middle of the user's utterance. The user generally does not talk off the phone number from beginning to end. In France, for example, it is a common culture to speak two digits. Therefore, when the pose detection is used, the voice recognition may be performed for each section of the telephone number rather than the voice recognition after the user's utterance is completely stopped, resulting in an increase in the recognition rate.
본 발명의 제4 실시예는, 음성인식 결과를 수정하는 방법 및 이를 구현하는 이동 단말기를 개시한다. 도 20은, 본 발명의 제4 실시예가 구현되는 예를 도시한 도면이다.A fourth embodiment of the present invention discloses a method for modifying a voice recognition result and a mobile terminal implementing the same. 20 is a diagram showing an example in which the fourth embodiment of the present invention is implemented.
도 20(a)는, 사용자의 음성에 대한 음성인식 결과를 도시한다. 사용자가 상기 음성인식 결과의 세번째 자리인 "5"를 터치하면, 상기 제어부(180)는 인식 스코어에 따른 인식 후보군(50)을 표시할 수 있다(도 20(b)를 참조).20 (a) shows a voice recognition result for the user's voice. When the user touches “3”, which is the third digit of the speech recognition result, the controller 180 may display the recognition candidate group 50 according to the recognition score (see FIG. 20B).
사용자는, 도 20(b)에 도시된 바와 같이, 상기 인식 후보군(50)에서 자신이 원하는 숫자를 선택할 수 있다. 여기서, 상기 사용자가 자신이 원하는 숫자를 선택하는 방식은, 다양할 수 있다. 예를 들어 도 20(b)에 도시된 바와 같이, 상기 디스플레이부(151)가 터치스크린인 경우, 사용자는 자신이 원하는 숫자를 터치할 수 있다. 또한 예를 들어, 사용자는 음성으로 자신이 원하는 숫자를 선택할 수 있다. 도 20(b)를 참조하면, 사용자가 "6"이라고 말하면, 상기 제어부(180)는, 사용자의 음성을 인식하여 상기 인식 후보군(50)에서 "6"을 선택하게 된다.As shown in FIG. 20B, the user may select a desired number from the recognition candidate group 50. Here, the method of selecting a number desired by the user may vary. For example, as shown in FIG. 20B, when the display unit 151 is a touch screen, the user may touch a desired number. Also, for example, the user can select a desired number by voice. Referring to FIG. 20B, when the user says "6", the controller 180 recognizes the user's voice and selects "6" from the recognition candidate group 50.
상기 제어부(180)는, 도 20(c)에 도시된 바와 같이, 상기 음성인식 결과 중 해당하는 자리에 해당하는 숫자를, 사용자가 선택한 숫자로 변경하여 표시한다.As illustrated in FIG. 20C, the controller 180 changes the number corresponding to the corresponding place among the voice recognition results into a number selected by the user and displays the number.
한편 도 20(a)의 상태에서 사용자는, 음성인식 기능을 이용하여 자신이 원하는 숫자를 선택할 수도 있다. 예를 들어, 도 20(a)의 상태에서 사용자가 "5"라고 말하면, 상기 제어부(180)는 사용자의 음성을 인식하여 도 20(b)와 같은 화면을 출력할 수 있다.Meanwhile, in the state of FIG. 20A, the user may select a desired number by using the voice recognition function. For example, if the user says "5" in the state of FIG. 20 (a), the controller 180 may recognize the user's voice and output a screen as shown in FIG. 20 (b).
도 20(a)의 상태에서 사용자가 "4"라고 말하면, 도 20(a)의 음성인식 결과가 "4"를 2개 포함하고 있으므로, 상기 2개의 "4"가 모두 선택된다. 즉, 사용자는 음성인식 결과에서 복수의 자리수를 선택하고, 상기 복수의 자리수를 한꺼번에 수정할 수 있다.If the user says "4" in the state of Fig. 20 (a), since the voice recognition result of Fig. 20 (a) includes two "4" s, both "4" s are selected. That is, the user may select a plurality of digits from the voice recognition result and modify the plurality of digits at once.
도 20은, 상기 인식 후보군(50)을 인식 스코어의 순서대로 미리 정해진 개수만큼 제공하는 경우이다. 그러나, 본 발명의 실시예는 이에 한정되지 않는다.20 illustrates a case in which the recognition candidate group 50 is provided in a predetermined number in the order of the recognition scores. However, embodiments of the present invention are not limited thereto.
본 발명의 제5 실시예는, 음성인식 결과를 수정하는 다른 방법 및 이를 구현하는 이동 단말기를 개시한다. 도 21은, 본 발명의 제5 실시예가 구현되는 예를 도시한 도면이다. 도 21은, 도 5를 참조하여 설명한 본 발명의 제1 실시예에 따른 음성인식 결과를 표시하는 다른 형태를 도시한다.A fifth embodiment of the present invention discloses another method for modifying a voice recognition result and a mobile terminal implementing the same. 21 is a diagram showing an example in which the fifth embodiment of the present invention is implemented. FIG. 21 shows another form of displaying voice recognition results according to the first embodiment of the present invention described with reference to FIG.
도 21(a)는, 도 5(c)에 도시된 음성인식 결과 중 인식 스코어가 가장 높은 인식 후보(10a)만을 출력하는 경우를 도시한다(본 발명의 제1 실시예를 참조).FIG. 21A shows a case where only the recognition candidate 10a having the highest recognition score is output among the speech recognition results shown in FIG. 5C (see the first embodiment of the present invention).
상기 제어부(180)는, 도 21(a)에 도시된 바와 같이, 복수의 인식후보들 중 서로 다른 숫자를 강조하여 표시할 수 있다.As illustrated in FIG. 21A, the controller 180 may highlight and display different numbers among the plurality of recognition candidates.
사용자가 도 21(a)의 화면에서 첫번째 "6"을 선택하면, 상기 제어부(180)는, 도 21(b)에 도시된 바와 같이, 상기 선택된 "6"에 대응되는 자리에 해당하고, 인식 스코어가 낮은 다른 인식후보에 포함되는 숫자를 포함하는 인식후보군(51)을 표시할 수 있다. 사용자는 상기 인식후보군(51)에서 자신이 원하는 숫자를 선택할 수 있다.When the user selects the first "6" on the screen of Figure 21 (a), as shown in Figure 21 (b), the controller 180 corresponds to the position corresponding to the selected "6", and recognize A recognition candidate group 51 including a number included in another recognition candidate having a low score may be displayed. The user may select a number desired by the recognition candidate group 51.
사용자가 도 21(a)의 화면에서 두번째 "6"을 선택하면, 상기 제어부(180)는, 도 21(c)에 도시된 바와 같이, 상기 선택된 "6"에 대응되는 자리에 해당하고, 인식 스코어가 낮은 다른 인식후보에 포함되는 숫자를 포함하는 인식후보군(52)을 표시할 수 있다. 사용자는 상기 인식후보군(51)에서 자신이 원하는 숫자를 선택할 수 있다.When the user selects the second "6" on the screen of Figure 21 (a), as shown in Figure 21 (c), the controller 180 corresponds to the position corresponding to the selected "6", and recognize A recognition candidate group 52 including a number included in another recognition candidate having a low score may be displayed. The user may select a number desired by the recognition candidate group 51.
도 21에 도시된 예는, 도 5에 도시된 예와 상황이 동일하다. 단, 인식후보군이 사용자에게 제공되는 방식이 다를 뿐이다.The situation shown in FIG. 21 is the same as the example shown in FIG. However, the way that the recognition candidate group is provided to the user is different.
상기에서 설명한 본 발명에 의한 전자 기기의 음성 인식 방법은, 컴퓨터에서 실행시키기 위한 프로그램으로 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공될 수 있다.The speech recognition method of the electronic device according to the present invention described above may be provided by recording on a computer-readable recording medium as a program for executing in a computer.
본 발명에 의한 전자 기기의 음성 인식 방법은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.The speech recognition method of the electronic device according to the present invention can be executed through software. When implemented in software, the constituent means of the present invention are code segments that perform the necessary work. The program or code segments may be stored on a processor readable medium or transmitted by a computer data signal coupled with a carrier on a transmission medium or network.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는, ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording devices include ROM, RAM, CD-ROM, DVD ± ROM, DVD-RAM, magnetic tape, floppy disks, hard disks, optical data storage devices, and the like. The computer readable recording medium can also be distributed over network coupled computer devices so that the computer readable code is stored and executed in a distributed fashion.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 또한 본 문서에서 설명된 실시예들은 한정되게 적용될 수 있는 것이 아니라, 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the spirit of the present invention for those of ordinary skill in the art to which the present invention pertains, as described above and the accompanying examples. It is not limited by the drawings. In addition, the embodiments described in this document may not be limitedly applied, but may be configured by selectively combining all or part of the embodiments so that various modifications may be made.
본 발명에 따르면, 숫자를 포함하는 음성을 효율적이고 효과적으로 인식함으로써, 전화번호와 같은 숫자를 포함하는 음성에 대한 인식률을 대폭 향상시키고, 숫자를 포함하는 음성에 대한 음성인식 결과에 대한 사용자의 접근성을 향상시키고, 숫자를 포함하는 음성에 대한 음성인식 결과를 사용자가 쉽고 편리하게 수정할 수 있는 전자 기기 및 이를 이용한 음성인식 방법을 제공할 수 있다.According to the present invention, by efficiently and effectively recognizing a voice including a number, the recognition rate for a voice including a number such as a telephone number can be greatly improved, and the user's accessibility to a voice recognition result for a voice including a number can be improved. It is possible to provide an electronic device and a voice recognition method using the same, which can improve and improve the voice recognition result of the voice including numbers.

Claims (18)

  1. 디스플레이부;A display unit;
    복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부; 및A voice receiver configured to receive a voice including a plurality of numbers; And
    상기 수신된 음성을 인식하고, 상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 상기 디스플레이부에 표시하는 제어부를 포함하고,And a controller for recognizing the received voice and displaying a plurality of recognition candidates corresponding to a plurality of different numeric strings as a result of voice recognition for the plurality of numbers, on the display unit.
    상기 제어부는, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하는 전자 기기.The controller is characterized in that for highlighting the numbers with different voice recognition results between the different numbers of strings.
  2. 제 1 항에 있어서, 상기 제어부는,The method of claim 1, wherein the control unit,
    상기 서로 다른 숫자열들에 대해 동일한 위치에 해당하는 숫자끼리 비교하여, 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하는 전자 기기.And comparing the numbers corresponding to the same positions with respect to the different strings of numbers, and displaying a different number of voice recognition results.
  3. 제 1 항에 있어서, 상기 제어부는,The method of claim 1, wherein the control unit,
    상기 음성인식 결과가 다른 숫자들을 하이라이트하거나, 상기 음성인식 결과가 다른 숫자들의 색상, 폰트 및 크기 중 적어도 하나를 이용하여 상기 음성인식 결과가 다른 숫자들을 강조하는 것을 특징으로 하는 전자 기기.Wherein the speech recognition result highlights numbers that differ, or the speech recognition result highlights numbers that differ by using at least one of a color, a font, and a size of the numbers.
  4. 음성을 수신하는 음성 수신부;A voice receiver for receiving a voice;
    상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고,And a controller configured to perform voice recognition on the received voice.
    상기 제어부는, 상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 상기 음성 수신부를 통해 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 인식하는 것을 특징으로 하는 전자 기기.If the received voice includes a predefined first keyword indicating an international call, the controller assumes that the second keyword received through the voice receiver is a country code number following the first keyword as the country code number. An electronic device characterized by recognizing a keyword.
  5. 제 4 항에 있어서,The method of claim 4, wherein
    국가별 국가코드를 매칭시킨 제1 데이터베이스를 저장하는 메모리를 포함하고,A memory storing a first database matching country codes of countries;
    상기 제어부는, 상기 제1 데이터베이스를 참조하여 상기 제2 키워드에 대한 음성인식을 수행하는 것을 특징으로 하는 전자 기기.The controller performs voice recognition on the second keyword with reference to the first database.
  6. 제 5 항에 있어서, 상기 제어부는,The method of claim 5, wherein the control unit,
    상기 제2 키워드를 상기 제1 데이터베이스에 포함된 국가명 또는 국가코드와 비교하여 상기 제2 키워드에 대한 음성인식을 수행하는 것을 특징으로 하는 전자 기기.And comparing the second keyword with a country name or a country code included in the first database to perform voice recognition on the second keyword.
  7. 제 4 항에 있어서, 상기 제어부는,The method of claim 4, wherein the control unit,
    상기 제2 키워드에 이어 상기 음성 수신부를 통해 수신되는 복수의 음절들을 전화번호로 인식하는 것을 특징으로 하는 전자 기기.And a plurality of syllables received through the voice receiver as a phone number following the second keyword.
  8. 제 4 항에 있어서, 상기 제어부는,The method of claim 4, wherein the control unit,
    상기 복수의 음절들 중 최초에 시작하는 제3 키워드를 미리 정해진 식별번호로 인식하는 것을 특징으로 하는 전자 기기.And a third keyword, which starts first among the plurality of syllables, as a predetermined identification number.
  9. 제 8 항에 있어서, 상기 제3 키워드는,The method of claim 8, wherein the third keyword,
    이동통신 식별국 또는 지역번호인 것을 특징으로 하는 전자 기기.Electronic device characterized in that the mobile communication identification station or area code.
  10. 복수의 숫자들을 포함하는 음성을 수신하는 음성 수신부;A voice receiver configured to receive a voice including a plurality of numbers;
    상기 수신된 음성에 대한 음성인식을 수행하는 제어부를 포함하고,And a controller configured to perform voice recognition on the received voice.
    상기 제어부는,The control unit,
    상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 것을 특징으로 하는 전자 기기.And whenever a pause, which is a silent section, is detected in the received voice, performing voice recognition on the received at least one number in preference to the detected pause.
  11. 제 10 항에 있어서, 상기 제어부는,The method of claim 10, wherein the control unit,
    음성 검출기(VAD)를 이용하여 상기 포즈를 검출하거나, 미리 지정된 시간 동안 상기 음성 수신부로부터 음성이 수신되지 않으면 상기 포즈가 존재하는 것으로 판단하는 것을 특징으로 하는 전자 기기.And detecting the pose using a voice detector (VAD) or determining that the pose exists if no voice is received from the voice receiver for a predetermined time.
  12. 제 10 항에 있어서, 상기 제어부는,The method of claim 10, wherein the control unit,
    상기 적어도 하나의 숫자에 대한 음성인식을 수행할 때마다, 상기 음성인식의 수행 결과를 출력하는 것을 특징으로 하는 전자 기기.And whenever a voice recognition is performed on the at least one number, outputting a result of performing the voice recognition.
  13. 복수의 숫자들을 포함하는 음성을 수신하는 단계;Receiving a voice comprising a plurality of numbers;
    상기 수신된 음성을 인식하는 단계; 및Recognizing the received voice; And
    상기 복수의 숫자들에 대한 음성인식 결과로서 복수의 서로 다른 숫자열들에 각각 대응되는 복수의 인식후보들을 표시하되, 상기 서로 다른 숫자열들 상호 간에 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 단계를A plurality of recognition candidates respectively corresponding to a plurality of different numeric strings are displayed as a speech recognition result of the plurality of numbers, and the speech recognition results of the different numeric strings are highlighted. Steps
    포함하는 전자 기기의 음성인식 방법.Voice recognition method of an electronic device comprising.
  14. 제 13 항에 있어서, 상기 표시하는 단계는,The method of claim 13, wherein the displaying step,
    상기 서로 다른 숫자열들에 대해 동일한 위치에 해당하는 숫자끼리 비교하여, 음성인식 결과가 서로 다른 숫자들을 강조하여 표시하는 것을 특징으로 하는 전자 기기의 음성인식 방법.Comparing numbers corresponding to the same position with respect to the different number strings, the speech recognition result of the speech recognition method of the electronic device, characterized in that for highlighting different numbers.
  15. 음성을 수신하는 단계; 및Receiving a voice; And
    상기 수신된 음성이 국제전화를 나타내는 미리 정의된 제1 키워드를 포함하는 경우, 상기 제1 키워드에 이어 수신되는 제2 키워드를 국가코드 번호로 가정하여 상기 제2 키워드를 음성인식하는 단계를If the received voice includes a predefined first keyword representing an international call, voice recognition of the second keyword assuming a second keyword received after the first keyword as a country code number.
    포함하는 전자 기기의 음성인식 방법.Voice recognition method of an electronic device comprising.
  16. 제 15 항에 있어서,The method of claim 15,
    상기 제2 키워드에 이어 수신되는 복수의 음절들을 전화번호로 음성인식하는 단계를Voice recognition of a plurality of syllables received following the second keyword by phone number
    더 포함하는 전자 기기의 음성인식 방법.Speech recognition method of the electronic device further comprising.
  17. 복수의 숫자들을 포함하는 음성을 수신하는 단계; 및Receiving a voice comprising a plurality of numbers; And
    상기 수신되는 음성에서 묵음 구간인 포즈(pause)가 검출될 때마다, 상기 검출된 포즈에 우선하여 수신된 적어도 하나의 숫자에 대한 음성인식을 수행하는 단계를Whenever a pause, which is a silent section, is detected in the received voice, performing voice recognition on the received at least one number in preference to the detected pause.
    포함하는 전자 기기의 음성인식 방법.Voice recognition method of an electronic device comprising.
  18. 제 17 항에 있어서,The method of claim 17,
    상기 적어도 하나의 숫자에 대한 음성인식을 수행할 때마다, 상기 음성인식의 수행 결과를 출력하는 단계를Whenever the voice recognition for the at least one number is performed, outputting a result of performing the voice recognition
    더 포함하는 전자 기기의 음성인식 방법.Speech recognition method of the electronic device further comprising.
PCT/KR2010/005984 2009-09-04 2010-09-02 Electronic device and a voice recognition method using the same WO2011028051A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2009-0083610 2009-09-04
KR1020090083610A KR20110025510A (en) 2009-09-04 2009-09-04 Electronic device and method of recognizing voice using the same

Publications (2)

Publication Number Publication Date
WO2011028051A2 true WO2011028051A2 (en) 2011-03-10
WO2011028051A3 WO2011028051A3 (en) 2011-07-21

Family

ID=43649801

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/005984 WO2011028051A2 (en) 2009-09-04 2010-09-02 Electronic device and a voice recognition method using the same

Country Status (2)

Country Link
KR (1) KR20110025510A (en)
WO (1) WO2011028051A2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104640323A (en) * 2015-02-12 2015-05-20 上海欧美拉光电股份有限公司 Voice control system of LED (Light Emitting Diode) lamp
WO2015072816A1 (en) * 2013-11-18 2015-05-21 삼성전자 주식회사 Display device and control method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102345611B1 (en) * 2013-11-18 2021-12-31 삼성전자주식회사 Display apparatus and control method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930024372A (en) * 1992-05-14 1993-12-22 이헌조 Voice recognition automatic dialing device
KR20060063420A (en) * 2004-12-07 2006-06-12 에스케이 텔레콤주식회사 Voice recognition for portable terminal
KR100827074B1 (en) * 2004-04-06 2008-05-02 삼성전자주식회사 Apparatus and method for automatic dialling in a mobile portable telephone

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930024372A (en) * 1992-05-14 1993-12-22 이헌조 Voice recognition automatic dialing device
KR100827074B1 (en) * 2004-04-06 2008-05-02 삼성전자주식회사 Apparatus and method for automatic dialling in a mobile portable telephone
KR20060063420A (en) * 2004-12-07 2006-06-12 에스케이 텔레콤주식회사 Voice recognition for portable terminal

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015072816A1 (en) * 2013-11-18 2015-05-21 삼성전자 주식회사 Display device and control method
CN104640323A (en) * 2015-02-12 2015-05-20 上海欧美拉光电股份有限公司 Voice control system of LED (Light Emitting Diode) lamp

Also Published As

Publication number Publication date
KR20110025510A (en) 2011-03-10
WO2011028051A3 (en) 2011-07-21

Similar Documents

Publication Publication Date Title
WO2012169679A1 (en) Display apparatus, method for controlling display apparatus, and voice recognition system for display apparatus
WO2015111818A1 (en) Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same
WO2013022135A1 (en) Electronic device and method of controlling the same
WO2020122677A1 (en) Method of performing function of electronic device and electronic device using same
WO2020040595A1 (en) Electronic device for processing user utterance, and control method therefor
WO2020032563A1 (en) System for processing user voice utterance and method for operating same
WO2020080635A1 (en) Electronic device for performing voice recognition using microphones selected on basis of operation state, and operation method of same
WO2021060728A1 (en) Electronic device for processing user utterance and method for operating same
WO2020091248A1 (en) Method for displaying content in response to speech command, and electronic device therefor
WO2019190062A1 (en) Electronic device for processing user voice input
WO2011028051A2 (en) Electronic device and a voice recognition method using the same
WO2021101276A1 (en) Electronic device for providing intelligent assistance service and operating method thereof
WO2020101389A1 (en) Electronic device for displaying voice recognition-based image
WO2020101174A1 (en) Method and apparatus for generating personalized lip reading model
WO2022177224A1 (en) Electronic device and operating method of electronic device
WO2022139420A1 (en) Electronic device, and method for sharing execution information of electronic device regarding user input having continuity
WO2022131566A1 (en) Electronic device and operation method of electronic device
WO2021075820A1 (en) Method of generating wakeup model and electronic device therefor
WO2022191395A1 (en) Apparatus for processing user command, and operating method therefor
WO2020171545A1 (en) Electronic device and system for processing user input and method thereof
WO2019035504A1 (en) Mobile terminal and control method thereof
WO2021096281A1 (en) Voice input processing method and electronic device supporting same
WO2023038292A1 (en) Electronic device, and voice processing method of electronic device
WO2024058524A1 (en) False rejection determination method and electronic device for performing same
WO2021235586A1 (en) Electronic device for translating text sequence and operation method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10813960

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10813960

Country of ref document: EP

Kind code of ref document: A2