WO2020122271A1 - 디스플레이 장치 - Google Patents

디스플레이 장치 Download PDF

Info

Publication number
WO2020122271A1
WO2020122271A1 PCT/KR2018/015684 KR2018015684W WO2020122271A1 WO 2020122271 A1 WO2020122271 A1 WO 2020122271A1 KR 2018015684 W KR2018015684 W KR 2018015684W WO 2020122271 A1 WO2020122271 A1 WO 2020122271A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
word
display device
recognition
unit
Prior art date
Application number
PCT/KR2018/015684
Other languages
English (en)
French (fr)
Inventor
정은경
김효성
박태진
최우진
황선호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2018/015684 priority Critical patent/WO2020122271A1/ko
Priority to EP18942843.6A priority patent/EP3896983A4/en
Priority to US17/298,319 priority patent/US20220028380A1/en
Publication of WO2020122271A1 publication Critical patent/WO2020122271A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • H04N21/4432Powering on the client, e.g. bootstrap loading using setup parameters being stored locally or received from the server
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]

Definitions

  • the present invention relates to a display device, and more particularly, to a display device capable of performing speech recognition.
  • Digital TV services using wired or wireless communication networks are becoming common.
  • the digital TV service can provide various services that could not be provided by the existing analog broadcasting service.
  • IPTV Internet Protocol Television
  • smart TV service provide bi-directionality that allows a user to actively select the type of viewing program, viewing time, and the like.
  • IPTV and smart TV services may provide various additional services, such as Internet search, home shopping, online games, etc., based on this bi-directionality.
  • voice recognition through a TV may cause user discomfort more intuitively than other products when an erroneous misconception occurs due to environmental noise or conversation of another person while using the TV.
  • a method for verifying misrecognition is necessary because it may lead to an undesired operation of the user, such as TV On/Off, reservation function, and channel switching.
  • the present invention has an object to prevent false recognition of voice recognition, unlike a user's intention, when providing a remote voice recognition service through a TV.
  • the display device may divide the step of recognizing the spoken word into two steps, and perform recognition verification of the spoken word.
  • the display device when the recognition of the spoken spoken word is successful, determines whether the spoken spoken word falls within the range of the normal spoken word by using the feature information of the spoken spoken word and verifies the spoken spoken word It can be done.
  • FIG. 1 is a block diagram showing the configuration of a display device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of a remote control device according to an embodiment of the present invention.
  • Figure 3 shows an actual configuration example of a remote control device according to an embodiment of the present invention.
  • FIG. 4 shows an example of using a remote control device according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating an operation method of a display device according to an exemplary embodiment of the present invention.
  • FIGS. 6 and 7 are views illustrating an example in which a display device directly receives and recognizes a voice activated word according to an embodiment of the present invention.
  • FIGS. 8 and 9 are diagrams illustrating an example in which an external device receives and recognizes a voice activated word and transmits voice data corresponding to the recognized voice activated word to a display device according to another embodiment of the present invention.
  • FIG. 10 is a diagram for explaining a process of verifying whether a recognized speech starting word is a normal starting word according to an embodiment of the present invention.
  • 11 is a diagram for explaining a process of determining whether a voice-activated word belongs to a range of normal-activated words based on an acoustic model and a language model.
  • FIG. 12 is a ladder diagram illustrating a method of operating a speech recognition system according to an embodiment of the present invention.
  • the display device is, for example, an intelligent display device in which a computer support function is added to a broadcast reception function, and while being faithful to the broadcast reception function, an Internet function or the like is added, a handwritten input device, a touch screen Alternatively, a more convenient interface such as a space remote control may be provided. And, it is connected to the Internet and a computer with the support of a wired or wireless Internet function, and can perform functions such as email, web browsing, banking, or gaming. A standardized general-purpose OS can be used for these various functions.
  • the display device described in the present invention for example, on a general-purpose OS kernel, since various applications can be freely added or deleted, various user-friendly functions can be performed.
  • the display device may be more specifically, for example, a network TV, HBBTV, smart TV, LED TV, OLED TV, and the like, and is also applicable to a smartphone in some cases.
  • FIG. 1 is a block diagram showing the configuration of a display device according to an embodiment of the present invention.
  • the display device 100 includes a broadcast receiving unit 130, an external device interface unit 135, a storage unit 140, a user input interface unit 150, a control unit 170, and a wireless communication unit 173. , A display unit 180, an audio output unit 185, and a power supply unit 190.
  • the broadcast reception unit 130 may include a tuner 131, a demodulation unit 132, and a network interface unit 133.
  • the tuner 131 may select a specific broadcast channel according to a channel selection command.
  • the tuner 131 may receive a broadcast signal for a selected specific broadcast channel.
  • the demodulator 132 may separate the received broadcast signal into a video signal, an audio signal, and a data signal related to a broadcast program, and restore the separated video signal, audio signal, and data signal to a form capable of output.
  • the external device interface unit 135 may receive an application or a list of applications in an adjacent external device and transmit it to the control unit 170 or the storage unit 140.
  • the external device interface unit 135 may provide a connection path between the display device 100 and the external device.
  • the external device interface unit 135 may receive one or more of video and audio output from an external device connected to the display device 100 wirelessly or wiredly, and transmit them to the control unit 170.
  • the external device interface unit 135 may include a plurality of external input terminals.
  • the plurality of external input terminals may include an RGB terminal, one or more High Definition Multimedia Interface (HDMI) terminals, and a component terminal.
  • HDMI High Definition Multimedia Interface
  • the image signal of the external device input through the external device interface unit 135 may be output through the display unit 180.
  • the audio signal of the external device input through the external device interface unit 135 may be output through the audio output unit 185.
  • the external device connectable to the external device interface unit 135 may be any one of a set-top box, a Blu-ray player, a DVD player, a game machine, a sound bar, a smartphone, a PC, a USB memory, and a home theater, but this is only an example. .
  • the network interface unit 133 may provide an interface for connecting the display device 100 to a wired/wireless network including an Internet network.
  • the network interface unit 133 may transmit or receive data with other users or other electronic devices through a connected network or another network linked to the connected network.
  • some content data stored in the display device 100 may be transmitted to a selected user or a selected electronic device among other users or other electronic devices registered in advance in the display device 100.
  • the network interface unit 133 may access a predetermined web page through a connected network or another network linked to the connected network. That is, it is possible to connect to a predetermined web page through a network, and transmit or receive data with the corresponding server.
  • the network interface unit 133 may receive content or data provided by a content provider or a network operator. That is, the network interface unit 133 may receive content such as a movie, advertisement, game, VOD, broadcast signal, and related information provided by a content provider or a network provider through a network.
  • the network interface unit 133 may receive update information and update files of firmware provided by the network operator, and may transmit data to the Internet or a content provider or a network operator.
  • the network interface unit 133 may select and receive a desired application from among applications that are open to the public through a network.
  • the storage unit 140 may store a program for processing and controlling each signal in the control unit 170 and store a signal-processed image, audio, or data signal.
  • the storage unit 140 may perform a function for temporarily storing an image, audio, or data signal input from the external device interface unit 135 or the network interface unit 133, and is predetermined through a channel memory function. You can also store information about the image.
  • the storage unit 140 may store an application or a list of applications input from the external device interface unit 135 or the network interface unit 133.
  • the display device 100 may play and provide content files (video files, still image files, music files, document files, application files, etc.) stored in the storage unit 140 to the user.
  • content files video files, still image files, music files, document files, application files, etc.
  • the user input interface unit 150 may transmit a signal input by the user to the control unit 170 or a signal from the control unit 170 to the user.
  • the user input interface unit 150 may be in accordance with various communication methods, such as Bluetooth, WB (Ultra Wideband), ZigBee, RF (Radio Frequency) communication, or infrared (IR) communication,
  • a control signal such as power on/off, channel selection, screen setting, and the like may be received from the remote control device 200, or may be processed to transmit a control signal from the control unit 170 to the remote control device 200.
  • the user input interface unit 150 may transmit a control signal input from a local key (not shown) such as a power key, a channel key, a volume key, and a set value to the control unit 170.
  • a local key such as a power key, a channel key, a volume key, and a set value
  • the image signal processed by the controller 170 may be input to the display unit 180 and displayed as an image corresponding to the corresponding image signal. Also, the image signal processed by the control unit 170 may be input to the external output device through the external device interface unit 135.
  • the audio signal processed by the control unit 170 may be audio output to the audio output unit 185. Also, the audio signal processed by the control unit 170 may be input to the external output device through the external device interface unit 135.
  • control unit 170 may control the overall operation in the display device 100.
  • control unit 170 may control the display device 100 by a user command input through the user input interface unit 150 or an internal program, and access the network to display a list of applications or applications desired by the user. You can make it downloadable within (100).
  • the control unit 170 allows the channel information or the like selected by the user to be output through the display unit 180 or the audio output unit 185 together with the processed image or audio signal.
  • control unit 170 according to the external device image playback command received through the user input interface unit 150, from an external device input through the external device interface unit 135, for example, a camera or a camcorder,
  • the video signal or the audio signal can be output through the display unit 180 or the audio output unit 185.
  • control unit 170 may control the display unit 180 to display an image, for example, a broadcast image input through the tuner 131, or an external input input through the external device interface unit 135
  • the image or an image input through the network interface unit or an image stored in the storage unit 140 may be controlled to be displayed on the display unit 180.
  • the image displayed on the display unit 180 may be a still image or a video, and may be a 2D image or a 3D image.
  • control unit 170 may control the content stored in the display device 100 or the received broadcast content or external input content input from the outside to be played, and the content may include a broadcast video, an external input video, and an audio file. , Still images, connected web screens, and document files.
  • the wireless communication unit 173 may communicate with external devices through wired or wireless communication.
  • the wireless communication unit 173 may perform short range communication with an external device.
  • the wireless communication unit 173 is Bluetooth (BluetoothTM), Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, Near Field Communication (NFC), Wi-Fi By using at least one of (Wireless-Fidelity), Wi-Fi Direct, and Wireless USB (Wireless Universal Serial Bus) technology, short-range communication can be supported.
  • the wireless communication unit 173 may be provided between the display device 100 and the wireless communication system, between the display device 100 and another display device 100, or through the display device 100 through wireless area networks.
  • a wireless communication between networks in which the display device 100 or an external server is located may be supported.
  • the wireless local area network may be wireless personal area networks.
  • the other display device 100 is a wearable device capable of exchanging data with the display device 100 according to the present invention (or interoperable), for example, a smart watch, a smart watch, and smart glasses (smart glass), HMD (head mounted display), can be a mobile terminal such as a smart phone.
  • the wireless communication unit 173 may detect (or recognize) a wearable device capable of communication around the display apparatus 100.
  • the control unit 170 may transmit at least a portion of data processed by the display apparatus 100 to the wireless communication unit 173. It can be transmitted to the wearable device. Therefore, a user of the wearable device can use data processed by the display device 100 through the wearable device.
  • the display unit 180 converts the image signal, data signal, OSD signal, or image signal received from the external device interface unit 135 processed by the control unit 170 into R, G, and B signals, and then drives them. You can generate a signal.
  • the display device 100 illustrated in FIG. 1 is only an embodiment of the present invention. Some of the illustrated components may be integrated, added, or omitted depending on the specifications of the display device 100 that is actually implemented.
  • two or more components may be combined into one component, or one component may be divided into two or more components.
  • the function performed in each block is for explaining an embodiment of the present invention, the specific operation or device does not limit the scope of the present invention.
  • the network interface unit 133 or the external device interface unit ( 135) to receive and reproduce the video.
  • the display device 100 is divided into an image processing device such as a set-top box for receiving broadcast signals or contents according to various network services, and a content playback device for playing content input from the image processing device. Can be implemented.
  • an image processing device such as a set-top box for receiving broadcast signals or contents according to various network services
  • a content playback device for playing content input from the image processing device. Can be implemented.
  • the operation method of the display device according to the embodiment of the present invention will be described below, as well as the display device 100 as described with reference to FIG. 1, the image processing device or display unit such as the separated set-top box ( 180) and an audio output unit 185.
  • FIG. 2 is a block diagram of a remote control device according to an embodiment of the present invention
  • FIG. 3 shows an actual configuration example of a remote control device 200 according to an embodiment of the present invention.
  • the remote control device 200 includes a fingerprint recognition unit 210, a wireless communication unit 220, a user input unit 230, a sensor unit 240, an output unit 250, and a power supply unit 260. ), a storage unit 270, a control unit 280, and a voice acquisition unit 290.
  • the wireless communication unit 225 transmits and receives a signal to any one of the display devices according to the embodiments of the present invention described above.
  • the remote control device 200 includes an RF module 221 capable of transmitting and receiving signals to and from the display device 100 according to RF communication standards, and capable of transmitting and receiving signals to and from the display device 100 according to IR communication standards.
  • An IR module 223 may be provided.
  • the remote control device 200 may include a Bluetooth module 225 capable of transmitting and receiving signals to and from the display device 100 according to the Bluetooth communication standard.
  • the remote control device 200 is provided with an NFC module 227 capable of transmitting and receiving signals with the display device 100 according to NFC (Near Field Communication) communication standards, and displays according to WLAN (Wireless LAN) communication standards.
  • a WLAN module 229 capable of transmitting and receiving signals to and from the device 100 may be provided.
  • the remote control device 200 transmits a signal including information on the movement of the remote control device 200 to the display device 100 through the wireless communication unit 220.
  • the remote control device 200 may receive a signal transmitted from the display device 100 through the RF module 221, and power on/off the display device 100 through the IR module 223 as necessary. Commands for off, channel change, volume change, and the like can be transmitted.
  • the user input unit 230 may include a keypad, a button, a touch pad, or a touch screen.
  • the user may input a command related to the display device 100 to the remote control device 200 by operating the user input unit 230.
  • the user input unit 230 includes a hard key button, the user may input a command related to the display device 100 to the remote control device 200 through a push operation of the hard key button. This will be described with reference to FIG. 3.
  • the remote control device 200 may include a plurality of buttons.
  • the plurality of buttons are fingerprint recognition button 212, power button 231, home button 232, live button 233, external input button 234, volume control button 235, voice recognition button 236, It may include a channel change button 237, a confirmation button 238 and a back button 239.
  • the fingerprint recognition button 212 may be a button for recognizing a user's fingerprint. In one embodiment, the fingerprint recognition button 212 may perform a push operation, and may receive a push operation and a fingerprint recognition operation.
  • the power button 231 may be a button for turning on/off the power of the display device 100.
  • the home button 232 may be a button for moving to the home screen of the display device 100.
  • the live button 233 may be a button for displaying a real-time broadcast program.
  • the external input button 234 may be a button for receiving an external input connected to the display device 100.
  • the volume control button 235 may be a button for adjusting the volume of the volume output by the display device 100.
  • the voice recognition button 236 may be a button for receiving a user's voice and recognizing the received voice.
  • the channel change button 237 may be a button for receiving a broadcast signal of a specific broadcast channel.
  • the confirmation button 238 may be a button for selecting a specific function, and the back button 239 may be a button for returning to a previous screen.
  • the user input unit 230 When the user input unit 230 includes a touch screen, the user may input a command related to the display device 100 to the remote control device 200 by touching a soft key of the touch screen.
  • the user input unit 230 may include various types of input means that can be operated by a user, such as a scroll key or a jog key, and this embodiment does not limit the scope of the present invention.
  • the sensor unit 240 may include a gyro sensor 241 or an acceleration sensor 243, and the gyro sensor 241 may sense information on the movement of the remote control device 200.
  • the gyro sensor 241 may sense information on the operation of the remote control device 200 based on the x, y, and z axes, and the acceleration sensor 243 may move the speed of the remote control device 200. Information about the back can be sensed.
  • the remote control device 200 may further include a distance measurement sensor, and sense a distance from the display unit 180 of the display device 100.
  • the output unit 250 may output an image or audio signal corresponding to the operation of the user input unit 235 or a signal transmitted from the display device 100. The user may recognize whether the user input unit 235 is operated or whether the display device 100 is controlled through the output unit 250.
  • the output unit 250 includes a LED module 251 that lights when the user input unit 235 is operated or a signal is transmitted and received through the wireless communication unit 225, and a vibration module generating vibration ( 253), an audio output module 255 for outputting sound, or a display module 257 for outputting an image.
  • the power supply unit 260 supplies power to the remote control device 200, and when the remote control device 200 has not been moved for a predetermined time, power supply is stopped to reduce power waste.
  • the power supply unit 260 may resume power supply when a predetermined key provided in the remote control device 200 is operated.
  • the storage unit 270 may store various types of programs and application data required for control or operation of the remote control device 200. If the remote control device 200 transmits and receives signals wirelessly through the display device 100 and the RF module 221, the remote control device 200 and the display device 100 transmit and receive signals through a predetermined frequency band. .
  • the control unit 280 of the remote control device 200 stores and references information on a frequency band capable of wirelessly transmitting and receiving signals to and from the display device 100 paired with the remote control device 200 in the storage unit 270 for reference. can do.
  • the control unit 280 controls all matters related to the control of the remote control device 200.
  • the control unit 280 may display a signal corresponding to a predetermined key manipulation of the user input unit 235 or a signal corresponding to the movement of the remote control device 200 sensed by the sensor unit 240 through the wireless communication unit 225 ( 100).
  • the voice acquisition unit 290 of the remote control device 200 may acquire voice.
  • the voice acquisition unit 290 may include at least one microphone 291, and may acquire voice through the microphone 291.
  • FIG. 4 will be described.
  • FIG. 4 shows an example of using a remote control device according to an embodiment of the present invention.
  • FIG. 4A illustrates that a pointer 205 corresponding to the remote control device 200 is displayed on the display unit 180.
  • the user may move or rotate the remote control device 200 up, down, left, and right.
  • the pointer 205 displayed on the display unit 180 of the display device 100 corresponds to the movement of the remote control device 200.
  • the remote control device 200 may be referred to as a spatial remote controller because the corresponding pointer 205 is moved and displayed according to the movement on the 3D space, as shown in the drawing.
  • FIG. 4B illustrates that when the user moves the remote control device 200 to the left, the pointer 205 displayed on the display unit 180 of the display device 100 also moves to the left correspondingly.
  • the display device 100 may calculate the coordinates of the pointer 205 from information related to the movement of the remote control device 200.
  • the display device 100 may display the pointer 205 to correspond to the calculated coordinates.
  • FIG. 4C illustrates a case in which a user moves the remote control device 200 away from the display unit 180 while pressing a specific button in the remote control device 200. Accordingly, the selected area in the display unit 180 corresponding to the pointer 205 may be zoomed in and displayed enlarged.
  • the selected area in the display unit 180 corresponding to the pointer 205 may be zoomed out and reduced.
  • the selection area is zoomed out, and when the remote control device 200 approaches the display unit 180, the selection area may be zoomed in.
  • recognition of up, down, left and right movements may be excluded while a specific button in the remote control device 200 is pressed. That is, when the remote control device 200 moves to move away from or approach the display unit 180, the up, down, left, and right movements are not recognized, and only the forward and backward movements can be recognized. When a specific button in the remote control device 200 is not pressed, only the pointer 205 moves according to the up, down, left, and right movements of the remote control device 200.
  • the moving speed or the moving direction of the pointer 205 may correspond to the moving speed or the moving direction of the remote control device 200.
  • the pointer in the present specification means an object displayed on the display unit 180 in response to the operation of the remote control device 200. Therefore, objects of various shapes are possible with the pointer 205 in addition to the arrow shape shown in the drawing. For example, it may be a concept including points, cursors, prompts, and thick outlines. In addition, the pointer 205 may be displayed corresponding to any one point of the horizontal axis and the vertical axis on the display unit 180, as well as a plurality of points such as a line and a surface. Do.
  • FIG. 5 is a flowchart illustrating an operation method of a display device according to an exemplary embodiment of the present invention.
  • control unit 170 of the display apparatus 100 receives a spoken word spoken by the user (S501).
  • control unit 170 may receive a voice activated word through a microphone provided in the display device 100.
  • control unit 170 may receive a voice activated word spoken by the user from an external device through the wireless communication unit 173.
  • the external device may be a cradle such as a USB memory or any one of the remote control devices 200 illustrated in FIG. 2.
  • the external device may receive the user's voice activated word and transmit the received voice activated word to the display apparatus 100 through a short range wireless communication standard.
  • the control unit 170 receives the voice Mobile It is determined whether recognition is successful (S503).
  • the control unit 170 may perform pre-processing on the voice data corresponding to the received voice starting word. Pre-processing may include removing noise from the speech signal.
  • control unit 170 may convert the spoken word to text using the STT engine, and determine whether the converted text matches the text corresponding to the pre-stored word.
  • control unit 170 may output a high signal through the GPIO (General Purpose Input Output) port when the voice trigger is successfully recognized.
  • GPIO General Purpose Input Output
  • the display device 100 may include a separate hardware element for recognition of the voice activated words.
  • a separate hardware may be included in the control unit 170 or may be implemented as a separate component from the control unit 170. This will be described later.
  • the recognition of the voice-activated word may be performed by an external device.
  • the control unit 170 may receive voice data corresponding to the recognized voice starting word from the external device.
  • FIGS. 6 and 7 are views illustrating an example in which a display device directly receives and recognizes a voice activated word according to an embodiment of the present invention.
  • FIGS. 8 and 9 are diagrams illustrating an example in which an external device receives and recognizes a voice activated word and transmits voice data corresponding to the recognized voice activated word to a display device according to another embodiment of the present invention.
  • FIGS. 6 and 7 will be described.
  • the microphone 151 of the display device 100 may receive the voice utterance 600 spoken by the user.
  • the voice trigger word 600 may be a command for activating the voice recognition mode of the display device 100.
  • the starting word recognition unit 171 of the display device 100 may receive voice data corresponding to the voice starting word through the microphone 151.
  • the mobile word recognition unit 171 may remove noise from the voice data and convert the noise-removed voice data into text data using an STT engine.
  • the starting word recognition unit 171 may determine whether the converted text data matches text data corresponding to the stored starting word.
  • the start word recognition unit 171 may determine that the recognition of the voice start word is successful.
  • the start word recognition unit 171 may determine that the recognition of the voice start word has failed.
  • the start word recognition unit 171 may transmit voice data of the recognized voice start word to the main processor 172.
  • the start word recognition unit 171 may output a high signal through the GPIO port.
  • the main processor 172 may confirm that the recognition of the voice activated word is successful through the output high signal. That is, the GPIO high signal may be a signal indicating that the recognition of the spoken word is successful.
  • the starting word recognition unit 171 and the main processor 172 may be included in the control unit 170.
  • the main processor 172 is included in the control unit 170, and the startup word recognition unit 171 may exist as a separate hardware component (chip).
  • FIGS. 8 and 9 will be described.
  • the cradle 600 may receive the voice utterance 600 spoken by the user.
  • the cradle 800 may include a microphone 801, a mobile word recognition unit 803, a wireless communication unit 805, and a processor 807.
  • the microphone 801 of the cradle 800 may receive a user's voice activated word and transmit voice data of the received voice activated word to the activated word recognition unit 803.
  • the spoken word recognition unit 803 may convert voice data of the spoken spoken word into text data, and determine whether the converted text data matches pre-stored text data.
  • the start word recognition unit 803 may determine that the recognition of the voice start word is successful.
  • the spoken word recognition unit 803 may transmit voice data of the recognized voice activated word to the wireless communication unit 805.
  • the wireless communication unit 805 may transmit the voice data of the speech starter that has been successfully recognized to the wireless communication unit 173 of the display device 100.
  • the wireless communication unit 805 may transmit voice data to the display device 100 through a short range wireless communication standard.
  • the wireless communication unit 805 may include a Bluetooth module, a Wi-Fi module, and the like.
  • the cradle 800 may transmit starter recognition information indicating that the recognition of the voice starter is successful to the display apparatus 100 in addition to the voice data of the successful starter.
  • the processor 807 of the cradle 800 may overall control components of the cradle 800.
  • the processor 807 of the cradle 800 may transmit the voice data corresponding to the voice command of the user, which is additionally received, to the display apparatus 100 after the successful recognition of the voice trigger word.
  • the voice unit and voice commands can be received through an external device, so that the production cost of the display device 100 Savings, and burden on chip design can be reduced.
  • FIG. 5 will be described.
  • the control unit 170 receives the voice Mobile If recognition is successful, recognized voice Maneuver normal Whether it is a maneuver It is judged (S505).
  • control unit 170 may verify whether the recognized speech starting word is a normal starting word.
  • the control unit 170 may determine whether the voice starting word is a normal starting word based on the recognized voice characteristics of the voice starting word.
  • FIG. 10 is a diagram for explaining a process of verifying whether a recognized speech starting word is a normal starting word according to an embodiment of the present invention.
  • FIG. 10 is a diagram specifically explaining step S503.
  • the control unit 170 is recognized voice In the language
  • the corresponding voice data is pre-processed (S1001).
  • the controller 170 may perform a pre-processing process such as decoding, normalization processing, and noise removal on voice data.
  • the pre-processing process may also include converting a voice signal on the time axis into a power spectrum on the frequency axis.
  • the control unit 170 Pretreated A plurality of speech feature vectors are extracted from the speech data (S1003).
  • control unit 170 may divide the pre-processed voice data into a plurality of time units, and extract a voice feature vector corresponding to each time unit.
  • the speech feature vector may be a vector representing characteristics of speech in a corresponding time unit.
  • the speech feature vector may have a dimension corresponding to the number of speech features.
  • the controller 170 acquires phonemes corresponding to each of the plurality of voice feature vectors using the acoustic model (S1005).
  • the acoustic model may be a model that stores phonemes corresponding to values of a voice feature vector.
  • the control unit 170 may search for phonemes corresponding to values of a plurality of speech feature vectors using an acoustic model.
  • the controller 170 may obtain a plurality of phonemes corresponding to each of the plurality of speech feature vectors according to the search result.
  • the control unit 170 is a normal combination of the obtained phonemes As a mobile language It is determined whether it is within a range to be recognized (S1007).
  • the controller 170 may determine whether the combination of phonemes falls within the recognition range of the normal starting word.
  • the control unit 170 is a normal combination of the obtained phonemes As a mobile language If it is within the range to be recognized, voice Maneuver normal As a mobile language It is judged (S1009).
  • the control unit 170 is a normal combination of the obtained phonemes As a mobile language If it does not fall within the range to be recognized, voice Maneuver abnormal As a mobile language It is judged (S1011).
  • Steps S1005 to S1011 will be specifically described with reference to FIG. 11.
  • 11 is a diagram for explaining a process of determining whether a voice-activated word belongs to a range of normal-activated words based on an acoustic model and a language model.
  • control unit 170 may extract speech feature vectors from a speech signal corresponding to the speech starting word.
  • the control unit 170 may convert the voice signal of the voice starting word into a power spectrum through Fast Fourier Transform (FFT) transformation.
  • FFT Fast Fourier Transform
  • the control unit 170 may extract the speech feature vector at unit time intervals from the power spectrum.
  • the speech feature vector may be a vector representing speech features corresponding to a unit time interval.
  • the voice features may include one or more of a frequency band and amplitude amplitude in the corresponding frequency band.
  • the control unit 170 may convert the speech feature vectors into a combination of phonemes using the acoustic model 1110.
  • the acoustic model 1110 may store correspondences in which phonemes corresponding to values of speech feature vectors are matched.
  • the controller 170 may search the acoustic model 1110 to obtain a phoneme matching the voice feature vector.
  • the first phoneme combination 1121 is ⁇ ha.i.el.ji>
  • the second phoneme combination 1123 is ⁇ ha.jel.ji>
  • the third phoneme combination 1125 is ⁇ ha.h6el.ji>. Can be obtained.
  • the control unit 170 may obtain Hangul text matching each phoneme combination using the language model 1130.
  • the language model 1130 may be a model that converts letters of a first language constituting a phoneme combination to letters of a second language.
  • the control unit 170 may convert the phoneme group 1120 into a language text group 1150 using the language model 1130.
  • control unit 170 may convert the first phoneme combination 1121 into the first language text 1151 (Hiel) using the language model 1130.
  • control unit 170 may convert the second phoneme combination 1123 into the second language text 1153, and the third phoneme combination 1125 into the third language text 1155, respectively.
  • Each of the above acoustic model 1110 and language model 1130 may have a different language depending on the country in which the display device 100 is used.
  • the control unit 170 may determine whether each converted language text falls within the range of the normal starting language.
  • the control unit 170 may determine whether the language text falls within the range of the normal startup words through comparison between the previously registered normal startup words and the converted language text.
  • the controller 170 may determine that the language text is within the range of the normal language.
  • the control unit 170 may include the first language text 1151 and the second language text 1153 ) Can be determined as the normal starting language. That is, in this case, the control unit 170 may determine that the verification of the voice activated word is successful.
  • control unit 170 may determine the third language text 1155 as an abnormal starting language.
  • FIG. 5 will be described.
  • the control unit 170 is recognized voice Maneuver normal It's a maneuver If it is determined, the reception of the voice command is awaited (S507).
  • the main processor 172 may output a low signal through the GPIO port when the voice starter is verified as the normal starter.
  • the output low signal may be transmitted to the start word recognition unit 171.
  • control unit 170 receives the voice command (S509) and performs a function of the display device 100 corresponding to the received voice command (S511).
  • the received voice command may be a command for performing a specific function.
  • the voice command may be a command indicating execution of a specific application installed on the display device 100, or a command such as a channel change or volume adjustment.
  • the control unit 170 may convert the received voice command into text, and use the converted text to determine a user's intention and perform a function corresponding to the voice command according to the determined user's intention.
  • step S509 when a microphone is provided in the display apparatus 100, the voice command may receive a voice command through the corresponding microphone.
  • the display device 100 may receive voice commands from the cradle 800.
  • the cradle 800 may receive a voice command through the microphone 801 and transmit the received voice command to the display device 100 through the wireless communication unit 805.
  • control unit 170 is recognized voice Maneuver normal Maneuver If it is determined not (S505), the recognized voice Maneuver It is stored in the storage 140 (S513).
  • control unit 170 may store the corresponding spoken spoken word to prevent erroneous recognition when the recognized spoken spoken word is not a normal spoken word and later, when the same spoken spoken word is received. Through this, the control unit 170 may not activate the voice recognition mode when the abnormal start word is received again.
  • control unit 170 is recognized voice Maneuver abnormal A maneuver
  • the notification is output (S515).
  • control unit 170 may display a notification indicating that the recognized voice start word is an abnormal start word through the display unit 180.
  • control unit 170 may output a notification indicating that the recognized voice start word is an abnormal start word through the audio output unit 185.
  • FIG. 12 is a ladder diagram illustrating a method of operating a speech recognition system according to an embodiment of the present invention.
  • FIG. 12 is a diagram for explaining an example in which the display device 100 recognizes a voice activated word and the server 1100 performs a role of verifying whether the voice activated word is a normal activated word.
  • the control unit 170 of the display device 100 is a voice spoken by the user Maneuver It is received (S1201).
  • step S1201 is replaced with the description of step S501 of FIG. 5.
  • the control unit 170 of the display device 100 receives the received voice Mobile It is determined whether recognition is successful (S1203).
  • step S1203 is replaced with the description of step S503 of FIG. 5.
  • the control unit 170 of the display device 100 is a voice Mobile If recognition is successful, the network
  • the voice data is transmitted to the server 1200 (S1205).
  • the control unit 170 may transmit the voice data of the voice starting word to the server 1200 to verify whether the voice starting word is incorrectly recognized.
  • Server 1200 is the voice received from the display device 100 Mobile Based on voice data, voice Maneuver normal Whether it is a maneuver It is judged (S1207).
  • the server 1200 may determine whether the voice activated word is a normal activated word using the embodiment of FIG. 10.
  • Server 1200 is a voice Maneuver normal It's a maneuver If judged (S1209), voice Maneuver normal A maneuver The indicating message is transmitted to the display device 100 (S1211).
  • the display apparatus 100 may determine that the voice start word received in step S1201 is a normal start word according to the message received from the server 1200. That is, the display apparatus 100 may determine that the verification of the voice activated word is successful.
  • the control unit 170 of the display device 100 recognizes the voice according to the message received from the server 1200 Mode Activate it , Waiting to receive the voice command (S1213).
  • control unit 170 of the display apparatus 100 confirms that the voice starter uttered by the user is a normal starter word according to a message received from the server 1200, and can perform a function for the user's voice command.
  • the recognition mode can be activated.
  • the control unit 170 of the display device 100 receives a voice command spoken by the user (S1215), and performs a function of the display device 100 corresponding to the received voice command (S1217).
  • the server 1200 is a voice Maneuver normal Maneuver If it is determined not (S1209), the corresponding voice Maneuver Save it (S1219).
  • the server 1200 may store a spoken word, which is determined as an abnormal word, in a database.
  • the above-described method it is possible to implement the above-described method as code readable by a processor on a medium on which a program is recorded.
  • Examples of the medium readable by the processor include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, and the like, and implemented in the form of a carrier wave (for example, transmission through the Internet). Includes.
  • the display device described above is not limited to the configuration and method of the above-described embodiments, and the above embodiments may be configured by selectively combining all or part of each embodiment so that various modifications can be made. It might be.

Abstract

본 발명의 실시 예에 따른 디스플레이 장치는 마이크로폰과 상기 마이크로폰을 통해 수신된 음성 기동어의 인식여부를 결정하는 기동어 인식부 및 상기 기동어 인식부에서, 상기 음성 기동어의 인식이 성공된 경우, 상기 음성 기동어의 특징 정보에 기초하여, 상기 음성 기동어가 정상 기동어인지를 판단하고, 상기 음성 기동어가 상기 정상 기동어로 판단된 경우, 상기 마이크로폰을 통해 음성 명령어를 수신함에 따라 수신된 음성 명령어에 대응하는 기능을 수행하는 메인 프로세서를 포함할 수 있다.

Description

디스플레이 장치
본 발명은 디스플레이 장치에 관한 것으로, 보다 구체적으로는, 음성 인식을 수행할 수 있는 디스플레이 장치에 관한 것이다.
유선 또는 무선 통신망을 이용한 디지털 TV 서비스가 보편화되고 있다. 디지털 TV 서비스는 기존의 아날로그 방송 서비스에서는 제공할 수 없었던 다양한 서비스를 제공할 수 있다.
예를 들어 디지털 TV 서비스의 종류인 IPTV(Internet Protocol Television), smart TV 서비스의 경우 사용자로 하여금 시청 프로그램의 종류, 시청 시간 등을 능동적으로 선택할 수 있도록 하는 양방향성을 제공한다. IPTV, smart TV서비스는 이러한 양방향성을 기반으로 하여 다양한 부가 서비스, 예컨대 인터넷 검색, 홈쇼핑, 온라인 게임 등을 제공할 수도 있다.
또한, 최근에는 TV를 통해, 사용자의 음성을 인식하고, 인식된 음성에 대응하는 기능을 수행하는 음성 인식 서비스가 제공되고 있다.
그러므로, TV를 통한 음성 인식은 TV 이용 중, 환경적 잡음이나 다른 사람의 대화로 잘못된 오인식이 발생하게 되면, 다른 제품보다 사용자의 불편함을 직관적으로 야기하게 된다.
음성 오 인식이 발생할 경우, TV On/Off, 예약 기능, 채널 전환 등 사용자가 원치 않는 동작 수행으로 이어질 수도 있기 때문에 오인식을 검증하는 방안이 필요하다.
본 발명은 TV를 통한 원거리 음성 인식 서비스의 제공 시, 사용자의 의도와는 다르게, 음성 인식이 오 인식되는 것을 방지하는 것에 그 목적이 있다.
본 발명의 실시 예에 따른 디스플레이 장치는 음성 기동어를 인식하는 단계를 2단계로 분리하여, 음성 기동어의 인식 검증을 수행할 수 있다.
본 발명의 실시 예에 따른 디스플레이 장치는 음성 기동어의 인식이 성공된 경우, 음성 기동어의 특징 정보를 이용하여, 음성 기동어가 정상 기동어의 범위 내에 속하는지를 판단하여, 음성 기동어의 검증을 수행할 수 있다.
본 발명의 다양한 실시 예에 따르면, 음성 기동어의 검증 방법으로 인해, 유사 발화어가 구분되어, 사용자가 기동어에 따른 TV의 동작에 신뢰를 가질 수 있다.
또한, 기동어로 인식될 수 있는 자주 발생하는 잡음을 구분하여, 원치 않는 TV의 동작이 수행되는 것이 방지되어, 사용자의 불편이 제거될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 블록도로 도시한 것이다.
도 2은 본 발명의 일 실시 예에 따른 원격제어장치의 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 원격제어장치의 실제 구성 예를 보여준다.
도 4는 본 발명의 실시 예에 따라 원격 제어 장치를 활용하는 예를 보여준다.
도 5는 본 발명의 일 실시 예에 따른 디스플레이 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 6 및 도 7은 본 발명의 일 실시 예에 따라 디스플레이 장치가 직접 음성 기동어를 수신 및 인식하는 예를 설명하는 도면이다.
도 8 및 도 9는 본 발명의 또 다른 실시 예에 따라 외부 기기가 음성 기동어를 수신 및 인식하고, 인식된 음성 기동어에 대응하는 음성 데이터를 디스플레이 장치에 전달하는 예를 설명하는 도면이다.
도 10은 본 발명의 일 실시 예에 따라, 인식된 음성 기동어가 정상 기동어인지를 검증하는 과정을 설명하기 위한 도면이다.
도 11은 음향 모델 및 언어 모델에 기초하여, 음성 기동어가 정상 기동어의 범위에 속하는지를 판단하는 과정을 설명하는 도면이다.
도 12는 본 발명의 일 실시 예에 따른 음성 인식 시스템의 동작 방법을 설명하는 래더다이어 그램이다.
이하, 본 발명과 관련된 실시 예에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 발명의 실시예에 따른 디스플레이 장치는, 예를 들어 방송 수신 기능에 컴퓨터 지원 기능을 추가한 지능형 디스플레이 장치로서, 방송 수신 기능에 충실하면서도 인터넷 기능 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 공간 리모콘 등 보다 사용에 편리한 인터페이스를 갖출 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수 있다.
따라서, 본 발명에서 기술되는 디스플레이 장치는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 디스플레이 장치는, 보다 구체적으로 예를 들면, 네트워크 TV, HBBTV, 스마트 TV, LED TV, OLED TV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.
도 1은 본 발명의 일 실시예에 따른 디스플레이 장치의 구성을 블록도로 도시한 것이다.
도 1을 참조하면, 디스플레이 장치(100)는 방송 수신부(130), 외부장치 인터페이스부(135), 저장부(140), 사용자입력 인터페이스부(150), 제어부(170), 무선 통신부(173), 디스플레이부(180), 오디오 출력부(185), 전원공급부(190)를 포함할 수 있다.
방송 수신부(130)는 튜너(131), 복조부(132) 및 네트워크 인터페이스부(133)를 포함할 수 있다.
튜너(131)는 채널 선국 명령에 따라 특정 방송 채널을 선국할 수 있다. 튜너(131)는 선국된 특정 방송 채널에 대한 방송 신호를 수신할 수 있다.
복조부(132)는 수신한 방송 신호를 비디오 신호, 오디오 신호, 방송 프로그램과 관련된 데이터 신호로 분리할 수 있고, 분리된 비디오 신호, 오디오 신호 및 데이터 신호를 출력이 가능한 형태로 복원할 수 있다.
외부장치 인터페이스부(135)는 인접하는 외부 장치 내의 애플리케이션 또는 애플리케이션 목록을 수신하여, 제어부(170) 또는 저장부(140)로 전달할 수 있다.
외부장치 인터페이스부(135)는 디스플레이 장치(100)와 외부 장치 간의 연결 경로를 제공할 수 있다. 외부장치 인터페이스부(135)는 디스플레이 장치(100)에 무선 또는 유선으로 연결된 외부장치로부터 출력된 영상, 오디오 중 하나 이상을 수신하여, 제어부(170)로 전달할 수 있다. 외부장치 인터페이스부(135)는 복수의 외부 입력 단자들을 포함할 수 있다. 복수의 외부 입력 단자들은 RGB 단자, 하나 이상의 HDMI(High Definition Multimedia Interface) 단자, 컴포넌트(Component) 단자를 포함할 수 있다.
외부장치 인터페이스부(135)를 통해 입력된 외부장치의 영상 신호는 디스플레이부(180)를 통해 출력될 수 있다. 외부장치 인터페이스부(135)를 통해 입력된 외부장치의 음성 신호는 오디오 출력부(185)를 통해 출력될 수 있다.
외부장치 인터페이스부(135)에 연결 가능한 외부 장치는 셋톱박스, 블루레이 플레이어, DVD 플레이어, 게임기, 사운드 바, 스마트폰, PC, USB 메모리, 홈 씨어터 중 어느 하나일 수 있으나, 이는 예시에 불과하다.
네트워크 인터페이스부(133)는 디스플레이 장치(100)를 인터넷망을 포함하는 유/무선 네트워크와 연결하기 위한 인터페이스를 제공할 수 있다. 네트워크 인터페이스부(133)는 접속된 네트워크 또는 접속된 네트워크에 링크된 다른 네트워크를 통해, 다른 사용자 또는 다른 전자 기기와 데이터를 송신 또는 수신할 수 있다.
또한, 디스플레이 장치(100)에 미리 등록된 다른 사용자 또는 다른 전자 기기 중 선택된 사용자 또는 선택된 전자기기에, 디스플레이 장치(100)에 저장된 일부의 컨텐츠 데이터를 송신할 수 있다.
네트워크 인터페이스부(133)는 접속된 네트워크 또는 접속된 네트워크에 링크된 다른 네트워크를 통해, 소정 웹 페이지에 접속할 수 있다. 즉, 네트워크를 통해 소정 웹 페이지에 접속하여, 해당 서버와 데이터를 송신 또는 수신할 수 있다.
그리고, 네트워크 인터페이스부(133)는 컨텐츠 제공자 또는 네트워크 운영자가 제공하는 컨텐츠 또는 데이터들을 수신할 수 있다. 즉, 네트워크 인터페이스부(133)는 네트워크를 통하여 컨텐츠 제공자 또는 네트워크 제공자로부터 제공되는 영화, 광고, 게임, VOD, 방송 신호 등의 컨텐츠 및 그와 관련된 정보를 수신할 수 있다.
또한, 네트워크 인터페이스부(133)는 네트워크 운영자가 제공하는 펌웨어의 업데이트 정보 및 업데이트 파일을 수신할 수 있으며, 인터넷 또는 컨텐츠 제공자 또는 네트워크 운영자에게 데이터들을 송신할 수 있다.
네트워크 인터페이스부(133)는 네트워크를 통해, 공중에 공개(open)된 애플리케이션들 중 원하는 애플리케이션을 선택하여 수신할 수 있다.
저장부(140)는 제어부(170) 내의 각 신호 처리 및 제어를 위한 프로그램이 저장하고, 신호 처리된 영상, 음성 또는 데이터신호를 저장할 수 있다.
또한, 저장부(140)는 외부장치 인터페이스부(135) 또는 네트워크 인터페이스부(133)로부터 입력되는 영상, 음성, 또는 데이터 신호의 임시 저장을 위한 기능을 수행할 수도 있으며, 채널 기억 기능을 통하여 소정 이미지에 관한 정보를 저장할 수도 있다.
저장부(140)는 외부장치 인터페이스부(135) 또는 네트워크 인터페이스부(133)로부터 입력되는 애플리케이션 또는 애플리케이션 목록을 저장할 수 있다.
디스플레이 장치(100)는 저장부(140) 내에 저장되어 있는 컨텐츠 파일(동영상 파일, 정지영상 파일, 음악 파일, 문서 파일, 애플리케이션 파일 등)을 재생하여 사용자에게 제공할 수 있다.
사용자입력 인터페이스부(150)는 사용자가 입력한 신호를 제어부(170)로 전달하거나, 제어부(170)로부터의 신호를 사용자에게 전달할 수 있다. 예를 들어, 사용자입력 인터페이스부(150)는 블루투스(Bluetooth), WB(Ultra Wideband), 지그비(ZigBee) 방식, RF(Radio Frequency) 통신 방식 또는 적외선(IR) 통신 방식 등 다양한 통신 방식에 따라, 원격제어장치(200)로부터 전원 온/오프, 채널 선택, 화면 설정 등의 제어 신호를 수신하여 처리하거나, 제어부(170)로부터의 제어 신호를 원격제어장치(200)로 송신하도록 처리할 수 있다.
또한, 사용자입력 인터페이스부(150)는, 전원키, 채널키, 볼륨키, 설정치 등의 로컬키(미도시)에서 입력되는 제어 신호를 제어부(170)에 전달할 수 있다.
제어부(170)에서 영상 처리된 영상 신호는 디스플레이부(180)로 입력되어 해당 영상 신호에 대응하는 영상으로 표시될 수 있다. 또한, 제어부(170)에서 영상 처리된 영상 신호는 외부장치 인터페이스부(135)를 통하여 외부 출력장치로 입력될 수 있다.
제어부(170)에서 처리된 음성 신호는 오디오 출력부(185)로 오디오 출력될 수 있다. 또한, 제어부(170)에서 처리된 음성 신호는 외부장치 인터페이스부(135)를 통하여 외부 출력장치로 입력될 수 있다.
그 외, 제어부(170)는, 디스플레이 장치(100) 내의 전반적인 동작을 제어할 수 있다.
또한, 제어부(170)는 사용자입력 인터페이스부(150)를 통하여 입력된 사용자 명령 또는 내부 프로그램에 의하여 디스플레이 장치(100)를 제어할 수 있으며, 네트워크에 접속하여 사용자가 원하는 애플리케이션 또는 애플리케이션 목록을 디스플레이 장치(100) 내로 다운받을 수 있도록 할 수 있다.
제어부(170)는 사용자가 선택한 채널 정보 등이 처리한 영상 또는 음성신호와 함께 디스플레이부(180) 또는 오디오 출력부(185)를 통하여 출력될 수 있도록 한다.
또한, 제어부(170)는 사용자입력 인터페이스부(150)를 통하여 수신한 외부장치 영상 재생 명령에 따라, 외부장치 인터페이스부(135)를 통하여 입력되는 외부 장치, 예를 들어, 카메라 또는 캠코더로부터의, 영상 신호 또는 음성 신호가 디스플레이부(180) 또는 오디오 출력부(185)를 통해 출력될 수 있도록 한다.
한편, 제어부(170)는 영상을 표시하도록 디스플레이부(180)를 제어할 수 있으며, 예를 들어 튜너(131)를 통해 입력되는 방송 영상, 또는 외부장치 인터페이스부(135)를 통해 입력되는 외부 입력 영상, 또는 네트워크 인터페이스부를 통해 입력되는 영상, 또는 저장부(140)에 저장된 영상이 디스플레이부(180)에서 표시되도록 제어할 수 있다. 이 경우, 디스플레이부(180)에 표시되는 영상은 정지 영상 또는 동영상일 수 있으며, 2D 영상 또는 3D 영상일 수 있다.
또한, 제어부(170)는 디스플레이 장치(100) 내에 저장된 컨텐츠, 또는 수신된 방송 컨텐츠, 외부로 부터 입력되는 외부 입력 컨텐츠가 재생되도록 제어할 수 있으며, 상기 컨텐츠는 방송 영상, 외부 입력 영상, 오디오 파일, 정지 영상, 접속된 웹 화면, 및 문서 파일 등 다양한 형태일 수 있다.
무선 통신부(173)는 유선 또는 무선 통신을 통해 외부 기기와 통신을 수행할 수 있다. 무선 통신부(173)는 외부 기기와 근거리 통신(Short range communication)을 수행할 수 있다. 이를 위해, 무선 통신부(173)는 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다. 이러한, 무선 통신부(173)는 근거리 무선 통신망(Wireless Area Networks)을 통해 디스플레이 장치(100)와 무선 통신 시스템 사이, 디스플레이 장치(100)와 다른 디스플레이 장치(100) 사이, 또는 디스플레이 장치(100)와 디스플레이 장치(100, 또는 외부서버)가 위치한 네트워크 사이의 무선 통신을 지원할 수 있다. 근거리 무선 통신망은 근거리 무선 개인 통신망(Wireless Personal Area Networks)일 수 있다.
여기에서, 다른 디스플레이 장치(100)는 본 발명에 따른 디스플레이 장치(100)와 데이터를 상호 교환하는 것이 가능한(또는 연동 가능한) 웨어러블 디바이스(wearable device, 예를 들어, 스마트워치(smartwatch), 스마트 글래스(smart glass), HMD(head mounted display)), 스마트 폰과 같은 이동 단말기가 될 수 있다. 무선 통신부(173)는 디스플레이 장치(100) 주변에, 통신 가능한 웨어러블 디바이스를 감지(또는 인식)할 수 있다. 나아가, 제어부(170)는 감지된 웨어러블 디바이스가 본 발명에 따른 디스플레이 장치(100)와 통신하도록 인증된 디바이스인 경우, 디스플레이 장치(100)에서 처리되는 데이터의 적어도 일부를, 무선 통신부(173)를 통해 웨어러블 디바이스로 송신할 수 있다. 따라서, 웨어러블 디바이스의 사용자는, 디스플레이 장치(100)에서 처리되는 데이터를, 웨어러블 디바이스를 통해 이용할 수 있다.
디스플레이부(180)는 제어부(170)에서 처리된 영상 신호, 데이터 신호, OSD 신호 또는 외부장치 인터페이스부(135)에서 수신되는 영상 신호, 데이터 신호 등을 각각 R,G,B 신호로 변환하여 구동 신호를 생성할 수 있다.
한편, 도 1에 도시된 디스플레이 장치(100)는 본 발명의 일실시예에 불과하므로. 도시된 구성요소들 중 일부는 실제 구현되는 디스플레이 장치(100)의 사양에 따라 통합, 추가, 또는 생략될 수 있다.
즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 본 발명의 실시예를 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
본 발명의 또 다른 실시예에 따르면, 디스플레이 장치(100)는 도 1에 도시된 바와 달리, 튜너(131)와 복조부(132)를 구비하지 않고 네트워크 인터페이스부(133) 또는 외부장치 인터페이스부(135)를 통해서 영상을 수신하여 재생할 수도 있다.
예를 들어, 디스플레이 장치(100)는 방송 신호 또는 다양한 네트워크 서비스에 따른 컨텐츠들을 수신하기 위한 등과 같은 셋탑 박스 등과 같은 영상 처리 장치와 상기 영상 처리 장치로부터 입력되는 컨텐츠를 재생하는 컨텐츠 재생 장치로 분리되어 구현될 수 있다.
이 경우, 이하에서 설명할 본 발명의 실시예에 따른 디스플레이 장치의 동작 방법은 도 1을 참조하여 설명한 바와 같은 디스플레이 장치(100)뿐 아니라, 상기 분리된 셋탑 박스 등과 같은 영상 처리 장치 또는 디스플레이부(180) 및 오디오출력부(185)를 구비하는 컨텐츠 재생 장치 중 어느 하나에 의해 수행될 수도 있다.
다음으로, 도 2 내지 도 3을 참조하여, 본 발명의 일 실시 예에 따른 원격제어장치에 대해 설명한다.
도 2은 본 발명의 일 실시 예에 따른 원격제어장치의 블록도이고, 도 3은 본발명의 일 실시 예에 따른 원격제어장치(200)의 실제 구성 예를 보여준다.
먼저, 도 2를 참조하면, 원격제어장치(200)는 지문인식부(210), 무선통신부(220), 사용자 입력부(230), 센서부(240), 출력부(250), 전원공급부(260), 저장부(270), 제어부(280), 음성 획득부(290)를 포함할 수 있다.
도 2을 참조하면, 무선통신부(225)는 전술하여 설명한 본 발명의 실시 예들에 따른 디스플레이 장치 중 임의의 어느 하나와 신호를 송수신한다.
원격제어장치(200)는 RF 통신규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 RF 모듈(221)을 구비하며, IR 통신규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 IR 모듈(223)을 구비할 수 있다. 또한, 원격제어장치(200)는 블루투스 통신규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 블루투스 모듈(225)를 구비할 수 있다. 또한, 원격제어장치(200)는 NFC(Near Field Communication) 통신 규격에 따라 디스플레이 장치(100)와 신호를 송수할 수 있는 NFC 모듈(227)을 구비하며, WLAN(Wireless LAN) 통신 규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 WLAN 모듈(229)을 구비할 수 있다.
또한, 원격제어장치(200)는 디스플레이 장치(100)로 원격제어장치(200)의 움직임 등에 관한 정보가 담긴 신호를 무선 통신부(220)를 통해 전송한다.
한편, 원격제어장치(200)는 디스플레이 장치(100)가 전송한 신호를 RF 모듈(221)을 통하여 수신할 수 있으며, 필요에 따라 IR 모듈(223)을 통하여 디스플레이 장치(100)로 전원 온/오프, 채널 변경, 볼륨 변경 등에 관한 명령을 전송할 수 있다.
사용자 입력부(230)는 키패드, 버튼, 터치 패드, 또는 터치 스크린 등으로 구성될 수 있다. 사용자는 사용자 입력부(230)를 조작하여 원격제어장치(200)으로 디스플레이 장치(100)와 관련된 명령을 입력할 수 있다. 사용자 입력부(230)가 하드키 버튼을 구비할 경우 사용자는 하드키 버튼의 푸쉬 동작을 통하여 원격제어장치(200)으로 디스플레이 장치(100)와 관련된 명령을 입력할 수 있다. 이에 대해서는 도 3을 참조하여 설명한다.
도 3을 참조하면, 원격제어장치(200)는 복수의 버튼을 포함할 수 있다. 복수의 버튼은 지문 인식 버튼(212), 전원 버튼(231), 홈 버튼(232), 라이브 버튼(233), 외부 입력 버튼(234), 음량 조절 버튼(235), 음성 인식 버튼(236), 채널 변경 버튼(237), 확인 버튼(238) 및 뒤로 가기 버튼(239)을 포함할 수 있다.
지문 인식 버튼(212)은 사용자의 지문을 인식하기 위한 버튼일 수 있다. 일 실시예로, 지문 인식 버튼(212)은 푸쉬 동작이 가능하여, 푸쉬 동작 및 지문 인식 동작을 수신할 수도 있다. 전원 버튼(231)은 디스플레이 장치(100)의 전원을 온/오프 하기 위한 버튼일 수 있다. 홈 버튼(232)은 디스플레이 장치(100)의 홈 화면으로 이동하기 위한 버튼일 수 있다. 라이브 버튼(233)은 실시간 방송 프로그램을 디스플레이 하기 위한 버튼일 수 있다. 외부 입력 버튼(234)은 디스플레이 장치(100)에 연결된 외부 입력을 수신하기 위한 버튼일 수 있다. 음량 조절 버튼(235)은 디스플레이 장치(100)가 출력하는 음량의 크기를 조절하기 위한 버튼일 수 있다. 음성 인식 버튼(236)은 사용자의 음성을 수신하고, 수신된 음성을 인식하기 위한 버튼일 수 있다. 채널 변경 버튼(237)은 특정 방송 채널의 방송 신호를 수신하기 위한 버튼일 수 있다. 확인 버튼(238)은 특정 기능을 선택하기 위한 버튼일 수 있고, 뒤로 가기 버튼(239)은 이전 화면으로 되돌아가기 위한 버튼일 수 있다.
다시 도 2를 설명한다.
사용자 입력부(230)가 터치스크린을 구비할 경우 사용자는 터치스크린의 소프트키를 터치하여 원격제어장치(200)로 디스플레이 장치(100)와 관련된 명령을 입력할 수 있다. 또한, 사용자 입력부(230)는 스크롤 키나, 조그 키 등 사용자가 조작할 수 있는 다양한 종류의 입력수단을 구비할 수 있으며 본 실시 예는 본 발명의 권리범위를 제한하지 아니한다.
센서부(240)는 자이로 센서(241) 또는 가속도 센서(243)를 구비할 수 있으며, 자이로 센서(241)는 원격제어장치(200)의 움직임에 관한 정보를 센싱할 수 있다.
예를 들어, 자이로 센서(241)는 원격제어장치(200)의 동작에 관한 정보를 x,y,z 축을 기준으로 센싱할 수 있으며, 가속도 센서(243)는 원격제어장치(200)의 이동속도 등에 관한 정보를 센싱할 수 있다. 한편, 원격제어장치(200)는 거리측정센서를 더 구비할 수 있어, 디스플레이 장치(100)의 디스플레이부(180)와의 거리를 센싱할 수 있다.
출력부(250)는 사용자 입력부(235)의 조작에 대응하거나 디스플레이 장치(100)에서 전송한 신호에 대응하는 영상 또는 음성 신호를 출력할 수 있다. 출력부(250)를 통하여 사용자는 사용자 입력부(235)의 조작 여부 또는 디스플레이 장치(100)의 제어 여부를 인지할 수 있다.
예를 들어, 출력부(250)는 사용자 입력부(235)가 조작되거나 무선 통신부(225)를 통하여 디스플레이 장치(100)와 신호가 송수신되면 점등되는 LED 모듈(251), 진동을 발생하는 진동 모듈(253), 음향을 출력하는 음향 출력 모듈(255), 또는 영상을 출력하는 디스플레이 모듈(257)을 구비할 수 있다.
또한, 전원공급부(260)는 원격제어장치(200)으로 전원을 공급하며, 원격제어장치(200)이 소정 시간 동안 움직이지 않은 경우 전원 공급을 중단함으로서 전원 낭비를 줄일 수 있다. 전원공급부(260)는 원격제어장치(200)에 구비된 소정 키가 조작된 경우에 전원 공급을 재개할 수 있다.
저장부(270)는 원격제어장치(200)의 제어 또는 동작에 필요한 여러 종류의 프로그램, 애플리케이션 데이터 등이 저장될 수 있다. 만일 원격제어장치(200)가 디스플레이 장치(100)와 RF 모듈(221)을 통하여 무선으로 신호를 송수신할 경우 원격제어장치(200)과 디스플레이 장치(100)는 소정 주파수 대역을 통하여 신호를 송수신한다.
원격제어장치(200)의 제어부(280)는 원격제어장치(200)과 페어링된 디스플레이 장치(100)와 신호를 무선으로 송수신할 수 있는 주파수 대역 등에 관한 정보를 저장부(270)에 저장하고 참조할 수 있다.
제어부(280)는 원격제어장치(200)의 제어에 관련된 제반사항을 제어한다. 제어부(280)는 사용자 입력부(235)의 소정 키 조작에 대응하는 신호 또는 센서부(240)에서 센싱한 원격제어장치(200)의 움직임에 대응하는 신호를 무선 통신부(225)를 통하여 디스플레이 장치(100)로 전송할 수 있다.
또한, 원격제어장치(200)의 음성 획득부(290)는 음성을 획득할 수 있다.
음성 획득부(290)는 적어도 하나 이상의 마이크(291)을 포함할 수 있고, 마이크(291)를 통해 음성을 획득할 수 있다.
다음으로 도 4를 설명한다.
도 4는 본 발명의 실시 예에 따라 원격 제어 장치를 활용하는 예를 보여준다.
도 4의 (a)는 원격 제어 장치(200)에 대응하는 포인터(205)가 디스플레이부(180)에 표시되는 것을 예시한다.
사용자는 원격 제어 장치(200)를 상하, 좌우로 움직이거나 회전할 수 있다. 디스플레이 장치(100)의 디스플레이부(180)에 표시된 포인터(205)는 원격 제어 장치(200)의 움직임에 대응한다. 이러한 원격 제어 장치(200)는, 도면과 같이, 3D 공간 상의 움직임에 따라 해당 포인터(205)가 이동되어 표시되므로, 공간 리모콘이라 명명할 수 있다.
도 4의 (b)는 사용자가 원격 제어 장치(200)를 왼쪽으로 이동하면, 디스플레이 장치(100)의 디스플레이부(180)에 표시된 포인터(205)도 이에 대응하여 왼쪽으로 이동하는 것을 예시한다.
원격 제어 장치(200)의 센서를 통하여 감지된 원격 제어 장치(200)의 움직임에 관한 정보는 디스플레이 장치(100)로 전송된다. 디스플레이 장치(100)는 원격 제어 장치(200)의 움직임에 관한 정보로부터 포인터(205)의 좌표를 산출할 수 있다. 디스플레이 장치(100)는 산출한 좌표에 대응하도록 포인터(205)를 표시할 수 있다.
도 4의 (c)는, 원격 제어 장치(200) 내의 특정 버튼을 누른 상태에서, 사용자가 원격 제어 장치(200)를 디스플레이부(180)에서 멀어지도록 이동하는 경우를 예시한다. 이에 의해, 포인터(205)에 대응하는 디스플레이부(180) 내의 선택 영역이 줌인되어 확대 표시될 수 있다.
이와 반대로, 사용자가 원격 제어 장치(200)를 디스플레이부(180)에 가까워지도록 이동하는 경우, 포인터(205)에 대응하는 디스플레이부(180) 내의 선택 영역이 줌아웃되어 축소 표시될 수 있다.
한편, 원격 제어 장치(200)가 디스플레이부(180)에서 멀어지는 경우, 선택 영역이 줌아웃되고, 원격 제어 장치(200)가 디스플레이부(180)에 가까워지는 경우, 선택 영역이 줌인될 수도 있다.
또한, 원격 제어 장치(200) 내의 특정 버튼을 누른 상태에서는 상하, 좌우 이동의 인식이 배제될 수 있다. 즉, 원격 제어 장치(200)가 디스플레이부(180)에서 멀어지거나 접근하도록 이동하는 경우, 상, 하, 좌, 우 이동은 인식되지 않고, 앞뒤 이동만 인식되도록 할 수 있다. 원격 제어 장치(200) 내의 특정 버튼을 누르지 않은 상태에서는, 원격 제어 장치(200)의 상, 하, 좌, 우 이동에 따라 포인터(205)만 이동하게 된다.
한편, 포인터(205)의 이동속도나 이동방향은 원격 제어 장치(200)의 이동속도나 이동방향에 대응할 수 있다.
한편, 본 명세서에서의 포인터는, 원격 제어 장치(200)의 동작에 대응하여, 디스플레이부(180)에 표시되는 오브젝트를 의미한다. 따라서, 포인터(205)로 도면에 도시된 화살표 형상 외에 다양한 형상의 오브젝트가 가능하다. 예를 들어, 점, 커서, 프롬프트, 두꺼운 외곽선 등을 포함하는 개념일 수 있다. 그리고, 포인터(205)가 디스플레이부(180) 상의 가로축과 세로축 중 어느 한 지점(point)에 대응하여 표시되는 것은 물론, 선(line), 면(surface) 등 복수 지점에 대응하여 표시되는 것도 가능하다.
다음으로, 도 5를 참조하여, 본 발명의 일 실시 예에 따른 시스템의 동작 방법을 설명한다.
도 5는 본 발명의 일 실시 예에 따른 디스플레이 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 5를 참조하면, 디스플레이 장치(100)의 제어부(170)는 사용자가 발화한 음성 기동어를 수신한다(S501).
일 실시 예에서, 제어부(170)는 디스플레이 장치(100) 내에 구비된 마이크로폰을 통해 음성 기동어를 수신할 수 있다.
또 다른 실시 예에서, 제어부(170)는 무선 통신부(173)를 통해 외부 기기로부터 사용자가 발화한 음성 기동어를 수신할 수 있다.
여기서, 외부 기기란, USB 메모리와 같은 크래들, 도 2에 도시된 원격 제어 장치(200) 중 어느 하나일 수 있다.
외부 기기는 사용자의 음성 기동어를 수신하고, 근거리 무선 통신 규격을 통해, 수신된 음성 기동어를 디스플레이 장치(100)에 전송할 수 있다.
제어부(170)는 수신된 음성 기동어의 인식이 성공되었는지를 판단한다(S503).
제어부(170)는 수신된 음성 기동어에 대응하는 음성 데이터에 대해 전처리를 수행할 수 있다. 전처리는 음성 신호로부터 잡음을 제거하는 과정을 포함할 수 있다.
일 실시 예에서, 제어부(170)는 STT 엔진을 이용하여, 음성 기동어를 텍스트로 변환하고, 변환된 텍스트가 기 저장된 기동어에 대응하는 텍스트와 매칭되는지를 판단할 수 있다.
일 실시 예에서, 제어부(170)는 음성 기동어가 성공적으로 인식된 경우, GPIO(General Purpose Input Output) 포트를 통해 하이 신호를 출력할 수 있다.
디스플레이 장치(100)는 음성 기동어의 인식을 위한, 별도의 하드웨어 요소를 포함할 수 있다. 음성 기동어의 인식을 위한, 별도의 하드웨어는 제어부(170) 내에 포함될 수도 있고, 제어부(170)와 별도의 구성요소로 구현될 수 있다. 이에 대해서는 후술한다.
한편, 음성 기동어의 인식은 외부 기기에서 수행될 수 있다. 제어부(170)는 외부 기기에서 음성 기동어가 인식된 경우, 인식된 음성 기동어에 대응하는 음성 데이터를 외부 기기로부터 수신할 수도 있다.
이에 대해서는 이하의 도면을 참조하여, 설명한다.
도 6 및 도 7은 본 발명의 일 실시 예에 따라 디스플레이 장치가 직접 음성 기동어를 수신 및 인식하는 예를 설명하는 도면이다.
도 8 및 도 9는 본 발명의 또 다른 실시 예에 따라 외부 기기가 음성 기동어를 수신 및 인식하고, 인식된 음성 기동어에 대응하는 음성 데이터를 디스플레이 장치에 전달하는 예를 설명하는 도면이다.
먼저, 도 6 및 도 7을 설명한다.
도 6 및 도 7을 참조하면, 디스플레이 장치(100)의 마이크로폰(151)은 사용자가 발화한 음성 기동어(600)를 수신할 수 있다. 음성 기동어(600)는 디스플레이 장치(100)의 음성 인식 모드를 활성화하기 위한 명령어일 수 있다.
이하에서, 음성 기동어(600)는 <Hi, LG> 임을 가정하여 설명한다.
디스플레이 장치(100)의 기동어 인식부(171)는 마이크로폰(151)을 통해 음성 기동어에 대응하는 음성 데이터를 전달받을 수 있다.
기동어 인식부(171)는 음성 데이터로부터 잡음을 제거하고, 잡음이 제거된 음성 데이터를 STT 엔진을 이용하여, 텍스트 데이터로 변환할 수 있다. 기동어 인식부(171)는 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터와 매칭되는지를 판단할 수 있다.
기동어 인식부(171)는 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터와 매칭된 경우, 음성 기동어의 인식을 성공한 것으로 판단할 수 있다.
기동어 인식부(171)는 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터와 매칭되지 않은 경우, 음성 기동어의 인식을 실패한 것으로 판단할 수 있다.
기동어 인식부(171)는 음성 기동어의 인식이 성공된 경우, 인식된 음성 기동어의 음성 데이터를 메인 프로세서(172)에 전달할 수 있다.
기동어 인식부(171)는 음성 기동어의 인식이 성공된 경우, GPIO 포트를 통해 하이 신호를 출력할 수 있다.
메인 프로세서(172)는 출력된 하이 신호를 통해, 음성 기동어의 인식이 성공되었음을 확인할 수 있다. 즉, GPIO 하이 신호는 음성 기동어의 인식이 성공되었음을 나타내는 신호일 수 있다.
한편, 기동어 인식부(171) 및 메인 프로세서(172)는 제어부(170)에 포함될 수 있다. 또 다른 예로, 메인 프로세서(172) 만이 제어부(170)에 포함되고, 기동어 인식부(171)는 별도의 하드웨어 구성요소(칩)로 존재할 수 있다.
다음으로, 도 8 및 도 9를 설명한다.
도 8 및 도 9를 참조하면, 크래들(600)은 사용자가 발화한 음성 기동어(600)를 수신할 수 있다.
크래들(800)은 마이크로폰(801), 기동어 인식부(803), 무선 통신부(805) 및 프로세서(807)를 포함할 수 있다.
크래들(800)의 마이크로폰(801)은 사용자의 음성 기동어를 수신하고, 수신된 음성 기동어의 음성 데이터를 기동어 인식부(803)에 전달할 수 있다.
기동어 인식부(803)는 음성 기동어의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 텍스트 데이터와 매칭되는지를 판단할 수 있다.
기동어 인식부(803)는 변환된 텍스트 데이터가 기 저장된 텍스트 데이터와 매칭된 경우, 음성 기동어의 인식이 성공한 것으로 판단할 수 있다.
기동어 인식부(803)는 인식이 성공된 음성 기동어의 음성 데이터를 무선 통신부(805)에 전달할 수 있다.
무선 통신부(805)는 인식이 성공된 음성 기동어의 음성 데이터를 디스플레이 장치(100)의 무선 통신부(173)에 전송할 수 있다.
무선 통신부(805)는 근거리 무선 통신 규격을 통해, 음성 데이터를 디스플레이 장치(100)에 전송할 수 있다. 이를 위해, 무선 통신부(805)는 블루투스 모듈, 와이파이 모듈 등을 포함할 수 있다.
한편, 크래들(800)은 인식이 성공된 음성 기동어의 음성 데이터에 부가하여, 음성 기동어의 인식이 성공되었음을 나타내는 기동어 인식 정보를 디스플레이 장치(100)에 전송할 수 있다.
크래들(800)의 프로세서(807)는 크래들(800)의 구성요소들을 전반적으로 제어할 수 있다.
크래들(800)의 프로세서(807)는 음성 기동어의 인식 성공 후, 추가적으로 수신되는 사용자의 음성 명령어에 대응하는 음성 데이터를 디스플레이 장치(100)에 전송할 수 있다.
도 8 및 도 9의 실시 예에 따르면, 디스플레이 장치(100)에 마이크로폰이 구비되지 않은 경우라도, 외부 기기를 통해 음성 기동어 및 음성 명령어를 수신할 수 있어, 디스플레이 장치(100)의 생산 단가가 절감되고, 칩 설계 상의 버든이 감소될 수 있다.
다시, 도 5를 설명한다.
제어부(170)는 수신된 음성 기동어의 인식이 성공된 경우, 인식된 음성 기동어가 정상 기동어인지를 판단한다(S505).
일 실시 예에서, 제어부(170)는 인식된 음성 기동어가 정상 기동어인지를 검증할 수 있다.
제어부(170)는 인식된 음성 기동어의 음성 특징들에 기초하여, 음성 기동어가 정상 기동어인지를 판단할 수 있다.
이하에서는, 음성 기동어가 정상 기동어인지를 판단하는 과정을 구체적으로 설명한다.
도 10은 본 발명의 일 실시 예에 따라, 인식된 음성 기동어가 정상 기동어인지를 검증하는 과정을 설명하기 위한 도면이다.
특히, 도 10은 단계 S503을 구체적으로, 설명하는 도면이다.
제어부(170)는 인식된 음성 기동어에 대응하는 음성 데이터를 전처리한다(S1001).
일 실시 예에서, 제어부(170)는 음성 데이터에 대해 디코딩, 정규화 처리, 노이즈 제거와 같은 전처리 과정을 수행할 수 있다.
전처리 과정은 시간 축의 음성 신호를 주파수 축의 파워 스펙트럼으로 변환하는 과정도 포함할 수 있다.
제어부(170)는 전처리된 음성 데이터로부터 복수의 음성 특징 벡터들을 추출한다(S1003).
일 실시 예에서, 제어부(170)는 전처리된 음성 데이터를 복수의 시간 단위들로 구분하고, 각 시간 단위에 대응하는 음성 특징 벡터를 추출할 수 있다.
음성 특징 벡터는 해당 시간 단위에서, 음성의 특징들을 나타내는 벡터일 수 있다.
음성 특징 벡터는 음성의 특징들의 개수에 대응하는 차원을 가질 수 있다.
제어부(170)는 음향 모델을 이용하여, 복수의 음성 특징 벡터들 각각에 대응하는 음소들을 획득한다(S1005).
음향 모델은 음성 특징 벡터의 값들에 대응하는 음소들을 대응시켜 저장한 모델일 수 있다.
제어부(170)는 음향 모델을 이용하여, 복수의 음성 특징 벡터들의 값에 대응하는 음소들을 검색할 수 있다.
제어부(170)는 검색 결과에 따라 복수의 음성 특징 벡터들 각각에 대응하는 복수의 음소들을 획득할 수 있다.
제어부(170)는 획득된 음소들의 조합이 정상 기동어로 인식될 범위 내에 속하는지를 판단한다(S1007).
제어부(170)는 음소들의 조합이 정상 기동어의 인식 범위에 속하는지를 판단할 수 있다.
제어부(170)는 획득된 음소들의 조합이 정상 기동어로 인식될 범위 내에 속하는 경우, 음성 기동어를 정상 기동어로 판단한다(S1009).
제어부(170)는 획득된 음소들의 조합이 정상 기동어로 인식될 범위 내에 속하지 않는 경우, 음성 기동어를 비 정상 기동어로 판단한다(S1011).
단계 S1005 내지 S1011에 대해서는 도 11을 참조하여 구체적으로, 설명한다.
도 11은 음향 모델 및 언어 모델에 기초하여, 음성 기동어가 정상 기동어의 범위에 속하는지를 판단하는 과정을 설명하는 도면이다.
먼저, 제어부(170)는 음성 기동어에 대응하는 음성 신호로부터 음성 특징 벡터들을 추출할 수 있다.
제어부(170)는 음성 기동어의 음성 신호를 FFT(Fast Fourier Transform) 변환을 통해, 파워스펙트럼으로 변환할 수 있다.
제어부(170)는 파워스펙트럼으로부터 단위 시간 간격으로, 음성 특징 벡터를 추출할 수 있다.
음성 특징 벡터는 단위 시간 간격에 해당하는 음성 특징들을 나타내는 벡터일 수 있다. 음성 특징들은 주파수 대역, 해당 주파수 대역에서 진폭의 크기 중 하나 이상을 포함할 수 있다.
제어부(170)는 음향 모델(1110)을 이용하여, 음성 특징 벡터들을 음소들의 조합으로 변환할 수 있다.
음향 모델(1110)은 음성 특징 벡터의 값에 대응하는 음소를 매칭시킨 대응관계를 저장하고 있을 수 있다.
제어부(170)는 음향 모델(1110)을 검색하여, 음성 특징 벡터에 매칭되는 음소를 획득할 수 있다.
도 11을 참조하면, 음소 그룹(1120)에 포함된 3개의 음소 조합들(1121 내지 1125)가 도시되어 있다.
제1 음소 조합(1121)은 <ha.i.el.j-i>, 제2 음소 조합(1123)은 <ha.jel.j-i>, 제3 음소 조합(1125)은 <ha.h6el.j-i>로 얻어질 수 있다.
제어부(170)는 언어 모델(1130)을 이용하여, 각 음소 조합에 매칭되는 한글 텍스트를 획득할 수 있다.
언어 모델(1130)은 음소 조합을 구성하는 제1 언어의 글자를 제2 언어의 글자로 변환하는 모델일 수 있다.
제어부(170)는 언어 모델(1130)을 이용하여, 음소 그룹(1120)을 언어 텍스트 그룹(1150)으로 변환할 수 있다.
구체적으로, 제어부(170)는 언어 모델(1130)을 이용하여, 제1 음소 조합(1121)을 제1 언어 텍스트(1151, 하이엘지)로 변환할 수 있다.
마찬가지로, 제어부(170)는 제2 음소 조합(1123)을 제2 언어 텍스트(1153, 하옐쥐)로, 제3 음소 조합(1125)을 제3 언어 텍스트(1155)로 각각 변환할 수 있다.
위 음향 모델(1110)과 언어 모델(1130) 각각은 디스플레이 장치(100)가 사용되는 국가에 따라 그 언어가 달라질 수 있다.
제어부(170)는 변환된 각 언어 텍스트가 정상 기동어의 범위 내에 속하는지를 판단할 수 있다.
제어부(170)는 기 저장된 등록 정상 기동어들과 변환된 언어 텍스트 간 비교를 통해, 언어 텍스트가 정상 기동어의 범위 내에 속하는지를 판단할 수 있다.
제어부(170)는 변환된 언어 텍스트가 기 저장된 등록 정상 기동어들에 포함되는 경우, 해당 언어 텍스트를 정상 기동어의 범위 내에 속하는 것으로 판단할 수 있다.
예를 들어, 제1 언어 텍스트(1151) 및 제2 언어 텍스트(1153)가 기 등록된 정상 기동어에 대응되는 경우, 제어부(170)는 제1 언어 텍스트(1151) 및 제2 언어 텍스트(1153)의 기초가 되는 음성 기동어를 정상 기동어로 결정할 수 있다. 즉, 이 경우, 제어부(170)는 음성 기동어의 검증이 성공한 것으로 판단할 수 있다.
제어부(170)는 제3 언어 텍스트(1155)가 기 등록된 정상 기동어에 대응되지 않는 경우, 제3 언어 텍스트(1155)를 비정상 기동어로 결정할 수 있다.
다시, 도 5를 설명한다.
제어부(170)는 인식된 음성 기동어가 정상 기동어라고 판단된 경우, 음성 명령어의 수신을 대기한다(S507).
메인 프로세서(172)는 음성 기동어가 정상 기동어로 검증된 경우, GPIO 포트를 통해 로우 신호를 신호를 출력할 수 있다. 출력된 로우 신호는 기동어 인식부(171)로 전달될 수 있다.
그 후, 제어부(170)는 음성 명령어를 수신하고(S509), 수신된 음성 명령어에 대응하는 디스플레이 장치(100)의 기능을 수행한다(S511).
음성 기동어의 검증 성공 후, 수신되는 음성 명령어는 특정 기능을 수행하기 위한 명령어일 수 있다.
예를 들어, 음성 명령어는 디스플레이 장치(100)에 설치된 특정 어플리케이션의 실행을 나타내는 명령어이거나, 채널 변경, 볼륨 조절 등과 같은 명령어일 수 있다.
제어부(170)는 수신된 음성 명령어를 텍스트로 변환하고, 변환된 텍스트를 이용하여, 사용자의 의도를 판단하고, 판단된 사용자의 의도에 따라, 음성 명령어에 대응하는 기능을 수행할 수 있다.
사용자의 의도를 판단하기 위해, 공지된 자연어 처리 기법이 사용될 수 있다.
단계 S509에서, 음성 명령어는 디스플레이 장치(100)에 마이크로폰이 구비되어 있는 경우, 해당 마이크로폰을 통해 음성 명령어를 수신할 수 있다.
만약, 디스플레이 장치(100)에 마이크로폰이 구비되어 있지 않은 경우, 디스플레이 장치(100)는 크래들(800)로부터 음성 명령어를 전달받을 수 있다.
크래들(800)은 마이크로폰(801)을 통해, 음성 명령어를 수신하고, 수신된 음성 명령어를 무선 통신부(805)를 통해 디스플레이 장치(100)에 전송할 수 있다.
한편, 제어부(170)는 인식된 음성 기동어가 정상 기동어가 아니라고 판단된 경우(S505), 인식된 음성 기동어를 저장부(140)에 저장한다(S513).
일 실시 예에서, 제어부(170)는 인식된 음성 기동어가 정상 기동어가 아닌 경우, 추후, 동일한 음성 기동어가 수신된 경우, 오 인식 방지를 위해, 해당 음성 기동어를 저장할 수 있다. 이를 통해, 제어부(170)는 비 정상 기동어가 재 수신된 경우, 음성 인식 모드를 활성화 시키지 않을 수 있다.
또한, 제어부(170)는 인식된 음성 기동어가 비 정상 기동어임을 알리는 알림을 출력한다(S515).
일 예로, 제어부(170)는 인식된 음성 기동어가 비 정상 기동어임을 알리는 알림을 디스플레이부(180)를 통해 표시할 수 있다.
또 다른 예로, 제어부(170)는 인식된 음성 기동어가 비 정상 기동어임을 알리는 알림을 오디오 출력부(185)를 통해 출력할 수 있다.
도 12는 본 발명의 일 실시 예에 따른 음성 인식 시스템의 동작 방법을 설명하는 래더다이어 그램이다.
특히, 도 12는 디스플레이 장치(100)가 음성 기동어를 인식하고, 서버(1100)가 음성 기동어가 정상 기동어인지를 검증하는 역할을 수행하는 예를 설명하는 도면이다.
디스플레이 장치(100)의 제어부(170)는 사용자가 발화한 음성 기동어를 수신한다(S1201).
단계 S1201의 구체적인 설명은 도 5의 단계 S501의 설명으로 대체한다.
디스플레이 장치(100)의 제어부(170)는 수신된 음성 기동어의 인식이 성공되었는지를 판단한다(S1203).
단계 S1203의 구체적인 설명은 도 5의 단계 S503의 설명으로 대체한다.
디스플레이 장치(100)의 제어부(170)는 음성 기동어의 인식이 성공된 경우, 네트워크 인터페이스부(133)를 통해 음성 기동어의 음성 데이터를 서버(1200)에 전송한다(S1205).
제어부(170)는 음성 기동어가 오 인식되었는지를 검증하기 위해, 음성 기동어의 음성 데이터를 서버(1200)에 전송할 수 있다.
서버(1200)는 디스플레이 장치(100)로부터 수신된 음성 기동어의 음성 데이터에 기초하여, 음성 기동어가 정상 기동어인지를 판단한다(S1207).
서버(1200)는 도 10의 실시 예를 이용하여, 음성 기동어가 정상 기동어인지를 판단할 수 있다.
서버(1200)는 음성 기동어를 정상 기동어라고 판단한 경우(S1209), 음성 기동어가 정상 기동어임을 나타내는 메시지를 디스플레이 장치(100)에 전송한다(S1211).
디스플레이 장치(100)는 서버(1200)로부터 수신된 메시지에 따라 단계 S1201에서 수신된 음성 기동어가 정상 기동어인 것으로, 결정할 수 있다. 즉, 디스플레이 장치(100)는 음성 기동어의 검증이 성공된 것으로 판단할 수 있다.
디스플레이 장치(100)의 제어부(170)는 서버(1200)로부터 수신된 메시지에 따라 음성 인식 모드를 활성화시키고 , 음성 명령어의 수신을 대기한다(S1213).
즉, 디스플레이 장치(100)의 제어부(170)는 서버(1200)로부터 수신된 메시지에 따라 사용자가 발화한 음성 기동어가 정상 기동어임을 확인하고, 사용자의 음성 명령어에 대한 기능을 수행할 수 있는 음성 인식 모드를 활성화시킬 수 있다.
디스플레이 장치(100)의 제어부(170)는 사용자가 발화한 음성 명령어를 수신하고(S1215), 수신된 음성 명령어에 대응하는 디스플레이 장치(100)의 기능을 수행한다(S1217).
한편, 서버(1200)는 음성 기동어가 정상 기동어가 아니라고 판단한 경우(S1209), 해당 음성 기동어를 저장한다(S1219).
서버(1200)는 비 정상 기동어로 판단된 음성 기동어를 데이터 베이스에 저장할 수 있다.
이는 추후, 동일한 음성 기동어가 수신된 경우, 데이터 베이스를 이용하여, 빠르게, 비 정상 기동어인 것으로 검증하기 위함이다.
본 발명의 일 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
상기와 같이 설명된 디스플레이 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims (13)

  1. 디스플레이 장치에 있어서,
    마이크로폰;
    상기 마이크로폰을 통해 수신된 음성 기동어의 인식여부를 결정하는 기동어 인식부; 및
    상기 기동어 인식부에서, 상기 음성 기동어의 인식이 성공된 경우, 상기 음성 기동어의 특징 정보에 기초하여, 상기 음성 기동어가 정상 기동어인지를 판단하고, 상기 음성 기동어가 상기 정상 기동어로 판단된 경우, 상기 마이크로폰을 통해 음성 명령어를 수신함에 따라 수신된 음성 명령어에 대응하는 기능을 수행하는 메인 프로세서를 포함하는
    디스플레이 장치.
  2. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 기동어의 특징 정보를 나타내는 음성 특징 벡터들을 추출하고,
    추출된 음성 특징 벡터들 각각에 대응하는 음소들의 조합을 획득하고,
    획득된 음소들의 조합이 상기 정상 기동어의 인식 범위에 속하는지를 판단하고,
    상기 획득된 음소들의 조합이 상기 정상 기동어의 인식 범위에 속하는 경우, 상기 음성 기동어를 상기 정상 기동어로 판단하는
    디스플레이 장치.
  3. 제2항에 있어서,
    저장부를 더 포함하고,
    상기 메인 프로세서는
    상기 획득된 음소들의 조합이 상기 정상 기동어의 인식 범위에 속하지 않는 경우, 상기 음성 기동어를 상기 저장부에 저장하는
    디스플레이 장치.
  4. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 기동어가 상기 정상 기동어로 판단된 경우, 상기 디스플레이 장치의 음성 인식 모드를 활성화시키는
    디스플레이 장치.
  5. 제1항에 있어서,
    상기 기동어 인식부는
    상기 음성 기동어의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터와 매칭된 것으로 판단된 경우, 상기 음성 기동어의 인식이 성공된 것으로 판단하는
    디스플레이 장치.
  6. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 명령어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터로부터 사용자의 의도 정보를 획득하고, 획득된 의도 정보에 대응하는 상기 기능을 수행하는
    디스플레이 장치.
  7. 제1항에 있어서,
    상기 기동어 인식부는
    GPIO 포트를 통해, 상기 음성 기동어의 인식이 성공되었음을 나타내는 하이 신호를 출력하는
    디스플레이 장치.
  8. 디스플레이 장치에 있어서,
    외부 기기와 무선 통신을 수행하는 무선 통신부;
    상기 무선 통신부를 통해 수신된 음성 기동어에 대응하는 음성 데이터의 특징 정보에 기초하여, 상기 음성 기동어가 정상 기동어인지를 판단하고, 상기 음성 기동어가 상기 정상 기동어로 판단된 경우, 상기 무선 통신부를 통해 음성 명령어를 수신함에 따라 수신된 음성 명령어에 대응하는 기능을 수행하는 메인 프로세서를 포함하는
    디스플레이 장치.
  9. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 기동어의 특징 정보를 나타내는 음성 특징 벡터들을 추출하고,
    추출된 음성 특징 벡터들 각각에 대응하는 음소들의 조합을 획득하고,
    획득된 음소들의 조합이 상기 정상 기동어의 인식 범위에 속하는지를 판단하고,
    상기 획득된 음소들의 조합이 상기 정상 기동어의 인식 범위에 속하는 경우, 상기 음성 기동어를 상기 정상 기동어로 판단하는
    디스플레이 장치.
  10. 제9항에 있어서,
    저장부를 더 포함하고,
    상기 메인 프로세서는
    상기 획득된 음소들의 조합이 상기 정상 기동어의 인식 범위에 속하지 않는 경우, 상기 음성 기동어를 상기 저장부에 저장하는
    디스플레이 장치.
  11. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 기동어가 상기 정상 기동어로 판단된 경우, 상기 디스플레이 장치의 음성 인식 모드를 활성화시키는
    디스플레이 장치.
  12. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 데이터 및 상기 음성 기동어의 인식이 성공되었음을 나타내는 기동어 인식 정보를 상기 무선 통신부를 통해 함께 수신하는
    디스플레이 장치.
  13. 제1항에 있어서,
    상기 메인 프로세서는
    상기 음성 명령어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터로부터 사용자의 의도 정보를 획득하고, 획득된 의도 정보에 대응하는 상기 기능을 수행하는
    디스플레이 장치.
PCT/KR2018/015684 2018-12-11 2018-12-11 디스플레이 장치 WO2020122271A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/KR2018/015684 WO2020122271A1 (ko) 2018-12-11 2018-12-11 디스플레이 장치
EP18942843.6A EP3896983A4 (en) 2018-12-11 2018-12-11 DISPLAY DEVICE
US17/298,319 US20220028380A1 (en) 2018-12-11 2018-12-11 Display device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/015684 WO2020122271A1 (ko) 2018-12-11 2018-12-11 디스플레이 장치

Publications (1)

Publication Number Publication Date
WO2020122271A1 true WO2020122271A1 (ko) 2020-06-18

Family

ID=71076499

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/015684 WO2020122271A1 (ko) 2018-12-11 2018-12-11 디스플레이 장치

Country Status (3)

Country Link
US (1) US20220028380A1 (ko)
EP (1) EP3896983A4 (ko)
WO (1) WO2020122271A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364151B (zh) * 2019-07-15 2024-01-30 华为技术有限公司 一种语音唤醒的方法和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140022320A (ko) * 2012-08-14 2014-02-24 엘지전자 주식회사 영상표시장치와 서버의 동작 방법
KR20140050484A (ko) * 2012-10-19 2014-04-29 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
KR101614756B1 (ko) * 2014-08-22 2016-04-27 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
KR20180107637A (ko) * 2017-03-22 2018-10-02 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20180127065A (ko) * 2017-05-19 2018-11-28 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US9928840B2 (en) * 2015-10-16 2018-03-27 Google Llc Hotword recognition
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US10636423B2 (en) * 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
US11043213B2 (en) * 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140022320A (ko) * 2012-08-14 2014-02-24 엘지전자 주식회사 영상표시장치와 서버의 동작 방법
KR20140050484A (ko) * 2012-10-19 2014-04-29 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
KR101614756B1 (ko) * 2014-08-22 2016-04-27 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
KR20180107637A (ko) * 2017-03-22 2018-10-02 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20180127065A (ko) * 2017-05-19 2018-11-28 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3896983A4 *

Also Published As

Publication number Publication date
US20220028380A1 (en) 2022-01-27
EP3896983A1 (en) 2021-10-20
EP3896983A4 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
WO2015194693A1 (ko) 영상 표시 기기 및 그의 동작 방법
WO2021060590A1 (ko) 디스플레이 장치 및 인공 지능 시스템
WO2021060575A1 (ko) 인공 지능 서버 및 그의 동작 방법
WO2019135433A1 (ko) 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템
WO2019172472A1 (ko) 디스플레이 장치
WO2019009453A1 (ko) 디스플레이 장치
WO2020122271A1 (ko) 디스플레이 장치
WO2021015319A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2022149650A1 (en) Display device and display system
WO2020230923A1 (ko) 음성 인식 서비스를 제공하기 위한 디스플레이 장치 및 그의 동작 방법
WO2021025245A1 (ko) 디스플레이 장치 및 서라운드 사운드 시스템
WO2020122274A1 (ko) 디스플레이 장치
WO2021060570A1 (ko) 가전 기기 및 서버
WO2020256184A1 (ko) 디스플레이 장치
WO2020222322A1 (ko) 음성 인식 서비스를 제공하기 위한 디스플레이 장치
WO2019164020A1 (ko) 디스플레이 장치
WO2021177495A1 (ko) 자연어 처리 장치
WO2024005226A1 (ko) 디스플레이 장치
WO2023145985A1 (ko) 디스플레이 장치
WO2024019186A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2023008621A1 (ko) 무선 디스플레이 장치, 무선 셋톱박스 및 무선 디스플레이 시스템
WO2023182547A1 (ko) 디스플레이 장치
WO2023095947A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2023074918A1 (ko) 디스플레이 장치
WO2023003061A1 (ko) 디스플레이 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18942843

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018942843

Country of ref document: EP

Effective date: 20210712