WO2021149921A1 - 디스플레이 장치 및 그 제어방법 - Google Patents

디스플레이 장치 및 그 제어방법 Download PDF

Info

Publication number
WO2021149921A1
WO2021149921A1 PCT/KR2020/018679 KR2020018679W WO2021149921A1 WO 2021149921 A1 WO2021149921 A1 WO 2021149921A1 KR 2020018679 W KR2020018679 W KR 2020018679W WO 2021149921 A1 WO2021149921 A1 WO 2021149921A1
Authority
WO
WIPO (PCT)
Prior art keywords
application
user
voice
display device
setting information
Prior art date
Application number
PCT/KR2020/018679
Other languages
English (en)
French (fr)
Inventor
강동훈
김수향
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP20914836.0A priority Critical patent/EP4044018A4/en
Publication of WO2021149921A1 publication Critical patent/WO2021149921A1/ko
Priority to US17/740,616 priority patent/US20220270608A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/02Networking aspects
    • G09G2370/022Centralised management of display operation, e.g. in a server instead of locally
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/04Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/16Use of wireless transmission of display information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the disclosed embodiment relates to a display device that provides an artificial intelligence conversation service and a method for controlling the display device.
  • an artificial intelligence system is a system in which a machine learns and updates itself. Since the recognition rate of artificial intelligence systems improves the more they are used, the existing rule-based smart systems are gradually being replaced by deep learning-based AI systems.
  • artificial intelligence systems are used in various fields.
  • artificial intelligence systems can be used for verbal comprehension, visual comprehension, inferential prediction, and motion control.
  • linguistic understanding is a technology for recognizing and applying/processing human language/text, and includes natural language processing, machine translation, dialogue system, question answering, speech recognition/synthesis, and the like.
  • Visual understanding is a technology for recognizing and processing objects like human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, image improvement, and the like.
  • Inferential prediction is a technique for logically reasoning and predicting by judging information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, recommendation, and the like.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data generation/classification) and knowledge management (data utilization).
  • Motion control is a technology for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), manipulation control (action control), and the like.
  • the artificial intelligence system applied to linguistic understanding is applied to many products, including speakers, smart phones, tablets, wearable devices, TVs, and sound bars.
  • many artificial intelligence conversation services such as Samsung's Bixby, Amazon's Alexa, and Google's Google Assistance are being used around the world.
  • One aspect disclosed is, by changing the setting information for connecting the artificial intelligence conversation service with an input button performing a PTT (Push To Talk) function through the user's call word utterance, reducing the user's discomfort, and artificial intelligence conversation service It relates to a display device and a method for controlling the same.
  • PTT Push To Talk
  • a display apparatus includes: a user input receiver configured to receive a user input; a voice receiver configured to receive the user's spoken voice; a memory for storing a plurality of VA applications associated with a plurality of VA (Voice Assistance) servers that provide a conversation service based on the user's spoken voice; and when a user input for executing at least one VA application is received through the user input receiving unit, based on setting information for a VA application designated to be automatically executed by the user input among a plurality of VA applications stored in the memory to determine to execute the first VA application, and based on a call word for executing the second VA application among the plurality of VA applications recognized from the user's uttered voice received through the voice receiver, the second VA application is executed and a processor configured to change the setting information stored in the memory to be automatically executed in response to the user input.
  • VA Voice Assistance
  • the processor may compare the first VA application with the second VA application, and determine whether to change the setting information based on a result of the comparison.
  • the processor may perform pre-processing of the user's uttered voice received by the voice receiver, and transmit the pre-processed user's uttered voice to the second VA application.
  • the plurality of VA applications may store a conversation policy in the memory, generate a voice message based on the user's spoken voice and the conversation policy, and update the conversation policy through the associated VA server.
  • a sound output unit configured to output the voice message
  • the processor may control the sound output unit based on the voice message generated by the second VA application.
  • an image output unit displaying a user interface
  • the processor may display a user interface regarding whether the setting information is activated through the image output unit.
  • the processor may perform pre-processing of the user's uttered voice received through the voice receiver, and recognize a call word for executing the second VA application from among the pre-processed user's uttered voice based on a preset time. .
  • the processor may pre-process the user's uttered voice received through the voice receiver, and determine whether a call word for executing the second VA application is included in the pre-processed user's uttered voice.
  • the processor may determine to change the setting information based on the number of repetitions of the call word for executing the second VA application.
  • the processor may pre-process the user's uttered voice based on at least one of noise removal, echo cancellation, and beamforming.
  • a display apparatus includes a communication unit communicating with a remote controller; a voice receiver configured to receive the user's spoken voice; a memory for storing a plurality of VA applications associated with a plurality of VA (Voice Assistance) servers that provide a conversation service based on the user's spoken voice; and when a user input for executing at least one VA application is received through the communication unit, based on setting information for a VA application designated to be automatically executed by the user input among a plurality of VA applications stored in the memory
  • the second VA application is executed by the user and a processor that changes the setting information stored in the memory to be automatically executed by input.
  • a method of controlling a display apparatus including a memory for storing a plurality of VA applications that provide a conversation service based on a user's spoken voice may include a user input for executing at least one VA application or the receive the user's spoken voice;
  • the changing may include comparing the first VA application with the second VA application, and determining whether to change the setting information based on a result of the comparison.
  • Pre-processing the user's spoken voice further comprising, wherein the changing includes: recognizing a call word for executing the second VA application from among the pre-processed spoken voices based on a preset time; may include.
  • the recognizing may include determining whether a call word for executing the plurality of VA applications is included in the preprocessed spoken voice.
  • the changing may include changing the setting information based on the number of repetitions of a call word for executing the second VA application.
  • the performing of the preprocessing may include performing the preprocessing based on at least one of noise removal, echo cancellation, and beamforming.
  • the disclosed display device and its control method reduce the inconvenience of the user by changing the setting information for connecting the artificial intelligence conversation service with an input button performing a PTT (Push To Talk) function through the user's utterance of a call word, It can facilitate the execution of artificial intelligence conversation services.
  • PTT Push To Talk
  • FIG. 1 is a diagram illustrating an appearance of a TV when a display device is implemented as a TV.
  • FIG. 2 is a diagram for explaining a method of executing a display device and a conversation service according to various embodiments of the present disclosure
  • FIG. 3 is a control block diagram of a display apparatus according to an exemplary embodiment.
  • 4 to 6 are diagrams for explaining an operation of the display device when the display device is implemented as a user terminal according to another embodiment.
  • FIG. 8 is a flowchart illustrating a method for controlling a display apparatus according to an exemplary embodiment.
  • FIG. 9 is a flowchart for describing various methods of a display apparatus changing setting information.
  • the identification code is used for convenience of description, and the identification code does not describe the order of each step, and each step may be performed differently from the specified order unless the specific order is clearly stated in the context. there is.
  • FIG. 1 is a diagram illustrating an appearance of a TV when a display device is implemented as a TV.
  • a display device 1 may be implemented as a TV (TeleVision, 1a).
  • the TV 1a may include a display panel 2 , a housing 3 supporting the display panel 2 , and a support 4 .
  • the housing 3 forms the exterior of the TV 1a, and a part for enabling the TV 1a to display various images or perform various functions is embedded therein.
  • the housing 3 may be formed integrally with the display panel 2 or may be formed of a combination of a front housing and a rear housing.
  • the support 4 supports the housing 3 .
  • the support 4 may have various shapes, depending on the designer's choice, and may be omitted if necessary.
  • the support 4 may be attached to or detached from the housing 3 as necessary.
  • the display panel 2 is provided on the front side of the housing 3 and can display various images to the outside. Specifically, the display panel 2 may display at least one still image or a moving image. The display panel 2 may be implemented by further using a separate component, such as a touch panel, if necessary.
  • a plurality of pixels are formed in the display panel 2 , and an image displayed through the display panel 2 may be formed by a combination of light emitted from the plurality of pixels P.
  • one image I may be formed on the screen 102 by combining light emitted from a plurality of pixels P like a mosaic.
  • the image displayed by the display panel 2 may include various user interfaces 10 .
  • the user interface may include icons and shapes that may represent various functions of the display device 1 .
  • the disclosed display device 1 may execute various conversation services such as Bixby, Alexa, and Google Assistance.
  • the display device 1 may store a VA (Voice Assistance) application for executing each conversation service in a memory, and may communicate with a VA server executing the conversation service.
  • VA Voice Assistance
  • the user U may input an uttered voice U1 (hello A) for executing at least one VA application among a plurality of VA applications to the TV 1a.
  • the TV 1a performs pre-processing of the user U's spoken voice and transmits the converted electrical signal to a plurality of VA applications. If the first VA application among the plurality of VA applications sets A as a wake up word, the first VA application operates.
  • the TV 1a may output the voice message (D1: Yes, hello, how can I help?) generated by the first VA application through the speaker.
  • the user U additionally inputs a spoken voice for operating the TV 1a, and the user U can perform an operation desired by the user U based on the conversation policy and the control signal processed by the TV 1a first VA application. there is.
  • the TV 1a may provide a conversation service to the user U.
  • the TV 1a may display various setting information necessary for executing a conversation service with the user U as a user interface. If the user U executes a Push To Talk (PTT) function through a button provided on the remote controller 190 (refer to FIG. 3 ), the TV 1a may execute a preset VA application.
  • PTT Push To Talk
  • the user U when the user U executes the PTT function, only one VA application for performing a preset conversation service is executed.
  • the user U in order to change the preset VA application, the user U executes a user interface for changing the setting information, and it is possible to change the setting information according to a manual operation.
  • the disclosed display apparatus 1 solves the above-described problem by recognizing and changing setting information for designating one VA application among a plurality of VA applications by recognizing the uttered voice of the user U.
  • FIG. A specific method for the display apparatus 1 to change the setting information will be described later with reference to other drawings.
  • FIG. 2 is a diagram for explaining a method of executing a display device and a conversation service according to various embodiments of the present disclosure
  • the display device 1 may be applied to various products 20 and 30 shown in FIG. 2 in addition to the TV 1a described in the embodiment of FIG. 1 .
  • the display device 1 may be applied to a user terminal 20 such as a smart phone 20a and a tablet PC 20b and an artificial intelligence speaker such as a sound bar 30 .
  • the user terminal 20 may be implemented as a portable terminal capable of accessing the client server 200 performing a conversation service through a network.
  • the user terminal 20 includes a Personal Communication System (PCS), a Global System for Mobile communications (GSM), a Personal Digital Cellular (PDC), a Personal Handyphone System (PHS), a Personal Digital Assistant (PDA), and an International Mobile Telecommunication (IMT).
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA Wideband Internet
  • WiBro Wireless Broadband Internet
  • the sound bar 30 is not portable but is fixedly installed, and is a device that functions as a console capable of controlling various electronic products through a connected home network.
  • the sound bar 30 may include a display panel and a speaker capable of processing the user's U's speech, and outputs a voice message for the user's U's speech. If the user U inputs a spoken voice including a call word, the sound bar 30 is switched from the standby mode to the active mode.
  • the sound bar 30 transmits the control command included in the additional uttered voice of the user U to the electronic product connected to the network, and allows the electronic product to process the control command of the user U.
  • the display device 1 applicable to the TV 1a, the user terminal 20, and the sound bar 30 is connected to the external servers 200a, 200b, and 200c through a network.
  • the external servers 200a, 200b, and 200c are servers for a conversation service associated with a plurality of VA applications included in the display device 1 .
  • the VA application may execute a conversation service through a conversation policy using the memory included in the display device 1 .
  • the VA application outputs a voice message corresponding to the uttered voice of the user U through the conversation policy.
  • the VA application cannot store all the various conversation policies due to the limitation of the built-in memory.
  • the VA application may communicate with the external servers 200a , 200b , and 200c and continuously update the conversation policy.
  • the VA application stores a simple conversation policy such as output of a voice message corresponding to a call word input in the display device 1, and stores a specific conversation policy corresponding to various spoken voices input by the user U to the server. It may be received from (200a, 200b, 200c).
  • a plurality of VA applications included in the display device 1 may communicate with each of the servers 200a, 200b, and 200c.
  • the display apparatus 1 includes three VA applications, there may be three or more external servers 200a , 200b , and 200c connected to the display apparatus 1 .
  • FIG. 3 is a control block diagram of a display apparatus according to an exemplary embodiment.
  • the display apparatus 1 includes an input receiving unit 110 for receiving an input from a user U, a voice receiving unit 120 receiving an uttered voice of the user U, and A processor 140 that connects the sensor 130 for detecting a gesture, pre-processing the spoken voice, recognizing a call word from the pre-processed spoken voice, and connecting the VA application 150 corresponding to the recognized call word ), a plurality of VA applications 150, the processor 140, and the VA application 150 for executing the chat service described above in FIGS. 1 and 2, and a communication unit 160 and a processor for transmitting data requested or processed by the VA application 150 to the outside.
  • 140 and an output unit 170 for outputting voice messages and images processed by the VA application 150 , setting information, and a memory 180 for storing data necessary for the operation of the processor 140 .
  • the user input receiving unit 110 may include an input button for receiving various commands input by the user U.
  • the input button may be a button provided on the exterior. This input button can be used as a device to receive the PTT function.
  • the display apparatus 1 may connect a preset first VA application 151 among the plurality of VA applications 150 .
  • the user input receiving unit 110 includes a power button for turning on or off the display apparatus 1 , a source selection button for selecting one source device among a plurality of source devices, and a sound volume output by the display apparatus 1 . It may include a sound control button for controlling the .
  • a power button for turning on or off the display apparatus 1
  • a source selection button for selecting one source device among a plurality of source devices
  • a sound volume output by the display apparatus 1 may include a sound control button for controlling the .
  • These various buttons may be implemented by various input means, such as a push switch, a touch switch, a dial, a slide switch, and a toggle switch.
  • the voice receiver 120 is a device for receiving the user's uttered voice, and may include a microphone that receives a sound and converts it into an electrical signal and outputs it.
  • the voice receiver 120 may include a plurality of microphones for effective voice input. For example, when the display device 1 is provided in the TV 1a, the plurality of microphones may be provided in different positions of the housing 3 .
  • the sensor 130 is a hardware device provided to collect various information on which the display device 1 can operate.
  • the sensor 130 may include a camera.
  • the display device 1 when the display device 1 detects a user's gesture, it may include various sensors such as an ultrasonic sensor, an IR sensor, an acceleration sensor, or a gyro sensor.
  • the VA application 150 may process the user U's spoken voice, generate a voice message according to a conversation policy, and understand a control command included in the user U's spoken voice.
  • the VA application 150 controls the display device 1 to perform an operation according to a control command included in the spoken voice.
  • the VA application 150 includes a speech recognition engine, and the speech recognition engine recognizes the speech uttered by the user U by applying a speech recognition algorithm to the input speech speech.
  • the VA application 150 detects the start point and the end point from the voice signal, detects the actual voice section included in the input voice, and performs EPD (End Point Detection), and through filtering, the recognition result is converted into a utterance form.
  • EPD End Point Detection
  • the utterance may be implemented by an acoustic model that models and compares the signal characteristics of speech and a language model that models a linguistic order relationship such as words or syllables corresponding to the recognized vocabulary.
  • the VA application 150 performs natural language understanding through utterances as a result of speech recognition. To understand natural language, various analyzes such as morpheme analysis, object name recognition, and dialogue act analysis are performed on the spoken text, and the intention of the spoken voice is interpreted. If the intention is interpreted, the VA application 150 matches the conversation policy according to the intention, and generates a voice message stored in the conversation policy. An input word such as an entity name analyzed in natural language understanding may be used in the generated voice message.
  • the VA application 150 updates the conversation policy through the communication unit 160 .
  • the VA application 150 may transmit a result of processing the voice spoken by the user U to the server 200 .
  • the server 200 inputs various collected examples to the artificial intelligence neural network.
  • the server 200 may update the conversation policy based on the output result based on the input value.
  • the server 200 transmits the updated conversation policy to the VA application 150 , and the VA application 150 may use the updated conversation policy in a conversation with the user U later.
  • the update of the VA application 150 from the server 200 is not necessarily limited to the conversation policy.
  • the VA application 150 may update the algorithm included in the aforementioned voice recognition engine through the server 200, and may perform a conversation service of the user U through various updates.
  • the VA application 150 includes a plurality of VA applications 151 , 152 , and 153 , and each VA application 151 , 152 , 153 includes a different recognition algorithm, natural language understanding, and conversation policy by the manufactured manufacturer. can do.
  • each of the servers 200a, 200b, and 200c provided by the manufacturer may also update the conversation policy and the like through different artificial intelligence. That is, the display apparatus 1 may include a plurality of VA applications 151 , 152 , and 153 , and may provide various conversation services to the user U with each other.
  • the processor 140 is configured to pre-process the user's spoken voice input to the VA application 150 .
  • the voice receiver 120 receives the user's U's spoken voice, and converts it into an electrical signal.
  • the voice receiver 120 transmits an electrical signal to the processor 140 , and the processor 140 removes noise and echoes cancellation so that the voice recognition engine can recognize a voice before transmitting the electrical signal to the VA application 150 . or preprocessing such as beamforming.
  • the noise removal is a pre-processing process of removing various noises other than the user U's speech among various sounds input from the voice receiver 120 .
  • noise removal may be performed by removing a signal of a preset frequency band.
  • Echo cancellation is a pre-processing that generates destructive interference by generating a sound wave that is opposite to the sound wave processed as noise.
  • the processor 140 may control the voice receiver 120 to perform echo cancellation.
  • Beamforming is a pre-processing process of synchronizing, such as time delay, on a plurality of electrical signals generated due to a voice uttered by one user U when the voice receiver 120 includes a plurality of microphones.
  • the processor 140 performs pre-processing of various voice inputs in addition to the above-described pre-processing, and then transmits the uttered voice of the user U to the VA application 150 .
  • the processor 140 may extract a call word before transferring the preprocessed spoken voice to the VA application 150 .
  • the processor 140 may recognize the extracted call word and execute at least one VA application among the plurality of VA applications based on the recognized call word.
  • the processor 140 operates the first VA application 151 based on a user input corresponding to the PTT function. That is, the processor 140 performs the first VA application based on the setting information for the first VA application designated to be automatically executed by the user input received by the user input receiving unit 110 among the plurality of VA applications stored in the memory 180 . Run the VA application.
  • the processor 140 may receive a call word for calling the second VA application 152 in the process of pre-processing the user U's uttered voice.
  • the processor 140 may change the setting information from the first VA application 151 to the second VA application 152 based on the recognized call word. After the setting information is changed, if an input command for the PTT function is input again, the processor 140 may transmit the preprocessed spoken voice to the second VA application 152 according to the input command.
  • the disclosed display device 1 can reduce the inconvenience of the user U having to individually change setting information through the user interface, and increase the ease of executing the artificial intelligence conversation service.
  • the processor 140 may be provided as a chip that pre-processes the user U's uttered voice. That is, it is sufficient for the processor 140 to connect the VA application 150 and the voice receiver 120 . However, the processor 140 may be provided on a main board that generally controls the display device 1 .
  • the communication unit 160 may include a wired communication module 161 and a wireless communication module 162 .
  • the wired communication module 161 refers to a module through which the display apparatus 1 receives image data from a source device through various types of image transmission cables.
  • the wired reception module 161 may include a component (YPbPr/RGB) cable or a composite video blanking and sync (CVBS) cable or a high-definition multimedia interface.
  • Video data may be received from the source device through a (High Definition Multimedia Interface, HDMI) cable, a Universal Serial Bus (USB) cable, or an Ethernet (Ethernet, IEEE 802.3 technology standard) cable.
  • the wireless reception module 162 is a module for performing wireless communication with the outside using various wireless communication standards, and in addition to a WiFi module and a wireless broadband module, a global system for mobile communication (GSM), a code Division Multiple Access), Wideband Code Division Multiple Access (WCDMA), universal mobile telecommunications system (UMTS), Time Division Multiple Access (TDMA), Long Term Evolution (LTE), etc.
  • GSM global system for mobile communication
  • WCDMA Wideband Code Division Multiple Access
  • UMTS universal mobile telecommunications system
  • TDMA Time Division Multiple Access
  • LTE Long Term Evolution
  • the display device 1 may perform wireless communication with the remote controller 190 .
  • the remote controller 190 may receive the spoken voice near the user U.
  • the remote controller 190 may convert the spoken voice into a wireless signal and transmit it to the wireless communication module 162 .
  • the remote controller 190 may include various input buttons.
  • the display device 1 may provide an input button for performing a PTT function on the remote controller 190 . That is, the remote controller 190 changes the input button into a wireless signal and transmits it to the wireless communication module 162 .
  • the display apparatus 1 may change the setting information based on the wireless signal received by the communication unit 160 , and transmit the user's spoken voice to the second VA application 152 .
  • the output unit 170 includes a sound output unit 171 that outputs a voice message and sound data generated by the VA application 150, and image data and setting information generated by the VA application 150 according to a dialog policy. It may include an image output unit 172 for outputting image data prepared in the form of an interface and an image signal received from a source device or the outside in a frame format.
  • the sound output unit 171 may include an audio amplifier (not shown) that amplifies sound and a speaker (not shown) that audibly outputs the amplified sound.
  • the sound output unit 171 may amplify the sound signal output through the audio amplifier.
  • the speaker may convert the sound signal amplified by the audio amplifier into sound (sound wave).
  • the speaker may include a thin film vibrating according to an electrical acoustic signal, and sound waves may be generated by the vibration of the thin film.
  • the image output unit 172 may include a display panel 2 that visually displays an image, and a display driver (not shown) that drives the display panel 2 .
  • each pixel of the display panel 2 receives an electrical signal representing an image from the display driver, and receives an optical signal corresponding to the received electrical signal. signal can be output.
  • An image may be displayed on the display panel 2 by combining optical signals output from a plurality of pixels.
  • the display panel 2 is of various types such as a Liquid Crystal Display Panel (LCD Panel), a Light Emitting Diode Panel (LED Panel), or an Organic Light Emitting Diode Panel (OLED Panel). It can be implemented by the panel of
  • the memory 180 stores programs and data for controlling components included in the display device 1 , and stores setting information.
  • the setting information means that when an input command corresponding to the PTT function is received, the uttered voice of the user U is transmitted to the first VA application 151 .
  • Such setting information is determined by a specific selection of the manufacturer or the user U, and is stored in the memory 180 .
  • the display device 1 recognizes the call word of the second VA application 152 from the user U's spoken voice, the stored setting information may be changed.
  • the VA application shown in FIG. 2 may be implemented as software executing a conversation service.
  • the plurality of VA applications may be stored in the memory 180 as a program.
  • the processor 140 After pre-processing the spoken voice, the processor 140 reads the VA application corresponding to the calling word from the memory 180 and executes it to implement the conversation service.
  • the memory 180 includes a non-volatile memory such as a read only memory and a flash memory for storing data for a long period of time, and a static random access memory (S-RAM) and D-RAM for temporarily storing data. It may be provided as a volatile memory such as a dynamic random access memory (RAM).
  • the memory 180 may be a memory implemented as a chip separate from the processor 140 , or may be implemented as a single chip with the processor 140 .
  • the display apparatus 1 may further include or omit various components in addition to the above-described components, and the positions and connection relationships of the above-described components may be changed according to an applied embodiment.
  • 4 to 6 are diagrams for explaining an operation of the display device when the display device is implemented as a user terminal according to another embodiment.
  • the display device 1 may be provided in the smart phone 20a among the user terminals. 4 to 7, the display device 1 will be described as a smart phone 20a.
  • the user U may transmit an input related to the PTT function to the smart phone 20a through at least one button 110a of the user input receiving unit 110 .
  • the smart phone 20a may execute the first VA application 151 based on pre-stored setting information.
  • the first VA application 151 may output a voice message based on a conversation policy corresponding to an input corresponding to the PTT function.
  • the smart phone 20a is a voice message including the call word A corresponding to the first VA application 151, that is, "Hello, I am A.” and “What shall we do together today” can be output as sound.
  • the smart phone 20a says “Hello, I am A.” and "What shall we do together today” can be displayed on the display panel 2 .
  • the user U may input an additional spoken voice after outputting the voice message, and the first VA application 151 may recognize the user's intention from the additional spoken voice and then perform a function based on the intention.
  • the user U may input the spoken voice without manipulating the input button 110a.
  • the spoken voice may include "Hi ⁇ B” and "connect to B".
  • the smart phone 20a pre-processes the spoken voice including "Hi ⁇ B” and "Connect to B". In addition, the smart phone 20a transmits the pre-processed spoken voice to the plurality of VA applications 150 . If "Hi ⁇ B" or the call word B is a condition for the operation execution of the second VA application 152 , the second VA application 152 will operate.
  • the second VA application 152 may output a voice message corresponding to the spoken voice of the user U according to the conversation policy. For example, the smart phone 20a may output a voice message generated by the second VA application 152, that is, “Yes, I am B. How can I help you?”
  • the smart phone 20a may recognize the call word B in the preprocessing process regardless of the operation of the second VA application 152 .
  • the smart phone 20a may change the setting information so that the second VA application 152 corresponding to the call word B may be included in the connection application for the PTT function. That is, based on the user U's spoken voice according to the embodiment of FIG. 5 , the smart phone 20a changes the first VA application 151 included in the setting information to the second VA application 152 .
  • the smart phone 20a may display a guide phrase "Automatically connect PTT to B" on the display panel 2 without outputting a voice message in order to notify the user that the setting information has been changed.
  • the user U may execute the PTT function through the input button 110a.
  • the smart phone 20a operates the second VA application 152 based on the input command, and the second VA application 152 outputs "Yes B. How can I help you” based on the conversation policy. there is.
  • the voice message and display text included in FIGS. 4 to 6 are only examples. That is, the display device 1 may output a voice message and an output phrase other than the various methods described above.
  • the display apparatus 1 may display a user interface for selecting whether to activate a function for automatically changing setting information.
  • the display device 1 is implemented as a smart phone 20a
  • the smart phone 20a outputs the character D2 of “automatic connection activation” as shown in FIG. 7 , and selects the user U can induce
  • the smart phone 20a may automatically change the setting information in response to the call word recognized from the user's uttered voice.
  • the smart phone 20a changes the setting information even if a call word for the second VA application 152 is included in the user U's uttered voice. may not In this case, even if the input command for the PTT function is input again, the smart phone 20a executes the first VA application 151 .
  • FIG. 8 is a flowchart illustrating a method for controlling a display apparatus according to an exemplary embodiment.
  • the display apparatus 1 stores setting information connecting the first VA application 151 among the plurality of VA applications 150 and the input of the user U ( 300 ).
  • the setting information may be stored in the memory 180 and may be changed by an input of the user U.
  • the display device 1 receives the spoken voice ( 310 ).
  • the display device 1 receives the spoken voice through the voice receiver 120 such as a microphone.
  • the voice receiver 120 converts the spoken voice into an electrical signal and transmits it to the processor 140 .
  • the display apparatus 1 performs pre-processing of the spoken voice ( 320 ).
  • the processor 140 preprocesses the spoken voice based on at least one of noise removal, echo cancellation, and beamforming.
  • the display device 1 recognizes a call word from the pre-processed spoken voice ( 330 ).
  • the processor 140 recognizes a call word from the preprocessed spoken voice before transferring the preprocessed uttered voice to the plurality of VA applications 150 .
  • the display device 1 determines the second VA application 152 corresponding to the recognized call word ( 340 ).
  • the display device 1 displays the second VA application 152 corresponding to the call word B.
  • the display apparatus 1 changes the first VA application 151 included in the setting information to the second VA application 152 ( 350 ).
  • the display apparatus 1 compares the second VA application 152 corresponding to the call word with the first VA application 151 included in the setting information. If the call word is recognized as 'A', the display device 1 determines the first VA application 151 . Since the first VA application 151 included in the setting information and the determined first VA application 151 are the same, the display apparatus 1 does not change the setting information. As another example, when the third VA application 153 is recognized, the display apparatus 1 may change the stored setting information from the first VA application 151 to the third VA application 153 .
  • FIG. 9 is a flowchart for describing various methods of a display apparatus changing setting information.
  • the display apparatus 1 stores setting information connecting the first VA application 151 and the input command among the plurality of VA applications 150 ( 400 ).
  • the display device 1 receives the spoken voice ( 410 ) and performs pre-processing of the uttered voice ( 420 ). Then, the display device 1 recognizes the call word for a preset time ( 430 ).
  • the display apparatus 1 may determine whether a spoken voice is input for a preset time. As an example, the user U may input a spoken voice that does not include a call word. In order to accurately recognize whether the call word is included, the display apparatus 1 may wait for whether another spoken voice is input for a preset time.
  • the display device 1 After the preset time has elapsed, the display device 1 recognizes a call word from the spoken voice input during that time. If the recognized spoken voice includes the call word of the first VA application (Yes in 440 ), the display device 1 executes the conversation service of the first VA application 151 .
  • the display apparatus 1 since the call word of the first VA application 151 included in the setting information is the same as the call word recognized in the spoken voice, the display apparatus 1 operates the first VA application 151 without changing the setting information.
  • the display device 1 determines whether the recognized call word is the same as the call word of the second VA application 151 .
  • the display device 1 may stand by to recognize the spoken voice again ( 430 ).
  • the display apparatus 1 determines how many times the call word is included in the preprocessed spoken voice (460).
  • the display apparatus 1 may change the setting information when a call word is input more than a preset number of times.
  • the display device 1 changes the setting information to the second VA application 152 corresponding to the recognized call word (470), and the second VA application ( The conversation service of the second VA application 152 is executed so that the user 152 can process the utterance of the user U ( 480 ).
  • the display device 1 is configured without changing the setting information (470).
  • the conversation service of the second VA application 152 is executed so that the second VA application 152 can process the utterance of the user U ( 480 ).
  • the disclosed display device reduces the inconvenience of the user (U) and executes the conversation service by changing the setting information for connecting the conversation service with the input button performing the PTT function through the voice of the call word recognized in advance. can facilitate
  • the method according to various embodiments disclosed in this document may be provided in a device-readable storage medium.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave), and this term refers to cases in which data is semi-permanently stored in a storage medium and temporary It does not distinguish the case where it is stored as
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be provided as included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a machine-readable storage medium (eg compact disc read only memory (CD-ROM)), or via an application store (eg Play Store TM ) or on two user devices ( It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones).
  • a portion of a computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

개시된 일 실시예에 따른 디스플레이 장치는, 사용자의 입력을 수신하는 사용자 입력 수신부; 상기 사용자의 발화 음성을 수신하는 음성 수신부; 상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및 상기 사용자 입력 수신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함한다.

Description

디스플레이 장치 및 그 제어방법
개시된 실시예는 인공 지능 대화 서비스를 제공하는 디스플레이 장치 및 디스플레이 장치의 제어방법에 관한 것이다.
인공지능 시스템이 다양한 분야에서 이용되고 있다. 인공지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고, 업데이트를 수행하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되므로, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
이러한 인공지능 시스템은 다양한 분야에서 이용된다. 예를 들어 인공지능 시스템은 언어적 이해, 시각적 이해, 추론 예측 및 동작 제어에 이용될 수 있다. 구체적으로 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
구체적으로 언어적 이해에 적용되는 인공지능 시스템은, 스피커를 비롯하여 스마트 폰(Smart Phone), 태블릿(tablet), 웨어러블 장치(wearable device), TV, 사운드바(Soundbar) 등 많은 제품에서 적용된다. 또한, 전 세계적으로 삼성의 빅스비(Bixby), 아마존의 알렉사(Alexa), 구글의 구글 어시스턴스(Google Assistance) 등 많은 인공지능 대화 서비스가 사용되고 있다.
최근에는 이러한 다양한 인공지능 대화 서비스를 동시에 이용할 수 있는 제품의 개발이 진행되고 있다.
개시된 일 측면은, PTT(Push To Talk) 기능을 수행하는 입력 버튼으로 인공지능 대화 서비스를 연결하는 설정 정보를 사용자의 호출어 발화를 통해 변경시킴으로써, 사용자의 불편함을 감소시키고, 인공지능 대화 서비스의 실행에 용이한 디스플레이 장치 및 그 제어방법에 관한 것이다.
개시된 일 실시예에 따른 디스플레이 장치는, 사용자의 입력을 수신하는 사용자 입력 수신부; 상기 사용자의 발화 음성을 수신하는 음성 수신부; 상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및 상기 사용자 입력 수신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함한다.
상기 프로세서는, 상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보의 변경 여부를 결정할 수 있다.
상기 프로세서는,상기 음성 수신부에서 수신된 상기 사용자의 발화 음성의 전처리를 수행하고, 상기 전처리된 상기 사용자의 발화 음성을 상기 제2 VA 어플리케이션으로 전송할 수 있다.
상기 복수 개의 VA 어플리케이션은, 대화 정책을 상기 메모리에 저장하고, 상기 사용자의 발화 음성 및 상기 대화 정책에 기초하여 음성 메시지를 생성하고, 연계된 상기 VA 서버를 통해 상기 대화 정책을 업데이트할 수 있다.
상기 음성 메시지를 출력하는 소리 출력부;를 더 포함하고, 상기 프로세서는, 상기 제2 VA 어플리케이션이 생성하는 상기 음성 메시지에 기초하여 상기 소리 출력부를 제어할 수 있다.
사용자 인터페이스를 표시하는 영상 출력부;를 더 포함하고, 상기 프로세서는, 상기 영상 출력부를 통해 상기 설정 정보의 활성화 여부에 관한 사용자 인터페이스를 표시할 수 있다.
상기 프로세서는, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고, 미리 설정된 시간에 기초하여 상기 전처리된 사용자 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식할 수 있다.
상기 프로세서는, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고, 상기 전처리된 사용자의 발화 음성에서 상기 제2 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단할 수 있다.
상기 프로세서는, 상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보의 변경을 결정할 수 있다.
상기 프로세서는, 노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 상기 사용자 발화 음성의 전처리를 수행할 수 있다.
개시된 다른 실시예에 따른 디스플레이 장치는, 리모트 컨트롤러와 통신하는 통신부; 상기 사용자의 발화 음성을 수신하는 음성 수신부; 상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및 상기 통신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함한다.
개시된 또 다른 실시예에 따른 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA 어플리케이션을 저장하는 메모리;를 포함하는 디스플레이 장치의 제어방법은 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력 또는 상기 사용자의 발화 음성을 수신하고;
상기 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행하도록 결정하고; 및 상기 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 것;을 포함한다.
상기 변경하는 것은, 상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보를 변경 여부를 결정하는 것;을 포함할 수 있다.
상기 사용자의 발화 음성의 전처리를 수행하고; 및 상기 전처리된 음성 명령을 상기 제2 VA 어플리케이션으로 전송하는 것;을 더 포함할 수 있다.
상기 제2 VA 어플리케이션이 생성하는 음성 메시지를 출력하는 것;을 더 포함할 수 있다.
상기 설정 정보의 활성화 여부에 관한 사용자 인터페이스를 표시하는 것;을 더 포함할 수 있다.
상기 사용자의 발화 음성의 전처리를 수행하는 것;을 더 포함하고, 상기 변경하는 것은, 미리 설정된 시간에 기초하여 상기 전처리된 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식하는 것;을 포함할 수 있다.
상기 인식하는 것은, 상기 전처리된 발화 음성에서 상기 복수 개의 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단하는 것;을 포함할 수 있다.
상기 변경하는 것은, 상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보를 변경하는 것;을 포함할 수 있다.
상기 전처리를 수행하는 것은, 노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 상기 전처리를 수행하는 것;을 포함할 수 있다.
개시된 디스플레이 장치 및 그 제어방법은, PTT(Push To Talk) 기능을 수행하는 입력 버튼으로 인공지능 대화 서비스를 연결하는 설정 정보를 사용자의 호출어 발화를 통해 변경시킴으로써, 사용자의 불편함을 감소시키고, 인공지능 대화 서비스의 실행을 용이하게 할 수 있다.
도 1은 디스플레이 장치가 TV로 구현되는 경우 TV의 외관을 도시한 도면이다.
도 2는 다양한 실시예에 따른 디스플레이 장치 및 대화 서비스를 실행하는 방법을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 디스플레이 장치의 제어 블록도이다.
도 4 내지 도 6은 다른 실시예에 따라 디스플레이 장치가 사용자 단말로 구현되는 경우, 디스플레이 장치의 동작을 설명하기 위한 도면이다.
도 7은 설정 정보의 활성화 여부에 관한 사용자 인터페이스의 일 예이다.
도 8은 일 실시예에 따른 디스플레이 장치의 제어방법에 관한 순서도이다.
도 9는 디스플레이 장치가 설정 정보를 변경하는 다양한 방법을 설명하기 위한 순서도이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.
도 1은 디스플레이 장치가 TV로 구현되는 경우 TV의 외관을 도시한 도면이다.
도 1을 참조하면, 디스플레이 장치(1)는 TV(TeleVision, 1a)으로 구현될 수 있다. TV(1a)는 디스플레이 패널(2)과 디스플레이 패널(2)을 지지하는 하우징(3) 및 지지대(4)를 포함할 수 있다.
하우징(3)은 TV(1a)의 외장을 형성하며, 내측에 TV(1a)가 각종 화상을 표시하거나 또는 각종 기능을 수행할 수 있도록 하기 위한 부품을 내장시킨다. 하우징(3)는 디스플레이 패널(2)과 일체형으로 형성될 수도 있고, 전면 하우징 및 배면 하우징의 조합으로 이루어진 것일 수도 있다.
지지대(4)는 하우징(3)을 지지한다. 지지대(4)는, 설계자의 선택에 따라서, 다양한 형상을 가질 수 있으며, 필요에 따라서 생략될 수도 있다. 지지대(4)는 필요에 따라서 하우징(3)에 부착되거나 또는 이탈될 수 있다.
디스플레이 패널(2)은, 하우징(3)의 정면에 설치되고 각종 화상을 외부에 표시할 수 있다. 구체적으로 디스플레이 패널(2)은 정지 화상 또는 동화상을 적어도 하나 이상 표시할 수 있다. 디스플레이 패널(2)은 필요에 따라서 터치 패널 등과 같이 별도의 부품을 더 이용하여 구현될 수 있다.
디스플레이 패널(2)에는 복수의 픽셀이 형성되며, 디스플레이 패널(2)을 통해서 표시되는 영상은 복수의 픽셀(P)로부터 출사된 광의 조합에 의하여 형성될 수 있다. 예를 들어, 복수의 픽셀(P)가 방출하는 광이 모자이크(mosaic)와 같이 조합됨으로써 스크린(102) 상에 하나의 영상(I)이 형성될 수 있다.
디스플레이 패널(2)이 표시하는 영상은 다양한 사용자 인터페이스(10)를 포함할 수 있다. 사용자 인터페이스는 디스플레이 장치(1)의 여러 기능을 나타낼 수 있는 아이콘 및 형상을 포함할 수 있다.
한편, 개시된 디스플레이 장치(1)는 빅스비(Bixby), 알렉사(Alexa) 및 구글 어시스턴스(Google Assistance) 등 다양한 대화 서비스를 실행할 수 있다. 이를 위해서 디스플레이 장치(1)는 각각의 대화 서비스를 실행하기 위한 VA(Voice Assistance) 어플리케이션을 메모리에 저장하고, 대화 서비스를 실행하는 VA 서버와 통신을 수행할 수 있다.
도 1에서 도시된 바와 같이, 사용자(U)는 복수 개의 VA 어플리케이션 중 적어도 하나의 VA 어플리케이션을 실행시키기 위한 발화 음성(U1: 안녕 A)를 TV(1a)에 입력시킬 수 있다. TV(1a)는 사용자(U)의 발화 음성의 전처리를 수행하고, 변환된 전기 신호를 복수 개의 VA 어플리케이션에 전송한다. 만약 복수 개의 VA 어플리케이션 중 제1 VA 어플리케이션이 A를 호출어(Wake Up Word)로 설정하는 경우, 제1 VA 어플리케이션이 동작한다. TV(1a)는 제1 VA 어플리케이션이 생성하는 음성 메시지(D1: 네 안녕하세요 무엇을 도와드릴까요?)를 스피커를 통해 출력할 수 있다. 사용자(U)는 추가적으로 TV(1a)를 동작시키기 위한 발화 음성을 입력하고, TV(1a)제1 VA 어플리케이션이 처리하는 대화 정책 및 제어 신호에 기초하여 사용자(U)가 원하는 동작을 수행할 수 있다. 이러한 예를 통해서 TV(1a)는 사용자(U)에게 대화 서비스를 제공할 수 있다.
TV(1a)는 사용자(U)와 대화 서비스를 실행하는데 필요한 다양한 설정 정보를 사용자 인터페이스로써 표시할 수 있다. 만약 사용자(U)가 리모트 콘트롤러(190, 도 3 참조)에 마련된 버튼을 통해 PTT(Push To Talk) 기능을 실행하면, TV(1a)는 미리 설정된 VA 어플리케이션을 실행시킬 수 있다.
종래 디스플레이 장치는 사용자(U)가 PTT 기능을 실행시키면, 미리 설정된 대화 서비스를 수행하는 하나의 VA 어플리케이션만을 실행시켰다. 또한, 종래 디스플레이 장치는, 미리 설정된 VA 어플리케이션을 변경시키기 위해서 사용자(U)가 설정 정보를 변경시키는 사용자 인터페이스를 실행시키고, 수동적인 조작에 따라 설정 정보의 변경이 가능하였다.
개시된 디스플레이 장치(1)는 복수 개의 VA 어플리케이션 중 하나의 VA 어플리케이션을 지정하는 설정 정보를 사용자(U)의 발화 음성을 인식하여 변경시킴으로써, 전술한 문제점을 해결한다. 디스플레이 장치(1)가 설정 정보를 변경시키는 구체적인 방법은 이하의 다른 도면을 통해 후술한다.
도 2는 다양한 실시예에 따른 디스플레이 장치 및 대화 서비스를 실행하는 방법을 설명하기 위한 도면이다.
디스플레이 장치(1)는 도 1의 실시예로 설명한 TV(1a)이외에 도 2에서 도시된 다양한 제품(20, 30)에도 적용될 수 있다. 구체적으로 디스플레이 장치(1)는 스마트 폰(Smart Phone, 20a) 및 테블릿 PC(Tablet PC, 20b)와 같은 사용자 단말(20)과 사운드 바(30)와 같은 인공지능 스피커에 적용될 수 있다.
사용자 단말(20)은 네트워크를 통해 대화 서비스를 수행하는 클라언트 서버(200)에 접속할 수 있는 휴대용 단말기로 구현될 수 있다. 구체적으로 사용자 단말(20)은 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.
사운드 바(30)는 휴대용이 아니라 고정식으로 설치되며, 연결되는 홈 네트워크를 통해 다양한 전자 제품을 제어할 수 있는 콘솔의 역할을 수행하는 장치이다. 또한, 사운드 바(30)는 사용자(U)의 발화 음성을 처리할 수 있는 디스플레이 패널과 스피커를 포함할 수 있으며, 사용자(U)의 발화 음성에 대한 음성 메시지를 출력한다. 만약 사용자(U)가 호출어를 포함한 발화 음성을 입력하면, 사운드 바(30)는 대기 모드에서 활성 모드로 전환된다. 사운드 바(30)는 사용자(U)의 추가적인 발화 음성에 포함된 제어 명령에 따라 네트워크로 연결된 전자 제품에 전송하고, 전자 제품이 사용자(U)의 제어 명령을 처리할 수 있도록 한다.
이처럼 TV(1a), 사용자 단말(20) 및 사운드 바(30)에 적용될 수 있는 디스플레이 장치(1)는 네트워크를 통해 외부의 서버(200a, 200b, 200c)로 연결된다. 외부 서버(200a, 200b, 200c)는 디스플레이 장치(1)내에 포함된 복수 개의 VA 어플리케이션와 연계된 대화 서비스에 대한 서버이다.
구체적으로 VA 어플리케이션은 디스플레이 장치(1)에 포함된 메모리를 이용하여 대화 정책을 통해 대화 서비스를 실행할 수 있다. VA 어플리케이션은 대화 정책을 통해 사용자(U)의 발화 음성에 대응한 음성 메시지를 출력한다. 그러나 VA 어플리케이션은 내장되는 메모리의 한계로 인해 다양한 대화 정책을 전부 저장할 수 없다. 또한, 계속적으로 학습할 수 있는 대화 정책을 수립하기 위해서 VA 어플리케이션은 외부 서버(200a, 200b, 200c)와 통신을 수행하고, 대화 정책을 계속적으로 업데이트할 수 있다. 예를 들어, VA 어플리케이션은 호출어 입력에 대응하는 음성 메시지의 출력과 같이 간단한 대화 정책을 디스플레이 장치(1)에 저장하고, 사용자(U)가 입력하는 다양한 발화 음성에 대응한 구체적인 대화 정책을 서버(200a, 200b, 200c)로부터 수신할 수도 있다.
디스플레이 장치(1)에 포함된 복수 개의 VA 어플리케이션은 각각의 서버(200a, 200b, 200c)와 통신을 수행할 수 있다. 예를 들어, 디스플레이 장치(1)가 3개의 VA 어플리케이션을 포함하면, 디스플레이 장치(1)와 연결되는 외부 서버(200a, 200b, 200c)도 3개 이상일 수 있다.
도 3은 일 실시예에 따른 디스플레이 장치의 제어 블록도이다.
도 3을 참조하면, 디스플레이 장치(1)는 사용자(U)로부터 입력을 수신하는 입력 수신부(110)와, 사용자(U)의 발화 음성을 수신하는 음성 수신부(120)와, 사용자(U)의 제스처를 감지하는 센서(130)와, 상기 발화 음성의 전처리를 수행하고, 상기 전처리된 발화 음성에서 호출어를 인식하고, 상기 인식된 호출어에 대응하는 VA 어플리케이션(150)을 연결하는 프로세서(140), 도 1 및 도 2에서 전술한 대화 서비스를 실행하는 복수 개의 VA 어플리케이션(150), 프로세서(140) 및 VA 어플리케이션(150)이 요구 또는 처리하는 데이터를 외부로 전송하는 통신부(160) 및 프로세서(140)및 VA 어플리케이션(150)가 처리하는 음성 메시지와 영상을 출력하는 출력부(170) 및 설정 정보와, 프로세서(140)의 동작에 필요한 데이터를 저장하는 메모리(180)을 포함한다.
구체적으로 사용자 입력 수신부(110)는 사용자(U)가 입력하는 다양한 명령을 수신하는 입력 버튼을 포함할 수 있다. 일 예에 따라 디스플레이 장치(1)가 사용자 단말(20)에 마련되는 경우, 입력 버튼은 외관에 마련된 버튼일 수 있다. 이러한 입력 버튼은 PTT 기능을 수신하는 장치로 사용될 수 있다. 사용자(U)가 PTT 기능을 수행하는 입력 버튼을 푸쉬하면, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(150) 중 미리 설정된 제1 VA 어플리케이션(151)을 연결할 수 있다.
이외에도 사용자 입력 수신부(110)는 디스플레이 장치(1)를 턴온 또는 턴오프시키기 위한 전원 버튼, 복수의 소스 디바이스 중 하나의 소스 디바이스를 선택하기 위한 소스 선택 버튼, 디스플레이 장치(1)가 출력하는 음향 볼륨을 조절하기 위한 음향 조절 버튼 등을 포함할 수 있다. 이러한 다양한 버튼은 푸시 스위치, 터치 스위치, 다이얼, 슬라이드 스위치, 토글 스위치 등 다양한 입력 수단에 의해서 구현될 수 있다.
음성 수신부(120)는 사용자(U)의 발화 음성을 수신하는 장치로써, 음향을 입력 받아 전기적인 신호로 변환하여 출력하는 마이크로폰을 포함할 수 있다. 음성 수신부(120)는 효과적인 음성 입력을 위해서 복수 개의 마이크로폰으로 구성될 수 있다. 일 예로 디스플레이 장치(1)가 TV(1a)에 마련되는 경우, 복수 개의 마이크로폰은 하우징(3)의 서로 다른 위치에 마련될 수 있다.
센서(130)는 디스플레이 장치(1)가 동작할 수 있는 다양한 정보를 수집하기 위해 마련된 하드웨어적 장치이다. 예를 들어 디스플레이 장치(1)가 사용자의 제스처를 감지하는 경우, 센서(130)는 카메라를 포함할 수 있다. 다른 예로 디스플레이 장치(1)가 웨어러블 장치 등에 마련되는 경우, 초음파 센서, IR 센서, 가속도 센서 또는 자이로 센서 등 다양한 센서를 포함할 수도 있다.
VA 어플리케이션(150)은 사용자(U)의 발화 음성을 처리하고, 대화 정책에 따라 음성 메시지를 생성하며, 사용자(U)의 발화 음성에 포함된 제어 명령을 이해할 수 있다. VA 어플리케이션(150)은 발화 음성에 포함된 제어 명령에 따른 동작을 수행하기 위해서 디스플레이 장치(1)를 제어한다.
구체적으로 VA 어플리케이션(150)은 음성 인식 엔진(speech recognition engine)을 포함하고, 음성 인식 엔진은 입력된 발화 음성에서 음성 인식 알고리즘을 적용하여 사용자(U)가 발화한 음성을 인식한다. VA 어플리케이션(150)은 음성 신호로부터 시작 지점과 끝 지점을 검출하여 입력된 음성에 포함된 실제 음성 구간을 검출 EPD(End Point Detection)을 수행할 수 있고, 필터링을 통해 인식 결과를 발화문 형태로 생성한다. 발화문은 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)에 의해서 구현될 수 있다.
음성 인식 결과인 발화문을 통해 VA 어플리케이션(150)은 자연어 이해를 수행한다. 자연어 이해는 발화문에 대한 형태소 분석, 개체명 인식, 화행 분석 등 다양한 분석을 수행하고, 발화 음성의 의도를 해석한다. 의도가 해석되면, VA 어플리케이션(150)은 의도에 따른 대화 정책을 대응시키고, 대화 정책 내에 저장된 음성 메시지를 생성한다. 생성되는 음성 메시지에는 자연어 이해에서 분석되었던 개체명 등 입력된 단어가 사용될 수도 있다.
VA 어플리케이션(150)은 대화 정책을 통신부(160)를 통해 업데이트한다. 구체적으로 VA 어플리케이션(150)은 사용자(U)가 발화 음성을 처리한 결과를 서버(200)로 전송할 수 있다. 서버(200)는 다양하게 수집된 사례를 입력값을 인공 지능 신경망에 입력한다. 서버(200)는 입력값을 기초로 출력된 결과를 통해 대화 정책을 업데이트할 수 있다. 서버(200)는 업데이트된 대화 정책을 VA 어플리케이션(150)으로 전송하고, 추후 VA 어플리케이션(150)은 사용자(U)와의 대화에서 업데이트된 대화 정책을 사용할 수 있다.
한편, VA 어플리케이션(150)이 서버(200)로부터 업데이트하는 것은 반드시 대화 정책에만 한정되는 것은 아니다. VA 어플리케이션(150)은 전술한 음성 인식 엔진에 포함된 알고리즘을 서버(200)를 통해 업데이트할 수 있으며, 다양한 업데이트를 통해 사용자(U)의 대화 서비스를 수행할 수 있다.
VA 어플리케이션(150)은 복수 개의 VA 어플리케이션(151, 152, 153)을 포함하고, 각각의 VA 어플리케이션(151, 152, 153)은 제작된 제조사에 의해서 서로 다른 인식 알고리즘, 자연어 이해, 대화 정책을 포함할 수 있다. 또한, 제조사에 의해서 마련된 각각의 서버(200a, 200b, 200c)도 서로 다른 인공지능을 통해 대화 정책 등을 업데이트할 수 있다. 즉, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(151, 152, 153)을 포함하고, 사용자(U)에게 서로 다양한 대화 서비스를 제공할 수 있다.
프로세서(140)는 VA 어플리케이션(150)으로 입력되는 사용자의 발화 음성의 전처리를 수행하는 구성이다.
구체적으로 음성 수신부(120)는 사용자(U)의 발화 음성을 수신하고, 이를 전기적 신호로 변경한다. 음성 수신부(120)는 전기적 신호를 프로세서(140)로 전송하고, 프로세서(140)는 VA 어플리케이션(150)으로 전기적 신호를 전송하기 전, 음성 인식 엔진이 음성을 인식할 수 있도록 노이즈 제거, 에코 캔슬링 또는 빔포밍과 같은 전처리를 수생한다.
노이즈 제거는 음성 수신부(120)에서 입력되는 다양한 소리 중 사용자(U)의 발화 이외의 다양한 노이즈를 제거하는 전처리 과정이다. 일 예로 노이즈 제거는 미리 설정된 주파수 대역의 신호를 제거함으로써 수행될 수 있다.
에코 캔슬링은, 소음으로 처리되는 음파와 정반대의 음파를 생성해 상쇄 간섭을 일으키는 전처리이다. 프로세서(140)는 음성 수신부(120)를 제어해 에코 캔슬링을 수행할 수 있다.
빔포밍은, 음성 수신부(120)가 복수 개의 마이크로폰을 포함하는 경우, 하나의 사용자(U)의 발화 음성으로 인해 생성되는 복수 개의 전기적 신호에 대한 시간 지연 등 동기화를 수행하는 전처리 과정이다.
프로세서(140)는 전술한 전처리 이외에도 다양한 음성 입력의 전처리를 수행한 후, VA 어플리케이션(150)로 사용자(U)의 발화 음성을 전달한다.
한편, 개시된 일 실시예에 따른 프로세서(140)는 VA 어플리케이션(150)로 전처리된 발화 음성을 전달하기 전, 호출어를 추출할 수 있다. 프로세서(140)는 추출된 호출어를 인식하고, 인식된 호출어에 기초하여 복수 개의 VA 어플리케이션 중 적어도 하나의 VA 어플리케이션을 실행시킬 수 있다.
구체적으로 프로세서(140)는 PTT 기능에 대응하는 사용자 입력을 기초로 제1 VA 어플리케이션(151)을 동작시킨다. 즉, 프로세서(140)는 메모리(180)에 저장된 복수 개의 VA 어플리케이션 중 사용자 입력 수신부(110)가 수신한 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 제1 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션을 실행시킨다.
한편, 프로세서(140)는 사용자(U)의 발화 음성을 전처리하는 과정에서 제2 VA 어플리케이션(152)을 호출하는 호출어를 수신할 수 있다. 프로세서(140)는 인식된 호출어에 기초하여 설정 정보를 제1 VA 어플리케이션(151)에서 제2 VA 어플리케이션(152)로 변경시킬 수 있다. 설정 정보가 변경된 후, 다시 PTT 기능에 대한 입력 명령이 입력되면, 프로세서(140)는 입력 명령에 따라 제2 VA 어플리케이션(152)으로 전처리된 발화 음성을 전달할 수 있다. 이를 통해서 개시된 디스플레이 장치(1)는 사용자(U)가 사용자 인터페이스를 통해 설정 정보를 일일이 변경시켜야 하는 불편함을 감소시키고, 인공지능 대화 서비스의 실행에 용이함을 증가시킬 수 있다.
프로세서(140)는 사용자(U)의 발화 음성에 대한 전처리를 수행하는 칩으로 마련될 수 있다. 즉, 프로세서(140)는 VA 어플리케이션(150)과 음성 수신부(120)를 연결하면 충분하다. 다만, 프로세서(140)는 디스플레이 장치(1)을 전반적으로 제어하는 메인 보드에 마련될 수도 있다.
통신부(160)는 유선 통신 모듈(161) 및 무선 통신 모듈(162)을 포함할 수 있다.
유선 통신 모듈(161)은 다양한 종류의 영상 전송 케이블을 통하여 소스 디바이스로부터 디스플레이 장치(1)가 영상 데이터를 수신하는 모듈을 의미한다. 일 예로, 디스플레이 장치(1)가 TV(1a)로 마련되는 경우, 유선 수신 모듈(161)은 컴포넌트(component, YPbPr/RGB) 케이블 또는 컴포지트 (composite video blanking and sync, CVBS) 케이블 또는 고화질 멀티미디어 인터페이스 (High Definition Multimedia Interface, HDMI) 케이블 또는 범용 직렬 버스(Universal Serial Bus, USB) 케이블 또는 이더넷(Ethernet, IEEE 802.3 기술 표준) 케이블 등을 통하여 소스 디바이스로부터 영상 데이터를 수신할 수 있다.
무선 수신 모듈(162)은 다양한 무선 통신 표준을 이용하여 외부와 무선 통신을 수행하는 모듈로써, 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.
일 실시예에 따른 디스플레이 장치(1)가 TV(1a)로 마련되는 경우, 디스플레이 장치(1)는 리모트 컨트롤러(190)와 무선 통신을 수행할 수 있다. 리모트 컨트롤러(190)는 발화 음성을 사용자(U) 가까이에서 수신할 수 있다. 리모트 컨트롤러(190)는 발화 음성을 무선 신호로 변환시키고, 무선 통신 모듈(162)로 전송할 수도 있다.
리모트 컨트롤러(190)는 다양한 입력 버튼을 포함할 수 있다. 디스플레이 장치(1)는 리모트 컨트롤러(190)ㅇ에 PTT 기능을 수행하는 입력 버튼을 마련할 수 있다. 즉, 리모트 컨트롤러(190)는 입력 버튼을 무선 신호로 변경하고, 무선 통신 모듈(162)에 전송한다. 디스플레이 장치(1)는 통신부(160)가 수신한 무선 신호에 기초하여 설정 정보를 변경시키고, 제2 VA 어플리케이션(152)에 사용자의 발화 음성을 전달할 수 있다.
출력부(170)는 VA 어플리케이션(150)이 생성한 음성 메시지 및 음향 데이터를 출력하는 소리 출력부(171)와 VA 어플리케이션(150)이 대화 정책에 따라 생성한 영상 데이터, 설정 정보를 포함하는 사용자 인터페이스 및 소스 디바이스나 외부에서 수신되는 영상 신호를 프레임 형식으로 마련된 영상 데이터를 출력하는 영상 출력부(172)를 포함할 수 있다.
소리 출력부(171)는 음향을 증폭하는 오디오 앰프(미도시)와, 증폭된 음향을 청각적으로 출력하는 스피커(미도시)를 포함할 수 있다.
소리 출력부(171) 오디오 앰프를 통해서 출력된 음향 신호를 증폭시킬 수 있다. 또한, 스피커는 오디오 앰프에 의해서 증폭된 음향 신호를 음향(음파)으로 변환할 수 있다. 예를 들어, 스피커는 전기적 음향 신호에 따라 진동하는 박막을 포함할 수 있으며, 박막의 진동에 의하여 음파가 생성될 수 있다.
영상 출력부(172)는, 영상을 시각적으로 표시하는 디스플레이 패널(2)과, 디스플레이 패널(2)을 구동하는 디스플레이 드라이버(미도시)를 포함할 수 있다.
일 실시예에 따라 디스플레이 장치(1)가 TV(1a)로 구현되는 경우, 디스플레이 패널(2)의 각각의 픽셀은 디스플레이 드라이버로부터 영상을 나타내는 전기적 신호를 수신하고, 수신된 전기적 신호에 대응하는 광학 신호를 출력할 수 있다. 복수의 픽셀이 출력하는 광학 신호가 조합됨으로써 영상이 디스플레이 패널(2)에 표시될 수 있다. 디스플레이 패널(2)은 액정 디스플레이 패널(Liquid Crystal Display Panel, LCD Panel), 발광 다이오드 패널(Light Emitting Diode Panel, LED Panel) 또는 유기 발광 다이오드 패널(Organic Light Emitting Diode Panel, OLED Panel)을 등 다양한 타입의 패널에 의하여 구현될 수 있다.
메모리(180)는 디스플레이 장치(1)에 포함된 구성들을 제어하기 위한 프로그램 및 데이터를 저장하고, 설정 정보를 저장한다.
설정 정보는 PTT 기능에 대응하는 입력 명령이 수신되면, 사용자(U)의 발화 음성을 제1 VA 어플리케이션(151)로 전송하는 것을 의미한다. 이러한 설정 정보는 제조사 또는 사용자(U)의 구체적인 선택에 의해서 결정되고, 메모리(180)에 저장된다. 개시된 실시예에서 디스플레이 장치(1)가 사용자(U)의 발화 음성에서 제2 VA 어플리케이션(152)의 호출어를 인식하면, 저장된 설정 정보는 변경될 수 있다.
한편, 도 2에서 도시된 VA 어플리케이션은 대화 서비스를 실행하는 소프트웨어로 구현될 수 있다. VA 어플리케이션이 소프트웨어로 구현되는 경우, 복수 개의 VA 어플리케이션은 메모리(180)에 프로그램으로 저장될 수 있다. 프로세서(140)는 발화 음성의 전처리를 수행한 후, 호출어에 대응되는 VA 어플리케이션을 메모리(180)로부터 읽어내어, 실행시킴으로써 대화 서비스를 구현할 수 있다.
메모리(180)는 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 플래시 메모리 등의 비휘발성 메모리와, 데이터를 일시적으로 기억하기 위한 S-램(Static Random Access Memory, S-RAM), D-램(Dynamic Random Access Memory) 등의 휘발성 메모리로 마련될 수 있다. 메모리(180)는 프로세서(140)와 별개의 칩으로 구현된 메모리일 수 있고, 프로세서(140)와 단일 칩으로 구현될 수도 있다.
한편, 디스플레이 장치(1)는 전술한 구성 이외에도 다양한 구성을 더 포함하거나 생략할 수 있으며, 적용되는 실시예에 따라 전술한 구성의 위치 및 연결 관계가 변경될 수 있다.
도 4 내지 도 6은 다른 실시예에 따라 디스플레이 장치가 사용자 단말로 구현되는 경우, 디스플레이 장치의 동작을 설명하기 위한 도면이다.
도 2에서 전술한 바와 같이, 디스플레이 장치(1)는 사용자 단말 중 스마트 폰(20a)에 마련될 수 있다. 도 4 내지 도 7에서는 디스플레이 장치(1)를 스마트 폰(20a)으로 설명한다.
도 4를 먼저 참조하면, 사용자(U)는 사용자 입력 수신부(110) 중 적어도 하나의 버튼(110a)를 통해 PTT 기능에 관한 입력을 스마트 폰(20a)으로 전송할 수 있다.
스마트 폰(20a)은 미리 저장된 설정 정보에 의해서 제1 VA 어플리케이션(151)을 실행시킬 수 있다. 제1 VA 어플리케이션(151)은 PTT 기능에 대응하는 입력에 대응하는 대화 정책에 기초하여 음성 메시지를 출력할 수 있다.
구체적으로 스마트 폰(20a)은 제1 VA 어플리케이션(151)에 대응하는 호출어(A)를 포함한 음성 메시지, 즉 "안녕하세요 A 입니다." 및 "오늘은 어떤 일을 함께 해 볼까요"를 소리로 출력할 수 있다. 또한, 스마트 폰(20a)은 "안녕하세요 A 입니다." 및 "오늘은 어떤 일을 함께 해 볼까요" 디스플레이 패널(2)에 표시할 수 있다.
사용자(U)는 음성 메시지의 출력 후, 추가적인 발화 음성을 입력하고, 제1 VA 어플리케이션(151)은 추가적인 발화 음성으로부터 사용자의 의도를 파악한 후, 의도에 기초한 기능을 수행할 수 있다.
도 5를 참조하면, 사용자(U)는 입력 버튼(110a)의 조작 없이, 발화 음성을 입력할 수 있다. 일 예로, 발화 음성은, "Hi~ B" 및 "B로 연결해줘"를 포함할 수 있다.
스마트 폰(20a)은 "Hi~ B" 및 "B로 연결해줘"를 포함한 발화 음성을 전처리한다. 또한, 스마트 폰(20a)는 전처리한 발화 음성을 복수 개의 VA 어플리케이션(150)에 전송한다. 만약 "Hi~ B" 또는 호출어 B가 제2 VA 어플리케이션(152)의 동작 실행에 조건이면, 제2 VA 어플리케이션(152)이 동작할 것이다. 제2 VA 어플리케이션(152)은 대화 정책에 따라 사용자(U)의 발화 음성에 대응하는 음성 메시지를 출력할 수 있다. 일 예로, 스마트 폰(20a)은 제2 VA 어플리케이션(152)이 생성한 음성 메시지, 즉 "네 B입니다. 무엇을 도와 드릴까요"를 출력할 수 있다.
한편, 스마트 폰(20a)은 제2 VA 어플리케이션(152)의 동작과 관계없이, 전처리 과정에서 호출어 B를 인식할 수 있다. 스마트 폰(20a)은 호출어 B에 대응하는 제2 VA 어플리케이션(152)이 PTT 기능에 대한 연결 어플리케이션에 포함될 수 있도록, 설정 정보를 변경할 수 있다. 즉, 도 5의 실시예에 따른 사용자(U)의 발화 음성에 기초하여, 스마트 폰(20a)은 설정 정보에 포함된 제1 VA 어플리케이션(151)을 제2 VA 어플리케이션(152)으로 변경시킨다.
스마트 폰(20a)은 설정 정보가 변경되었음을 사용자에게 공지하기 위해서 음성 메시지 출력 없이, 디스플레이 패널(2)에 "PTT를 B로 자동 연결합니다"라는 안내 문구를 표시할 수 있다.
도 6을 참조하면, 설정 정보가 변경된 후, 사용자(U)는 입력 버튼(110a)를 통해 PTT 기능을 실행할 수 있다. 스마트 폰(20a)은 입력 명령에 기초하여 제2 VA 어플리케이션(152)을 동작시키고, 제2 VA 어플리케이션(152)은 대화 정책에 기초하여 "네 B입니다. 무엇을 도와 드릴까요"를 출력할 수 있다.
한편, 도 4 내지 도 6에 포함된 음성 메시지와 표시 문구는 일 예에 불과하다. 즉, 디스플레이 장치(1)는 전술한 다양한 방법 이외의 음성 메시지와 출력 문구를 출력할 수도 있다.
도 7은 설정 정보의 활성화 여부에 관한 사용자 인터페이스의 일 예이다.
디스플레이 장치(1)는 설정 정보를 자동으로 변경하는 기능의 활성화 여부를 선택하는 사용자 인터페이스를 표시할 수 있다. 디스플레이 장치(1)가 스마트 폰(20a)으로 구현되는 경우, 스마트 폰(20a)은 도 7에 도시된 바와 같이 "자동연결 활성화"라는 문자(D2)를 출력하면서, 사용자(U)의 선택을 유도할 수 있다.
만약 사용자(U)가 자동연결 활성화를 켜짐으로 선택하는 경우, 스마트 폰(20a)은 사용자(U)의 발화 음성에서 인식된 호출어에 대응하여 설정 정보를 자동으로 변경할 수 있다.
만약 사용자(U)가 자동연결 활성화를 꺼짐으로 선택하는 경우, 스마트 폰(20a)은 사용자(U)의 발화 음성에서 제2 VA 어플리케이션(152)에 대한 호출어가 포함되더라도, 설정 정보의 변경을 수행하지 않을 수 있다. 이 경우, PTT 기능에 대한 입력 명령이 다시 입력되더라도, 스마트 폰(20a)은 제1 VA 어플리케이션(151)을 실행시킨다.
한편, 도 7에서 도시된 실시예는, 설명의 편의를 위한 것일 뿐, 다양한 사용자 인터페이스가 가능하다. 예를 들어 "자동연결 활성화"라는 문구도 얼마든지 변경될 수 있다.
도 8은 일 실시예에 따른 디스플레이 장치의 제어방법에 관한 순서도이다.
도 8을 참조하면, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(150) 중 제1 VA 어플리케이션(151)과 사용자(U)의 입력을 연결하는 설정 정보를 저장한다(300).
설정 정보는 메모리(180)에 저장될 수 있으며, 사용자(U)의 입력에 의해서 변경될 수 있다.
디스플레이 장치(1)는 발화 음성을 수신한다(310).
디스플레이 장치(1)는 마이크로폰과 같은 음성 수신부(120)를 통해서 발화 음성을 수신하다. 음성 수신부(120)는 발화 음성을 전기적 신호로 변경하고, 프로세서(140)로 전달한다.
디스플레이 장치(1)는 발화 음성의 전처리를 수행한다(320).
구체적으로 프로세서(140)는 노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 발화 음성의 전처리를 수행한다.
디스플레이 장치(1)는 전처리된 발화 음성에서 호출어를 인식한다(330).
즉, 프로세서(140)는 전처리된 발화 음성을 복수 개의 VA 어플리케이션(150)으로 전달하기 전, 전처리된 발화 음성에서 호출어를 인식한다.
디스플레이 장치(1)는 인식된 호출어에 대응하는 제2 VA 어플리케이션(152)을 결정한다(340).
예를 들어, 사용자(U)의 발화에서 제2 VA 어플리케이션(152)의 호출어(B)가 인식되면, 디스플레이 장치(1)는 호출어(B)에 대응하는 제2 VA 어플리케이션(152)을 결정한다.
디스플레이 장치(1)는 설정 정보에 포함된 제1 VA 어플리케이션(151)을 제2 VA 어플리케이션(152)으로 변경한다(350).
구체적으로 디스플레이 장치(1)는 호출어에 대응하는 제2 VA 어플리케이션(152)과 설정 정보에 포함된 제1 VA 어플리케이션(151)을 비교한다. 만약 호출어가 'A'로 인식되면, 디스플레이 장치(1)는 제1 VA 어플리케이션(151)을 결정한다. 설정 정보에 포함된 제1 VA 어플리케이션(151)과 결정된 제1 VA 어플리케이션(151)이 동일하므로, 디스플레이 장치(1)는 설정 정보를 변경하지 않는다. 다른 예로, 제3 VA 어플리케이션(153)이 인식되면, 디스플레이 장치(1)는 저장된 설정 정보를 제1 VA 어플리케이션(151)에서 제3 VA 어플리케이션(153)로 변경할 수 있다.
도 9는 디스플레이 장치가 설정 정보를 변경하는 다양한 방법을 설명하기 위한 순서도이다.
도 9를 참조하면, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(150) 중 제1 VA 어플리케이션(151)과 입력 명령을 연결하는 설정 정보를 저장한다(400).
디스플레이 장치(1)는 발화 음성을 수신하고(410), 발화 음성의 전처리를 수행한다(420). 그리고 디스플레이 장치(1)는 미리 설정된 시간 동안 호출어를 인식한다(430).
디스플레이 장치(1)는 미리 설정된 시간동안 발화 음성이 입력되는지 여부를 판단할 수 있다. 일 예로, 사용자(U)는 호출어를 포함하지 않는 발화 음성을 입력시킬 수 있다. 호출어가 포함되는지 여부를 정확하게 인식하기 위해, 디스플레이 장치(1)는 미리 설정된 시간동안 다른 발화 음성이 입력되는지 여부를 기다릴 수 있다.
미리 설정된 시간이 경과한 후, 디스플레이 장치(1)는 그 동안 입력된 발화 음성에서 호출어를 인식한다. 만약 인식된 발화 음성에 제1 VA 어플리케이션의 호출어가 포함되면(440의 예), 디스플레이 장치(1)는 제1 VA 어플리케이션(151)의 대화 서비스를 실행시킨다.
즉, 설정 정보에 포함된 제1 VA 어플리케이션(151)의 호출어가 발화 음성에서 인식된 호출어와 동일하므로, 디스플레이 장치(1)는 설정 정보의 변경없이, 제1 VA 어플리케이션(151)을 동작시킨다.
만약 인식된 발화 음성에 제1 VA 어플리케이션의 호출어가 포함되지 않으면(440의 아니오), 디스플레이 장치(1)는 인식된 호출어가 제2 VA 어플리케이션(151)의 호출어와 동일한지 여부를 판단한다.
만약 인식된 호출어에 제2 VA 어플리케이션의 호출어가 포함되지 않으면(450의 아니오), 디스플레이 장치(1)는 다시 발화 음성을 인식하기 위해서 대기할 수 있다(430).
만약 인식된 호출어에 제2 VA 어플리케이션의 호출어가 포함되면(450의 예), 디스플레이 장치(1)는 전처리된 발화 음성에 호출어가 몇 번이나 포함되는지 여부를 판단한다(460).
잘못된 한번의 호출어의 입력으로, 설정 정보가 변경되는 것을 방지하기 위해서 디스플레이 장치(1)는 미리 설정된 횟수 이상의 호출어가 입력될 때, 설정 정보를 변경할 수 있다.
만약 미리 설정된 횟수 이상의 호출어가 인식되면(460의 예), 디스플레이 장치(1)는 인식된 호출어에 대응하는 제2 VA 어플리케이션(152)으로 설정 정보를 변경하고(470), 제2 VA 어플리케이션(152)이 사용자(U)의 발화를 처리할 수 있도록 제2 VA 어플리케이션(152)의 대화 서비스를 실행한다(480).
만약 미리 설정된 횟수 이상의 호출어가 인식되지 않으면(460의 아니오), 디스플레이 장치(1)는 설정 정보의 변경 없이(470). 제2 VA 어플리케이션(152)이 사용자(U)의 발화를 처리할 수 있도록 제2 VA 어플리케이션(152)의 대화 서비스를 실행한다(480).
이를 통해서 개시된 디스플레이 장치는 PTT기능을 수행하는 입력 버튼으로 대화 서비스를 연결하는 설정 정보를 사전에 인식한 호출어의 음성을 통해 변경시킴으로써, 사용자(U)의 불편함을 감소시키고, 대화 서비스의 실행을 용이하게 할 수 있다.
한편, 본 문서에 개시된 다양한 실시예들에 따른 방법은 기기로 읽을 수 있는 저장매체에 포함되어 제공될 수 있다
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어 TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims (15)

  1. 사용자의 입력을 수신하는 사용자 입력 수신부;
    상기 사용자의 발화 음성을 수신하는 음성 수신부;
    상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및
    상기 사용자 입력 수신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함하는 디스플레이 장치.
  2. 제 1항에 있어서,
    상기 프로세서는,
    상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보의 변경 여부를 결정하는 디스플레이 장치.
  3. 제 1항에 있어서,
    상기 프로세서는,
    상기 음성 수신부에서 수신된 상기 사용자의 발화 음성의 전처리를 수행하고,
    상기 전처리된 상기 사용자의 발화 음성을 상기 제2 VA 어플리케이션으로 전송하는 디스플레이 장치.
  4. 제 1항에 있어서,
    상기 복수 개의 VA 어플리케이션은,
    대화 정책을 상기 메모리에 저장하고, 상기 사용자의 발화 음성 및 상기 대화 정책에 기초하여 음성 메시지를 생성하고, 연계된 상기 VA 서버를 통해 상기 대화 정책을 업데이트하는 디스플레이 장치.
  5. 제 4항에 있어서,
    상기 음성 메시지를 출력하는 소리 출력부;를 더 포함하고,
    상기 프로세서는,
    상기 제2 VA 어플리케이션이 생성하는 상기 음성 메시지에 기초하여 상기 소리 출력부를 제어하는 디스플레이 장치.
  6. 제 1항에 있어서,
    사용자 인터페이스를 표시하는 영상 출력부;를 더 포함하고,
    상기 프로세서는,
    상기 영상 출력부를 통해 상기 설정 정보의 활성화 여부에 관한 사용자 인터페이스를 표시하는 디스플레이 장치.
  7. 제 1항에 있어서,
    상기 프로세서는,
    상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고,
    미리 설정된 시간에 기초하여 상기 전처리된 사용자 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식하는 디스플레이 장치.
  8. 제 1항에 있어서,
    상기 프로세서는,
    상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고,
    상기 전처리된 사용자의 발화 음성에서 상기 제2 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단하는 디스플레이 장치.
  9. 제 1항에 있어서,
    상기 프로세서는,
    상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보의 변경을 결정하는 디스플레이 장치.
  10. 제 1항에 있어서,
    상기 프로세서는,
    노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 상기 사용자 발화 음성의 전처리를 수행하는 디스플레이 장치.
  11. 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA 어플리케이션을 저장하는 메모리;를 포함하는 디스플레이 장치의 제어방법에 있어서,
    적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력 또는 상기 사용자의 발화 음성을 수신하고;
    상기 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행하도록 결정하고;
    상기 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 것;을 포함하는 디스플레이 장치의 제어방법.
  12. 제 11항에 있어서,
    상기 변경하는 것은,
    상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보를 변경 여부를 결정하는 것;을 포함하는 디스플레이 장치의 제어방법.
  13. 제 11항에 있어서,
    상기 사용자의 발화 음성의 전처리를 수행하는 것;을 더 포함하고,
    상기 변경하는 것은,
    미리 설정된 시간에 기초하여 상기 전처리된 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식하는 것;을 포함하는 디스플레이 장치의 제어방법.
  14. 제 13항에 있어서,
    상기 인식하는 것은,
    상기 전처리된 발화 음성에서 상기 복수 개의 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단하는 것;을 포함하는 디스플레이 장치의 제어방법.
  15. 제 13항에 있어서,
    상기 변경하는 것은,
    상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보를 변경하는 것;을 포함하는 디스플레이 장치의 제어방법.
PCT/KR2020/018679 2020-01-21 2020-12-18 디스플레이 장치 및 그 제어방법 WO2021149921A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20914836.0A EP4044018A4 (en) 2020-01-21 2020-12-18 DISPLAY DEVICE AND METHODS OF CONTROL THEREOF
US17/740,616 US20220270608A1 (en) 2020-01-21 2022-05-10 Display device and method for controlling same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0007759 2020-01-21
KR1020200007759A KR20210094251A (ko) 2020-01-21 2020-01-21 디스플레이 장치 및 그 제어방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/740,616 Continuation US20220270608A1 (en) 2020-01-21 2022-05-10 Display device and method for controlling same

Publications (1)

Publication Number Publication Date
WO2021149921A1 true WO2021149921A1 (ko) 2021-07-29

Family

ID=76993050

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/018679 WO2021149921A1 (ko) 2020-01-21 2020-12-18 디스플레이 장치 및 그 제어방법

Country Status (4)

Country Link
US (1) US20220270608A1 (ko)
EP (1) EP4044018A4 (ko)
KR (1) KR20210094251A (ko)
WO (1) WO2021149921A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180110971A (ko) * 2017-03-30 2018-10-11 엘지전자 주식회사 홈 어플라이언스, 및 음성 인식 모듈
KR20180130648A (ko) * 2017-05-29 2018-12-10 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
KR20190068133A (ko) * 2017-12-08 2019-06-18 삼성전자주식회사 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
KR20190105175A (ko) * 2018-02-22 2019-09-16 삼성전자주식회사 전자 장치 및 이의 자연어 생성 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US11062702B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
CN107919123B (zh) * 2017-12-07 2022-06-03 北京小米移动软件有限公司 多语音助手控制方法、装置及计算机可读存储介质
CN111971647A (zh) * 2018-04-09 2020-11-20 麦克赛尔株式会社 语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180110971A (ko) * 2017-03-30 2018-10-11 엘지전자 주식회사 홈 어플라이언스, 및 음성 인식 모듈
KR20180130648A (ko) * 2017-05-29 2018-12-10 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
KR20190068133A (ko) * 2017-12-08 2019-06-18 삼성전자주식회사 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
KR20190105175A (ko) * 2018-02-22 2019-09-16 삼성전자주식회사 전자 장치 및 이의 자연어 생성 방법

Also Published As

Publication number Publication date
EP4044018A1 (en) 2022-08-17
EP4044018A4 (en) 2022-12-21
US20220270608A1 (en) 2022-08-25
KR20210094251A (ko) 2021-07-29

Similar Documents

Publication Publication Date Title
WO2020032608A1 (en) Feedback method and apparatus of electronic device for confirming user's intention
WO2019013510A1 (en) VOICE PROCESSING METHOD AND ELECTRONIC DEVICE SUPPORTING IT
WO2013022135A1 (en) Electronic device and method of controlling the same
WO2020080635A1 (ko) 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
EP3867735A1 (en) Method of performing function of electronic device and electronic device using same
WO2019199030A1 (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
WO2019112181A1 (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
WO2018203620A1 (ko) 사용자 발화를 처리하는 전자
WO2020091248A1 (ko) 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
WO2021060728A1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
WO2020141794A1 (ko) 전자 장치 및 이의 제어 방법
WO2021101276A1 (en) Electronic device for providing intelligent assistance service and operating method thereof
WO2021149921A1 (ko) 디스플레이 장치 및 그 제어방법
WO2020180008A1 (en) Method for processing plans having multiple end points and electronic device applying the same method
WO2020166796A1 (ko) 전자 장치 및 그 제어 방법
WO2020101174A1 (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2022131566A1 (ko) 전자 장치 및 전자 장치의 동작 방법
WO2018155810A1 (ko) 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
WO2022173104A1 (ko) 음성 구간 인식의 향상을 지원하는 전자 장치
WO2024072036A1 (ko) 음성인식 장치 및 음성인식 장치의 동작방법
WO2024101576A1 (ko) 전자 장치 및 그 제어 방법
WO2023075118A1 (ko) 전자 장치 및 그 동작 방법
WO2022092530A1 (ko) 전자장치 및 그 제어방법
WO2022114532A1 (ko) 전자장치 및 그 제어방법
WO2022025448A1 (ko) 전자 장치 및 전자 장치의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20914836

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020914836

Country of ref document: EP

Effective date: 20220510

NENP Non-entry into the national phase

Ref country code: DE