WO2014088377A1 - Voice recognition device and method of controlling same - Google Patents

Voice recognition device and method of controlling same Download PDF

Info

Publication number
WO2014088377A1
WO2014088377A1 PCT/KR2013/011321 KR2013011321W WO2014088377A1 WO 2014088377 A1 WO2014088377 A1 WO 2014088377A1 KR 2013011321 W KR2013011321 W KR 2013011321W WO 2014088377 A1 WO2014088377 A1 WO 2014088377A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain
conversation
previous
current
frame
Prior art date
Application number
PCT/KR2013/011321
Other languages
French (fr)
Korean (ko)
Inventor
박은상
김경덕
김명재
리우유
류성한
이근배
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020130151129A external-priority patent/KR102211595B1/en
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US14/650,471 priority Critical patent/US9953645B2/en
Publication of WO2014088377A1 publication Critical patent/WO2014088377A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a speech recognition apparatus and a response information providing method, and more particularly, to a speech recognition apparatus and a response information providing method for providing response information corresponding to a spoken voice of a user.
  • a conventional speech recognition apparatus providing response information to a user's spoken voice analyzes the received spoken voice to determine a domain intended by the user, and based on the determined domain, the user's spoken voice. Provide response information for voice.
  • the conventional speech recognition apparatus determines a domain based on the user's current spoken voice and provides response information on the user's spoken voice based on the determined domain. That is, the conventional speech recognition apparatus recognizes the user's intention according to the user's current spoken voice and provides response information about the user's spoken voice without considering the dialogue context between the user's previous spoken voice and the current spoken voice.
  • the previous spoken voice "What is an action movie?” May include user intentions for an action movie provided by a TV program.
  • the speech recognition apparatus determines the user's intention based on the currently input spoken voice without considering the dialogue context associated with the previous spoken voice.
  • the speech recognition apparatus 100 receives the user's intention from the current spoken voice of "what is the VOD?". You won't get it right. Accordingly, the speech recognition apparatus provides response information that is different from the user's intention or requests the user to speak again. Accordingly, the user must bear the inconvenience of providing more detailed speech in order to receive the intended response information.
  • the present invention has been made in accordance with the above-described needs, and an object of the present invention is to consider various cases of the user's spoken voice in a speech recognition device that provides response information about the user's spoken voice in an interactive system.
  • the purpose is to provide response information appropriate to the user's intention.
  • a speech recognition apparatus including an extractor configured to extract at least one of a first speech element representing an execution command and a second speech element representing a target from a speech of a user; A domain determination unit that determines a current domain for providing response information for the spoken voice based on the first and second spoken elements, and a conversation state on the previous domain predetermined from the previous spoken voice of the current domain and the user And a controller configured to determine a candidate conversation frame for providing response information for the spoken voice on at least one of the current domain and the previous domain based on the.
  • the domain determiner may determine a current domain for providing response information to the speech voice based on driving and parameters corresponding to the first and second speech elements extracted from the extractor.
  • the controller may determine whether the current context and the previous domain are the same, and whether the dialogue context is switched from the current dialogue frame and the previous dialogue frame generated in association with the previous domain.
  • a candidate dialogue frame for providing response information about the spoken voice may be determined on at least one domain of a previous domain.
  • the controller may determine a candidate conversation frame for the current conversation frame based on a previous conversation frame.
  • the controller may further include a candidate for the current conversation frame on the previous domain and the current domain based on the previous conversation frame if the current domain and the previous domain are different and the conversation context on the two domains is not switched.
  • the conversation frame can be determined.
  • the control unit when the current domain and the previous domain are the same and the conversation context on the two domains is switched, at least one of the current conversation frame and the initialization conversation frame initialized with respect to the current conversation frame on the previous domain.
  • Candidate conversation frames associated with one conversation frame may be determined.
  • the controller may further include: a candidate conversation frame for the current conversation frame based on the previous conversation frame, the current on the previous domain, when the current domain and the previous domain are different, and the conversation context on the two domains is switched. At least one of a candidate conversation frame for a conversation frame and a candidate conversation frame for an initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
  • the apparatus may further include a storage unit configured to match and store the conversation example information related to the previous conversation frame matched with each domain and the counting information according to the frequency degree of the spoken voice related to the conversation example information.
  • the controller may determine the priority of the candidate conversation frame based on counting information matched to at least one conversation example information for each previous conversation frame stored in the storage unit, and in order of the candidate conversation frames having the highest priority. Response information about the candidate conversation frame may be provided.
  • the storage unit may further store indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame, and the controller may include at least one previous conversation stored in the storage unit.
  • the response information for the candidate conversation frame may be provided in the order of candidate conversation frames having the largest number of indexing information among candidate conversation frames for providing response information for the spoken voice with reference to the indexing information of the dialogue example information for each frame.
  • the method extracts at least one of a first speech element representing an execution command and a second speech element representing a target from a user's speech voice. Determining a current domain for providing response information for the spoken voice based on the first and second spoken elements; conversation state on a previous domain predetermined from the current spoken voice of the current domain and the user; Determining a candidate dialogue frame for providing response information for the spoken speech on at least one of the current domain and the previous domain based on the response information for the spoken speech based on the candidate dialogue frame; Providing a step.
  • the determining may include determining a current domain for providing response information about the speech voice based on driving and parameters corresponding to the extracted first and second speech elements.
  • the providing may include determining whether the current context is identical to the previous domain and whether to switch a conversation context from a previous conversation frame generated in relation to the current conversation frame and the previous domain.
  • a candidate dialog frame for providing response information for the spoken voice may be determined on at least one of a current domain and the previous domain.
  • the providing may include determining a candidate conversation frame for the current conversation frame based on a previous conversation frame if the current domain and the previous domain are the same and the conversation context on the two domains is not switched.
  • the providing may include: if the current domain and the previous domain are different, and the conversation context on the two domains is not switched, on the current conversation frame on the previous domain and the current domain based on the previous conversation frame.
  • the candidate conversation frame for the message may be determined.
  • the providing may include: an initializing conversation frame initialized with respect to the current conversation frame and the current conversation frame on the previous domain when the current domain and the previous domain are the same and the conversation context on the two domains is switched.
  • the candidate conversation frame associated with at least one conversation frame may be determined.
  • the providing may include: when the current domain and the previous domain are different, and a conversation context on the two domains is switched, a candidate conversation frame for the current conversation frame, on the previous domain, based on the previous conversation frame. At least one of the candidate conversation frame for the current conversation frame and the candidate conversation frame for the initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
  • the method may further include matching and storing the conversation example information related to the previous conversation frame matched with each domain and the counting information according to the frequency degree of the spoken voice related to the conversation example information.
  • the providing may include determining a priority of the candidate conversation frame based on counting information matched with the pre-stored conversation example information for each of the at least one previous conversation frame, and in order of the candidate conversation frames having the highest priority. Response information for the candidate conversation frame may be provided.
  • the storing may further include indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame
  • the providing may include: storing the at least one pre-stored information.
  • the response information for the candidate conversation frame may be provided in the order of candidate conversation frames having the highest number of indexing information among candidate conversation frames for providing response information for the spoken voice with reference to the indexing information of the dialogue example information for each conversation frame. have.
  • the speech recognition apparatus in the interactive system may provide response information suitable for the user's intention in consideration of the number of various cases with respect to the spoken voice of the user.
  • FIG. 1 is an exemplary diagram of an interactive system according to an embodiment of the present invention
  • FIG. 2 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
  • FIG. 3 is a first exemplified diagram for determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to an embodiment of the present invention
  • FIG. 4 is a second exemplary view of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention
  • FIG. 5 is a third exemplary view of determining a candidate conversation frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
  • FIG. 6 is a fourth exemplary diagram of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method of providing response information corresponding to a spoken voice of a user in a speech recognition apparatus according to an exemplary embodiment of the present invention.
  • FIG. 1 is an exemplary diagram of an interactive system according to an embodiment of the present invention.
  • the interactive system includes a speech recognition apparatus 100 and a display apparatus 200.
  • the voice recognition apparatus 100 receives a spoken voice signal (hereinafter referred to as a spoken voice) of the user received from the display apparatus 200 and determines which domain the received spoken voice belongs to. Thereafter, the speech recognition apparatus 100 generates response information about the user's spoken voice based on the determined domain (hereinafter referred to as the current domain) and the conversation pattern on the predetermined previous domain from the user's previous spoken voice. 200).
  • a spoken voice signal hereinafter referred to as a spoken voice
  • the speech recognition apparatus 100 generates response information about the user's spoken voice based on the determined domain (hereinafter referred to as the current domain) and the conversation pattern on the predetermined previous domain from the user's previous spoken voice. 200).
  • the display device 200 may be a smart TV, but this is only an example and may be implemented as various electronic devices such as a mobile phone such as a smartphone, a desktop PC, a notebook, and a navigation device.
  • the display apparatus 200 collects the user's spoken voice and transmits the collected user's spoken voice to the voice recognition apparatus 100. Accordingly, as described above, the voice recognition apparatus 100 determines a current domain belonging to the user's spoken voice received from the display apparatus 200, and determines the current domain on the current domain determined from the determined current domain and the user's previous spoken voice. Based on the conversation pattern, response information about the spoken voice of the user is generated and transmitted to the display apparatus 200. Accordingly, the display apparatus 200 may output the response information received from the speech recognition apparatus 100 to the speaker or display it on the screen.
  • the speech recognition apparatus 100 analyzes the received speech to determine a current domain for the speech. Subsequently, the speech recognition apparatus 100 may provide response information about the user's spoken voice on at least one of the current domain and the previous domain based on the conversation state on the current domain and the previous domain predetermined from the previous spoken voice of the user. to provide.
  • the speech recognition apparatus 100 determines whether the previous domain and the current domain are the same, and if the two domains are the same, analyzes the conversation patterns on the two domains to determine whether the same conversation context is maintained. As a result of the determination, when the same dialogue context is maintained, the voice recognition apparatus 100 may generate response information about the spoken voice of the current user on the previous domain and transmit the response information to the display apparatus 200.
  • the conversation context is switched through analysis of conversation patterns on two domains, the same conversation context is maintained on different domains, or the conversation context is switched on different domains, the current user's speech for the current user on both domains
  • Response information about the user's spoken voice may be provided based on the conversation frame and the previous conversation frame for the user's previous spoken voice.
  • VDO domain For example, while the previous domain called VDO domain is determined from the previous spoken voice of the user, “What is the animation VOD?”, The spoken voice of the user “What is a TV program?” May be received.
  • the speech recognition apparatus 100 extracts a first speech element indicating an execution command of "TV program” from the spoken voice "What is a TV program?”, And based on the extracted first speech element, "search_program ()". You can create a current conversation frame called ".
  • the voice recognition apparatus 100 may determine that the current domain for providing the user's spoken voice is the TV program domain from the spoken voice "What is a TV program?"
  • the speech recognition apparatus 100 compares the previous domain and the current domain, and if the two domains are different from each other, analyzes the conversation patterns on the two domains and determines whether to switch the conversation context.
  • the spoken voice spoken by the user on the previous domain called the VOD domain may be "What is the animation VOD?" Can be.
  • the speech recognition apparatus 100 may provide a plurality of candidate conversations for providing response information about the user's current speech voice on the two domains.
  • the frame can be determined.
  • the candidate conversation frame may be a previous conversation frame generated from the user's previous spoken speech, a current conversation frame generated from the current spoken speech, and an initialization conversation frame initialized with respect to the current conversation frame.
  • the speech recognition apparatus 100 When the plurality of candidate conversation frames are determined, the speech recognition apparatus 100 generates response information about the spoken voice of the user based on the candidate conversation frames determined for each domain and transmits the response information to the display apparatus 200.
  • the voice recognition apparatus 100 applies various numbers even when the current speech of the user is not related to the previous speech or the domains related to the two speeches are different from each other and the intention of the user is unclear.
  • the response information may be provided for the speech of the speaker.
  • the interactive system according to the present invention has been outlined.
  • the speech recognition apparatus 100 that provides response information corresponding to the spoken voice of the user in the interactive system according to the present invention will be described in detail.
  • FIG. 2 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
  • the voice recognition apparatus 100 includes a communication unit 110, a voice recognition unit 120, an extraction unit 130, a domain determination unit 140, a control unit 150, and a storage unit 160. It includes.
  • the communicator 110 performs data communication with the display apparatus 200 by wire or wirelessly to receive a spoken voice of a user recognized through the display apparatus 200, and generates and displays response information corresponding to the received spoken voice. Send to device 200.
  • the response information may include content related information or keyword search result information requested by the user.
  • the communication unit 110 may include various communication modules such as a short range wireless communication module (not shown), a wireless communication module (not shown), and the like.
  • the short range wireless communication module is a module for performing communication with an external device located in a short range according to a short range wireless communication scheme such as Bluetooth, ZigBee.
  • the wireless communication module is a module connected to an external network and performing communication according to a wireless communication protocol such as WIFI, IEEE, and the like.
  • the wireless communication module further includes a mobile communication module for accessing and communicating with the mobile communication network according to various mobile communication standards such as 3rd generation (3G), 3rd generation partnership project (3GPP), long term evolution (LTE), and the like. You may.
  • 3G 3rd generation
  • 3GPP 3rd generation partnership project
  • LTE long term evolution
  • the voice recognition unit 120 recognizes the user's spoken voice received from the display apparatus 200 through the communication unit 110 and converts the spoken voice into text.
  • the speech recognizer 120 may convert the received speech of the user into text using a speech to text (STT) algorithm.
  • STT speech to text
  • the extractor 130 extracts a spoken element from the user's spoken voice converted into text.
  • the extractor 130 may extract a spoken element from the text converted from the spoken voice of the user based on the corpus table previously stored in the storage 160.
  • the utterance element is a keyword for performing an operation requested by the user in the utterance voice of the user.
  • Such a utterance element indicates a first utterance element representing a user action and a main feature, that is, a target. Can be classified as a second ignition element.
  • the extraction unit 130 may include a first speech element indicating an execution command "Show me!” And a second speech element indicating an object "action movie”. Can be extracted.
  • the domain determination unit 140 When at least one of the first and second ignition elements is extracted, the domain determination unit 140 based on the driving and parameters corresponding to the first and second ignition elements extracted from the extraction unit 130. To determine the current domain for providing the response information for the user's speech voice.
  • the domain determiner 140 may generate a dialogue frame (hereinafter referred to as a current dialogue frame) based on driving and parameters corresponding to the first and second utterance elements extracted from the extractor 130.
  • the domain determiner 140 may determine the current domain to which the current conversation frame belongs by referring to a domain table previously stored in the storage 160.
  • the domain table may be a table in which a conversation frame generated based on driving corresponding to the first speech element extracted from the user's previous speech voice and parameters corresponding to the second speech element for each of a plurality of preset domains is matched. Can be. Therefore, when the current conversation frame is generated, the domain determiner 140 obtains at least one domain to which the current conversation frame belongs by referring to the domain table previously stored in the storage 160 and determines the obtained domain as the current domain. Can be.
  • the controller 150 controls the overall operation of each component of the speech recognition apparatus 100.
  • the controller 150 may determine whether the user of the user is located on at least one of the current domain and the previous domain based on the conversation state on the current domain determined by the domain determiner 140 and the previous domain determined from the previous spoken voice of the user.
  • a candidate dialogue frame for providing response information for the spoken voice is determined.
  • the controller 150 determines whether the current domain and the previous domain are the same and whether the conversation context is switched from the previous conversation frame generated in relation to the current conversation frame and the previous domain. Subsequently, the controller 150 provides response information about the user's spoken voice on at least one of the current domain and the previous domain according to the determination result of whether the two domains are identical and the determination result of switching the dialogue context. Can determine a candidate conversation frame.
  • the controller 150 may determine a candidate conversation frame for the current conversation frame based on the previous conversation frame. have.
  • the controller 150 may determine a candidate conversation frame for the current conversation frame on the previous domain and the current domain based on the previous conversation frame. Can be determined.
  • the controller 150 displays at least one of the current conversation frame and the conversation frame initialized with respect to the current conversation frame on the previous domain.
  • Candidate conversation frames associated with the conversation frame may be determined.
  • the controller 150 may be a candidate conversation frame for the current conversation frame based on the previous conversation frame, and the current conversation frame on the previous domain. At least one of a candidate conversation frame for and a candidate conversation frame for an initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
  • the controller 150 when at least one candidate conversation frame is determined according to whether the current domain and the previous domain are the same and whether the conversation context is switched on the two domains, the controller 150 generates response information about the determined candidate conversation frame, The generated response information may be transmitted to the display apparatus 200.
  • FIG. 3 is a first exemplary diagram of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to an embodiment of the present invention.
  • the controller 150 A candidate conversation frame for the current conversation frame may be determined based on the previous conversation frame.
  • the user's previous spoken voice is "What is the animation VOD?"
  • the previous conversation frame generated based on the spoken elements extracted from the previous spoken voice is "search_program”.
  • search_program animation
  • the previous domain determined based on the previous conversation frame may be the VOD domain.
  • the user's current speech voice is "show only the entire audience”
  • the current conversation frame generated based on the speech element extracted from the current speech voice is "search_program (content_rating)”
  • the current domain determined based on the current conversation frame This can be a VDO domain.
  • the controller 150 determines the user's spoken voice on the previous domain, the VOD domain.
  • the candidate dialog frame 320 for providing response information may be determined.
  • FIG. 4 is a second exemplary view for determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
  • the controller 150 may determine the current conversation frame on both domains based on the previous conversation frame. Candidate conversation frames may be determined.
  • the user's previous spoken speech is "What is the animation VOD?"
  • the previous domain determined based on the previous conversation frame may be the VOD domain.
  • the user's current speech voice is "Show ⁇ animation”
  • the controller 150 may determine that the domain of the user is different from the VOD domain which is the previous domain determined in relation to the previous speech voice.
  • the controller 150 may be configured to the user's speech voice on the two domains.
  • First and second candidate domains 420 and 430 for providing response information may be determined.
  • the controller 150 may provide response information about the user's speech based on the determined first and second candidate conversation frames 420 and 430. have.
  • the controller 150 performs execution information on the ⁇ animation generated in relation to the first candidate dialogue frame 420 and a search result for the ⁇ animation generated in relation to the second candidate dialogue frame 430.
  • Response information including the information may be generated and transmitted to the display apparatus 200.
  • FIG. 5 is a third exemplary view of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
  • the controller 150 initializes the current conversation frame and the current conversation frame on the previous domain.
  • the candidate conversation frame associated with at least one conversation frame among the initialized conversation frames may be determined.
  • the user's previous spoken speech is "What is the animation VOD?"
  • the previous conversation frame generated based on the speech element extracted from the previous spoken speech is "search_program”.
  • (genre animation)
  • the previous domain determined based on the previous conversation frame may be the VOD domain.
  • the user's current speech voice is "What is the action VOD?”
  • search_program (genre action)” and based on the current conversation frame.
  • the determined current domain may be a VDO domain.
  • the controller 150 may speak the user's speech on the VOD domain that is the previous domain.
  • First and second candidate conversation frames 520 and 530 for providing response information about the voice may be determined.
  • the controller 150 may provide response information about the user's speech based on the determined first and second candidate conversation frames 520 and 530. have.
  • the controller 150 may provide search result information on the action animation generated in relation to the first candidate dialog frame 520 and search result information on the action related content generated in relation to the second candidate dialog frame 530.
  • the response information may be generated and transmitted to the display apparatus 200.
  • FIG. 6 is a fourth exemplary diagram of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
  • the controller 150 may determine a candidate conversation frame for the current conversation frame based on the previous conversation frame. At least one of the candidate conversation frame for the current conversation frame on the previous domain and the candidate conversation frame for the initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
  • the user's previous spoken speech is "What is the animation VOD?"
  • the previous conversation frame generated based on the spoken elements extracted from the previous spoken speech is "search_program”.
  • search_program animation
  • the previous domain determined based on the previous conversation frame may be the VOD domain.
  • search_program the current domain determined based on the current conversation frame. This can be a TV program domain.
  • the controller 150 may determine the speech of the user on the two domains. First to third candidate conversation frames 620 to 640 for providing response information may be determined.
  • Animation “may be determined as the first candidate conversation frame 620.
  • the controller 150 may determine “search_program ()”, which is the current conversation frame, as the second candidate conversation frame 630.
  • the controller 150 may determine the initialization dialogue frame initialized with respect to the current dialogue frame as the third candidate dialogue frame 640.
  • the initialization conversation frame may be the same as "search_program ()" which is the current conversation frame.
  • the initialization conversation frame is assigned to the first speech element except for the parameter corresponding to the second speech element. It may be a conversation frame generated based on the corresponding driving.
  • the controller 150 may respond to the user's spoken voice based on the determined first to third candidate conversation frames 620 to 640. Can be provided.
  • search is performed based on the animation, and search result information about the found animation is generated.
  • the controller 150 may control the TV program based on the second candidate conversation frame 630 "search_program ()" on the previous domain, the VOD domain. Generate search result information on the TV program related content provided on the.
  • the controller 150 may display the TV based on the "search_program ()" which is the third candidate conversation frame 640 on the TV program domain which is the current domain. Generate search result information on TV program related content provided on the program.
  • the controller 150 searches for search result information on animations generated in relation to the first candidate dialogue frame 620 and TV program related contents generated in relation to the second and third candidate dialogue frames 630 and 640.
  • Response information including the result information may be generated and transmitted to the display apparatus 200.
  • the controller 150 determines the priority of the at least one candidate conversation frame determined based on the above-described embodiments according to a preset condition, and then provides response information about the candidate conversation frame in order of the candidate conversation frames having the highest priority. Can provide.
  • the controller 150 determines the priority of the at least one candidate conversation frame determined based on the counting information matched to the conversation example information for each conversation frame previously stored in the storage 160. do. Subsequently, the controller 150 may provide response information on the candidate conversation frame in order of the candidate conversation frames corresponding to the highest order based on the determined priority.
  • the storage 160 may store a domain table in which the previous conversation frame is matched based on a speech element extracted from the user's previous speech voice for each of a plurality of preset domains.
  • the storage unit 160 may match and store counting information according to a frequency degree of the dialogue example information related to the previous conversation frame matched for each of the plurality of domains and the user's spoken voice related to the dialogue example information.
  • the controller 150 may determine a rank for each candidate conversation frame based on counting information about the matched conversation example information with respect to each candidate conversation frame determined.
  • the highest frequency for the conversation example information associated with 620 may be the highest, and the lowest frequency for the conversation example information related to the second candidate conversation frame 630 for "search_program ()" on the VOD domain.
  • the controller 150 includes search result information generated based on the first to third candidate conversation frames 620 to 640 and ranking information on the first to third candidate conversation frames 620 to 640.
  • the response information is generated and transmitted to the display apparatus 200. Accordingly, the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
  • the controller 150 may refer to indexing information of at least one previous conversation frame-by-frame conversation example information stored in the storage 160, and may provide a candidate conversation for providing response information about the user's spoken voice.
  • the response information for the candidate conversation frame may be provided in the order of the candidate conversation frames having the largest number of indexing information in the frame.
  • the storage 160 may further store indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame.
  • the conversation frame generated based on the first speech element may include only indexing information about the first speech element.
  • the controller 150 refers to the number of indexing information for each utterance element constituting each candidate conversation frame, and the plurality of candidate conversation frames in the order of the candidate conversation frames with the largest number of indexing information. Determine the rank for the frame. Thereafter, the controller 150 generates response information including search result information about each candidate conversation frame and ranking information determined for each candidate conversation frame, and transmits the response information to the display apparatus 200.
  • the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
  • FIG. 7 is a flowchart illustrating a method of providing response information corresponding to a spoken voice of a user in a speech recognition apparatus according to an exemplary embodiment of the present invention.
  • the speech recognition apparatus 100 may display a first command indicating an execution command from the received speech speech. At least one ignition element of the ignition element and the second ignition element representing the target is extracted (S710 and S720).
  • the speech recognition apparatus 100 recognizes the received speech of the user and converts the speech into text.
  • the speech recognition apparatus 100 may convert the received speech of the user into text using a speech to text (STT) algorithm.
  • STT speech to text
  • the speech recognition apparatus 100 extracts at least one of the first spoken element representing the execution command and the second spoken element representing the target from the spoken voice of the user converted into text. do.
  • the speech recognition apparatus 100 may include a first speech element indicating an execution command of "Find me! And an object indicating an object "action movie”. 2 Ignition elements can be extracted.
  • the speech recognition apparatus 100 determines a current domain for providing response information about the speech of the user based on the extracted first and second speech elements (S730).
  • the speech recognition apparatus 100 may determine a current domain for providing response information to the user's speech voice based on driving and parameters corresponding to the extracted first and second speech elements. More specifically, the speech recognition apparatus 100 generates a current conversation frame based on driving and parameters corresponding to the first and second speech elements extracted from the user's speech voice. When such a current conversation frame is generated, the speech recognition apparatus 100 may determine a current domain to which the current conversation frame belongs by referring to a predetermined domain table.
  • the domain table may be a table in which a conversation frame generated based on driving corresponding to the first speech element extracted from the user's previous speech voice and parameters corresponding to the second speech element for each of a plurality of preset domains is matched. Can be.
  • the speech recognition apparatus 100 may obtain at least one domain to which the current conversation frame belongs and refer to the previously stored domain table, and determine the acquired domain as the current domain.
  • the speech recognition apparatus 100 may determine at least one of the current domain and the previous domain based on a conversation state on the current domain and the previous domain predetermined from the previous spoken voice of the user.
  • a candidate dialog frame for providing response information on the user's spoken voice on one domain is determined (S740).
  • the speech recognition apparatus 100 may determine whether the current domain is the same as the previous domain, and the dialogue context from the previous conversation frame generated in relation to the current conversation frame and the previous domain. Judge whether to switch. Thereafter, the voice recognition apparatus 100 determines response information of the user's spoken voice on at least one of the current domain and the previous domain according to a determination result of whether the two domains are the same and a determination result of switching the dialogue context.
  • Candidate conversation frames to provide may be determined.
  • the voice recognition apparatus 100 selects a candidate conversation frame for the current conversation frame based on the previous conversation frame. You can decide.
  • the candidate for the current conversation frame on the previous domain and the current domain based on the previous conversation frame can be determined.
  • the speech recognition apparatus 100 determines that the current domain and the previous domain are the same, and the conversation context on the two domains is switched, at least one of the current conversation frame and the conversation frame initialized with respect to the current conversation frame on the previous domain is determined.
  • Candidate conversation frames associated with one conversation frame may be determined.
  • the candidate speech frame for the current conversation frame based on the previous conversation frame, the current conversation on the previous domain At least one of the candidate conversation frame for the conversation frame and the candidate conversation frame for the initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
  • the speech recognition apparatus 100 when at least one candidate conversation frame is determined according to whether the current domain and the previous domain are the same and whether the conversation context is switched on the two domains, the speech recognition apparatus 100 generates response information about the determined candidate conversation frame. In operation S750, the generated response information may be transmitted to the display apparatus 200.
  • the speech recognition apparatus 100 determines the priority of the at least one candidate conversation frame determined based on the above embodiments according to a preset condition, and then, for the candidate conversation frame in order of the candidate conversation frames having the highest priority. Response information may be provided.
  • the speech recognition apparatus 100 determines the priority of the at least one candidate conversation frame determined based on the counting information matched with the conversation example information for each of the at least one previous conversation frame. Thereafter, the speech recognition apparatus 100 may provide the display apparatus 200 with response information about the candidate dialogue frame in the order of the candidate dialogue frames having the highest priority based on the determined priority.
  • the apparatus 100 for recognizing the speech may include a previous conversation frame matched by a plurality of domains, dialogue example information related to the previous dialogue frame matched by each domain, and a user's spoken voice related to the dialogue example information.
  • the counting information according to the frequency information about may be matched and stored.
  • the speech recognition apparatus 100 may determine a rank for each candidate conversation frame based on counting information about the matching dialogue example information with respect to each candidate conversation frame determined. have.
  • the speech recognition apparatus 100 may include a response including respective search result information generated based on the plurality of candidate conversation frames and ranking information of each candidate conversation frame. The information is generated and transmitted to the display apparatus 200. Accordingly, the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
  • the speech recognition apparatus 100 may refer to indexing information of conversation example information for at least one previous conversation frame, and may provide indexing information among candidate conversation frames to provide response information about the user's spoken voice.
  • the number of candidate conversation frames is determined in order of the number of candidate conversation frames. Thereafter, the speech recognition apparatus 100 generates response information including search result information about the candidate conversation frame and rank information determined for each candidate conversation frame, and transmits the response information to the display apparatus 200.
  • the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)

Abstract

A voice recognition device and a method of controlling same are disclosed. According to the present invention, a voice recognition device includes: an extracting unit extracting, from a user's utterance voice, at least one of a first utterance element representing an execution command and a second utterance element representing a subject; a domain determining unit determining the current domain for providing response information on an utterance voice based on the first and second utterance elements; and a control unit determining a candidate conversation frame for providing response information on the utterance voice in at least one of the current domain and a previous domain based on a conversation state of the current domain and the previous domain pre-determined from the user's previous utterance voice. Thus, the voice recognition device may provide response information suitable for a user's intention in consideration of the number of various cases on the user's utterance voice.

Description

음성 인식 장치 및 그 제어 방법Speech recognition device and control method thereof
본 발명은 음성 인식 장치 및 응답 정보 제공 방법에 관한 것으로서, 보다 상세하게는 사용자의 발화 음성에 대응하는 응답 정보를 제공하기 위한 음성 인식 장치 및 응답 정보 제공 방법에 관한 것이다.The present invention relates to a speech recognition apparatus and a response information providing method, and more particularly, to a speech recognition apparatus and a response information providing method for providing response information corresponding to a spoken voice of a user.
종래의 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치는 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 사용자가 의도한 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.A conventional speech recognition apparatus providing response information to a user's spoken voice analyzes the received spoken voice to determine a domain intended by the user, and based on the determined domain, the user's spoken voice. Provide response information for voice.
그러나, 종래의 음성 인식 장치는 사용자의 현재 발화 음성에 기초하여 도메인을 결정하고, 그 결정된 도메인에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공한다. 즉, 종래의 음성 인식 장치는 사용자의 이전 발화 음성과 현재 발화 음성 간의 대화 문맥을 고려하지 않고, 사용자의 현재 발화 음성에 따라 사용자의 의도를 파악하여 사용자의 발화 음성에 대한 응답 정보를 제공한다.However, the conventional speech recognition apparatus determines a domain based on the user's current spoken voice and provides response information on the user's spoken voice based on the determined domain. That is, the conventional speech recognition apparatus recognizes the user's intention according to the user's current spoken voice and provides response information about the user's spoken voice without considering the dialogue context between the user's previous spoken voice and the current spoken voice.
예를 들어, "액션 영화가 뭐 있지?"라는 이전 발화 음성에는 TV 프로그램에서 제공하는 액션 영화에 대한 사용자 의도를 포함할 수 있다. 이후, "그럼 VOD에는?"이라는 현재 발화 음성이 입력된 경우, 음성 인식 장치는 이전 발화 음성과 관련된 대화 문맥을 고려하지 않고, 현재 입력된 발화 음성에 기초하여 사용자 의도를 파악한다. 그러나, 전술한 예와 같이, "그럼 VOD에는?"이라는 현재 발화 음성의 경우, 실행하고자 하는 실행 대상이 없기 때문에 음성 인식 장치(100)는 "그럼 VOD에는?"이라는 현재 발화 음성으로부터 사용자 의도를 올바르게 파악하지 못하게 된다. 이에 따라, 음성 인식 장치는 사용자의 의도와 다른 응답 정보를 제공하거나 혹은 사용자에게 재발화를 요청한다. 이에 따라, 사용자는 자신이 의도한 응답 정보를 제공받기 위해서 보다 디테일한 발화 음성을 제공해야 하는 불편함을 감수해야 한다.For example, the previous spoken voice "What is an action movie?" May include user intentions for an action movie provided by a TV program. Subsequently, when a current spoken voice is inputted, "What is the VOD?", The speech recognition apparatus determines the user's intention based on the currently input spoken voice without considering the dialogue context associated with the previous spoken voice. However, as in the above-described example, in the case of the current spoken voice of "what is VOD?", Since there is no execution target to be executed, the speech recognition apparatus 100 receives the user's intention from the current spoken voice of "what is the VOD?". You won't get it right. Accordingly, the speech recognition apparatus provides response information that is different from the user's intention or requests the user to speak again. Accordingly, the user must bear the inconvenience of providing more detailed speech in order to receive the intended response information.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 사용자의 발화 음성에 대한 응답 정보를 제공하는 음성 인식 장치에서 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공함을 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made in accordance with the above-described needs, and an object of the present invention is to consider various cases of the user's spoken voice in a speech recognition device that provides response information about the user's spoken voice in an interactive system. The purpose is to provide response information appropriate to the user's intention.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부, 상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부 및 상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부를 포함한다.According to an aspect of the present invention, there is provided a speech recognition apparatus, including an extractor configured to extract at least one of a first speech element representing an execution command and a second speech element representing a target from a speech of a user; A domain determination unit that determines a current domain for providing response information for the spoken voice based on the first and second spoken elements, and a conversation state on the previous domain predetermined from the previous spoken voice of the current domain and the user And a controller configured to determine a candidate conversation frame for providing response information for the spoken voice on at least one of the current domain and the previous domain based on the.
그리고, 상기 도메인 결정부는, 상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다.The domain determiner may determine a current domain for providing response information to the speech voice based on driving and parameters corresponding to the first and second speech elements extracted from the extractor.
또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.The controller may determine whether the current context and the previous domain are the same, and whether the dialogue context is switched from the current dialogue frame and the previous dialogue frame generated in association with the previous domain. A candidate dialogue frame for providing response information about the spoken voice may be determined on at least one domain of a previous domain.
그리고, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.If the current domain and the previous domain are the same and the conversation context on the two domains is not switched, the controller may determine a candidate conversation frame for the current conversation frame based on a previous conversation frame.
또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.The controller may further include a candidate for the current conversation frame on the previous domain and the current domain based on the previous conversation frame if the current domain and the previous domain are different and the conversation context on the two domains is not switched. The conversation frame can be determined.
그리고, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.The control unit, when the current domain and the previous domain are the same and the conversation context on the two domains is switched, at least one of the current conversation frame and the initialization conversation frame initialized with respect to the current conversation frame on the previous domain. Candidate conversation frames associated with one conversation frame may be determined.
또한, 상기 제어부는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.The controller may further include: a candidate conversation frame for the current conversation frame based on the previous conversation frame, the current on the previous domain, when the current domain and the previous domain are different, and the conversation context on the two domains is switched. At least one of a candidate conversation frame for a conversation frame and a candidate conversation frame for an initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
그리고, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 저장부를 더 포함할 수 있다.The apparatus may further include a storage unit configured to match and store the conversation example information related to the previous conversation frame matched with each domain and the counting information according to the frequency degree of the spoken voice related to the conversation example information.
또한, 상기 제어부는, 상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 상기 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.The controller may determine the priority of the candidate conversation frame based on counting information matched to at least one conversation example information for each previous conversation frame stored in the storage unit, and in order of the candidate conversation frames having the highest priority. Response information about the candidate conversation frame may be provided.
그리고, 상기 저장부는, 상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며, 상기 제어부는, 상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.The storage unit may further store indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame, and the controller may include at least one previous conversation stored in the storage unit. The response information for the candidate conversation frame may be provided in the order of candidate conversation frames having the largest number of indexing information among candidate conversation frames for providing response information for the spoken voice with reference to the indexing information of the dialogue example information for each frame.
한편, 본 발명의 일 실시예에 따르면, 음성 인식 장치의 제어 방법에 있어서, 상기 방법은 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 단계, 상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 단계, 상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 단계 및 상기 후보 대화 프레임에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하는 단계를 포함한다.Meanwhile, according to an embodiment of the present invention, in the method of controlling a speech recognition apparatus, the method extracts at least one of a first speech element representing an execution command and a second speech element representing a target from a user's speech voice. Determining a current domain for providing response information for the spoken voice based on the first and second spoken elements; conversation state on a previous domain predetermined from the current spoken voice of the current domain and the user; Determining a candidate dialogue frame for providing response information for the spoken speech on at least one of the current domain and the previous domain based on the response information for the spoken speech based on the candidate dialogue frame; Providing a step.
그리고, 상기 결정하는 단계는, 상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다.The determining may include determining a current domain for providing response information about the speech voice based on driving and parameters corresponding to the extracted first and second speech elements.
또한, 상기 제공하는 단계는, 상기 현재 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.The providing may include determining whether the current context is identical to the previous domain and whether to switch a conversation context from a previous conversation frame generated in relation to the current conversation frame and the previous domain. A candidate dialog frame for providing response information for the spoken voice may be determined on at least one of a current domain and the previous domain.
그리고, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.The providing may include determining a candidate conversation frame for the current conversation frame based on a previous conversation frame if the current domain and the previous domain are the same and the conversation context on the two domains is not switched.
또한, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.In addition, the providing may include: if the current domain and the previous domain are different, and the conversation context on the two domains is not switched, on the current conversation frame on the previous domain and the current domain based on the previous conversation frame. The candidate conversation frame for the message may be determined.
그리고, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.The providing may include: an initializing conversation frame initialized with respect to the current conversation frame and the current conversation frame on the previous domain when the current domain and the previous domain are the same and the conversation context on the two domains is switched. The candidate conversation frame associated with at least one conversation frame may be determined.
또한, 상기 제공하는 단계는, 상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.The providing may include: when the current domain and the previous domain are different, and a conversation context on the two domains is switched, a candidate conversation frame for the current conversation frame, on the previous domain, based on the previous conversation frame. At least one of the candidate conversation frame for the current conversation frame and the candidate conversation frame for the initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
그리고, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 단계를 더 포함할 수 있다.The method may further include matching and storing the conversation example information related to the previous conversation frame matched with each domain and the counting information according to the frequency degree of the spoken voice related to the conversation example information.
또한, 상기 제공하는 단계는, 상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.The providing may include determining a priority of the candidate conversation frame based on counting information matched with the pre-stored conversation example information for each of the at least one previous conversation frame, and in order of the candidate conversation frames having the highest priority. Response information for the candidate conversation frame may be provided.
그리고, 상기 저장하는 단계는, 상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며, 상기 제공하는 단계는, 상기 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.The storing may further include indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame, and the providing may include: storing the at least one pre-stored information. The response information for the candidate conversation frame may be provided in the order of candidate conversation frames having the highest number of indexing information among candidate conversation frames for providing response information for the spoken voice with reference to the indexing information of the dialogue example information for each conversation frame. have.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 음성 인식 장치는 사용자의 발화 음성에 대해서 다양한 경우의 수를 고려하여 사용자 의도에 적합한 응답 정보를 제공할 수 있다.As described above, according to various embodiments of the present disclosure, the speech recognition apparatus in the interactive system may provide response information suitable for the user's intention in consideration of the number of various cases with respect to the spoken voice of the user.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도,1 is an exemplary diagram of an interactive system according to an embodiment of the present invention;
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도,2 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention;
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제1 예시도,3 is a first exemplified diagram for determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to an embodiment of the present invention;
도 4는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제2 예시도,4 is a second exemplary view of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention;
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제3 예시도,FIG. 5 is a third exemplary view of determining a candidate conversation frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention; FIG.
도 6은 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제4 예시도,6 is a fourth exemplary diagram of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention;
도 7은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.7 is a flowchart illustrating a method of providing response information corresponding to a spoken voice of a user in a speech recognition apparatus according to an exemplary embodiment of the present invention.
--
이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, with reference to the accompanying drawings will be described in detail the present invention.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템의 예시도이다.1 is an exemplary diagram of an interactive system according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 대화형 시스템은 음성 인식 장치(100) 및 디스플레이 장치(200)를 포함한다. 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성 신호(이하 발화 음성이라 함)를 수신하고, 수신된 사용자의 발화 음성이 어느 도메인에 속하는지를 결정한다. 이후, 음성 인식 장치(100)는 결정된 도메인(이하 현재 도메인이라 함)과 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 패턴에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.As shown in FIG. 1, the interactive system includes a speech recognition apparatus 100 and a display apparatus 200. The voice recognition apparatus 100 receives a spoken voice signal (hereinafter referred to as a spoken voice) of the user received from the display apparatus 200 and determines which domain the received spoken voice belongs to. Thereafter, the speech recognition apparatus 100 generates response information about the user's spoken voice based on the determined domain (hereinafter referred to as the current domain) and the conversation pattern on the predetermined previous domain from the user's previous spoken voice. 200).
디스플레이 장치(200)는 스마트 TV일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(200)는 사용자의 발화 음성을 수집하고, 수집된 사용자의 발화 음성을 음성 인식 장치(100)로 전송한다. 이에 따라, 음성 인식 장치(100)는 전술한 바와 같이, 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성에 속하는 현재 도메인을 결정하고, 결정된 현재 도메인과 사용자의 이전 발화 음성으로부터 결정된 이번 도메인 상에서의 대화 패턴을 기초로 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 음성 인식 장치(100)로부터 수신한 응답 정보를 스피커로 출력하거나 또는 화면상에 디스플레이할 수 있다.The display device 200 may be a smart TV, but this is only an example and may be implemented as various electronic devices such as a mobile phone such as a smartphone, a desktop PC, a notebook, and a navigation device. The display apparatus 200 collects the user's spoken voice and transmits the collected user's spoken voice to the voice recognition apparatus 100. Accordingly, as described above, the voice recognition apparatus 100 determines a current domain belonging to the user's spoken voice received from the display apparatus 200, and determines the current domain on the current domain determined from the determined current domain and the user's previous spoken voice. Based on the conversation pattern, response information about the spoken voice of the user is generated and transmitted to the display apparatus 200. Accordingly, the display apparatus 200 may output the response information received from the speech recognition apparatus 100 to the speaker or display it on the screen.
구체적으로, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 사용자의 발화 음성이 수신되면, 수신된 발화 음성을 분석하여 발화 음성에 대한 현재 도메인을 결정한다. 이후, 음성 인식 장치(100)는 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인과 현재 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공한다.In detail, when a speech of a user is received from the display apparatus 200, the speech recognition apparatus 100 analyzes the received speech to determine a current domain for the speech. Subsequently, the speech recognition apparatus 100 may provide response information about the user's spoken voice on at least one of the current domain and the previous domain based on the conversation state on the current domain and the previous domain predetermined from the previous spoken voice of the user. to provide.
구체적으로, 음성 인식 장치(100)는 이전 도메인과 현재 도메인의 동일 여부를 판단하고, 두 도메인이 동일하면, 두 도메인 상에서의 대화 패턴을 분석하여 동일한 대화 문맥이 유지되는지 여부를 판단한다. 판단 결과, 동일한 대화 문맥이 유지되면, 음성 인식 장치(100)는 이전 도메인 상에서 현재 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.Specifically, the speech recognition apparatus 100 determines whether the previous domain and the current domain are the same, and if the two domains are the same, analyzes the conversation patterns on the two domains to determine whether the same conversation context is maintained. As a result of the determination, when the same dialogue context is maintained, the voice recognition apparatus 100 may generate response information about the spoken voice of the current user on the previous domain and transmit the response information to the display apparatus 200.
그러나, 두 도메인 상에서의 대화 패턴 분석을 통해 대화 문맥이 전환되거나, 서로 다른 도메인 상에서 동일한 대화 문맥이 유지되거나 혹은 서로 다른 도메인 상에서 대화 문맥이 전환된 경우, 두 도메인 상에서 현재 사용자의 발화 음성에 대한 현재 대화 프레임 및 해당 사용자의 이전 발화 음성에 대한 이전 대화 프레임에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.However, if the conversation context is switched through analysis of conversation patterns on two domains, the same conversation context is maintained on different domains, or the conversation context is switched on different domains, the current user's speech for the current user on both domains Response information about the user's spoken voice may be provided based on the conversation frame and the previous conversation frame for the user's previous spoken voice.
예를 들어, "애니메이션 VOD 뭐 있어?"라는 사용자의 이전 발화 음성으로부터 VDO 도메인이라는 이전 도메인이 결정된 상태에서, "TV 프로그램은?"이라는 사용자의 발화 음성이 수신될 수 있다. 이 경우, 음성 인식 장치(100)는 "TV 프로그램은?"이라는 발화 음성으로부터 "TV 프로그램"이라는 실행 명령을 나타내는 제1 발화 요소를 추출하고, 추출된 제1 발화 요소에 기초하여 "search_program()"라는 현재 대화 프레임을 생성할 수 있다. 또한, 음성 인식 장치(100)는 "TV 프로그램은?"이라는 발화 음성으로부터 사용자의 발화 음성을 제공할 현재 도메인이 TV 프로그램 도메인 것으로 결정될 수 있다.For example, while the previous domain called VDO domain is determined from the previous spoken voice of the user, “What is the animation VOD?”, The spoken voice of the user “What is a TV program?” May be received. In this case, the speech recognition apparatus 100 extracts a first speech element indicating an execution command of "TV program" from the spoken voice "What is a TV program?", And based on the extracted first speech element, "search_program ()". You can create a current conversation frame called ". In addition, the voice recognition apparatus 100 may determine that the current domain for providing the user's spoken voice is the TV program domain from the spoken voice "What is a TV program?"
이 같은 현재 도메인이 결정되면, 음성 인식 장치(100)는 이전 도메인과 현재 도메인을 비교하여 두 도메인이 서로 상이하면, 두 도메인 상에서의 대화 패턴을 분석하여 대화 문맥의 전환 여부를 판단한다. 전술한 예와 같이, VOD 도메인이라는 이전 도메인 상에서 사용자로부터 발화된 발화 음성은 "애니메이션 VOD 뭐 있어?"가 될 수 있으며, TV 프로그램 도메인인 현재 도메인 상에서 사용자로부터 발화된 발화 음성은 "TV 프로그램은?"이 될 수 있다. 이와 같이, 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 음성 인식 장치(100)는 두 도메인 상에서 사용자의 현재 발화 음성에 대한 응답 정보를 제공하기 위한 복수의 후보 대화 프레임을 결정할 수 있다. 여기서, 후보 대화 프레임은 사용자의 이전 발화 음성으로부터 생성된 이전 대화 프레임, 현재 발화 음성으로부터 생성된 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임이 될 수 있다.When the current domain is determined, the speech recognition apparatus 100 compares the previous domain and the current domain, and if the two domains are different from each other, analyzes the conversation patterns on the two domains and determines whether to switch the conversation context. As in the above example, the spoken voice spoken by the user on the previous domain called the VOD domain may be "What is the animation VOD?" Can be. As such, when it is determined that the two domains are different from each other and the conversation context on the two domains is switched, the speech recognition apparatus 100 may provide a plurality of candidate conversations for providing response information about the user's current speech voice on the two domains. The frame can be determined. Here, the candidate conversation frame may be a previous conversation frame generated from the user's previous spoken speech, a current conversation frame generated from the current spoken speech, and an initialization conversation frame initialized with respect to the current conversation frame.
이 같은 복수의 후보 대화 프레임이 결정되면, 음성 인식 장치(100)는 각 도메인별 결정된 후보 대화 프레임에 기초하여 사용자의 발화 음성에 대한 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. When the plurality of candidate conversation frames are determined, the speech recognition apparatus 100 generates response information about the spoken voice of the user based on the candidate conversation frames determined for each domain and transmits the response information to the display apparatus 200.
이와 같이, 본 발명에 따른 음성 인식 장치(100)는 사용자의 현재 발화가 이전 발화와 연관되지 않거나 혹은 두 발화와 관련된 도메인이 서로 상이하여 사용자의 의도가 불명확하여도 다양한 경우의 수를 적용하여 사용자의 발화에 대한 응답 정보를 제공할 수 있다.As described above, the voice recognition apparatus 100 according to the present invention applies various numbers even when the current speech of the user is not related to the previous speech or the domains related to the two speeches are different from each other and the intention of the user is unclear. The response information may be provided for the speech of the speaker.
지금까지, 본 발명에 따른 대화형 시스템에 대해서 개략적으로 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)에 대해서 상세히 설명하도록 한다. So far, the interactive system according to the present invention has been outlined. Hereinafter, the speech recognition apparatus 100 that provides response information corresponding to the spoken voice of the user in the interactive system according to the present invention will be described in detail.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도이다.2 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention.
도 2에 도시된 바와 같이, 음성 인식 장치(100)는 통신부(110), 음성 인식부(120), 추출부(130), 도메인 결정부(140), 제어부(150) 및 저장부(160)를 포함한다.As shown in FIG. 2, the voice recognition apparatus 100 includes a communication unit 110, a voice recognition unit 120, an extraction unit 130, a domain determination unit 140, a control unit 150, and a storage unit 160. It includes.
통신부(110)는 디스플레이 장치(200)와 유선 또는 무선으로 데이터 통신을 수행하여 디스플레이 장치(200)를 통해 인식된 사용자의 발화 음성을 수신하고, 수신된 발화 음성에 대응되는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 여기서, 응답 정보는 사용자가 요청한 컨텐츠 관련 정보 또는 키워드 검색 결과 정보 등을 포함할 수 있다.The communicator 110 performs data communication with the display apparatus 200 by wire or wirelessly to receive a spoken voice of a user recognized through the display apparatus 200, and generates and displays response information corresponding to the received spoken voice. Send to device 200. Here, the response information may include content related information or keyword search result information requested by the user.
이 같은 통신부(110)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WIFI, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.The communication unit 110 may include various communication modules such as a short range wireless communication module (not shown), a wireless communication module (not shown), and the like. Here, the short range wireless communication module is a module for performing communication with an external device located in a short range according to a short range wireless communication scheme such as Bluetooth, ZigBee. In addition, the wireless communication module is a module connected to an external network and performing communication according to a wireless communication protocol such as WIFI, IEEE, and the like. In addition, the wireless communication module further includes a mobile communication module for accessing and communicating with the mobile communication network according to various mobile communication standards such as 3rd generation (3G), 3rd generation partnership project (3GPP), long term evolution (LTE), and the like. You may.
음성 인식부(120)는 통신부(110)를 통해 디스플레이 장치(200)로부터 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식부(120)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 음성 인식부(120)를 통해 사용자의 발화 음성이 텍스트로 변환되면, 추출부(130)는 텍스트로 변환된 사용자의 발화 음성으로부터 발화 요소를 추출한다. 구체적으로, 추출부(130)는 저장부(160)에 기저장된 말뭉치 테이블에 기초하여 사용자의 발화 음성으로부터 변환된 텍스트로부터 발화 요소를 추출할 수 있다. 여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 키워드로써, 이 같은 발화 요소는 실행 명령(user action)을 나타내는 제1 발화 요소와 주요 특징(feature) 즉, 대상을 나타내는 제2 발화 요소로 분류될 수 있다. 예를 들어, "액션 영화 보여줘!"라는 사용자의 발화 음성의 경우, 추출부(130)는 "보여줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.The voice recognition unit 120 recognizes the user's spoken voice received from the display apparatus 200 through the communication unit 110 and converts the spoken voice into text. According to an embodiment, the speech recognizer 120 may convert the received speech of the user into text using a speech to text (STT) algorithm. When the user's spoken voice is converted into text through the voice recognition unit 120, the extractor 130 extracts a spoken element from the user's spoken voice converted into text. In detail, the extractor 130 may extract a spoken element from the text converted from the spoken voice of the user based on the corpus table previously stored in the storage 160. Here, the utterance element is a keyword for performing an operation requested by the user in the utterance voice of the user. Such a utterance element indicates a first utterance element representing a user action and a main feature, that is, a target. Can be classified as a second ignition element. For example, in the case of the utterance voice of the user "Show action movie!", The extraction unit 130 may include a first speech element indicating an execution command "Show me!" And a second speech element indicating an object "action movie". Can be extracted.
이 같은 제1 및 제2 발화 요소 중 적어도 하나의 발화 요소가 추출되면, 도메인 결정부(140)는 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정한다. 구체적으로, 도메인 결정부(140)는 추출부(130)로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 대화 프레임(이하 현재 대화 프레임이라 함)을 생성할 수 있으며, 이 같은 현재 대화 프레임이 생성되면, 도메인 결정부(140)는 저장부(160)에 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 현재 도메인을 결정할 수 있다.When at least one of the first and second ignition elements is extracted, the domain determination unit 140 based on the driving and parameters corresponding to the first and second ignition elements extracted from the extraction unit 130. To determine the current domain for providing the response information for the user's speech voice. In detail, the domain determiner 140 may generate a dialogue frame (hereinafter referred to as a current dialogue frame) based on driving and parameters corresponding to the first and second utterance elements extracted from the extractor 130. When the current conversation frame is generated, the domain determiner 140 may determine the current domain to which the current conversation frame belongs by referring to a domain table previously stored in the storage 160.
여기서, 도메인 테이블은 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수에 기초하여 생성된 대화 프레임이 매칭된 테이블이 될 수 있다. 따라서, 도메인 결정부(140)는 현재 대화 프레임이 생성되면, 저장부(160)에 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 적어도 하나의 도메인을 획득하고, 획득한 도메인을 현재 도메인으로 결정할 수 있다.Here, the domain table may be a table in which a conversation frame generated based on driving corresponding to the first speech element extracted from the user's previous speech voice and parameters corresponding to the second speech element for each of a plurality of preset domains is matched. Can be. Therefore, when the current conversation frame is generated, the domain determiner 140 obtains at least one domain to which the current conversation frame belongs by referring to the domain table previously stored in the storage 160 and determines the obtained domain as the current domain. Can be.
한편, 제어부(150)는 음성 인식 장치(100)의 각 구성에 대한 동작을 전반적으로 제어한다. 특히, 제어부(150)는 도메인 결정부(140)를 통해 결정된 현재 도메인과 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정한다.On the other hand, the controller 150 controls the overall operation of each component of the speech recognition apparatus 100. In particular, the controller 150 may determine whether the user of the user is located on at least one of the current domain and the previous domain based on the conversation state on the current domain determined by the domain determiner 140 and the previous domain determined from the previous spoken voice of the user. A candidate dialogue frame for providing response information for the spoken voice is determined.
구체적으로, 제어부(150)는 현재 도메인과 이전 도메인의 동일 여부와, 현재 대화 프레임 및 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단한다. 이후, 제어부(150)는 두 도메인의 동일 여부에 대한 판단 결과와 대화 문맥의 전환 여부에 대한 판단 결과에 따라 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.In detail, the controller 150 determines whether the current domain and the previous domain are the same and whether the conversation context is switched from the previous conversation frame generated in relation to the current conversation frame and the previous domain. Subsequently, the controller 150 provides response information about the user's spoken voice on at least one of the current domain and the previous domain according to the determination result of whether the two domains are identical and the determination result of switching the dialogue context. Can determine a candidate conversation frame.
실시예에 따라, 제어부(150)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.According to an embodiment, if it is determined that the current domain and the previous domain are the same and the conversation context on both domains is not switched, the controller 150 may determine a candidate conversation frame for the current conversation frame based on the previous conversation frame. have.
한편, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 이전 도메인 및 현재 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.On the other hand, if it is determined that the current domain and the previous domain are different, and the conversation context on the two domains is not switched, the controller 150 may determine a candidate conversation frame for the current conversation frame on the previous domain and the current domain based on the previous conversation frame. Can be determined.
한편, 제어부(150)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.On the other hand, if it is determined that the current domain and the previous domain are the same, and the conversation context on the two domains is switched, the controller 150 displays at least one of the current conversation frame and the conversation frame initialized with respect to the current conversation frame on the previous domain. Candidate conversation frames associated with the conversation frame may be determined.
한편, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임, 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.On the other hand, if it is determined that the current domain and the previous domain are different, and the conversation context on the two domains is switched, the controller 150 may be a candidate conversation frame for the current conversation frame based on the previous conversation frame, and the current conversation frame on the previous domain. At least one of a candidate conversation frame for and a candidate conversation frame for an initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
이와 같이, 현재 도메인과 이전 도메인의 동일 여부 및 두 도메인 상에서의 대화 문맥의 전환 여부에 따라 적어도 하나의 후보 대화 프레임이 결정되면, 제어부(150)는 결정된 후보 대화 프레임에 대한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다.As such, when at least one candidate conversation frame is determined according to whether the current domain and the previous domain are the same and whether the conversation context is switched on the two domains, the controller 150 generates response information about the determined candidate conversation frame, The generated response information may be transmitted to the display apparatus 200.
이하에서는, 도 3 내지 도 6을 통해 사용자의 발화 음성과 이전 발화 음성에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 동작에 대해서 구체적으로 설명하도록 한다.Hereinafter, an operation of determining a candidate conversation frame for providing response information about the user's spoken voice based on the user's spoken voice and the previous spoken voice will be described in detail with reference to FIGS. 3 to 6.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제1 예시도이다.FIG. 3 is a first exemplary diagram of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to an embodiment of the present invention.
도 3에 도시된 바와 같이, 제어부(150)는 사용자의 이전 발화 음성 및 현재 발화 음성과 관련하여 결정된 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.As shown in FIG. 3, if it is determined that the domain determined in relation to the previous spoken voice and the current spoken voice of the user is the same, and the conversation context on the two domains is not switched, the controller 150 A candidate conversation frame for the current conversation frame may be determined based on the previous conversation frame.
예를 들어, 대화 문맥 영역(310)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "전체 관람가만 보여줘"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(content_rating)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 VDO 도메인이 될 수 있다.For example, as shown in the dialogue context area 310, the user's previous spoken voice is "What is the animation VOD?", And the previous conversation frame generated based on the spoken elements extracted from the previous spoken voice is "search_program". (genre = animation) ", and the previous domain determined based on the previous conversation frame may be the VOD domain. In addition, the user's current speech voice is "show only the entire audience", the current conversation frame generated based on the speech element extracted from the current speech voice is "search_program (content_rating)", and the current domain determined based on the current conversation frame. This can be a VDO domain.
이 경우, 제어부(150)는 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 모두 VDO 도메인인 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(content_rating)"으로부터 사용자의 대화 패턴을 분석하여 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단할 수 있다. 즉, 제어부(150)는 사용자의 현재 발화 음성이 이전 발화 음성과 관련하여 이어지는 VOD 대화 문맥인 것으로 판단할 수 있다.In this case, the controller 150 may determine that all domains determined in relation to the previous speech voice and the current speech voice of the user are VDO domains. In addition, the controller 150 analyzes the user's conversation pattern from the previous conversation frame "search_program (genre = animation)" and the current conversation frame "search_program (content_rating)" to determine that the conversation context on the two domains is not switched. can do. That is, the controller 150 may determine that the user's current spoken voice is a VOD conversation context following the previous spoken voice.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임(320)을 결정할 수 있다.As such, when it is determined that the domain determined in relation to the user's previous spoken voice and the current spoken voice is the same, and the conversation context on the two domains is not switched, the controller 150 determines the user's spoken voice on the previous domain, the VOD domain. The candidate dialog frame 320 for providing response information may be determined.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(content_rating)"을 후보 대화 프레임(320)으로 결정할 수 있다.In detail, the controller 150 may determine the current conversation frame “search_program (content_rating)” as the candidate conversation frame 320 based on the previous conversation frame “search_program (genre = animation)”.
이와 같이, 후보 대화 프레임(320)이 결정되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 후보 대화 프레임(320)으로 결정된 "search_program(content_rating)"에 기초하여 기검색된 애니메이션 중 전체 관람이 가능한 애니메이션에 대한 검색을 수행하고, 검색된 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.As such, when the candidate conversation frame 320 is determined, the controller 150 determines the previous conversation frame "search_program (genre = animation)" and the "search_program (content_rating) determined as the candidate conversation frame 320 on the previous domain VOD domain. Based on the search result, a search may be performed for the animations that can be viewed in all, and response information including the search result information may be generated and transmitted to the display apparatus 100.
도 4는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제2 예시도이다.FIG. 4 is a second exemplary view for determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
도 4에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 두 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.As shown in FIG. 4, if it is determined that the current domain and the previous domain are different and the conversation context on the two domains is not switched, the controller 150 may determine the current conversation frame on both domains based on the previous conversation frame. Candidate conversation frames may be determined.
예를 들어, 대화 문맥 영역(410)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "○○○ 애니메이션 보여줘"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(title=○○○ 애니메이션)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 TV 프로그램 도메인 및 VDO 도메인이 될 수 있다.For example, as shown in the dialogue context area 410, the user's previous spoken speech is "What is the animation VOD?" And the previous conversation frame generated based on the spoken elements extracted from the previous spoken speech is "search_program". (genre = animation) ", and the previous domain determined based on the previous conversation frame may be the VOD domain. Then, the user's current speech voice is "Show ○○○ animation", the current conversation frame generated based on the speech element extracted from the current speech voice is "search_program (title = ○○○ animation)", and the current conversation frame The current domain determined based on may be a TV program domain and a VDO domain.
따라서, 제어부(150)는 사용자의 현재 발화 음성과 관련하여 결정된 도메인이 TV 프로그램 도메인 경우, 이전 발화 음성과 관련하여 결정된 이전 도메인인 VOD 도메인과 서로 상이한 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"으로부터 사용자의 대화 패턴을 분석하여 서로 다른 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단할 수 있다. Therefore, when the domain determined in relation to the user's current speech voice is a TV program domain, the controller 150 may determine that the domain of the user is different from the VOD domain which is the previous domain determined in relation to the previous speech voice. In addition, the controller 150 analyzes the user's conversation pattern from the previous conversation frame "search_program (genre = animation)" and the current conversation frame "search_program (title = ○○○ animation)" to talk on two different domains. It can be determined that the context has not been switched.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 제어부(150)는 두 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 및 제2 후보 도메인(420,430)을 결정할 수 있다.As such, when it is determined that the two domains determined in relation to the previous speech voice and the current speech voice of the user are different from each other, and the conversation context on the two domains is not switched, the controller 150 may be configured to the user's speech voice on the two domains. First and second candidate domains 420 and 430 for providing response information may be determined.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"을 "play_program(title=○○○ 애니메이션)"로 변경하고, 변경된 "play_program(title=○○○ 애니메이션)"을 제1 후보 대화 프레임(420)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program(title=○○○ 애니메이션)"을 제2 후보 대화 프레임(430)으로 결정할 수 있다.Specifically, the control unit 150 selects the "play_program (title = ○○○ animation)" which is the current conversation frame "play_program (title = ○○○ animation)" based on the previous conversation frame "search_program (genre = animation)". In this case, the changed "play_program (title = ○○○ animation)" may be determined as the first candidate conversation frame 420. In addition, the controller 150 may determine “search_program (title = ○○○ animation)” which is the current conversation frame, as the second candidate conversation frame 430.
이와 같이, 제1 및 제2 후보 대화 프레임(420,430)이 결정되면, 제어부(150)는 결정된 제1 및 제2 후보 대화 프레임(420,430)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.As such, when the first and second candidate conversation frames 420 and 430 are determined, the controller 150 may provide response information about the user's speech based on the determined first and second candidate conversation frames 420 and 430. have.
구체적으로, 제1 후보 대화 프레임(420)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 제1 후보 대화 프레임(420)인 "play_program(title=○○○ 애니메이션)"에 기초하여 기검색된 애니메이션 중 ○○○ 애니메이션에 대한 검색을 수행하고, 검색된 ○○○ 애니메이션에 대한 실행 정보를 생성한다.In detail, in order to provide response information with respect to the first candidate conversation frame 420, the controller 150 controls the previous conversation frame “search_program (genre = animation)” and the first candidate conversation frame on the VOD domain. Based on "play_program (title = ○○○ animation)" 420, a search is performed for the ○○○ animation among the previously searched animations, and execution information is generated for the retrieved ○○○ animation.
또한, 제2 후보 대화 프레임(420)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제2 후보 대화 프레임인 "search_program(title=○○○ 애니메이션)"에 기초하여 ○○○ 애니메이션에 대한 검색을 수행하고, 검색된 ○○○ 애니메이션에 대한 검색 결과 정보를 생성한다. In addition, in order to provide response information with respect to the second candidate dialog frame 420, the controller 150 may add a second candidate dialog frame “search_program (title = ○○○ animation)” on the TV program domain that is the current domain. Based on the search for the ○○○ animation, the search result information for the retrieved ○○○ animation is generated.
이후, 제어부(150)는 제1 후보 대화 프레임(420)과 관련하여 생성된 ○○○ 애니메이션에 대한 실행 정보 및 제2 후보 대화 프레임(430)과 관련하여 생성된 ○○○ 애니메이션에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.Subsequently, the controller 150 performs execution information on the ○○○ animation generated in relation to the first candidate dialogue frame 420 and a search result for the ○○○ animation generated in relation to the second candidate dialogue frame 430. Response information including the information may be generated and transmitted to the display apparatus 200.
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제3 예시도이다.FIG. 5 is a third exemplary view of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
도 5에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 서로 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.As shown in FIG. 5, if it is determined that the current domain and the previous domain are identical to each other, and the conversation context on the two domains is switched, the controller 150 initializes the current conversation frame and the current conversation frame on the previous domain. The candidate conversation frame associated with at least one conversation frame among the initialized conversation frames may be determined.
예를 들어, 대화 문맥 영역(510)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "액션 VOD 뭐 있어?"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program(genre=액션)"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 VDO 도메인이 될 수 있다.For example, as shown in the dialogue context area 510, the user's previous spoken speech is "What is the animation VOD?", And the previous conversation frame generated based on the speech element extracted from the previous spoken speech is "search_program". (genre = animation) ", and the previous domain determined based on the previous conversation frame may be the VOD domain. Then, the user's current speech voice is "What is the action VOD?", And the current conversation frame generated based on the speech element extracted from the current speech voice is "search_program (genre = action)" and based on the current conversation frame. The determined current domain may be a VDO domain.
이 경우, 제어부(150)는 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 모두 VOD 도메인 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program(genre=액션)"으로부터 사용자의 대화 패턴을 분석하여 서로 동일한 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단할 수 있다.In this case, the controller 150 may determine that all domains determined in relation to the previous speech voice and the current speech voice are VOD domains. In addition, the controller 150 analyzes the user's conversation pattern from the previous conversation frame "search_program (genre = animation)" and the current conversation frame "search_program (genre = action)" to switch the conversation context on the same two domains. It can be judged.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 및 제2 후보 대화 프레임(520,530)을 결정할 수 있다. As such, when it is determined that the two domains determined in relation to the previous speech voice and the current speech voice of the user are identical to each other and the conversation context on the two domains is switched, the controller 150 may speak the user's speech on the VOD domain that is the previous domain. First and second candidate conversation frames 520 and 530 for providing response information about the voice may be determined.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program(genre=액션)"을 "search_program(genre= 액션 애니메이션)"로 변경하고, 변경된 "search_program(genre= 액션 애니메이션)"은 제1 후보 대화 프레임(520)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program(genre=액션)"을 제2 후보 대화 프레임(530)으로 결정할 수 있다.Specifically, the controller 150 changes the current conversation frame "search_program (genre = action)" to "search_program (genre = action animation)" based on the previous conversation frame "search_program (genre = animation)" and changes "search_program (genre = action animation)" may be determined as the first candidate dialog frame 520. Also, the controller 150 may determine “search_program (genre = action)” which is a current conversation frame, as the second candidate conversation frame 530.
이와 같이, 제1 및 제2 후보 대화 프레임(520,530)이 결정되면, 제어부(150)는 결정된 제1 및 제2 후보 대화 프레임(520,530)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.As such, when the first and second candidate conversation frames 520 and 530 are determined, the controller 150 may provide response information about the user's speech based on the determined first and second candidate conversation frames 520 and 530. have.
구체적으로, 제1 후보 대화 프레임(520)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 이전 대화 프레임인 "search_program(genre=애니메이션)" 및 제1 후보 대화 프레임(520)인 "search_program(genre= 액션 애니메이션)"에 기초하여 기검색된 애니메이션 중 액션 애니메이션에 대한 검색을 수행하고, 검색된 액션 애니메이션에 대한 검색 결과 정보를 생성한다.In detail, in order to provide response information with respect to the first candidate conversation frame 520, the controller 150 controls the previous conversation frame “search_program (genre = animation)” and the first candidate conversation frame on the VOD domain that is the previous domain. Based on "search_program (genre = action animation)" (520), a search for the action animation among the previously searched animations is performed, and search result information about the found action animation is generated.
또한, 제2 후보 대화 프레임(530)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 제2 후보 대화 프레임(530)인 search_program(genre= 액션)에 기초하여 VOD 상에서 제공하는 컨텐츠 중 액션 관련 컨텐츠에 대한 검색 결과 정보를 생성한다. In addition, in order to provide response information with respect to the second candidate conversation frame 530, the controller 150 controls the VOD based on the search_program (genre = action) that is the second candidate conversation frame 530 on the VOD domain that is the previous domain. Generates search result information about action related content among contents provided on the web.
이후, 제어부(150)는 제1 후보 대화 프레임(520)과 관련하여 생성된 액션 애니메이션에 대한 검색 결과 정보 및 제2 후보 대화 프레임(530)과 관련하여 생성된 액션 관련 컨텐츠에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.Subsequently, the controller 150 may provide search result information on the action animation generated in relation to the first candidate dialog frame 520 and search result information on the action related content generated in relation to the second candidate dialog frame 530. The response information may be generated and transmitted to the display apparatus 200.
도 6은 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제4 예시도이다.FIG. 6 is a fourth exemplary diagram of determining a candidate dialogue frame for providing response information about a spoken voice of a user in a speech recognition apparatus according to another embodiment of the present invention.
도 6에 도시된 바와 같이, 제어부(150)는 현재 도메인과 이전 도메인이 서로 상일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임 및 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.As illustrated in FIG. 6, if it is determined that the current domain and the previous domain are identical to each other, and the conversation context on the two domains is switched, the controller 150 may determine a candidate conversation frame for the current conversation frame based on the previous conversation frame. At least one of the candidate conversation frame for the current conversation frame on the previous domain and the candidate conversation frame for the initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
예를 들어, 대화 문맥 영역(610)에 도시된 바와 같이, 사용자의 이전 발화 음성이 "애니메이션 VOD 뭐 있어?"이고, 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 이전 대화 프레임이 "search_program(genre=애니메이션)"이며, 이전 대화 프레임에 기초하여 결정된 이전 도메인이 VOD 도메인이 될 수 있다. 그리고, 사용자의 현재 발화 음성이 "그럼 TV 프로그램은?"이고, 현재 발화 음성으로부터 추출된 발화 요소에 기초하여 생성된 현재 대화 프레임이 "search_program()"이며, 현재 대화 프레임에 기초하여 결정된 현재 도메인이 TV 프로그램 도메인이 될 수 있다.For example, as shown in the dialogue context area 610, the user's previous spoken speech is "What is the animation VOD?" And the previous conversation frame generated based on the spoken elements extracted from the previous spoken speech is "search_program". (genre = animation) ", and the previous domain determined based on the previous conversation frame may be the VOD domain. Then, the user's current spoken voice is "then what TV program?", The current conversation frame generated based on the speech element extracted from the current speech voice is "search_program ()", and the current domain determined based on the current conversation frame. This can be a TV program domain.
이 경우, 제어부(150)는 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 도메인이 상이한 것으로 판단할 수 있다. 또한, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"과 현재 대화 프레임인 "search_program()"으로부터 사용자의 대화 패턴을 분석하여 서로 상이한 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단할 수 있다.In this case, the controller 150 may determine that the domain determined in relation to the previous speech voice and the current speech voice is different. In addition, the controller 150 analyzes the user's conversation pattern from the previous conversation frame "search_program (genre = animation)" and the current conversation frame "search_program ()" and determines that the conversation context on the two different domains is switched. can do.
이와 같이, 사용자의 이전 발화 음성과 현재 발화 음성과 관련하여 결정된 두 도메인이 서로 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 제어부(150)는 두 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 제1 내지 제3 후보 대화 프레임(620~640)을 결정할 수 있다.As such, when it is determined that the two domains determined in relation to the previous speech voice of the user and the current speech voice are different from each other, and the dialogue context on the two domains is switched, the controller 150 may determine the speech of the user on the two domains. First to third candidate conversation frames 620 to 640 for providing response information may be determined.
구체적으로, 제어부(150)는 이전 대화 프레임인 "search_program(genre=애니메이션)"에 기초하여 현재 대화 프레임인 "search_program()"을 "search_program(genre=애니메이션)"로 변경하고, 변경된 "search_program(genre=애니메이션)"을 제1 후보 대화 프레임(620)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임인 "search_program()"을 제2 후보 대화 프레임(630)으로 결정할 수 있다. 또한, 제어부(150)는 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임을 제3 후보 대화 프레임(640)으로 결정할 수 있다. 여기서, 현재 대화 프레임이 "search_program()"이기 때문에 초기화 대화 프레임은 현재 대화 프레임인 "search_program()"와 동일할 수 있다. 만약, 현재 대화 프레임이 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 생성된 대화 프레임인 경우, 초기화 대화 프레임은 제2 발화 요소에 대응하는 매개변수를 제외한 제1 발화 요소에 대응하는 주행에 기초하여 생성된 대화 프레임이 될 수 있다.Specifically, the controller 150 changes the current search frame "search_program ()" to "search_program (genre = animation)" based on the previous conversation frame "search_program (genre = animation)" and changes the changed "search_program (genre = animation)". = Animation) "may be determined as the first candidate conversation frame 620. In addition, the controller 150 may determine “search_program ()”, which is the current conversation frame, as the second candidate conversation frame 630. In addition, the controller 150 may determine the initialization dialogue frame initialized with respect to the current dialogue frame as the third candidate dialogue frame 640. Here, since the current conversation frame is "search_program ()", the initialization conversation frame may be the same as "search_program ()" which is the current conversation frame. If the current conversation frame is a conversation frame generated based on driving and parameters corresponding to the first and second speech elements, the initialization conversation frame is assigned to the first speech element except for the parameter corresponding to the second speech element. It may be a conversation frame generated based on the corresponding driving.
이와 같이, 제1 내지 제3 후보 대화 프레임(620~640)이 결정되면, 제어부(150)는 결정된 제1 내지 제3 후보 대화 프레임(620~640)에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공할 수 있다.As such, when the first to third candidate conversation frames 620 to 640 are determined, the controller 150 may respond to the user's spoken voice based on the determined first to third candidate conversation frames 620 to 640. Can be provided.
구체적으로, 제1 후보 대화 프레임(620)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제1 후보 대화 프레임(620)인 "search_program(genre=애니메이션)"에 기초하여 애니메이션에 대한 검색을 수행하고, 검색된 애니메이션에 대한 검색 결과 정보를 생성한다.In detail, in order to provide response information with respect to the first candidate dialog frame 620, the controller 150 controls the first candidate dialog frame 620 "search_program (genre = animation)" on the TV program domain which is the current domain. The search is performed based on the animation, and search result information about the found animation is generated.
또한, 제2 후보 대화 프레임(630)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 이전 도메인인 VOD 도메인 상에서 제2 후보 대화 프레임(630)인 "search_program()"에 기초하여 TV 프로그램 상에서 제공하는 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 생성한다. In addition, in order to provide response information with respect to the second candidate conversation frame 630, the controller 150 may control the TV program based on the second candidate conversation frame 630 "search_program ()" on the previous domain, the VOD domain. Generate search result information on the TV program related content provided on the.
또한, 제3 후보 대화 프레임(640)과 관련하여 응답 정보를 제공하기 위해서, 제어부(150)는 현재 도메인인 TV 프로그램 도메인 상에서 제3 후보 대화 프레임(640)인 "search_program()"에 기초하여 TV 프로그램 상에서 제공하는 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 생성한다.In addition, in order to provide response information with respect to the third candidate conversation frame 640, the controller 150 may display the TV based on the "search_program ()" which is the third candidate conversation frame 640 on the TV program domain which is the current domain. Generate search result information on TV program related content provided on the program.
이후, 제어부(150)는 제1 후보 대화 프레임(620)과 관련하여 생성된 애니메이션에 대한 검색 결과 정보와 제2 및 제3 후보 대화 프레임(630,640)과 관련하여 생성된 TV 프로그램 관련 컨텐츠에 대한 검색 결과 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송할 수 있다.Subsequently, the controller 150 searches for search result information on animations generated in relation to the first candidate dialogue frame 620 and TV program related contents generated in relation to the second and third candidate dialogue frames 630 and 640. Response information including the result information may be generated and transmitted to the display apparatus 200.
한편, 제어부(150)는 위 실시예에 기초하여 결정된 적어도 하나의 후보 대화 프레임에 대해서 기설정된 조건에 따라 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.On the other hand, the controller 150 determines the priority of the at least one candidate conversation frame determined based on the above-described embodiments according to a preset condition, and then provides response information about the candidate conversation frame in order of the candidate conversation frames having the highest priority. Can provide.
일 실시예에 따라, 제어부(150)는 저장부(160)에 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 기결정된 적어도 하나의 후보 대화 프레임의 우선 순위를 결정한다. 이후, 제어부(150)는 결정된 우선 순위에 기초하여 가장 높은 순위에 해당하는 후보 대화 프레임 순으로 해당 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.According to an embodiment of the present disclosure, the controller 150 determines the priority of the at least one candidate conversation frame determined based on the counting information matched to the conversation example information for each conversation frame previously stored in the storage 160. do. Subsequently, the controller 150 may provide response information on the candidate conversation frame in order of the candidate conversation frames corresponding to the highest order based on the determined priority.
구체적으로, 저장부(160)는 전술한 바와 같이, 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 발화 요소에 기초하여 이전 대화 프레임이 매칭된 도메인 테이블을 저장할 수 있다. 또한, 저장부(160)는 복수의 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장할 수 있다.In detail, as described above, the storage 160 may store a domain table in which the previous conversation frame is matched based on a speech element extracted from the user's previous speech voice for each of a plurality of preset domains. In addition, the storage unit 160 may match and store counting information according to a frequency degree of the dialogue example information related to the previous conversation frame matched for each of the plurality of domains and the user's spoken voice related to the dialogue example information.
예를 들어, VOD 도메인 및 TV 프로그램 도메인에는 "search_program(genre=애니메이션)"에 대한 이전 대화 프레임이 매칭될 수 있다. 그리고, 각 도메인에 매칭된 "search_program(genre=애니메이션)"에 대한 이전 대화 프레임은 "애니메이션 뭐 있어?", "애니메이션 찾아줘" 등의 사용자의 이전 발화 음성과 관련된 대화 예제 정보 및 해당 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정도에 따른 카운팅 정보가 매칭될 수 있다.For example, the previous dialog frame for "search_program (genre = animation)" may be matched to the VOD domain and the TV program domain. And, the previous dialogue frame for "search_program (genre = animation)" matched to each domain includes dialogue example information and corresponding dialogue example information related to the user's previous speech voice such as "What is animation?", "Find animation", etc. Counting information according to the frequency degree of the user's spoken voice associated with may be matched.
따라서, 제어부(150)는 복수의 후보 대화 프레임이 결정되면, 결정된 각각의 후보 대화 프레임과 관련하여 매칭된 대화 예제 정보에 대한 카운팅 정보에 기초하여 각각의 후보 대화 프레임에 대한 순위를 결정할 수 있다.Accordingly, when a plurality of candidate conversation frames are determined, the controller 150 may determine a rank for each candidate conversation frame based on counting information about the matched conversation example information with respect to each candidate conversation frame determined.
예를 들어, 도 6에서 설명한 바와 같이, 제1 내지 제3 후보 대화 프레임(620~640)이 결정되고, 이중 TV 프로그램 도메인 상에서의"search_program(genre=애니메이션)"에 대한 제1 후보 대화 프레임(620)과 관련된 대화 예제 정보에 대한 빈도 수가 가장 높고, VOD 도메인 상에서의 "search_program()"에 대한 제2 후보 대화 프레임(630)과 관련된 대화 예제 정보에 대한 빈도 수가 가장 낮을 수 있다.For example, as described with reference to FIG. 6, the first to third candidate dialog frames 620 to 640 are determined, and the first candidate dialog frame for "search_program (genre = animation)" on the dual TV program domain ( The highest frequency for the conversation example information associated with 620 may be the highest, and the lowest frequency for the conversation example information related to the second candidate conversation frame 630 for "search_program ()" on the VOD domain.
이 경우, 제어부(150)는 제1 내지 제3 후보 대화 프레임(620~640)에 기초하여 생성된 검색 결과 정보 및 제1 내지 제3 후보 대화 프레임(620~640)에 대한 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.In this case, the controller 150 includes search result information generated based on the first to third candidate conversation frames 620 to 640 and ranking information on the first to third candidate conversation frames 620 to 640. The response information is generated and transmitted to the display apparatus 200. Accordingly, the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
또다른 실시예에 따라, 제어부(150)는 저장부(160)에 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다. According to another exemplary embodiment, the controller 150 may refer to indexing information of at least one previous conversation frame-by-frame conversation example information stored in the storage 160, and may provide a candidate conversation for providing response information about the user's spoken voice. The response information for the candidate conversation frame may be provided in the order of the candidate conversation frames having the largest number of indexing information in the frame.
구체적으로, 저장부(160)는 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장할 수 있다. 예를 들어, "search_program(genre=애니메이션)"에 대한 이전 대화 프레임의 경우, 제1 및 제2 발화 요소에 기초하여 생성된 대화 프레임으로서, 제1 및 제2 발화 요소 각각에 대한 인덱싱 정보를 포함할 수 있다. 한편, "search_program()"에 대한 이전 대화 프레임의 경우, 제1 발화 요소에 기초하여 생성된 대화 프레임으로써, 제1 발화 요소에 대한 인덱싱 정보만을 포함할 수 있다.In detail, the storage 160 may further store indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame. For example, in the case of the previous conversation frame for “search_program (genre = animation)”, the dialogue frame generated based on the first and second speech elements, and includes indexing information for each of the first and second speech elements. can do. Meanwhile, in the case of the previous conversation frame for "search_program ()", the conversation frame generated based on the first speech element may include only indexing information about the first speech element.
따라서, 제어부(150)는 복수의 후보 대화 프레임이 결정되면, 각각의 후보 대화 프레임을 구성하는 각 발화 요소에 대한 인덱싱 정보의 수를 참조하여 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 복수의 후보 대화 프레임에 대한 순위를 결정한다. 이후, 제어부(150)는 각각의 후보 대화 프레임에 대한 검색 결과 정보 및 각각의 후보 대화 프레임별로 결정된 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.Therefore, when a plurality of candidate conversation frames are determined, the controller 150 refers to the number of indexing information for each utterance element constituting each candidate conversation frame, and the plurality of candidate conversation frames in the order of the candidate conversation frames with the largest number of indexing information. Determine the rank for the frame. Thereafter, the controller 150 generates response information including search result information about each candidate conversation frame and ranking information determined for each candidate conversation frame, and transmits the response information to the display apparatus 200.
이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.Accordingly, the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
지금까지, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 음성 인식 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 대화형 시스템의 음성 인식 장치(100)에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 대해서 상세히 설명하도록 한다.Up to now, each configuration of the speech recognition apparatus 100 that provides response information corresponding to the spoken voice of the user in the interactive system according to the present invention has been described in detail. Hereinafter, a method of providing response information corresponding to a spoken voice of a user in the speech recognition apparatus 100 of the interactive system according to the present invention will be described in detail.
도 7은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법의 흐름도이다.7 is a flowchart illustrating a method of providing response information corresponding to a spoken voice of a user in a speech recognition apparatus according to an exemplary embodiment of the present invention.
도 7에 도시된 바와 같이, 음성 인식 장치(100)는 디스플레이 장치(200)로부터 수집된 사용자의 발화 음성 신호(이하 발화 음성이라 함)가 수신되면, 수신된 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나의 발화 요소를 추출한다(S710,S720).As illustrated in FIG. 7, when the speech recognition signal of the user (hereinafter referred to as speech speech) collected from the display apparatus 200 is received, the speech recognition apparatus 100 may display a first command indicating an execution command from the received speech speech. At least one ignition element of the ignition element and the second ignition element representing the target is extracted (S710 and S720).
구체적으로, 음성 인식 장치(100)는 디스플레이 장치(200)부터 사용자의 발화 음성이 수신되면, 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환한다. 실시예에 따라, 음성 인식 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 사용자의 발화 음성이 텍스트로 변환되면, 음성 인식 장치(100)는 텍스트로 변환된 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나의 발화 요소를 추출한다. 예를 들어, "액션 영화 찾아줘!"라는 사용자의 발화 음성의 경우, 음성 인식 장치(100)는 "찾아줘!"라는 실행 명령을 나타내는 제1 발화 요소와 "액션 영화"라는 대상을 나타내는 제2 발화 요소를 추출할 수 있다.In detail, when a speech of a user is received from the display apparatus 200, the speech recognition apparatus 100 recognizes the received speech of the user and converts the speech into text. According to an embodiment, the speech recognition apparatus 100 may convert the received speech of the user into text using a speech to text (STT) algorithm. When the user's spoken voice is converted into text, the speech recognition apparatus 100 extracts at least one of the first spoken element representing the execution command and the second spoken element representing the target from the spoken voice of the user converted into text. do. For example, in the case of a spoken voice of a user saying "Find an action movie!", The speech recognition apparatus 100 may include a first speech element indicating an execution command of "Find me!" And an object indicating an object "action movie". 2 Ignition elements can be extracted.
이 같은 발화 요소가 추출되면, 음성 인식 장치(100)는 추출된 제1 및 제2 발화 요소에 기초하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정한다(S730). 구체적으로, 음성 인식 장치(100)는 기추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개 변수에 기초하여 사용자의 발화 음성에 응답 정보를 제공하기 위한 현재 도메인을 결정할 수 있다. 보다 구체적으로, 음성 인식 장치(100)는 사용자의 발화 음성으로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 현재 대화 프레임을 생성한다. 이 같은 현재 대화 프레임이 생성되면, 음성 인식 장치(100)는 기설정된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 현재 도메인을 결정할 수 있다. 여기서, 도메인 테이블은 기설정된 복수의 도메인별로 사용자의 이전 발화 음성으로부터 추출된 제1 발화 요소에 대응하는 주행 및 제2 발화 요소에 대응하는 매개변수에 기초하여 생성된 대화 프레임이 매칭된 테이블이 될 수 있다.When such a speech element is extracted, the speech recognition apparatus 100 determines a current domain for providing response information about the speech of the user based on the extracted first and second speech elements (S730). In detail, the speech recognition apparatus 100 may determine a current domain for providing response information to the user's speech voice based on driving and parameters corresponding to the extracted first and second speech elements. More specifically, the speech recognition apparatus 100 generates a current conversation frame based on driving and parameters corresponding to the first and second speech elements extracted from the user's speech voice. When such a current conversation frame is generated, the speech recognition apparatus 100 may determine a current domain to which the current conversation frame belongs by referring to a predetermined domain table. Here, the domain table may be a table in which a conversation frame generated based on driving corresponding to the first speech element extracted from the user's previous speech voice and parameters corresponding to the second speech element for each of a plurality of preset domains is matched. Can be.
따라서, 음성 인식 장치(100)는 현재 대화 프레임이 생성되면, 기저장된 도메인 테이블을 참조하여 현재 대화 프레임이 속하는 적어도 하나의 도메인을 획득하고, 획득한 도메인을 현재 도메인으로 결정할 수 있다.Therefore, when the current conversation frame is generated, the speech recognition apparatus 100 may obtain at least one domain to which the current conversation frame belongs and refer to the previously stored domain table, and determine the acquired domain as the current domain.
이와 같이, 사용자의 발화 음성에 대한 현재 도메인이 결정되면, 음성 인식 장치(100)는 현재 도메인과 해당 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정한다(S740).As such, when the current domain for the user's spoken voice is determined, the speech recognition apparatus 100 may determine at least one of the current domain and the previous domain based on a conversation state on the current domain and the previous domain predetermined from the previous spoken voice of the user. A candidate dialog frame for providing response information on the user's spoken voice on one domain is determined (S740).
구체적으로, 음성 인식 장치(100)는 사용자의 발화 음성에 대한 현재 도메인이 결정되면, 현재 도메인과 이전 도메인의 동일 여부와, 현재 대화 프레임 및 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단한다. 이후, 음성 인식 장치(100)는 두 도메인의 동일 여부에 대한 판단 결과, 대화 문맥의 전환 여부에 대한 판단 결과에 따라 현재 도메인 및 이전 도메인 중 적어도 하나의 도메인 상에서 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정할 수 있다.Specifically, when the current domain for the user's spoken voice is determined, the speech recognition apparatus 100 may determine whether the current domain is the same as the previous domain, and the dialogue context from the previous conversation frame generated in relation to the current conversation frame and the previous domain. Judge whether to switch. Thereafter, the voice recognition apparatus 100 determines response information of the user's spoken voice on at least one of the current domain and the previous domain according to a determination result of whether the two domains are the same and a determination result of switching the dialogue context. Candidate conversation frames to provide may be determined.
실시예에 따라, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.According to an embodiment, if it is determined that the current domain and the previous domain are the same, and the conversation context on the two domains is not switched, the voice recognition apparatus 100 selects a candidate conversation frame for the current conversation frame based on the previous conversation frame. You can decide.
한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않은 것으로 판단되면, 이전 대화 프레임에 기초하여 이전 도메인 및 현재 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임을 결정할 수 있다.On the other hand, if it is determined that the speech recognition apparatus 100 is different from the current domain and the previous domain, and the conversation context on the two domains is not switched, the candidate for the current conversation frame on the previous domain and the current domain based on the previous conversation frame. The conversation frame can be determined.
한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 도메인 상에서 현재 대화 프레임 및 현재 대화 프레임과 관련하여 초기화된 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정할 수 있다.On the other hand, if the speech recognition apparatus 100 determines that the current domain and the previous domain are the same, and the conversation context on the two domains is switched, at least one of the current conversation frame and the conversation frame initialized with respect to the current conversation frame on the previous domain is determined. Candidate conversation frames associated with one conversation frame may be determined.
한편, 음성 인식 장치(100)는 현재 도메인과 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환된 것으로 판단되면, 이전 대화 프레임에 기초하여 현재 대화 프레임에 대한 후보 대화 프레임, 이전 도메인 상에서 현재 대화 프레임에 대한 후보 대화 프레임, 현재 도메인 상에서 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정할 수 있다.On the other hand, if it is determined that the speech recognition apparatus 100 is different from the current domain and the previous domain, and the conversation context on the two domains is switched, the candidate speech frame for the current conversation frame based on the previous conversation frame, the current conversation on the previous domain At least one of the candidate conversation frame for the conversation frame and the candidate conversation frame for the initialization conversation frame initialized with respect to the current conversation frame on the current domain may be determined.
이와 같이, 현재 도메인과 이전 도메인의 동일 여부 및 두 도메인 상에서의 대화 문맥의 전환 여부에 따라 적어도 하나의 후보 대화 프레임이 결정되면, 음성 인식 장치(100)는 결정된 후보 대화 프레임에 대한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(200)로 전송할 수 있다(S750).As such, when at least one candidate conversation frame is determined according to whether the current domain and the previous domain are the same and whether the conversation context is switched on the two domains, the speech recognition apparatus 100 generates response information about the determined candidate conversation frame. In operation S750, the generated response information may be transmitted to the display apparatus 200.
구체적으로, 음성 인식 장치(100)는 위 실시예에 기초하여 결정된 적어도 하나의 후보 대화 프레임에 대해서 기설정된 조건에 따라 우선 순위를 결정하고, 우선 순위가 높은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 응답 정보를 제공할 수 있다.In detail, the speech recognition apparatus 100 determines the priority of the at least one candidate conversation frame determined based on the above embodiments according to a preset condition, and then, for the candidate conversation frame in order of the candidate conversation frames having the highest priority. Response information may be provided.
일 실시예에 따라, 음성 인식 장치(100)는 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 기결정된 적어도 하나의 후보 대화 프레임의 우선 순위를 결정한다. 이후, 음성 인식 장치(100)는 결정된 우선 순위에 기초하여 가장 높은 순위에 해당하는 후보 대화 프레임 순으로 해당 후보 대화 프레임에 대한 응답 정보를 디스플레이 장치(200)로 제공할 수 있다.According to an embodiment, the speech recognition apparatus 100 determines the priority of the at least one candidate conversation frame determined based on the counting information matched with the conversation example information for each of the at least one previous conversation frame. Thereafter, the speech recognition apparatus 100 may provide the display apparatus 200 with response information about the candidate dialogue frame in the order of the candidate dialogue frames having the highest priority based on the determined priority.
구체적으로 전술한 각각의 단계 이전에 음성 인식 장치(100)는 복수의 도메인별로 매칭된 이전 대화 프레임과, 각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 대화 예제 정보와 관련된 사용자의 발화 음성에 대한 빈도 정보에 따른 카운팅 정보를 매칭시켜 저장할 수 있다.Specifically, before each of the above-described steps, the apparatus 100 for recognizing the speech may include a previous conversation frame matched by a plurality of domains, dialogue example information related to the previous dialogue frame matched by each domain, and a user's spoken voice related to the dialogue example information. The counting information according to the frequency information about may be matched and stored.
따라서, 음성 인식 장치(100)는 복수의 후보 대화 프레임이 결정되면, 결정된 각각의 후보 대화 프레임과 관련하여 매칭된 대화 예제 정보에 대한 카운팅 정보에 기초하여 각각의 후보 대화 프레임에 대한 순위를 결정할 수 있다. 이 같은 복수의 후보 대화 프레임에 대한 순위가 결정되면, 음성 인식 장치(100)는 복수의 후보 대화 프레임에 기초하여 생성된 각각의 검색 결과 정보 및 각각의 후보 대화 프레임에 대한 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다. 이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.Therefore, when a plurality of candidate conversation frames are determined, the speech recognition apparatus 100 may determine a rank for each candidate conversation frame based on counting information about the matching dialogue example information with respect to each candidate conversation frame determined. have. When the ranking of the plurality of candidate conversation frames is determined, the speech recognition apparatus 100 may include a response including respective search result information generated based on the plurality of candidate conversation frames and ranking information of each candidate conversation frame. The information is generated and transmitted to the display apparatus 200. Accordingly, the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
또다른 실시예에 따라, 음성 인식 장치(100)는 기저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 사용자의 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 후보 대화 프레임에 대한 순위를 결정한다. 이후, 음성 인식 장치(100)는 각각이 후보 대화 프레임에 대한 검색 결과 정보 및 각각의 후보 대화 프레임별로 결정된 순위 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(200)로 전송한다.According to another exemplary embodiment, the speech recognition apparatus 100 may refer to indexing information of conversation example information for at least one previous conversation frame, and may provide indexing information among candidate conversation frames to provide response information about the user's spoken voice. The number of candidate conversation frames is determined in order of the number of candidate conversation frames. Thereafter, the speech recognition apparatus 100 generates response information including search result information about the candidate conversation frame and rank information determined for each candidate conversation frame, and transmits the response information to the display apparatus 200.
이에 따라, 디스플레이 장치(200)는 수신한 응답 정보에 포함된 순위 정보에 기초하여 가장 순위가 높은 후보 대화 프레임에 대한 검색 결과 정보 순으로 각각의 검색 결과 정보를 디스플레이 할 수 있다.Accordingly, the display apparatus 200 may display the respective search result information in order of search result information for the candidate dialog frame having the highest ranking based on the ranking information included in the received response information.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.So far I looked at the center of the preferred embodiment for the present invention.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the above has been shown and described with respect to preferred embodiments of the present invention, the present invention is not limited to the specific embodiments described above, it is usually in the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.

Claims (15)

  1. 사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 추출부;An extraction unit for extracting at least one of a first speech element representing an execution command and a second speech element representing a target from a user speech;
    상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 도메인 결정부; 및A domain determination unit that determines a current domain for providing response information for the spoken voice based on the first and second spoken elements; And
    상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 제어부;A candidate dialogue frame for providing response information for the spoken voice on at least one of the current domain and the previous domain based on a conversation state on the previous domain predetermined from the current domain and the previous spoken voice of the user; A control unit for determining;
    를 포함하는 음성 인식 장치.Speech recognition device comprising a.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 도메인 결정부는,The domain determination unit,
    상기 추출부로부터 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 것을 특징으로 하는 음성 인식 장치.And determining a current domain for providing response information for the spoken voice based on driving and parameters corresponding to the first and second spoken elements extracted from the extractor.
  3. 제 2 항에 있어서,The method of claim 2,
    상기 제어부는,The control unit,
    상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.It is determined whether the current domain and the previous domain are the same, and whether or not to switch the dialogue context from the previous conversation frame generated in relation to the current conversation frame and the previous domain, thereby determining at least one of the current domain and the previous domain. And a candidate dialog frame for providing response information on the spoken voice on a domain.
  4. 제 3 항에 있어서,The method of claim 3, wherein
    상기 제어부는,The control unit,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.And if the current domain and the previous domain are the same and the conversation context on both domains is not switched, determining a candidate conversation frame for the current conversation frame based on a previous conversation frame.
  5. 제 3 항에 있어서,The method of claim 3, wherein
    상기 제어부는,The control unit,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.If the current domain and the previous domain are different and the conversation context on both domains is not switched, determining a candidate conversation frame for the current conversation frame on the previous domain and the current domain based on the previous conversation frame. Speech recognition device characterized in that.
  6. 제 3 항에 있어서,The method of claim 3, wherein
    상기 제어부는,The control unit,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 도메인 상에서 상기 현재 대화 프레임 및 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임 중 적어도 하나의 대화 프레임과 관련된 후보 대화 프레임을 결정하는 것을 특징으로 하는 음성 인식 장치.If the current domain and the previous domain are the same, and the conversation context on both domains is switched, at least one conversation frame associated with the current conversation frame and the initialization conversation frame initialized with respect to the current conversation frame on the previous domain is associated. And a candidate conversation frame is determined.
  7. 제 3 항에 있어서,The method of claim 3, wherein
    상기 제어부는,The control unit,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되면, 상기 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임, 상기 이전 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임 및 상기 현재 도메인 상에서 상기 현재 대화 프레임과 관련하여 초기화된 초기화 대화 프레임에 대한 후보 대화 프레임 중 적어도 하나를 결정하는 것을 특징으로 하는 음성 인식 장치.If the current domain and the previous domain are different and the conversation context on both domains is switched, a candidate conversation frame for the current conversation frame based on the previous conversation frame, a candidate conversation for the current conversation frame on the previous domain. And at least one of a candidate conversation frame for an initialization conversation frame initialized with respect to the current conversation frame on the current domain.
  8. 제 1 항에 있어서,The method of claim 1,
    각 도메인별로 매칭된 이전 대화 프레임과 관련된 대화 예제 정보 및 상기 대화 예제 정보와 관련된 발화 음성에 대한 빈도 정도에 따른 카운팅 정보를 매칭시켜 저장하는 저장부;A storage unit matching and storing counting example information related to a previous conversation frame matched for each domain and counting information according to a frequency degree of a spoken voice related to the conversation example information;
    를 더 포함하는 것을 특징으로 하는 음성 인식 장치.Speech recognition device further comprises.
  9. 제 8 항에 있어서,The method of claim 8,
    상기 제어부는,The control unit,
    상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 매칭된 카운팅 정보에 기초하여 상기 후보 대화 프레임의 우선 순위를 결정하고, 상기 우선 순위가 높은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 음성 인식 장치.The priority of the candidate conversation frame is determined based on the counting information matched to the conversation example information for each conversation frame for each previous conversation frame stored in the storage unit, and the candidate conversation frame is ranked in the order of the candidate conversation frames having the highest priority. Speech recognition device, characterized in that for providing the response information.
  10. 제 8 항에 있어서,The method of claim 8,
    상기 저장부는,The storage unit,
    상기 적어도 하나의 이전 대화 프레임별 대화 예제 정보에 포함된 적어도 하나의 발화 요소를 인덱싱하기 위한 인덱싱 정보를 더 저장하며,Further storing indexing information for indexing at least one speech element included in the conversation example information for each of the at least one previous conversation frame,
    상기 제어부는,The control unit,
    상기 저장부에 저장된 적어도 하나의 이전 대화 프레임별 대화 예제 정보의 인덱싱 정보를 참조하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임 중 인덱싱 정보의 수가 많은 후보 대화 프레임 순으로 상기 후보 대화 프레임에 대한 응답 정보를 제공하는 것을 특징으로 하는 음성 인식 장치.The candidate conversation frame in the order of the candidate conversation frames having the highest number of indexing information among candidate conversation frames for providing response information for the spoken voice with reference to the indexing information of the conversation example information for each previous conversation frame stored in the storage unit; Speech recognition device, characterized in that for providing response information to.
  11. 음성 인식 장치의 제어 방법에 있어서,In the control method of the speech recognition apparatus,
    사용자의 발화 음성으로부터 실행 명령을 나타내는 제1 발화 요소 및 대상을 나타내는 제2 발화 요소 중 적어도 하나를 추출하는 단계;Extracting at least one of a first speech element representing an execution command and a second speech element representing a target from a user's speech voice;
    상기 제1 및 제2 발화 요소에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 단계;Determining a current domain for providing response information for the spoken voice based on the first and second spoken elements;
    상기 현재 도메인과 상기 사용자의 이전 발화 음성으로부터 기결정된 이전 도메인 상에서의 대화 상태에 기초하여 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 단계; 및A candidate dialogue frame for providing response information for the spoken voice on at least one of the current domain and the previous domain based on a conversation state on the previous domain predetermined from the current domain and the previous spoken voice of the user; Determining; And
    상기 후보 대화 프레임에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하는 단계;Providing response information to the spoken speech based on the candidate conversation frame;
    를 포함하는 제어 방법.Control method comprising a.
  12. 제 11 항에 있어서,The method of claim 11,
    상기 결정하는 단계는,The determining step,
    상기 추출된 제1 및 제2 발화 요소에 대응하는 주행 및 매개변수에 기초하여 상기 발화 음성에 대한 응답 정보를 제공하기 위한 현재 도메인을 결정하는 것을 특징으로 하는 제어 방법.And determining a current domain for providing response information to the spoken voice based on the driving and parameters corresponding to the extracted first and second spoken elements.
  13. 제 12 항에 있어서,The method of claim 12,
    상기 제공하는 단계는,The providing step,
    상기 현재 상기 현재 도메인과 상기 이전 도메인의 동일 여부와, 상기 현재 대화 프레임 및 상기 이전 도메인과 관련하여 기생성된 이전 대화 프레임으로부터 대화 문맥의 전환 여부를 판단하여, 상기 현재 도메인 및 상기 이전 도메인 중 적어도 하나의 도메인 상에서 상기 발화 음성에 대한 응답 정보를 제공하기 위한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.It is determined whether the current current domain and the previous domain are the same, and whether or not to switch the dialogue context from the previous conversation frame generated in relation to the current conversation frame and the previous domain, and thus, at least one of the current domain and the previous domain. And determining a candidate conversation frame for providing response information on the spoken voice on one domain.
  14. 제 13 항에 있어서,The method of claim 13,
    상기 제공하는 단계는,The providing step,
    상기 현재 도메인과 상기 이전 도메인이 동일하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 이전 대화 프레임에 기초하여 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.And if the current domain and the previous domain are the same and the conversation context on both domains is not switched, determining a candidate conversation frame for the current conversation frame based on a previous conversation frame.
  15. 제 13 항에 있어서,The method of claim 13,
    상기 제공하는 단계는,The providing step,
    상기 현재 도메인과 상기 이전 도메인이 상이하고, 두 도메인 상에서의 대화 문맥이 전환되지 않으면, 상기 이전 대화 프레임에 기초하여 상기 이전 도메인 및 상기 현재 도메인 상에서 상기 현재 대화 프레임에 대한 후보 대화 프레임을 결정하는 것을 특징으로 하는 제어 방법.If the current domain and the previous domain are different and the conversation context on both domains is not switched, determining a candidate conversation frame for the current conversation frame on the previous domain and the current domain based on the previous conversation frame. The control method characterized by the above-mentioned.
PCT/KR2013/011321 2012-12-07 2013-12-09 Voice recognition device and method of controlling same WO2014088377A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/650,471 US9953645B2 (en) 2012-12-07 2013-12-09 Voice recognition device and method of controlling same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261734644P 2012-12-07 2012-12-07
US61/734,644 2012-12-07
KR10-2013-0151129 2013-12-06
KR1020130151129A KR102211595B1 (en) 2012-12-07 2013-12-06 Speech recognition apparatus and control method thereof

Publications (1)

Publication Number Publication Date
WO2014088377A1 true WO2014088377A1 (en) 2014-06-12

Family

ID=50883725

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/011321 WO2014088377A1 (en) 2012-12-07 2013-12-09 Voice recognition device and method of controlling same

Country Status (1)

Country Link
WO (1) WO2014088377A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016085070A1 (en) * 2014-11-26 2016-06-02 엘지전자 주식회사 System for controlling device, digital device, and method for controlling same
WO2016175354A1 (en) * 2015-04-29 2016-11-03 주식회사 아카인텔리전스 Artificial intelligence conversation device and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070102267A (en) * 2006-04-14 2007-10-18 학교법인 포항공과대학교 Dialog management system, and method of managing dialog using example-based dialog modeling technique
JP2008058813A (en) * 2006-09-01 2008-03-13 Honda Motor Co Ltd Voice response system, and voice response program
KR20100030223A (en) * 2008-09-10 2010-03-18 주식회사 씨에스메소드 Voice secret communication apparatus and control method thereof
US20120010876A1 (en) * 1999-04-12 2012-01-12 Ben Franklin Patent Holding Llc Voice integration platform
KR20120075585A (en) * 2010-12-16 2012-07-09 한국전자통신연구원 Communication method and system for the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120010876A1 (en) * 1999-04-12 2012-01-12 Ben Franklin Patent Holding Llc Voice integration platform
KR20070102267A (en) * 2006-04-14 2007-10-18 학교법인 포항공과대학교 Dialog management system, and method of managing dialog using example-based dialog modeling technique
JP2008058813A (en) * 2006-09-01 2008-03-13 Honda Motor Co Ltd Voice response system, and voice response program
KR20100030223A (en) * 2008-09-10 2010-03-18 주식회사 씨에스메소드 Voice secret communication apparatus and control method thereof
KR20120075585A (en) * 2010-12-16 2012-07-09 한국전자통신연구원 Communication method and system for the same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016085070A1 (en) * 2014-11-26 2016-06-02 엘지전자 주식회사 System for controlling device, digital device, and method for controlling same
US10063905B2 (en) 2014-11-26 2018-08-28 Lg Electronics Inc. System for controlling device, digital device, and method for controlling same
WO2016175354A1 (en) * 2015-04-29 2016-11-03 주식회사 아카인텔리전스 Artificial intelligence conversation device and method

Similar Documents

Publication Publication Date Title
WO2015111850A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2016035933A1 (en) Display device and operating method therefor
WO2014007502A1 (en) Display apparatus, interactive system, and response information providing method
WO2017052082A1 (en) Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
WO2014051219A1 (en) Image processing apparatus and control method thereof and image processing system
WO2013122310A1 (en) Method and apparatus for smart voice recognition
WO2016133316A1 (en) Electronic device and method of operating voice recognition function
WO2014069820A1 (en) Broadcast receiving apparatus, server and control methods thereof
WO2012118302A2 (en) Apparatus and method for establishing a network connection in a portable terminal
WO2019135623A1 (en) Display device and method for controlling same
WO2011021907A2 (en) Metadata tagging system, image searching method and device, and method for tagging a gesture thereof
WO2013187610A1 (en) Terminal apparatus and control method thereof
WO2012148156A2 (en) Method for providing link list and display apparatus applying the same
WO2014069943A1 (en) Method of providing information-of-users' interest when video call is made, and electronic apparatus thereof
WO2015152532A1 (en) Display apparatus, method of controlling the same, server, method of controlling the same, system for detecting information on location of channel information, and method of controlling the same
KR20140074229A (en) Speech recognition apparatus and control method thereof
WO2014088146A1 (en) Machine-to-machine communication system using sns, machine-to-machine communication method, and machine-to-machine communication server therefor
WO2015102245A1 (en) Display device, server device, voice input system and methods thereof
WO2019233190A1 (en) Display terminal-based text-to-speech conversion method, display terminal, and storage medium
WO2015041434A1 (en) Multilingual message translation system and method therefor
WO2015130035A1 (en) Apparatus and method for generating a guide sentence
WO2014088377A1 (en) Voice recognition device and method of controlling same
WO2014073939A1 (en) Method and apparatus for capturing and displaying an image
WO2019112308A1 (en) Electronic device, user terminal apparatus, and control method thereof
WO2021071271A1 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13860967

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14650471

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 13860967

Country of ref document: EP

Kind code of ref document: A1