WO2016129740A1 - 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템 - Google Patents

사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템 Download PDF

Info

Publication number
WO2016129740A1
WO2016129740A1 PCT/KR2015/002105 KR2015002105W WO2016129740A1 WO 2016129740 A1 WO2016129740 A1 WO 2016129740A1 KR 2015002105 W KR2015002105 W KR 2015002105W WO 2016129740 A1 WO2016129740 A1 WO 2016129740A1
Authority
WO
WIPO (PCT)
Prior art keywords
command
error
pattern
user
scenario
Prior art date
Application number
PCT/KR2015/002105
Other languages
English (en)
French (fr)
Inventor
송민규
김혜진
손만식
황지선
Original Assignee
미디어젠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠 주식회사 filed Critical 미디어젠 주식회사
Publication of WO2016129740A1 publication Critical patent/WO2016129740A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to speech recognition design, speech recognition middleware design / implementation, and more specifically, a speech recognition method for correcting a user's error in speech recognition and improving usability of a speech recognition device using a user pattern based error DB; It is about the system.
  • the voice recognition technology is a technology for recognizing a voice signal obtained by collecting a voice input by a user or the like as a signal corresponding to a predetermined language, and may be used in various fields.
  • the voice recognition technology is simpler than the conventional input method such as pressing a specific button through a finger, etc., and thus is used as an alternative to the conventional input method as an electronic device such as a TV or a mobile phone.
  • a user may input a specific word such as 'channel up' to adjust the channel of the TV, and perform channel adjustment by recognizing the user's voice signal through a voice recognition engine in the TV.
  • speech recognition engines can be classified into various types according to their purpose of use, and can be broadly classified into an engine for word recognition and an engine for continuous word recognition.
  • the word recognition engine is sufficient to recognize only a limited number of fixed words, so the capacity of the speech engine that is voice is not large and can be used as an embedded engine in an electronic device.
  • the engine for continuous word recognition may recognize more words and sentences instead of requiring a large capacity, and thus may be utilized as a server based on the recent construction of a cloud environment.
  • the embedded engine is recently used as a voice recognition engine for a vehicle.
  • the structure of the conventional voice recognition system to which the embedded engine is applied is composed of global commands and local commands, and the global commands consist of a service name supported by the main menu or a word defined to enter the corresponding service. After executing the function, it consists of words defined to select a list in detail or to execute the function in detail.
  • it is difficult to move from one mode to another mode (local to global, local to local, global to local) at a local command or local scenario stage, and has a problem of malfunction due to a user error.
  • the present invention provides an embedded speech recognition method and system using an error pattern DB module based on a user pattern and an error pattern, thereby providing a voice recognition system that is user-friendly and reduces system malfunction due to user error compared to existing speech recognition systems.
  • the purpose is to implement it.
  • the present invention provides an embedded voice recognition method using an error pattern DB module based on a user pattern and an error pattern, in which a voice command is input through a user's speech (S1);
  • the engine converts to text (S2); Determining whether or not the instruction is supported by comparing the converted text with a list of a predefined instruction (S3);
  • the determination result determined as a supportable instruction Transitioning to the corresponding service scenario (S4); in step S3, if it is determined that the command is not supported, it is requested to analyze the error DB module (S5);
  • After determining whether an error pattern exists for, the error transitions to the service scenario that corresponds to the corrected command If it is not an error pattern step (S6) after the error guidance; after the transition to the corresponding service scenario through the step S4 or step S6, determining whether the input command is a command that can be processed in the current scenario step ( S7); In step S7, if it is determined that the command can be processed to execute the function and
  • a voice command is input through a user's speech (S1); a voice recognition engine converts the input voice command into text (S2); Determining whether the command is supported by comparing with the command list (S3); in step S3, if it is determined that the command is supported, the method transitions to the corresponding service scenario (S4); in step S3, the determination result If it is determined that the unsupported command is not supported step (S5) requesting an analysis by the error DB module; through step S5, after determining whether an error pattern exists for the command requested analysis, the error is corrected if it exists Transition to a service scenario corresponding to the specified command, and if the error pattern does not exist, terminating after error guidance (S6); corresponding through the steps S4 and S6 After the transition to the service scenario, it characterized in that it comprises the step (S7) for performing a command processing for an input command.
  • a voice command is input through a user's speech (S1); a voice recognition engine converts the input voice command into text (S2); Determining whether the command is supported by comparing with the command list (S3); if it is determined that the supportable command is determined, transitioning to the corresponding service scenario (S4); Determining whether the command is processable in the current scenario step (S5); in step S5, if it is determined that the command is processable, executing the corresponding function, shutting down the system; Requesting step (S6); Through the step S6, the error pattern exists after analyzing whether the error pattern exists for the command requested If, the error transitions to the scenario corresponding to the corrected command, if the error pattern does not exist step of terminating after error guidance (S7); after the transition to the corresponding service scenario through the steps S4 and S7, It is characterized in that it comprises a step (S8) for performing a command process for the command.
  • a voice command is input through a user's speech (S1); a voice recognition engine converts the input voice command into text (S2); Determining whether the command is supported by comparing with the command list (S3); in step S3, if it is determined that the command is supported by the determination result, transitioning to the corresponding service scenario (S4); in step S3, determining If it is determined that the unsupported command is not supported step (S5) requesting an analysis by the error DB module; through step S5, after determining whether an error pattern exists for the command requested analysis, the error is corrected if it exists Transition to a service scenario corresponding to the specified command, and if the error pattern does not exist, terminating after error guidance (S6); through step S4 or step S6 After the transition to the corresponding service scenario, determining whether the input command is a command that can be processed in the current scenario step (S7); in step S7, if it is determined that the command is processable, execute the corresponding function and then shut down the system.
  • step S8 If it is determined that the command can not be processed, the step of requesting the analysis to the error DB module (S8); through the step S8, after determining whether the error pattern exists for the command that analysis is required, if the error pattern exists Transitioning to the scenario corresponding to the modified command and ending with an error guide when there is no error pattern (S9); performing a command processing on an input command after the transition to the corresponding service scenario through step S9 It characterized in that it comprises a step (S10).
  • the present invention is capable of determining whether the determination level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level. It is characterized by determining whether the command.
  • the present invention provides an input means for receiving a voice command through a user's speech; a speech recognition engine 20 for converting the input voice command into text; First determining means 30 for determining whether the converted command text is a supportable command by comparing with the list of the command list; second determining means 40 for determining whether the command input in the current scenario step is a processable command; An error DB 50 storing information about a user pattern and an error pattern; an error of any kind with respect to a command not supported by the first and second determination means or a command determined as an unprocessable command; An error analysis / checking means 60 for analyzing whether the pattern has an error pattern and checking whether the analyzed error pattern is an error pattern existing in the error DB; If it is determined that the command can be supported, the program transitions to the corresponding scenario step.
  • the control means for performing an operation for terminating the system after the guidance of the error; It is done.
  • the present invention provides information stored in the error DB 50 of the embedded speech recognition system to which the error DB module based on the user pattern is applied. It is characterized in that the information on the user pattern in the situation.
  • the error DB module is adopted in the voice recognition system to correct an error mainly made by a user, and the voice recognition system can be actively moved between modes regardless of the scenario level (global / local level). At the same time, it can be expected to improve system usability.
  • FIG. 1 is a diagram illustrating a speech recognition system scenario structure
  • FIG. 2 is a view showing a conventional speech recognition processing method
  • FIG. 3 is a diagram showing a speech recognition processing system of the present invention.
  • FIG. 4 is a view showing a voice recognition processing method of the present invention
  • the scenario structure of a general voice recognition system is largely divided into a global stage and a local stage, as shown in FIG.
  • scenario it is divided into global scenario and local scenario.
  • command it is divided into global and local commands.
  • the global command in the global scenario phase is a service name or radio supported in the main menu, such as media, telephone, navigation, etc.
  • Words defined in the submenu are used to enter the service, such as USB, CD, Jukebox, Name, Number, Redial, Address, and Name.
  • the local commands used in the local scenario step are words defined in detail after executing the function or selecting the details in detail, and may include words such as frequency, track number, list selection, and modification. Examples of dialing through a voice recognition system illustrate global and local commands. When the voice recognition system starts up, according to the system announcement (eg, say the command), the user utters the global command "telephone". The user then fires a global command "Hong Gil-dong" according to the system announcement (eg, tell me the name).
  • a system announcement e.g., would you like to call Hong Gil-dong?
  • Try to call Hong-gil-dong If you say "no” instead of "yes,” you will be prompted for a system announcement (eg, name. Please tell me again.
  • "telephone" of the user's utterance command is a global command which is a service name supporting the main menu
  • "hong-gil dong” of the utterance command is a global command which is a detailed menu for entering the corresponding service.
  • a utterance command such as "yes” or "no” corresponds to a local command defined to select a detailed list after executing a corresponding function or to execute the corresponding function in detail.
  • the voice recognition system allows only commands corresponding to names such as "Hong Gil Dong". If a user fires a number such as "xxxx” rather than a name, the system does not recognize it and only provides a prompt to say the name continuously. Also, the commands that are also allowed at the local level of list selection only allow commands such as "yes", “no", "quit", "help”, and so on. When the command is fired it will not be recognized.
  • the command recognized or allowed by the system in the global stage or the local stage is determined, and when a different type of instruction other than the defined instruction is inputted, the system does not recognize it and the system continues. It forces the user to enter the command defined at that stage, and eventually shuts down the system irrespective of the user's intention after rejection and error notification.
  • the scenario called dialing Even if you enter the scenario called dialing, only the commands allowed in each step of the dialing scenario are allowed, but the steps belong to the same dialing scenario, but if you enter the commands allowed in other steps, the system will support it. Do not error Because it terminates the weathering system, it is not possible to move to another step in the same scenario.
  • the list selection step only accepts commands such as "yes", “no", "end”, “help”, and so on. Commands such as "4518" are treated as unsupported commands.
  • voice is input through the user's speech.
  • the voice recognition engine converts the input voice into text.
  • the comparison of the converted text with a list of predefined commands determines whether it can be processed. If it is determined that the command can be processed, the program transitions to the scenario step of executing the corresponding function. If it is determined that the command cannot be processed, the system will shut down after rejection notification and error notification. In the case where it is determined that the process cannot be performed, when the confidence level is less than the reference value (the confidence level reference value is the lowest level that the system can recognize), an unsupported command (command not supported by the system), and the like.
  • the system does not recognize the input command, so it breaks into an unprocessable command and gives the rejection or error guidance. If the confidence level is higher than the threshold value or the input command is in the predefined command list, If not, the prior system transitions to a scenario step that is determined to be similar at random. This causes an error to transition to a scenario step irrespective of the user's intention.
  • the process can be processed after the transition to the corresponding scenario step is determined to be processable. If it is determined that the command can be processed, execute the corresponding function and shut down the system. However, if it is determined that the command cannot be processed, the system is shut down after the rejection guide and the error guide. In the case where it is determined that the process cannot be performed, when the confidence level is lower than the reference value (the confidence level reference value refers to the lowest level that the system can recognize), an unsupported instruction (command not supported at this stage), and the like.
  • a conventional voice recognition system will be described in detail by taking a scenario called dialing.
  • the user After starting the system, the user enters the scenario of making a call by firing the command "telephone". If the user's utterance called “telephone” is above the threshold and the command is on the list, the next scenario step (name, number, redial, etc.) can be executed, but the confidence level is below the threshold. If the system does not know exactly which command was fired, or if the confidence level is above the threshold, but the command is not a predefined command in the system (for example, a phone, a phone, a smartphone, etc.). Shut down the system after rejection or error notification.
  • the voice recognition engine may be transitioned to the next step due to an error.
  • the user fired a command with a confidence level of "light” above the threshold, but the system judged it to be a mistake on the phone (assuming there is no command in the list of predefined commands) and then the submenu level (name, number, redial). And a detailed menu step for executing a back light).
  • the system After the transition, the system generates a prompt to enter a name, but the user repeats the "light" command that was originally intended.
  • the system determine that the lamp is a command not supported at this stage and exit after the error guidance, or misidentify the lamp as a light string (person's name) and call it? It generates the announcement.
  • the user repeatedly repeats the commands "light” and "light”. Eventually, the system shuts down the system after rejection and error notification.
  • the conventional speech recognition system determines that the command is terminated after error guidance uniformly when the confidence level is lower than the standard value, or that the command whose confidence level is higher than the reference value or does not exist in the predefined list command is the most similar command. Malfunction with the function corresponding to the command.
  • the conventional voice recognition system can move to the next step or execute the corresponding function only by using the exact command defined in the current step, and if the command is not supported by the system or the command is not supported in the current step, etc. Simply shut down the system after rejection and error notification.
  • the conventional voice recognition system moves from one local scenario step to another scenario step (e.g., from a phone name input step to a media radio step), or to another step of the same scenario (e.g., makes a call). It was impossible to move to the number input step of the scenario called dialing in the scenario of list selection in the scenario, and there was a possibility of continuous error in the step when the user entered an unwanted local menu / scenario by the user error.
  • the present invention was derived to solve the above-mentioned problems, and provides an embedded speech recognition method and system applying an error DB module based on user patterns and error patterns.
  • the voice recognition processing system can be actively moved between modes regardless of the scenario level (Global Bell / Local level) and the user's system usability can be improved. It is an object to provide a voice recognition processing method.
  • Figure 3 shows an embedded speech recognition processing system applying the error DB module based on the user pattern of the present invention, the input means 10, the speech recognition engine 20, the first determination means 30, the second determination means 40 ), An error DB 50, an error analysis / checking means 60, and a control means 70.
  • the input means 10 is an input means for receiving a voice command through the user's speech, and the voice recognition engine 20 performs a function of converting the input voice command into text and calculating a confidence level of the input command. do.
  • the command converted into text by the voice recognition engine 20 is compared with a defined command list previously stored in the system by the first judging means 30 to determine whether the converted command text is a supported command. do.
  • elements determined by the first determining means include a confidence level of an input command and whether the command is supported by the system. If the user's speech command determines that the confidence level has a value between the reference level and the rejection level, or that the confidence level is higher than the reference value but is not supported by the system (not in the predefined list), the control means The command is analyzed / verified by the error analysis / verification means after the analysis is requested to the error analysis / verification means 60.
  • the control means transitions to the scenario step of executing the corresponding function.
  • the rejection guide or the error guide is performed by the control unit.
  • the reference level or rejection level of the confidence level is a value that can be arbitrarily set as necessary.
  • the error analysis / confirmation means 60 analyzes / confirms what error pattern the analysis is for the command issued. In other words, it analyzes whether the confidence level is below the reference level or not supported by the system. After the analysis is completed, it is checked whether an error pattern of the corresponding command is an error pattern existing in the error DB 50. If it is confirmed that the error pattern exists in the error database, the control means transitions to the service scenario step corresponding to the modified command, and if the error pattern does not exist, the system terminates after the error guidance.
  • the processing of the error analysis / checking means 60 will be described when a confidence level is equal to or greater than a reference value but a command not included in the predefined list is input. For example, suppose that a user inputs a command of a mobile phone or a cell phone with the intention of proceeding with a dialing scenario. The system is equipped with a function for performing a dialing scenario, but the mobile phone, If there is no command list called cell phone, the first judging means determines the command as a command not supported by the system and requests an analysis to the error analyzing / checking means 60.
  • the error analysis / checking means 60 analyzes that the input command corresponds to a command not supported by the system, and then, when dialing the error DB, there is a user error pattern that commands a mobile phone or a cell phone instead of a phone call command. Check if When it is confirmed that the error pattern is present, the control means changes the command of the mobile phone and the cell phone to the command of the phone and makes a transition to the step of entering a name and a number among the lower steps of the dialing scenario.
  • the voice recognition processing system of the present invention makes a system malfunction due to a user error by using a DB by making an error (an input of another command having a meaning of a phone not in a predefined list command) frequently used by a user when making a call. It can be reduced.
  • the conventional voice recognition system terminates the system after the error guidance in a batch, but in the present invention, the analysis is requested to the error analysis / checking means 60.
  • the error analysis / checking means 60 For example, when a speech command having a confidence level of "telephone" having a value between a reference level and a rejection level is input, conventionally, a command having a confidence level below the reference level uniformly terminates the system after the error guidance. Is analyzed by the error analysis / verification means, and the current command "telephone" is analyzed as having a confidence level between the reference level and the rejection level.
  • the error analysis / checking means 60 makes a rejection guide or an error guide determination without searching for an error DB, and the control unit performs this.
  • the second judging means 40 is determined to be a normal command by the first judging means 30 and is transitioned, or in the case of a transition by a command modified by the error analysis / verification means 60, to the input command. To make a judgment.
  • the elements determined by the second determination means 40 include a confidence level of the instruction, whether the instruction is supported at the present stage, or the like. The portion related to the confidence level is omitted as described in the first determination means, and the determination portion as to whether the instruction can be supported at this stage will be described.
  • the system is terminated after the function is executed by the control means, but if it is determined by the second judging means that the command is not supported at this stage, the control means The command is requested to be analyzed by the error analysis / check means 60.
  • the error analysis / checking means 60 analyzes the current situation as to the instruction that is determined to be an unsupported instruction that cannot be processed at this stage and is requested to be analyzed.
  • the current step describes an example in which a telephone command is entered in a media scenario in which a local step of inputting a command such as radio, USB, or CD is input. Although the current step is a local step in which a command such as radio, USB, CD, etc. must be input in the media scenario, a command called “telephone” is input and an unsupported command is input.
  • the current scenario step is a local step that requires input of commands such as radio, USB, CD, etc. among the media scenarios, but it is a local step of other scenarios that can enter name, number, redial, etc.
  • the control means performs the process of transitioning.
  • the telephone scenario at the local stage where a command such as radio, USB, CD, etc. among the current media scenarios must be entered You can transition to the local phase of the phone scenario where you can enter the name, number, redial, and so on.
  • the error DB 50 of the present invention stores information about a pattern of a user using the voice recognition system and an error pattern according to the user pattern.
  • the information on the user pattern and the error pattern is obtained by user evaluation and WOZ test.
  • the user evaluation includes a specification analysis step of analyzing a specification of a voice recognition system to be tested, a task definition step of selecting a function to be tested by voice recognition, and presenting a task scenario for the selected function, and performing a presented task scenario.
  • the usability evaluation step records the phenomenon occurring in the process, and the result analysis step analyzes when, where and how the user error occurs based on the recorded phenomenon.
  • the WOZ test is performed by a networked observer. Through the relationship between users, the observer conducts a real-time test on the users and as a result, derives the user pattern and the error pattern according to the user's voice recognition system.
  • the control means 70 of the present invention performs the overall control of the voice recognition system of the present invention. That is, if it is determined that the instruction can be supported by the first judging means, the process transitions to the corresponding scenario step, and if it is determined that the instruction can be processed by the second judging means, execution is performed after the corresponding function is terminated. If the confidence level of the command is determined to be a level between the reference level and the rejection level, the command is not supported by the system, or is determined to be an unprocessable command at this stage, the error analysis / checking means 60 is analyzed. If it is confirmed that the error pattern exists in the error DB by error analysis / confirmation means, the error transitions to the service scenario step corresponding to the corrected command. Perform an operation to terminate the. In addition, if the confidence level of the instruction is less than or equal to the rejection level, the system terminates after rejection guidance or error guidance.
  • Embedded voice recognition processing method applying the error DB module based on the user pattern of the present invention, the step of inputting a voice command through the user's utterance (S1); the step of converting the input voice command into a text by the voice recognition engine (S2) Determining whether the command is supported by comparing the converted text with a predefined command list (S3);
  • step S3 if it is determined that the command is a supportable command, the method transitions to the corresponding service scenario (S4); In step S3, if it is determined that the command is not supported, it is requested to analyze the error pattern DB module (S5). In step S5, after determining whether an error pattern exists for the command for which analysis is required, if the error pattern exists, the error transitions to a service scenario corresponding to the corrected command, and the error pattern does not exist. Ending after the error guidance (S6); After the transition to the corresponding service scenario through the steps S4 and S6, characterized in that it comprises a step (S7) for performing a command processing for the input command.
  • the determination in the step S3 is characterized by determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command is supported by the system. have.
  • Another embodiment of the embedded speech recognition processing method applying the error DB module based on the user pattern is a step of inputting a voice command through the user's utterance (S1); Step of converting the input voice command language into text ( S2); determining whether the instruction is supported by comparing the converted text with a predefined instruction list
  • step S3 if it is determined that the command is supported to support the transition to the corresponding service scenario (S4); after the transition to the corresponding service scenario, determining whether the input command is a command that can be processed in the current scenario step (S5)
  • step S5 if it is determined that the command is processable, executes the function and then terminates the system, and if it is determined that the command is not processed, requesting an analysis using an error pattern DB module (S6); Determining whether an error pattern exists for the requested command and then transitioning to the scenario corresponding to the modified command if the error pattern exists, and ending after error guidance if the error pattern does not exist (S7); After the transition to the corresponding service scenario through the steps S4 and S7, and performing a command processing for the input command (S8) It is characterized by.
  • the determination in step S3 is characterized by determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command is supported by the system.
  • the determination in step S5 includes determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command can be processed in the current step. It is characterized by
  • Another embodiment of the embedded speech recognition processing method applying the error DB module based on the user pattern is a step of inputting a voice command through the user's utterance (S1); Step of converting the input voice command to text by the speech recognition engine ( S2); determining whether the command is supported by comparing the converted text with a predefined command list (S3); and in step S3, transitioning to a corresponding service scenario if it is determined that the command is supported.
  • step S4 In the step S3, if it is determined that the unsupported command is not supported, the step of requesting the analysis to the error DB module (S5); Through the step S5, to determine whether there is an error pattern for the command requested analysis After that, if the error pattern exists, the error transitions to the service scenario corresponding to the corrected command, and the error pattern does not exist.
  • Step (S6) after the guidance of the flow; After the transition to the service scenario through the step S4 or step S6, determining whether the input command is a command that can be processed in the current scenario step (S7); In step S8, if it is determined that the command can be processed after executing the corresponding function, and if it is determined that the command cannot be processed, requesting an analysis using an error pattern DB module (S8); Determining whether there is an error pattern for and if there is an existing error pattern, the error transitions to the scenario corresponding to the corrected command, and if the error pattern does not exist, ending after error guidance (S9); step S9 After the transition to the corresponding service scenario, characterized in that it comprises a step (S10) for performing a command processing for the input command.
  • the determination in step S3 is characterized by determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command is supported by the system.
  • the determination in step S7 includes determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command can be processed in the current step. It is characterized by ..
  • Another embodiment of the embedded speech recognition processing method applying the error DB module based on the user pattern is a step of inputting a voice command through the user's utterance (S1); Step of converting the input voice command to text by the speech recognition engine ( S2); determining whether the instruction is supported by comparing the converted text with a predefined instruction list (S3); In step S3, if it is determined that the command is supported as a result of the determination step (S4); In step S3, if it is determined that the unsupported command is not supported as a result of determination, requesting analysis by the error DB module (S5) ; Through step S5, after determining whether an error pattern exists for a command for which analysis is required, if the error pattern exists, the error transitions to a service scenario corresponding to the corrected command, and if the error pattern does not exist Ending after the guidance (S6); After the transition to the corresponding service scenario through the step S4 or step S6, determining whether the input command is a command that can be processed in the current scenario step (S7)
  • Step (S8) requesting the analysis; through the step S8, after analyzing whether the error pattern exists for the command for which the analysis is required, if the error pattern exists, the transition to the scenario corresponding to the error corrected command, If the error pattern does not exist step of terminating after the error guidance (S9); After the transition to the corresponding scenario through the step S9, the step of repeatedly executing the step 7, step 8, step 9 for the input command It characterized in that it comprises (S10).
  • the determination in step S3 is characterized by determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command is supported by the system.
  • the determination in step S7 includes determining whether the confidence level of the input command is greater than or equal to the reference level, between the reference level and the rejection level, or less than the rejection level, and whether the command can be processed in the current step. It is characterized by
  • the user evaluation in the step of collecting the user pattern (S-1) is a specification analysis step (S1-1) for analyzing the specifications of the voice recognition system to be tested, the user selects a function to be tested by voice recognition and selected
  • the WOZ test is performed by a viewer performing a real-time test on a user through a relationship between an observer connected to a network and as a result, a user pattern on a user's voice recognition system. It is characterized by deriving
  • each embodiment of the embedded speech recognition processing method using the error DB module based on the user pattern of the present invention may be computerized to be automatically executed, and the program may be a computer-readable recording medium. Is provided.
  • the present invention relates to a method and system for processing speech recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 사용자 패턴과 오류 패턴에 기반한 오류패턴 DB모듈을 활용한 임베디드 음성인식방법과 시스템을 제공함으로 기존의 음성인식 시스템에 비해 사용자 친화적이고 사용자 오류에 의한 시스템 오동작을 줄일 수 있는 음성인식시스템을 구현하는데 목적이 있으며, 이를 위해 입력수단,음성인식엔진,제1,2 판단수단, 오류분석/확인 수단, 오류DB, 제어수단을 주요 구성수단으로 하는 것에 특징이 있다.

Description

사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
본 발명은 음성인식 설계, 음성인식 미들웨어 설계/구현에 관한 것으로, 보다 구체적으로는 사용자 패턴 기반 오류DB를 활용하여 음성인식에 있어 사용자의 오류 보정과 음성인식장치의 사용성 개선을 위한 음성인식 방법과 시스템에 관한 것이다.
음성 인식 기술은 사용자 등이 입력하는 음성을 집음하여 획득한 음성신호를 소정 언어에 대응되는 신호로 인식하는 기술로 다양한 분야에 활용될 수 있다. 특히, 음성인식기술은 손가락 등을 통해 특정 버튼을 누르는 등의 종래의 입력방식에 비해 간편하므로, 종래의 입력방식을 대체하는 수단으로 TV, 휴대폰 등의 전자기기에 활용되고 있다. 예를 들어, TV의 채널 조정을 '채널 올려'와 같은 특정 단어를 음성으로 입력하고, TV 내의 음성인식 엔진을 통해 사용자의 음성신호를 인식하여 채널 조정을 수행할 수 있다.또 다른 예로 자동차에 설치된 네비게이션 사용시 "우리집"이란 특정 단어를 음성으로 입력하면 사용자의 목적지 입력없이 특정 목적지로의 안내가 가능하다. 음성인식기술이 발달함에 따라 음성인식엔진을 통해 인식 가능한 음성신호의 범위도 확장되고 있는데, 종래에는 한정된 수의 정해진 단어만을 인식할 수 있는 정도에 불과 하였으나, 최근에는 비교적 긴 문장을 인식할 수 있으며 그 정확도 또한 향상된 음성인식엔진이 상용화되고 있는 추세이다.
한편, 음성인식엔진은 그 사용목적에 따라 여러 가지로 분류할 수 있는데, 크게 단어 인식용 엔진과, 연속어 인식용 엔진으로 구분할 수 있다. 단어 인식용 엔진은 한정된 수의 정해진 단어만을 인식하면 충분하므로 음성인 식엔진의 용량이 크지 않아 전자기기 내의 임베디드형 엔진으로 활용 가능하다. 또한, 연속어 인식용 엔진은 대용량이 요구되는 대신 더욱 많은 단어 및 문장을 인식할 수 있으므로, 최근 들어 클라우드 환경이 구축됨에 따라 서버 기반으로 활용될 수 있다.
상기 임베디드형 엔진은 최근 차량용 음성인식 엔진으로 많이 사용되고 있다. 그러나 임베디드형 엔진이 적용되는 종래의 음성인식 시스템의 구조는 글로벌 명령어와 로컬명령어로 이루어져 있으며, 글로벌 명령어는 메인메뉴에서 지원하는 서비스명이나 해당 서비스로 진입하기 위해 정의한 단어로 구성되고, 로컬 명령어는 해당 기능을 실행한 이후에 세부적으로 목록을 선택하거나 해당 기능을 상세히 실행하는데 정의된 단어로 구성된다. 그러나 종래의 음성인식시스템 구조에서는 로컬명령어나 로컬시나리오 단계에서 타 모드로의 이동(로컬에서 글로벌, 로컬에서 로컬, 글로벌에서 로컬로의 이동)이 어렵고, 사용자 오류에 의한 오동작이라는 문제점을 갖고 있었다.
본 발명은 사용자 패턴과 오류 패턴에 기반한 오류패턴 DB모듈을 활용한 임베디드 음성인식방법과 시스템을 제공함으로 기존의 음성인식 시스템에 비해 사용자 친화적이고 사용자 오류에 의한 시스템 오동작을 줄일 수 있는 음성인식시스템을 구현하는데 목적이 있다.
상기의 목적 달성을 위해 본 발명은 사용자 패턴과 오류 패턴에 기반한 오류패턴 DB모듈을 활용한 임베디드 음성인식방법은 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식 엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);상기 단계 S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);상기 단계S4 또는 단계S6를 통해,해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S7);상기 단계 S7에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S8);상기 단계 S8을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S9);상기 단계 S9을 통해 해당 시나리오로 천이된 이후, 입력되는 명령어에 대해 상기 단계7,단계8,단계9를 순차적으로 반복 실행하는 단계(S10)를 포함하는 것을 특징으로 한다.
상기의 목적 달성을 위해 본 발명은 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);상기 단계S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);상기 단계 S4와 S6를 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S7)를 포함하는 것을 특징으로 한다.
상기의 목적 달성을 위해 본 발명은 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S5);상기 단계 S5에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S6);상기 단계 S6을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S7);상기 단계 S4와 S7을 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S8)를 포함하는 것을 특징으로 한다.
상기의 목적 달성을 위해 본 발명은 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식 엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);상기 단계 S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);상기 단계S4 또는 단계S6를 통해,해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S7);상기 단계 S7에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S8);상기 단계 S8을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S9);상기 단계 S9을 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S10)를 포함하는 것을 특징으로 한다.
상기의 목적 달성을 위해 본 발명은 상기 단계 S3에서의 판단이 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 시스템에서 지원 가능한 명령어인지를 판단하는 것을 특징으로 한다.
상기의 목적 달성을 위해 본 발명은 사용자의 발화를 통해 음성 명령어를 입력받는 입력수단(10);상기 입력된 음성명령어를 텍스트로 변환하는 음성 인식엔진(20);상기 변환된 명령어 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 변환된 명령어 텍스트가 지원 가능한 명령어인지를 판단하는 제1 판단수단(30);현재 시나리오 단계에서 입력된 명령어가 처리 가능한 명령어인지를 판단하는 제2 판단수단(40);사용자 패턴과 오류 패턴에 대한 정보를 저장하고 있는 오류 DB(50);상기 제1,제2 판단수단에 의해 지원가능하지 않는 명령어나, 처리 불가능한 명령어로 판단된 명령어에 대해, 어떠한 종류의 오류 패턴을 갖고 있는지를 분석하고, 분석된 오류 패턴이 상기 오류DB에 존재하는 오류 패턴인지를 확인하는 오류 분석/확인 수단(60);상기 제1판단수단에 의해 지원 가능한 명령어로 판단되면 해당 시나리오 단계로 천이시키고, 상기 제2판단수단에 의해 처리가능한 명령어로 판단되면 해당 기능을 실행 시킨후 종료 시키며, 상기 오류 분석/확인 수단에 의해 오류DB에 존재하는 오류패턴인것으로 확인되면 오류가 수정된 명령어에 해당하는 서비스 시나리오 단계로 천이시키고, 존재하지 않는 오류패턴인 것으로 확인되면 오류 안내 후 시스템을 종료시키는 동작을 수행하는 제어수단(70)을 포함하는 것을 특징으로 한다.
상기의 목적 달성을 위해 본 발명은 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리 시스템의 오류 DB(50)에 저장되는 정보는 사용자평가 및 WOZ테스트를 통하여 추출된 사용자가 대면하는 오류상황과 그 상황에서의 사용자패턴에 대한 정보인것을 특징으로 한다.
본 발명은 음성인식시스템에 오류DB모듈을 채용함으로 사용자가 주로 범하는 오류를 보정할 수 있으며, 시나리오의 레벨(글로벌/로컬 레벨)에 상관없이 능동적으로 모드간 이동이 가능한 구조로 음성인식 시스템이 동작 가능하게 함과 동시에 시스템 사용성 개선 효과도 기대할 수 있다.
도1은 음성인식시스템 시나리오 구조를 나타낸 도면
도2는 종래 음성인식 처리방법을 나타낸 도면
도3은 본 발명의 음성인식 처리시스템을 나타낸 도면
도4는 본 발명의 음성인식 처리방법을 나타낸 도면
일반적인 음성인식 시스템의 시나리오 구조는 도1에 나타나 있듯이 글로벌단계와 로컬 단계로 크게 구분된다. 시나리오 측면으로 구분하면 글로벌 시나리오와 로컬 시나리오로 구분되고, 명령어 측면으로 구분하면 글로벌 명령어와 로컬 명령어로 구분된다. 도1에서 보듯이, 글로벌 시나리오 단계에서의 글로벌 명령어로는 미디어,전화,네비게이션등과 같이 메인메뉴에서 지원하는 서비스명이나 라디오
,USB, CD, Jukebox, 이름,번호, 리다이얼, 주소, 명칭 등과 같이 해당 서비스로 진입하기 위해 세부메뉴로 정의된 단어들이 사용한다. 로컬 시나리오 단계에서 사용되는 로컬명령어로는 해당 기능을 실행한 이후에 세부적으로 목록을 선택하거나 해당 기능을 상세하게 실행하는데 정의된 단어들로서 주파수,트랙넘버, 목록선택, 수정 등의 단어들일 수 있다. 음성인식 시스템을 통해 전화걸기하는 예들 통해 글로벌 명령어와 로컬명령어를 설명한다. 음성인식 시스템이 시작되면, 시스템 안내멘트(예:명령어를 말씀해주세요)에 따라 사용자는 글로벌 명령어인 "전화"를 발화하고. 이어 시스템 안내멘트(예:이름을 말씀해 주세요)에 따라 사용자는 글로벌 명령어인 "홍길동"를 발화한다. 이에 대해 시스템 안내멘트(예: 홍길동에게 전화 걸까요?)에 대해 "예"를 발화하면 홍길동에게 전화걸기를 시도하고, 만약 "예" 대신 "아니오"라는 명령어를 발화하면 시스템 안내멘트(예:이름을 말씀해 주세요)가 다시 제공된다. 상기에서와 같이 사용자의 발화 명령어중 "전화"는 메인메뉴를 지원하는 서비스명인 글로벌 명령어이고, 발화 명령어중 "홍길동"은 해당 서비스로 진입하기 위한 세부메뉴인 글로벌 명령이다. 그리고 "예", "아니요" 등의 발화명령어는 해당 기능을 실행한 이후에 세부적으로 목록을 선택하거나 해당 기능을 상세하게 실행하기 위해 정의된 로컬 명령어에 해당한다.
그러나 상기와 같은 종래 음성인식 시스템의 시나리오 구조에서는 타 모드로의 이동(로컬에서 로컬/ 로컬에서 글로벌/글로벌에서 글로벌로의 이동)이 어렵고 사용자 오류에 의한 오동작이라는 문제점이 존재한다. 예들들어 전화걸기라는 시나리오에서 이름을 입력하는 글로벌단계에서는 "홍길동" 과 같은 이름에 해당하는 명령어만을 음성인식시스템이 허용한다. 이름이 아닌 "xxxx" 과 같은 번호를 사용자가 발화하면 시스템은 이를 인식하지 못하고 계속적으로 이름을 말하라는 안내멘트를 제공할 뿐이다. 또한 목록선택이라는 로컬단계에서 역시 허용되는 명령어는 "예","아니오", "종료", "도움말" 등의 명령어만을 허용할뿐 사용자가 번호에 해당하는 명령어나 "이순신"이라는 이름에 해당하는 명령어를 발화하면 인식하지 못하게 된다. 즉, 종래의 음성인식시스템의 시나리오 구조에서는 해당 글로벌단계나 로컬단계에서 시스템이 인식하거나 허용되는 명령어는 정해져 있는 것이고, 정의된 명령어 이외의 다른 종류의 명령어가 입력되면 이를 인식하지 못하고 시스템은 계속적으로 해당 단계에서 정의되어 있는 명령어 입력을 강요하다, 결국 리젝션 안내와 오류 안내후 사용자 의사와는 상관없이 시스템을 종료하는 것이다.즉 전화라는 시나리오로 진입하게되면 미디어나 네비게이션에 해당하는 명령어의 입력이 불가능하게 되고, 전화걸기라는 시나리오로 진입한 경우에도 전화걸기 시나리오의 각 해당 단계에서 허용되는 명령어만 허용될 뿐, 동일한 전화걸기 시나리오에 속한 단계지만, 다른 단계에서 허용되는 명령어를 입력하면 시스템은 지원하지 않는 명령어로 판단해 오류 안내후 시스템을 종룐시키기 때문에 동일 시나리오상 다른 단계로의 이동이 불가능하다. 예들들어 전화걸기라는 시나리오의 하위 단계중 목록선택 단계에서는 "예", "아니오", 종료", "도움말"등의 명령어만 허용할 뿐 다른 단계인 이름이나 번호 입력단계에서 허용되는 "홍길동" 이나 "4518"등의 명령어는 미지원 명령어로 취급하게 된다.
또한 해당 단계에서 허용되는 명령어라 할지라도 사용자의 발화상 정확치 않은 발음이나, 컨피던스 레벨이 미달되거나, 유사한 단어를 사용하거나 하는 경우에도 종래의 음성인식 시스템은 이를 인식하지 못하게 되는 문제점이 있어왔다.
상기에서 언급한 종래의 음성인식 시스템의 문제점들을 도2를 참고하여 상세히 설명한다.
먼저, 종래의 음성인식시스템 처리구조에 대해 설명한다. 도2에 나타나 있듯이 사용자의 발화를 통해 음성이 입력된다. 입력된 음성을 음성인식엔진이 텍스트로 변환시킨다. 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 처리가능 여부를 판단한다. 처리가능한 명령어로 판단되면 해당 기능을 실행하는 시나리오 단계로 천이된다. 만약 처리 불가능한 명령어로 판단되면 리젝션 안내와 오류 안내후 시스템을 종료한다. 상기에서 처리 불가능으로 판단하는 경우로는 컨피던스레벨이 기준치 미달인 경우(컨피던스 레벨 기준치란 시스템이 인식할 수 최저수준의 레벨을 말함), 미지원 명령어(시스템에서 지원하고 있지 않는 명령어)등이다.
상기에서 컨피던스 레벨이 기준치 이하인 경우 시스템은 입력된 명령어를 인식하지 못하므로 처리 불가능한 명령어로 파단하고 리젝션안내나 오류안내를 하게되며, 컨피던스 레벨이 기준치 이상이나 입력된 명령어가 미리 정의된 명령어 목록에 없는 경우 종래 시스템은 임의로 유사한다고 판단되는 시나리오 단계로 천이시킨다. 이로인해 사용자의 의도와는 상관없는 시나리오 단계로 천이되는 오류가 발생하게 된다.
처리가능한 것으로 판단되어 해당 시나리오 단계로 천이된 이후, 입력되는 명령어에 대해 처리 가능여부를 판단한다. 처리 가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료한다. 그러나 처리 불가능한 명령어로 판단되면 리젝션 안내와 오류 안내후 시스템을 종료한다. 상기에서 처리 불가능으로 판단하는 경우로는 컨피던스 레벨이 기준치 미달인 경우(컨피던스 레벨 기준치란 시스템이 인식할 수 최저수준의 레벨을 말함), 미지원 명령어(현 단계에서 지원하지 않는 명령어)등이다.
전화걸기라는 시나리오를 예들들어 종래 음성인식시스템을 구체적으로 설명한다. 시스템을 시작한 후 사용자는 "전화"라는 명령어를 발화하여 전화걸기라는 시나리오로 진입한다. 정확히 "전화"라는 사용자의 발화가 컨피던스 레벨이 기준치이상이고 목록에 있는 명령어이면 다음 시나리오 단계(이름,번호,리다이얼등을 실행할 수 있는 세부단계)로 진입하지만, 컨피던스 레벨이 기준치 이하이어서 사용자가 정확히 어떠한 명령어를 발화했는지 시스템이 파악하지 못하거나, 컨피던스 레벨이 기준치 이상이지만 시스템에 미리 정의된 명령어가 아닌 명령어(예들들어 전화라는 의미로 핸드폰,폰,스마트폰 등으 발화한 경우)를 발화한 경우에는 리젝션안내나 오류안내 후 시스템을 종료한다.
사용자의 정확한 발화(컨피던스 레벨이 기준치 이상이고, 목록에 있는 명령어 발화)에 의해 다음 시나리오 단계로 진입하는 경우를 설명한다. 이 경우 입력되는 명령어에 대해 처리 가능 여부를 판단한다. 입력되는 명령어가 "이름"이라면 시스템은 이름을 입력하라는 안내멘트를 사용자에게 전달하고 이어지는 사용자의 "홍길동"이라는 명령어에 대해 저장된 홍길동 전화번호로 전화걸기를 시도한다. 그러나 "이름"이라는 명령어 대신 "라디오"라는 명령어가 입력되면 현 단계에서 지원되지 않는 명령어로 판단한다. 왜냐하면 현 단계(전화라는 명령어에 의해 이름,번호,리다이얼등을 실행할 수 있는 세부메뉴 단계로 천이된 상황)에서 지원 가능한 명령어로는 "이름","번호", "리다이얼"등의 명령어만 허용 가능하기 때문이다. 라디오는 현 단계에서 지원하지 않는 명령어에 해당하므로 리젝션안내와 오류안내후 시스템을 종료한다.
이외에도 음성인식엔진의 오류로 인해 다음 단계로 천이되는 경우도 있다. 예들 들어 사용자는 "전등"이라는 컨피던스 레벨이 기준치 이상인 명령어를 발화했지만 시스템은 전화로 오인 판단하고(미리 정의된 명령어 목록에 전등이라는 명령이 없다고 가정함) 다름 세부메뉴 단계(이름,번호,리다이얼등을 실행할 수 있는 세부메뉴 단계)로 천이시키는 경우이다. 천이된 이후 시스템은 이름을 입력하라는 안내멘트를 발생시키지만 사용자는 원래 의도였던 "전등"이라는 명령어를 반복한다. 이에 대해 시스템은 전등은 현 단계에서 지원되지 않는 명령어로 판단하여 오류 안내후 종료하거나, 전등을 전등현(사람이름)으로 오인하여 전등현에게 전화걸까요? 라는 안내멘트를 발생시킨다. 이에 대해 사용자는 계속적으로 "전등", "전등"리라는 명령어를 반복하다 결국 시스템은 리젝션 안내와 오류 안내후 시스템을 종료 시키게 된다.
이상에서 설명한 바와 같이 종래의 음성인식 시스템은 컨피던스가 기준치 미달인 경우 일률적으로 오류 안내후 종료시키거나, 컨피던스 레벨이 기준치 이상이나 미리 정의된 목록 명령어에 없는 명령어는 가장 유사하다고 판단되는 명령어로 판단하고 해당 명령어에 해당하는 기능으로 오동작 시켰다. 또한 종래의 음성인식 시스템은 현 단계에서 정의되어 있는 정확한 명령어를 사용해야 다음 단계로 넘어가거나 해당 기능을 실행시킬 수 있어, 시스템에서 지원하지 않는 명령어이거나, 현 단계에서 지원하지 않는 명령어등을 사용하는 경우에는 단순히 리젝션 안내와 오류 안내후 시스템을 종료시켰다. 이와 같이 종래의 음성인식 시스템은 특정 로컬 시나리오 단계에서 다른 시나리오 단계로 이동(예:전화의 이름입력단계에서 미디어의 라디오 단계로의 이동)이나, 동일 시나리오의 다른 단계로의 이동(예: 전화걸기라는 시나리오의 목록선택 단계에서 전화걸기라는 시나리오의 번호입력단계로의 이동)이 불가능 했고, 사용자 오류에 의해 원하지 않는 로컬 메뉴/시나리오로 진입 되는 경우 해당 단계에서 지속적인 오류 발생의 소지가 있었다.
본 발명은 상기에서 언급한 종래의 문제점을 해결기위해 도출된 것으로 사용자 패턴과 오류 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식방법과 시스템을 제공함으로 기존의 음성인식 시스템에 비해 사용자 친화적이고 사용자 오류에 의한 시스템 오동작을 줄일 수 있는 음성인식시스템을 구현하함으로 시나리오 레벨(글로벌레벨/로컬레벨)에 상관없이 능동적으로 모드간 이동이 가능하고 사용자의 시스템 사용성 개선효과도 기대할 수 있는 음성인식 처리시스템과 음성인식 처리방법을 제공함에 목적이 있다.
이하에서는 도3 내지 도4를 참고하여 본 발명을 상세히 설명한다.
도3은 본 발명인 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리 시스템을 나타낸 것으로, 입력수단(10), 음성 인식엔진(20), 제1 판단수단(30), 제2 판단수단(40), 오류 DB(50), 오류 분석/확인 수단(60), 제어수단(70)을 포함함을 특징으로 한다.
입력수단(10)은 사용자의 발화를 통해 음성 명령어를 입력받는 입력수단이고, 음성인식엔진(20)은 입력된 음성명령어를 텍스트로 변환하는 변환과 입력된 명령어의 컨피던스 레벨을 산출하는 기능을 수행한다.
음성인식엔진(20)에 의해 텍스트로 변환된 명령어는 제1판단수단(30)에 의해 시스템상에 미리 저장되어 있는 정의된 명령어 목록과의 비교를 통해 변환된 명령어 텍스트가 지원 가능한 명령어인지를 판단한다. 이때 제1판단수단에 의해 판단되는 요소로는 입력 명령어의 컨피던스 레벨, 시스템에서 지원 가능한 명령어인지 여부등이다. 사용자의 발화 명령어가 컨피던스 레벨이 기준치 레벨과 리젝션 레벨 사이 값을 갖거나, 컨피던스 레벨이 기준치 이상이지만 시스템에서 지원하지 않는 명령어(미리 정의된 목록에 없는 명령어)로 판단되면, 제어수단에 의해 해당 명령어는 오류 분석/확인 수단(60)으로 분석이 의뢰된 후 오류 분석/확인 수단에 의해 분석/확인된다. 정확한 발화(컨피던스 레벨이 기준치 이상이고 목록에 있는 명령어 발화)에 의한 명령어로 판단되면 제어수단에 의해 해당 기능을 실행하는 시나리오 단계로 천이된다. 또한 입력 명령어의 컨피던스 레벨이 리젝션 레벨 이하의 값을 갖으면 제어수단에 의해 리젝젼 안내나 오류 안내를 수행한다. 상기 컨피던스 레벨의 기준치 레벨이나 리젝션 레벨은 필요에 따라 임의로 설정할 수 있는 값이다.
제1판단 수단(30)에 의해 오류분석/확인수단(60)으로 의뢰된 명령어에 대한 처리를 설명한다. 오류 분석/확인 수단(60)은 분석이 외뢰된 명령어에 대해 어떠한 오류패턴 인지를 분석/확인한다. 즉, 컨피던스 레벨이 기준 이하인 것인지, 시스템에서 지원하지 않는 명령어인지를 분석한다. 분석이 완료되면 해당 명령어의 오류패턴이 오류DB(50)에 존재하는 오류패턴인지를 확인한다. 오류DB에 존재하는 오류패턴으로 확인되면 제어수단은 수정된 명령어에 해당하는 서비스 시나리오 단계로 천이시키고 존재하지 않는 오류패턴이면 오류안내후 시스템을 종료 시킨다.
먼저, 컨피던스 레벨이 기준치 이상이지만 미리 정의된 목록에 없는 명령어가 입력된 경우 오류 분석/확인수단(60)의 처리를 설명한다. 예들 들어 사용자는 전화걸기라는 시나리오를 진행하고자 하는 의도로 휴대폰,셀폰이라는 명령어를 입력하였다고 가정하자, 시스템은 전화걸기라는 시나리오를 진행할 수 있는 기능을 탑재하고 있지만 미리 정의되어 있는 명령어 목록에 상기 휴대폰,셀폰이라는 명령어 목록이 없다면 제1판단 수단은 해당 명령어를 시스템이 지원하지 않는 명령어로 판단하여 오류 분석/확인 수단(60)으로 분석을 의뢰한다. 이때 오류 분석/확인 수단(60)은 입력된 명령어가 시스템에서 지원되지 않는 명령어에 해당한다는 분석을 하고, 이어서 오류DB에 전화걸기 할때 전화라는 명령어 대신 휴대폰,셀폰이라고 명령하는 사용자 오류패턴이 존재하는지를 확인한다. 오류패턴이 존대한다는 것이 확인되면, 제어수단은 휴대폰,셀폰이라는 명령어를 전화라는 명령어로 수정하여 전화걸기 시나리오의 하위 단계 중 이름,번호를 입력하는 단계로 천이 시킨다. 즉, 본 발명의 음성인식처리 시스템은 전화걸기시 사용자가 자주 사용하는 오류(미리 정의된 목록 명령어에 없는 전화의 의미를 갖는 다른 명령어 입력)를 DB화 시켜 이를 이용하여 사용자 오류에 의한 시스템 오동작을 줄일 수 있는 것이다.
다음으로, 입력되는 명령어의 컨피던스 레벨이 기준치 레벨과 리젝션 레벨 사이의 값을 갖는 경우를 설명한다. 이 경우 종래의 음성인식 시스템은 일괄적으로 오류안내 후 시스템을 종료하였으나, 본 발명에서는 오류 분석/확인수단(60)에 분석이 의뢰된다. 예들들어 "전화"라는 컨피던스 레벨이 기준치레벨과 리젝션레벨 사이의 값을 갖는 발화 명령어가 입력되는 경우, 종래에는 일률적으로 기준치 이하의 컨피던스 레벨을 갖는 명령어는 오류 안내후 시스템을 종료시켰으나, 본 발명은 오류 분석/확인 수단에 분석 의뢰되고 현재 명령어인 "전화" 라는 명령어가 기준치 레벨과 리젝션레벨 사이의 컨피던스 레벨을 갖는 명령어라고 분석한 후, 현재 입력되는 명령어와 유사한 컨피던스 레벨을 갖는 명령어를 오류DB에서 탐색하고 그 중 현재 발화된 명령어인 "전화"와 유사하다고 판단된 명령어들을 확인함으로, 현재 입력된 명령어가 최종적으로 "전화" 명령어라고 결정한다. 이후 명령어는 "전화"명령어로 수정된 후 제어수단에 의해 해당 시나리오 단계로 천이 시킨다.
또한, 현재 입력된 명령어가 리젝션 레벨 이하의 컨피던스 값을 갖는 경우, 오류 분석/확인 수단(60)은 오류 DB 검색 없이 리젝션 안내나 오류 안내 결정을 하고 제어수단은 이를 수행한다.
제2 판단수단(40)은 제1판단수단(30)에 의해 정상적 명령어로 판단되어 천이된 경우나, 오류 분석/확인 수단(60)에 의해 수정된 명령어에 의한 천이의 경우, 입력되는 명령어에 대한 판단을 수행한다. 이때 제2판단수단(40)에 의해 판단되는 요소로는 명령어의 컨피던스 레벨, 현 단계에서 지원 가능한 명령어인지 여부등이다. 컨피던스 레벨에 관한 부분은 이미 제1판단 수단에서 설명한 바과 같아 설명을 생략하고, 현 단계에서 지원 가능한 명령어인지에 대한 판단부분을 설명한다. 제2 판단수단에 의해 현 단계에서 지원 가능한 명령어로 판단되면, 제어수단에 의해 해당 기능이 실행된 후 시스템은 종료하지만, 제2 판단수단에 의해 현 단계에서 지원하지 않는 명령어로 판단되면 제어수단은 해당 명령어를 오류 분석/확인 수단(60)으로 분석을 의뢰한다.
제2 판단수단의 판단에 의해 현 단계에서 처리 불가능한 미지원 명령어로 판단되어 오류 분석/확인 수단으로 분석 의뢰된 명령어의 처리에 대해 설명한다. 상기 제2 판단수단의 판단결과 현 단계에서 처리 불가능한 미지원 명령어로 판단되어 분석 의뢰된 명령어에 대해 오류 분석/확인 수단(60)은 현재의 상황이 어떤 상황인지를 분석한다. 현재 단계는 미디어 시나리오중 라디오, USB, CD등의 명령어를 입력해야 하는 로컬 단계인 상황에서 전화라는 명령어가 입력된 경우를 예들들어 설명한다. 현재 단계는 미디어 시나리오중 라디오,USB,CD등의 명령어를 입력해야 하는 로컬 단계임에도 불구하고 "전화"라는 명령어가 입력되어 지원하지 않는 명령어가 입력된 상황으로 오류 분석/확인 수단(60)은 분석한 후 이러한 상황이 오류DB에 존재하는지를 파악한다. 이러한 오류패턴이 확인되면 현재의 시나리오 단계는 미디어 시나리오 중 라디오,USB,CD등의 명령어를 입력해야 하는 로컬 단계이지만 전화 시나리오중 이름,번호,리다이얼 등을 입력할 수 있는 다른 시나리오의 로컬 단계로 천이시키는 처리를 제어수단이 수행한다. 또한 상기의 상황이 오류DB에 없는 경우라도 현재 입력된 명령어인 "전화"가 시스템에서 지원 가능한 명령어라고 판단되면 현재의 미디어 시나리오 중 라디오,USB,CD등의 명령어를 입력해야 하는 로컬 단계에서 전화 시나리오중 이름,번호,리다이얼 등을 입력할 수 있는 전화 시나리오의 로컬 단계로 천이시킬 수 있다.
본 발명의 오류DB(50)에는 음성인식시스템을 사용하는 사용자의 패턴과 사용자패턴 따른 오류패턴에 대한 정보가 저장된다. 상기 사용자패턴과 오류패턴에 대한 정보는 사용자평가와 WOZ테스트에 의해 얻어진다.
사용자평가는 테스트 하고자하는 음성인식시스템의 사양을 분석하는 사양분석단계,음성인식으로 사용자가 테스트할 기능을 선정하고 선정된 기능에 대하여 테스크 시나리오를 제시하는 테스크 정의단계,제시된 테스크 시나리오를 사용자가 수행하는 과정에서 발생하는 현상을 기록하는 사용성 평가단계, 기록된 현상을 바탕으로 사용자의 오류가 언제,어디서,어떠한 형태로 발생하는지 분석하는 결과분석단계에 의해 이루어지고, WOZ테스트는 네트워크로 연결된 관찰자와 사용자의 관계를 통해 사용자를 대상으로 관찰자는 실시간 테스트를 진행하고 그 결과로서 사용자의 음성인식시스템에 대한 사용자패턴과 그에 따른 오류패턴을 도출함으로 이루어진다.
본 발명의 제어수단(70)은 본 발명의 음성인식시스템 전반적인 제어를 수행한다. 즉, 상기 제1판단수단에 의해 지원 가능한 명령어로 판단되면 해당 시나리오 단계로 천이시키고, 상기 제2판단수단에 의해 처리가능한 명령어로 판단되면 해당 기능을 실행 시킨후 종료 시키며, 제1,2판단수단에 의해 명령어의 컨피던스 레벨이기준치레벨과 리젝션레벨 사이의 레벨로 판단되거나, 시스템에서 지원하지 않는 명령어로 판단되거나, 현 단계에서 처리 불가능한 명령어로 판단되는 경우 오류 분석/확인 수단(60)으로 분석을 의뢰시키고, 오류 분석/확인 수단에 의해 오류DB에 존재하는 오류패턴인것으로 확인되면 오류가 수정된 명령어에 해당하는 서비스 시나리오 단계로 천이시키고, 존재하지 않는 오류패턴인 것으로 확인되면 오류 안내 후 시스템을 종료시키는 동작을 수행한다. 또한 명령어의 컨피던스 레벨이 리젝션 레벨 이하인 경우 리젝션 안내나 오류 안내후 시스템을 종료시키는 동작을 수행한다.
이상에서는 본 발명인 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리시스템에 대해 설명하였고, 이하에서는 또 다른 실시예인 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법에 대해 도4를 참고하여 설명한다.
본 발명의 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법은,사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);
상기 단계S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류패턴DB모듈로 분석을 요구하는 단계(S5);상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);상기 단계 S4와 S6를 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S7)를 포함하는 것을 특징으로 한다. 특히 상기 단계 S3에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 시스템에서 지원하는 명령어인지를 판단하는 것에 특징이 있다.
사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법의 또 다른 실시예는 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계
(S3);판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S5);상기 단계 S5에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류패턴 DB모듈로 분석을 요구하는 단계(S6);상기 단계 S6을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S7);상기 단계 S4와 S7을 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S8)를 포함하는 것을 특징으로 한다. 특히, 상기 단계S3에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 시스템에서 지원하는 명령어인지를 판단하는것에 특징이 있고, 상기 단계S5에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 현재 단계에서 처리가능한 명령어인지를 판단하는 것에 특징이 있다.
사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법의 또 다른 실시예는 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식 엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);상기 단계 S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);상기 단계S4 또는 단계S6를 통해,해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S7);상기 단계 S7에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류패턴 DB모듈로 분석을 요구하는 단계(S8);상기 단계 S8을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S9);상기 단계 S9을 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S10)를 포함하는 것을 특징으로 한다. 특히, 상기 단계 S3에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 시스템에서 지원 가능한 명령어인지를 판단하는 것에 특징이 있고, 상기 단계S7에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 현재 단계에서 처리가능한 명령어인지를 판단하는 것에 특징이 있다..
사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법의 또 다른 실시예는 사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);입력된 음성명령어를 음성인식 엔진이 텍스트로 변환하는 단계(S2);상기 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3); 상기 단계 S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);상기 단계S4 또는 단계S6를 통해,해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S7);상기 단계 S7에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S8);상기 단계 S8을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S9);상기 단계 S9을 통해 해당 시나리오로 천이된 이후, 입력되는 명령어에 대해 상기 단계7,단계8,단계9를 순차적으로 반복 실행하는 단계(S10)를 포함함을 특징으로 한다. 특히, 상기 단계 S3에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 시스템에서 지원 가능한 명령어인지를 판단하는 것에 특징이 있고, 상기 단계S7에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 현재 단계에서 처리가능한 명령어인지를 판단하는 것에 특징이 있다.
이상에서 설명한 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법의 각 실시예들의 각 구성단계에서의 구체적 기술적 특징은 상기 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리시스템 부분에서 설명하였기에 상세한 설명은 생략한다.
이하에서는 본 발명인 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리시스템에 적용된 오류DB모듈을 구축하는 방법에 대해 설명한다.
사용자평가 및 WOZ테스트를 통하여 사용자가 대면하는 오류상황과 그때의 사용자 패턴을 수집하는 단계(S1);수집된 사용자 패턴을 기반으로 오류DB를 생성하는 단계(S2);생성된 오류DB를 활용하여 모듈을 구성하는 단계(S3)를 포함하는 것을 특징으로 한다.
상기 사용자패턴을 수집하는 단계(S-1)에서의 사용자평가는 테스트하고자하는 음성인식시스템의 사양을 분석하는 사양분석단계(S1-1),음성인식으로 사용자가 테스트할 기능을 선정하고 선정된 기능에 대하여 테스크 시나리오를 제시하는 테스크 정의단계(S1-2),제시된 테스크 시나리오를 사용자가 수행하는 과정에서 발생하는 현상을 기록하는 사용성 평가단계(S1-3), 기록된 현상을 바탕으로 사용자의 오류가 언제,어디서,어떠한 형태로 발생하는지 분석하는 결과분석단계(S1-4)로 이루어짐을 특징으로 한다.
상기 사용자패턴을 수집하는 단계(S-1)에서의 WOZ테스트는 네트워크로 연결된 관찰자와 사용자의 관계를 통해 사용자를 대상으로 관찰자는 실시간 테스트를 진행하고 그 결과로서 사용자의 음성인식시스템에 대한 사용자패턴을 도출하는 것에 특징이 있다.
이상에서 살펴본, 본 발명인 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법의 각 실시예들은 컴퓨터 프로그램화하여 자동적으로 수행되도록 할 수 있으며, 이 프로그램은 컴퓨터에서 판독될 수 있는 기록매체의 형태로 제공된다.
본 발명은 음성인식처리 방법과 시스템에 관한 것으로 음성을 통해 사용자의
명령을 처리하는 음성인식처리 분야에 이용할 수 있는 발명이다

Claims (10)

  1. 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법에 있어서,
    사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);
    입력된 음성명령어를 음성인식 엔진이 텍스트로 변환하는 단계(S2);
    상기 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);
    상기 단계 S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);
    상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);
    상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);
    상기 단계S4 또는 단계S6를 통해,해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S7);
    상기 단계 S7에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S8);
    상기 단계 S8을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S9);
    상기 단계 S9을 통해 해당 시나리오로 천이된 이후, 입력되는 명령어에 대해 상기 단계7,단계8,단계9를 순차적으로 반복 실행하는 단계(S10)를 포함하는 것을 특징으로 하는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
  2. 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법에 있어서,
    사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);
    입력된 음성명령어를 음성인식엔진이 텍스트로 변환하는 단계(S2);
    상기 변환된 텍스트와 미리정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);
    상기 단계S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);
    상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);
    상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6)
    상기 단계 S4와 S6를 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S7)를 포함하는 것을 특징으로 하는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
  3. 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법에 있어서,
    사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);
    입력된 음성명령어를 음성인식엔진이 텍스트로 변환하는 단계(S2);
    상기 변환된 텍스트와 미리정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);
    판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);
    해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S5);
    상기 단계 S5에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S6);
    상기 단계 S6을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S7);
    상기 단계 S4와 S7을 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S8)를 포함하는 것을 특징으로 하는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
  4. 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법에 있어서,
    사용자의 발화를 통해 음성 명령어가 입력되는 단계(S1);
    입력된 음성명령어를 음성인식 엔진이 텍스트로 변환하는 단계(S2);
    상기 변환된 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 지원 가능한 명령어인지를 판단하는 단계(S3);
    상기 단계 S3에서, 판단결과 지원 가능한 명령어로 판단되면 해당 서비스 시나리오로 천이하는 단계(S4);
    상기 단계 S3에서, 판단결과 지원 불가능한 미지원 명령어로 판단되면 오류DB모듈로 분석을 요구하는 단계(S5);
    상기 단계 S5를 통해, 분석이 요구된 명령어에 대해 오류 패턴이 존재하는지 파악한 후, 존재하는 오류패턴인 경우 오류가 수정된 명령어에 해당하는 서비스 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S6);
    상기 단계S4 또는 단계S6를 통해,해당 서비스 시나리오로 천이된 이후, 입력되는 명령어가 현재 시나리오 단계에서 처리 가능한 명령어인지를 판단하는 단계(S7);
    상기 단계 S7에서, 처리가능한 명령어로 판단되면 해당 기능을 실행한 후 시스템을 종료하고, 처리불가능한 명령어로 판단되면 오류 DB모듈로 분석을 요구하는 단계(S8);
    상기 단계 S8을 통해, 분석이 요구된 명령어에 대해 오류패턴이 존재하는지 파악한 후 존재하는 오류패턴인 경우, 오류가 수정된 명령어에 해당하는 시나리오로 천이하고, 존재하지 않는 오류패턴인 경우 오류 안내후 종료하는 단계(S9);
    상기 단계 S9을 통해 해당 서비스 시나리오로 천이된 이후, 입력되는 명령어에 대한 명령 처리를 수행하는 단계(S10)를 포함하는 것을 특징으로 하는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
  5. 제1 내지 제4항 중 어느 한 항에 있어서, 상기 단계 S3에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 시스템에서 지원 가능한 명령어인지를 판단하는 것에 특징이 있는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
  6. 제1 내지 제4항 중 어느 한 항에 기재된 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법을 실행하는 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체.
  7. 사용자의 발화를 통해 음성 명령어를 입력받는 입력수단(10);
    상기 입력된 음성명령어를 텍스트로 변환하는 음성 인식엔진(20);
    상기 변환된 명령어 텍스트와 미리 정의된 명령어 목록과의 비교를 통해 변환된 명령어 텍스트가 지원 가능한 명령어인지를 판단하는 제1 판단수단(30);
    현재 시나리오 단계에서 입력된 명령어가 처리 가능한 명령어인지를 판단하는 제2 판단수단(40);
    사용자 패턴과 오류 패턴에 대한 정보를 저장하고 있는 오류 DB(50);
    상기 제1,제2 판단수단에 의해 지원가능하지 않는 명령어나, 처리 불가능한 명령어로 판단된 명령어에 대해, 어떠한 종류의 오류 패턴을 갖고 있는지를 분석하고, 분석된 오류 패턴이 상기 오류DB에 존재하는 오류 패턴인지를 확인하는 오류 분석/확인 수단(60);
    상기 제1판단수단에 의해 지원 가능한 명령어로 판단되면 해당 시나리오 단계로 천이시키고, 상기 제2판단수단에 의해 처리가능한 명령어로 판단되면 해당 기능을 실행 시킨후 종료 시키며, 상기 오류 분석/확인 수단에 의해 오류DB에 존재하는 오류패턴인것으로 확인되면 오류가 수정된 명령어에 해당하는 서비스 시나리오 단계로 천이시키고, 존재하지 않는 오류패턴인 것으로 확인되면 오류 안내 후 시스템을 종료시키는 동작을 수행하는 제어수단(70)을 포함하는 것을 특징으로 하는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리 시스템.
  8. 제6항에 있어서,
    상기 오류 DB(50)에 저장되는 정보는 사용자평가 및 WOZ테스트를 통하여 추출된 사용자가 대면하는 오류상황과 그 상황에서의 사용자패턴에 대한 정보인것에 특징이 있는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식처리 처리 시스템.
  9. 제1항 또는 제4항에 있어서,
    상기 단계 S7에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 현재 단계에서 처리가능한 명령어인지를 판단하는 것에 특징이 있는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
  10. 제3항에 있어서,
    상기 단계 S5에서의 판단은 입력된 명령어의 컨피던스 레벨이 기준치레벨 이상인지, 기준치레벨과 리젝션레벨 사이인지, 리젝션레벨 이하인지를 판단하는 것과 현재 단계에서 처리가능한 명령어인지를 판단하는 것에 특징이 있는 사용자 패턴에 기반한 오류 DB모듈을 적용한 임베디드 음성인식 처리방법.
PCT/KR2015/002105 2015-02-10 2015-03-04 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템 WO2016129740A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150020512A KR101614746B1 (ko) 2015-02-10 2015-02-10 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
KR10-2015-0020512 2015-02-10

Publications (1)

Publication Number Publication Date
WO2016129740A1 true WO2016129740A1 (ko) 2016-08-18

Family

ID=56021690

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/002105 WO2016129740A1 (ko) 2015-02-10 2015-03-04 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템

Country Status (2)

Country Link
KR (1) KR101614746B1 (ko)
WO (1) WO2016129740A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648749A (zh) * 2018-05-08 2018-10-12 上海嘉奥信息科技发展有限公司 基于声控系统与vr的医疗语音识别构建方法及系统
CN108694943A (zh) * 2017-03-30 2018-10-23 Lg电子株式会社 语音服务器、语音识别服务器系统及其动作方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10521723B2 (en) 2016-12-14 2019-12-31 Samsung Electronics Co., Ltd. Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
WO2018155810A1 (ko) * 2017-02-21 2018-08-30 삼성전자 주식회사 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
KR102490916B1 (ko) * 2017-02-21 2023-01-20 삼성전자주식회사 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
KR20200063521A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102219800B1 (ko) * 2019-06-13 2021-02-23 엘지전자 주식회사 음성 서버, 음성 인식 서버 시스템 및 그 동작 방법
KR102219799B1 (ko) * 2019-06-13 2021-02-23 엘지전자 주식회사 음성 서버, 음성 인식 서버 시스템 및 그 동작 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11337363A (ja) * 1998-05-29 1999-12-10 Clarion Co Ltd ナビゲーションシステム及び方法並びにナビゲーション用ソフトウェアを記録した記録媒体
KR20080038896A (ko) * 2006-10-31 2008-05-07 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
KR20100011786A (ko) * 2008-07-25 2010-02-03 엘지전자 주식회사 이동 단말기 및 그의 음성 명령 인식 방법
US20120029909A1 (en) * 2009-02-16 2012-02-02 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing
KR20120079344A (ko) * 2011-01-04 2012-07-12 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11337363A (ja) * 1998-05-29 1999-12-10 Clarion Co Ltd ナビゲーションシステム及び方法並びにナビゲーション用ソフトウェアを記録した記録媒体
KR20080038896A (ko) * 2006-10-31 2008-05-07 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
KR20100011786A (ko) * 2008-07-25 2010-02-03 엘지전자 주식회사 이동 단말기 및 그의 음성 명령 인식 방법
US20120029909A1 (en) * 2009-02-16 2012-02-02 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing
KR20120079344A (ko) * 2011-01-04 2012-07-12 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694943A (zh) * 2017-03-30 2018-10-23 Lg电子株式会社 语音服务器、语音识别服务器系统及其动作方法
CN108648749A (zh) * 2018-05-08 2018-10-12 上海嘉奥信息科技发展有限公司 基于声控系统与vr的医疗语音识别构建方法及系统

Also Published As

Publication number Publication date
KR101614746B1 (ko) 2016-05-02

Similar Documents

Publication Publication Date Title
WO2016129740A1 (ko) 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
RU2672000C2 (ru) Устранение неоднозначности динамических команд
CN109360563B (zh) 一种语音控制方法、装置、存储介质及空调
US7792678B2 (en) Method and device for enhancing accuracy of voice control with image characteristic
CA2966906A1 (en) Method and apparatus for facilitating speech application testing
US20050234720A1 (en) Voice application system
CN104347075A (zh) 以语音识别来选择控制客体的装置及方法
CN103838991A (zh) 一种信息处理方法及电子设备
CN109637536B (zh) 一种自动化识别语义准确性的方法及装置
CN103106061A (zh) 语音输入方法和装置
CN105979462A (zh) 一种基于麦克风的测试处理方法和装置
EP3790001B1 (en) Speech information processing method, device and storage medium
CN105931642B (zh) 语音识别方法、设备及系统
CN111210842A (zh) 语音质检方法、装置、终端及计算机可读存储介质
CN110784591A (zh) 智能语音自动化探测方法、装置及系统
WO2015163684A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN109117368A (zh) 一种接口测试方法、电子设备及存储介质
CN109616106A (zh) 车载控制屏语音识别过程测试方法、电子设备、系统
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
CN110858479A (zh) 语音识别模型更新方法、装置、存储介质及电子设备
WO2018117660A1 (en) Security enhanced speech recognition method and device
CN105096945A (zh) 一种终端的语音识别方法和装置
WO2023063718A1 (en) Method and system for device feature analysis to improve user experience
CN104347070A (zh) 以语音识别来选择控制客体的装置及方法
WO2015050348A1 (ko) 객체 추출 기반의 어플리케이션 검증 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15882103

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 12/12/2017)

122 Ep: pct application non-entry in european phase

Ref document number: 15882103

Country of ref document: EP

Kind code of ref document: A1