WO2015053560A1 - 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치 - Google Patents

디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치 Download PDF

Info

Publication number
WO2015053560A1
WO2015053560A1 PCT/KR2014/009482 KR2014009482W WO2015053560A1 WO 2015053560 A1 WO2015053560 A1 WO 2015053560A1 KR 2014009482 W KR2014009482 W KR 2014009482W WO 2015053560 A1 WO2015053560 A1 WO 2015053560A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
grammar model
state
speech recognition
probe
Prior art date
Application number
PCT/KR2014/009482
Other languages
English (en)
French (fr)
Inventor
박치연
이청재
김남훈
이경민
이재원
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to CN201480067289.7A priority Critical patent/CN105814628B/zh
Priority claimed from KR1020140135971A external-priority patent/KR102274317B1/ko
Publication of WO2015053560A1 publication Critical patent/WO2015053560A1/ko
Priority to US15/093,323 priority patent/US10636417B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a method and apparatus for performing speech recognition based on device information.
  • Speech recognition is a technology that receives a user's voice and automatically converts it into text. Recently, voice recognition is being used as an interface technology for replacing keyboard input in a smartphone or a TV.
  • a speech recognition system may perform speech recognition using an acoustic model, a grammar model, and a pronunciation dictionary.
  • a grammar model In the speech recognition system, in order to recognize a word from a voice signal, it is necessary to construct a grammar model, a pronunciation dictionary, etc. for the word in advance.
  • the present invention relates to a method and apparatus for performing speech recognition based on device information, and more particularly, to a method and apparatus for performing speech recognition based on state information of a device which can be controlled according to a speech recognition result.
  • FIG. 1 is a block diagram illustrating a voice recognition system including at least one device and a voice recognition apparatus according to an exemplary embodiment.
  • FIG. 2 is an exemplary diagram illustrating a process of generating a grammar model in a speech recognition apparatus according to an exemplary embodiment.
  • FIG. 3 is a block diagram illustrating an example of a speech recognition unit 300 according to an exemplary embodiment.
  • FIG. 4 is a flowchart illustrating a method of obtaining a grammar model, according to an exemplary embodiment.
  • FIG. 5 is a flowchart illustrating a method of obtaining a grammar model, according to an exemplary embodiment.
  • FIG. 6 is an exemplary diagram for describing an example of a method of obtaining a grammar model for controlling an ultrasound apparatus, according to an exemplary embodiment.
  • FIG. 7 is a flowchart illustrating a method of obtaining a grammar model in an ultrasound apparatus, according to an exemplary embodiment.
  • FIG. 8 is an exemplary diagram illustrating an example of a state of an ultrasound apparatus according to an exemplary embodiment.
  • FIG. 9 is an exemplary diagram for explaining an example of obtaining a grammar model for controlling a home appliance according to a voice command.
  • FIGS. 10 and 11 are block diagrams illustrating an internal configuration of a speech recognition apparatus for obtaining a grammar model, according to an exemplary embodiment.
  • a method of obtaining a grammar model for performing speech recognition comprising: obtaining information regarding a state of at least one device; Obtaining grammar model information for the at least one device based on the obtained information; And generating a grammar model for performing the speech recognition based on the obtained grammar model information.
  • the information about the state of the at least one device may include information about an operating state of each device, whether control of each device is possible, information on mounting or connected location of each device, and an operation that can be performed on each device. At least one of the.
  • the grammar model information includes at least one pattern information, into which a string may be substituted based on the information about the state of the device, and generating the grammar model may determine the string to be substituted into the pattern information.
  • the method may further include performing speech recognition based on the generated grammar model.
  • the method acquires information about the state of the device, obtains the grammar model information based on the obtained information, and obtains the obtained grammar model information. Generate the grammar model based on this.
  • the grammar model information about the device may include grammar model information about a control command that may be performed by the ultrasound apparatus of the probe according to an app or preset set for the probe or a type of the probe. Include.
  • An apparatus for obtaining a grammar model for performing speech recognition obtains information regarding a state of at least one device, and based on the obtained information, obtains grammar model information about the at least one device.
  • part refers to a hardware component, such as software, FPGA or ASIC, and “part” plays certain roles. However, “part” is not meant to be limited to software or hardware.
  • the “unit” may be configured to be in an addressable storage medium and may be configured to play one or more processors.
  • a “part” refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables.
  • the functionality provided within the components and “parts” may be combined into a smaller number of components and “parts” or further separated into additional components and “parts”.
  • FIG. 1 is a block diagram illustrating a voice recognition system including at least one device and a voice recognition apparatus according to an exemplary embodiment.
  • the voice recognition system 110 may include a voice recognition device 110 that performs voice recognition and at least one device 120, 130, 140.
  • the speech recognition apparatus 110 may control a device based on a string obtained by performing speech recognition on a user's voice and performing speech recognition.
  • the speech recognition apparatus 110 may transmit a control signal for controlling the device to the at least one device 120, 130, 140 based on the character string obtained as a result of the speech recognition.
  • the devices 120, 130, and 140 may operate according to control signals transmitted based on a voice command of the user.
  • the speech recognition apparatus 110 may receive information regarding the state of each device from the at least one device 120, 130, 140. When the state of each device changes, the voice recognition apparatus 110 may receive information about the changed state. The speech recognition apparatus 110 may obtain grammar model information about at least one device based on the received information, and generate a grammar model for speech recognition from the grammar model information. The speech recognition apparatus 110 may generate a new grammar model to be used for speech recognition whenever the state of at least one device is changed.
  • the grammar model includes occurrence probability information for each word and may be used for speech recognition. A detailed description thereof will be described with reference to FIG. 3.
  • the grammar model that may be used when speech recognition is performed by the speech recognition apparatus 110 may be generated based on grammar model information of a currently controllable device. Accordingly, the speech recognition apparatus 110 according to an embodiment may minimize the possibility of misrecognition by performing speech recognition based on grammar model information of a controllable device without supporting unnecessary grammar models.
  • the unnecessary grammar model includes a grammar model of the device that cannot be controlled by the speech recognition apparatus 110.
  • Grammar model information includes a command model for the device.
  • the grammar model information may be composed of at least one command model that can control the device.
  • the grammar model information may include a command model such as 'grow volume' and 'to next channel'.
  • the command model described above includes a string of commands recognizable by the voice recognition apparatus 110.
  • the command model of the grammar model information may include pattern information in which different strings may be inserted according to the state of the device, instead of the fixed string command.
  • a character string indicating the mounting position of the device or the identification information of the application installed in the device may be inserted into the pattern information based on the state information of the device.
  • the text string that can be inserted into the pattern information includes a text string that can be spoken by the user during a voice command.
  • Information about a mounting position of the device or an application installed in the device is information that may change according to the state of the device.
  • the speech recognition apparatus 110 may determine a character string to be inserted into the pattern information based on the state information of the device, and insert the determined character string into the pattern information.
  • the speech recognition apparatus 110 may obtain a grammar model for speech recognition from grammar model information for each device including a plurality of command models by inserting a string into the pattern information.
  • the speech recognition apparatus 110 may merge grammar model information of at least one device having a character string inserted into the pattern information.
  • the speech recognition apparatus 110 may generate a grammar model including occurrence probability information of each word based on the command model of the merged grammar model information.
  • the speech recognition apparatus 110 may obtain a grammar model for each grammar model information without merging the grammar model information of the device.
  • the occurrence probability information of each word may include conditional appearance probability information of each word subject to the appearance of a previous or subsequent word. A detailed description will be described in more detail with reference to FIG. 3 below.
  • the speech recognition apparatus 110 may perform speech recognition for controlling at least one device based on the generated grammar model.
  • FIG. 2 is an exemplary diagram illustrating a process of generating a grammar model in a speech recognition apparatus according to an exemplary embodiment.
  • the speech recognition apparatus 200 of FIG. 2 may include a grammar model generator 210 and a speech recognizer 220.
  • the grammar model generator 210 may generate a grammar model based on state information of the device.
  • the grammar model generator 210 may generate grammar models used for speech recognition by obtaining grammar model information of a controllable device based on state information of the device.
  • the grammar model used for speech recognition is obtained by merging grammar model information of at least one device that can be controlled by the grammar model generation unit 210 and obtaining information about probability of occurrence of each word from a command model included in each grammar model information. Can be.
  • controllable device may include a device that is connected to the voice recognition apparatus 110 in a state capable of receiving a control signal.
  • controllable device may include a device in which the control authority of the user of the voice recognition device 110 or the voice recognition device 110 exists.
  • the grammar model generating unit 210 determines a string to be inserted into the pattern information included in the grammar model information based on the state information of each device, and inserts the determined string into the pattern information to obtain grammar model information for each device. Can be obtained.
  • the grammar model generator 210 may generate a grammar model for speech recognition from grammar model information for each device.
  • the speech recognizer 220 may perform speech recognition using the grammar model generated by the grammar model generator 210. In detail, when the user's voice is input, the speech recognizer 220 may perform speech recognition using a grammar model. Based on the result of the speech recognition, the speech recognition unit 220 may output a control signal for controlling the device with at least one device.
  • FIG. 3 is a block diagram illustrating an example of a speech recognition unit 300 according to an exemplary embodiment.
  • the speech recognizer 300 may include a feature extractor 310, a candidate pronunciation string detector 320, and a language selector 340 as a component for performing speech recognition.
  • the feature extractor 310 extracts feature information about the input voice signal.
  • the candidate pronunciation string detector 320 detects at least one candidate pronunciation string from the extracted feature information.
  • the language selector 340 selects a speech-recognized final language based on the appearance probability information of each candidate pronunciation string.
  • the occurrence probability information of the word refers to the probability information of the occurrence of the word in the speech recognized language when speech recognition is performed.
  • each component of the speech recognition unit 300 will be described in detail.
  • the feature extractor 310 When the feature extractor 310 receives the voice signal, the feature extractor 310 detects only the voice part spoken by the actual speaker and extracts information representing the feature of the voice signal.
  • the information representing the characteristics of the voice signal may include, for example, information that may indicate the shape of the mouth or the tongue according to the waveform to which the voice signal belongs.
  • the candidate pronunciation sequence detector 320 may detect at least one candidate pronunciation sequence that may be matched with the speech signal using the extracted feature information of the speech signal and the acoustic model 130.
  • a plurality of candidate pronunciation strings may be detected according to the voice signal. For example, since the pronunciation of 'jer', 'low', etc. is similar, a plurality of candidate pronunciation strings including pronunciation of 'jer', 'low', etc. may be detected for the same voice signal.
  • the candidate pronunciation string may be detected in word units, but the present invention is not limited thereto, and the candidate pronunciation string may be detected in various units such as phoneme and phoneme.
  • the acoustic model 330 may include information for detecting a candidate pronunciation string from feature information of the voice signal. Also, the acoustic model 330 may be generated from a large amount of speech data through a statistical method, may be generated from an unspecified number of speech data, or may be generated from speech data collected from a specific speaker. Therefore, the acoustic model may be individually applied to speech recognition according to the speaker.
  • the language selector 340 may obtain occurrence probability information of each candidate pronunciation string detected by the candidate pronunciation string detector 320 using the pronunciation dictionary 350 and the grammar model 360.
  • the language selector 340 selects a speech-recognized final language based on the appearance probability information of each candidate pronunciation string.
  • the language selector 340 may determine a word corresponding to each candidate pronunciation string using the pronunciation dictionary 350 and obtain a probability value of occurrence of each word determined using the grammar model 360.
  • the pronunciation dictionary 350 may include information necessary for obtaining a word corresponding to the candidate pronunciation string detected by the candidate pronunciation string detector 320.
  • the pronunciation dictionary 350 may be constructed from the pronunciation strings acquired according to phonological change of each word.
  • the occurrence probability value means a probability that the current word appears or a probability that the current word appears simultaneously with a specific word.
  • the speech recognition unit 300 may perform speech recognition in consideration of the context by using the appearance probability value.
  • the speech recognition unit 300 may perform speech recognition by obtaining words of a candidate pronunciation string using the pronunciation dictionary 350 and obtaining occurrence probability information for each word using the grammar model 360.
  • the voice recognition unit 300 may obtain the appearance probability information from the grammar model 360 using the candidate pronunciation string without obtaining a word corresponding to the pronunciation string through the pronunciation dictionary 350.
  • the grammar model 360 may include occurrence probability information about a word.
  • the appearance probability information may exist for each word.
  • the speech recognizer 300 may obtain appearance probability information on words included in each candidate pronunciation string from the grammar model 360.
  • the speech recognizer 300 may finally determine the speech recognized word based on the occurrence probability information of the word corresponding to each candidate pronunciation string in the language selector 340 using the grammar model 360. That is, the speech recognition unit 300 may finally determine the word having the highest appearance probability information as the speech recognized word.
  • the language selector 340 may output the voice recognized word as text information.
  • FIG. 4 is a flowchart illustrating a method of obtaining a grammar model, according to an exemplary embodiment.
  • the speech recognition apparatus 110 may obtain information about a state of at least one device.
  • the state information of the devices that can be obtained by the voice recognition apparatus 110 includes information on an operation state of each device, whether each device can be controlled, information about a mounting or connected location of each device, and an operation that can be performed on each device. It may include at least one of.
  • the speech recognition apparatus 110 may obtain grammar model information about at least one device based on the state information obtained in operation S401.
  • the speech recognition apparatus 110 may be connected to the speech recognition apparatus 110 by wire or wireless, and may acquire grammar model information of a controllable device according to the speech recognized command.
  • the speech recognition apparatus 110 may generate a grammar model for performing speech recognition based on the grammar model information obtained in operation S403.
  • the speech recognition apparatus 110 obtains grammar model information of each device by inserting a string into the pattern information of the grammar model information obtained in step S403, and generates a grammar model for speech recognition from the obtained grammar model information. can do.
  • the character string that can be inserted into the pattern information may be determined based on the state information obtained in step S401.
  • the speech recognition apparatus 110 may determine the character string to be inserted into the pattern information according to the information about the mounting or connected position of each device. .
  • the speech recognition apparatus 110 may determine a string indicating a mounting or connected position of the device as a string to be inserted into the pattern information.
  • FIG. 5 is a flowchart illustrating a method of obtaining a grammar model, according to an exemplary embodiment.
  • the speech recognition apparatus 110 may obtain state information of a device that can be controlled according to a voice command of a user.
  • the state information of the device may be configured as shown in Table 1 below.
  • the slot in which device 1 is currently mounted is Slot 1
  • Application 1 is installed in device 1. Since the device is mounted in the slot, the voice recognition apparatus 110 may transmit a control signal to the device, so that the voice recognition apparatus 110 may determine that the device includes the slot information as a controllable device.
  • the speech recognition apparatus 110 may acquire grammar model information of a device that can be controlled according to a user's voice command based on the state information obtained in operation S501. According to the state information of the device of Table 1, since the devices 1 and 2 in which the slot information exists can be controlled according to the voice command, the speech recognition apparatus 110 may obtain grammar model information of the devices 1 and 2.
  • the grammar model information may be stored in a memory of the speech recognition apparatus 110 or may be obtained from the outside.
  • the grammar model information of the device may be configured as shown in Table 2 below.
  • the grammar model information may be composed of at least one command model as shown in Table 2.
  • the command model of each device may be separated by '
  • @ Pat1 and @ Pat2 included in some command models are pattern information, and a character string determined according to state information may be inserted into the pattern information.
  • the back may include commands such as 'brighten screen' and 'power off'.
  • the speech recognition apparatus 110 may obtain a speech table.
  • the speech table includes a string corresponding to each pattern information that can be determined according to the state information of the device.
  • the speech recognition apparatus 110 may determine a character string to be inserted into the pattern information of the grammar model information using the speech table.
  • the utterance table may be configured as shown in Table 3 below.
  • Applications D and E corresponding to one pattern information may be applications having the same function or the same user.
  • the command model including @ Pat2 may be a command model for music playing.
  • the speech recognition apparatus 110 may obtain a character string corresponding to the pattern information according to the state information obtained in operation S501 from the speech table.
  • the speech recognition apparatus 110 may obtain a string to be inserted into pattern information for each device.
  • the voice information of the voice table may be configured by a string that a user can voice to perform a voice command. For example, when the user speaks Slot 1 as 'Slot A', the speech information corresponding to the status information Slot 1 may be 'Slot A'.
  • the speech recognition apparatus 110 obtains a character string to be inserted into pattern information from the utterance table of Table 3 according to the state information of Table 1.
  • the device 1 is installed in the slot 1 and the application 1 is installed. Therefore, the string to be inserted into @ Pat1 may be determined as 'Slot A' corresponding to @ Pat1 and Slot 1. Also, the string to be inserted into @ Pat2 may be determined as 'application D' corresponding to @ Pat2 and Application 1.
  • the device 2 is mounted in the slot 2, and the application 1 and the application 2 are installed. Therefore, the string to be inserted into @ Pat1 may be determined as 'slot B' corresponding to @ Pat1 and Slot 2. Also, the string to be inserted into @ Pat2 may be determined as 'application D' corresponding to @ Pat2 and Application 1 and 'application E' corresponding to @ Pat2 and Application 2.
  • a plurality of strings to be inserted into @ Pat2 of the device 2 may be determined.
  • a plurality of strings to be inserted into one pattern information may be determined according to state information or speech information.
  • a plurality of command models in which each character string is inserted into the pattern information are generated from one command model.
  • the command models of the application D and the application E may be generated for the command models of @ Pat2 among the grammar model information of the device 2.
  • the speech recognition apparatus 110 may acquire grammar model information for each device by substituting the string information obtained in operation S507 into pattern information of the grammar model information.
  • the grammar model information of the device including the command models in which the string obtained in step S507 is inserted may be obtained as shown in Table 4 below.
  • the speech recognition apparatus 110 may generate the final grammar model for performing speech recognition from the combined grammar model information by combining the grammar model information of the device generated in operation S509.
  • a final grammar model for speech recognition may be generated from the final grammar model information as shown in Table 5.
  • the speech recognition apparatus 110 may generate a final grammar model by determining occurrence probability information of each word using at least one command model of Table 5.
  • the voice recognition apparatus 110 may acquire information about the state of the detected device.
  • the device that may be sensed may include a device changed from the uncontrollable state to the controllable state by the voice recognition apparatus 110 or a device changed from the controllable state to the uncontrollable state.
  • the device that may be detected may include a device whose state is changed among devices in a state that can be controlled by the voice recognition apparatus 110.
  • the voice recognition apparatus 110 may detect whether at least one device is mounted or removed from the slot. Alternatively, the voice recognition apparatus 110 may detect whether an application is installed or deleted on at least one device.
  • the speech recognition apparatus 110 may generate a grammar model according to the state information obtained in step S519. Therefore, according to an embodiment of the present disclosure, the final grammar model may be generated based on the new state information whenever the state of the device is changed.
  • the speech recognition apparatus 110 may perform speech recognition based on the final grammar model.
  • the speech recognition apparatus 110 may perform speech recognition based on the final grammar model at the time of performing speech recognition.
  • the grammar model that may be used in speech recognition may further include not only the grammar model generated in step S511 but also other grammar models.
  • the grammar model that may be used in speech recognition may include a grammar model that may be used universally in basic speech recognition.
  • the speech recognition apparatus 110 may control the device according to the speech recognition result performed in operation S515.
  • the voice recognition apparatus 110 may generate and transmit a control signal for controlling the device according to the voice recognition result.
  • FIG. 6 is an exemplary diagram for describing an example of a method of obtaining a grammar model for controlling an ultrasound apparatus, according to an exemplary embodiment.
  • the ultrasound apparatus 600 includes a probe 620, slots 630 in which the probe may be mounted, and a microphone 610 in which a voice command of a user may be input.
  • the probe 620 may function like the at least one device described above that may be controlled according to a voice command of a user input from the microphone 610. Therefore, according to an embodiment, grammar model information may exist for each probe 620.
  • grammar model information may exist for each probe identification ID.
  • the state information existing for each probe may be configured as shown in Table 7 below by way of example.
  • grammar model information may exist for each detailed state information.
  • grammar model information may exist for each app representing the ultrasound inspection site and for each preset representing the setting information of the ultrasound apparatus.
  • grammar model information may be configured for each App.Preset as shown in Table 8 below.
  • the ultrasound apparatus 600 may generate a grammar model for speech recognition based on grammar model information corresponding to an app and preset information that can be obtained from the probe state information.
  • the grammar model information of the probe 53 may include grammar model information of the probe 53 shown in Table 6 and grammar model information of the 'abdominal aorta' shown in Table 8.
  • the grammar model information for the probe 6D is the grammar model information for the probe 6D shown in Table 6 and the ultrasound apparatus 600 shown in Table 8 is based on the state information of Table 7 'gram of abdomen.' May contain information.
  • the ultrasound apparatus 600 merges the grammar model information of the probe, the grammar model information according to the app and the preset information, and the ultrasound apparatus 600 may determine a character string that is voice information to be inserted into the pattern information for each probe.
  • the ultrasound apparatus 600 may obtain the final grammar model by inserting the determined character string into the pattern information.
  • the ultrasound apparatus 600 may obtain a string to be inserted into pattern information among grammar model information of each probe with reference to the utterance table of Table 9 below.
  • the utterance table of Table 9 is merely an example, and utterance information corresponding to the pattern information, that is, a string may be determined based on various state information.
  • a scanable test site may be determined. For example, in the case of a 6D probe, an obstetrics app, a gynecology app, and a urology app may be scanned. Do.
  • a preset that can be set according to an app may be determined.
  • the preset that can be set is 1st trimester.
  • configurable presets include Uterus and adnexa.
  • the configurable preset has a prostate.
  • the ultrasound apparatus 600 may obtain grammar model information including command models that may be included in the voice command according to the control command available according to the probe-specific state information.
  • the ultrasound apparatus 600 may obtain grammar model information on an app or preset that can be currently commanded, and obtain a final grammar model based on the type of each probe and the inspection site (app) currently being scanned. For example, the ultrasound apparatus 600 may obtain grammar model information on an app or preset that can be currently commanded, and obtain a final grammar model, depending on whether the app is selected or a preset is selected.
  • FIG. 7 is a flowchart illustrating a method of obtaining a grammar model in an ultrasound apparatus, according to an exemplary embodiment.
  • the ultrasound apparatus 700 may perform speech recognition according to a main grammar model that is basically set.
  • the main grammar model may include the grammar model that can be used universally described above.
  • the state of step S701 is referred to as a main state as a basic state.
  • the current state may be changed to a probe state, that is, a state in which a probe is to be selected, according to the probe change request.
  • the probe change request means to change the scan image of the currently output probe into a scan image of another probe. In the probe state, not only the probe but also the app can be selected together.
  • the ultrasound apparatus 600 may perform speech recognition according to a grammar model of a probe that is currently controllable or mounted in a slot. For example, the ultrasound apparatus 600 may perform speech recognition according to the acquired grammar model based on the grammar model information for each probe shown in Table 6.
  • the state of the ultrasound apparatus 600 may be changed back from the probe state to the main state.
  • the speech recognition not only the probe but also the app may be selected together.
  • the state of the current ultrasound apparatus 600 may be changed to a comment state, that is, to determine preset information according to a scan area or a preset determination request.
  • the preset determination request described above may be generated according to a user's voice or a button input or a control signal generated according to a predetermined algorithm.
  • the ultrasound apparatus 600 may perform speech recognition according to a grammar model for the preset, based on the currently selected probe type or app. For example, speech recognition may be performed according to the grammar model obtained based on the app. Preset grammar model information shown in Table 8.
  • the state of the ultrasound apparatus 600 may be changed back from the annotation state to the main state.
  • FIG. 8 is an exemplary diagram illustrating an example of a state of an ultrasound apparatus according to an exemplary embodiment.
  • the state of the ultrasound apparatus 600 includes a main state 810, a probe state 820, and a tin state 830.
  • the state of the ultrasound apparatus 600 may further include various states according to the state of the ultrasound apparatus 600.
  • the main state 810 means a basically set state of the ultrasound apparatus 600 as described above, and speech recognition may be performed according to a grammar model that may be used universally in speech recognition.
  • the probe state 820 or the tin state 830 ends, the state of the ultrasound apparatus 600 may be automatically changed to the main state 810.
  • the voice command model that can be recognized in the main state 810 may include 'change probe, text, freeze', and the like.
  • the probe state 820 is a state of the ultrasound apparatus 600, which may be changed according to a request for changing a scan image of a probe currently being output.
  • the state of the ultrasound apparatus 600 may change from the main state 810 to the probe state 820.
  • the scan image of the probe output according to the voice command is changed to the scan image of another probe, the state of the probe apparatus 600 may be changed back to the main state 810.
  • an app which is a portion that can be scanned along with a probe change, is also selectable.
  • the voice command model that can be recognized in the probe state 820 may include 'probe 1 abdomen aorta, thyroid, and the like'.
  • the ultrasound apparatus 600 may scan a 'thyroid' or select a probe capable of scanning 'thyroid'. Alternatively, the ultrasound apparatus 600 may change the scan region of the probe currently being output to the 'thyroid gland'.
  • the annotation state 830 refers to a state of the ultrasound apparatus 600 to determine preset information of the currently selected probe. For example, as the user's voice command of 'text' is received, the state of the ultrasound apparatus 600 may change from the main state 810 to the annotation state 830. When the preset information of the currently selected probe is determined according to the voice command, the state of the probe device 600 may be changed back to the main state 810.
  • the voice command model that can be recognized in the annotation state 830 may include 'Lt Proximal, Bladder, and the like'.
  • FIG. 9 is an exemplary diagram for explaining an example of obtaining a grammar model for controlling a home appliance according to a voice command.
  • home appliances that may be controlled by the voice recognition apparatus 910 are present in room 1 920 or room 2 930.
  • the speech recognition apparatus 910 may obtain state information of the home appliances as shown in Table 10 below.
  • the location information 1 and 2 mean room 1 and room 2, respectively.
  • Room 1 and room 2 may be uttered as 'my room' and 'living room' in user voice commands, respectively.
  • the speech recognition apparatus 910 may obtain grammar model information of controllable home appliances according to a voice command as shown in Table 11 below.
  • Table 11 Appliance ID Grammar model information for each home appliance TV1
  • the voice recognition device 910 may determine controllable home appliances as home appliances having location information based on state information about the home appliances. For example, based on the state information of the home appliance of Table 10, the speech recognition apparatus 910 may obtain grammar model information about TV1, TV2, Audio1 in which the location information exists.
  • the speech recognition apparatus 910 may obtain a utterance table for each pattern information to obtain a string to be inserted into the pattern information included in the grammar model information.
  • a utterance table such as Table 12 may be obtained.
  • the voice recognition apparatus 910 may determine voice information to be inserted into @Room, which is pattern information, for each home appliance, based on the voice table and state information. In the case of TV1 and Audio1, since the location information is 1, the voice information to be inserted into the @Room may be determined as 'my room'. Similarly, in the case of TV2, since the location information is 2, the voice information to be inserted into the @Room may be determined as 'living room'.
  • the speech recognition apparatus 910 may obtain a final grammar model for performing speech recognition from grammar model information configured as shown in Table 13 below, in which speech information is inserted into each pattern information.
  • FIGS. 10 and 11 are block diagrams illustrating an internal configuration of a speech recognition apparatus for obtaining a grammar model, according to an exemplary embodiment.
  • the voice recognition apparatuses 1000 and 1100 of FIGS. 10 and 11 may correspond to the voice recognition apparatus 110 of FIG. 1.
  • the configuration of the voice recognition apparatuses 1000 and 1100 illustrated in FIGS. 10 and 11 may include, for example, a mobile phone, a tablet PC, a PDA, an MP3 player, a kiosk, an electronic picture frame, a navigation device, a digital TV, and a wrist watch. ), And may be applied to various types of devices such as smart glasses, virtual reality goggles, or wearable devices such as head-mounted displays (HMD).
  • HMD head-mounted displays
  • the voice recognition apparatus 110 of FIG. 1 may be a terminal device such as the voice recognition apparatuses 1000 and 1100 illustrated in FIG. 10 or 11, but is not limited thereto.
  • the server may receive and process a user input from the terminal device. It may be a device.
  • the speech recognition apparatus 110 is a server apparatus, the speech recognition apparatus 110 may obtain a grammar model based on a user input received from the outside and state information of the device.
  • the voice recognition apparatus 110 may perform voice recognition on the input voice using the obtained grammar model, and transmit a control signal for controlling the device according to the voice recognition result.
  • the voice recognition apparatus 1000 may include a receiver 1030 and a controller 1070.
  • the individual components included in the speech recognition apparatus 1000 may be distributed or integrated in a physical or logical form.
  • the receiver 1030 may acquire state information of the device from the outside.
  • the grammar model information of the controllable device may be obtained based on the state information of the device.
  • the receiver 1030 may determine a controllable device according to the voice command recognized by the voice recognition apparatus 1000 according to the state information of the device.
  • the receiver 1030 may acquire grammar model information of the controllable device.
  • the controller 1070 may generate a grammar model for performing speech recognition based on the grammar model information of the device obtained by the receiver 1030.
  • the speech recognition apparatus 1000 may be implemented by more components than the illustrated components, and the speech recognition apparatus 1000 may be implemented by fewer components.
  • the voice recognition apparatus 1100 may include a receiver 1130, a controller 1170, a speaker 1160, a memory 1120, and a GPS chip 1125. It may include a communication unit 1130, a video processor 1135, an audio processor 1140, a user input unit 1145, a microphone unit 1150, an imaging unit 1155, and a motion detection unit 1165.
  • the display 1110 may include a display panel 1111 and a controller (not shown) for controlling the display panel 1111.
  • the display panel 1111 includes various types of displays such as a liquid crystal display (LCD), an organic light emitting diode (OLED) display, an active-matrix organic light-emitting diode (AM-OLED), a plasma display panel (PDP), and the like. Can be.
  • the display panel 1111 may be implemented to be flexible, transparent, or wearable.
  • the display 1110 may be combined with the touch panel 1147 of the user input unit 1145 and provided as a touch screen.
  • the touch screen may include an integrated module in which the display panel 1111 and the touch panel 1147 are combined in a stacked structure.
  • the display 1110 may display an image corresponding to the audio signal output by the speaker 2460 under the control of the controller 1170.
  • the image that may be displayed by the display 1110 may include not only a planar image but also a 3D stereoscopic image.
  • the memory 1120 may include at least one of an internal memory (not shown) and an external memory (not shown).
  • the built-in memory may be, for example, volatile memory (for example, dynamic RAM (DRAM), static RAM (SRAM), synchronous dynamic RAM (SDRAM), etc.), nonvolatile memory (for example, one time programmable ROM). ), Programmable ROM (PROM), Eraseable and Programmable ROM (EPROM), Electrically Erasable and Programmable ROM (EEPROM), Mask ROM, Flash ROM, etc.), Hard Disk Drive (HDD) or Solid State Drive (SSD) It may include.
  • the controller 1170 may load and process a command or data received from at least one of the nonvolatile memory or another component in the volatile memory.
  • the controller 1170 may store data received or generated from another component in the nonvolatile memory.
  • the external memory may include at least one of Compact Flash (CF), Secure Digital (SD), Micro Secure Digital (Micro-SD), Mini Secure Digital (Mini-SD), Extreme Digital (xD), and a Memory Stick. It may include.
  • the memory 1120 may store various programs and data used for the operation of the voice recognition device 1100. According to an embodiment of the present disclosure, at least one of a utterance table, device-specific grammar model information, device-specific state information, and grammar model information may be temporarily or semi-permanently stored in the memory 1120.
  • the controller 1170 may control the display 1110 such that a part of the information stored in the memory 1120 is displayed on the display 1110. In other words, the controller 1170 may display the image stored in the memory 1120 on the display 1110. Alternatively, when a user gesture is made in one area of the display 1110, the controller 1170 may perform a control operation corresponding to the gesture of the user.
  • the controller 1170 may include at least one of a RAM 1171, a ROM 1172, a CPU 1173, a Graphic Processing Unit (GPU) 1174, and a bus 1175.
  • the RAM 1171, the ROM 1172, the CPU 1175, the GPU 1174, and the like may be connected to each other through the bus 1175.
  • the CPU 1173 accesses the memory 1120 and performs booting using an operating system stored in the memory 1120. In addition, various operations are performed using various programs, contents, data, etc. stored in the memory 1120.
  • the ROM 1172 stores a command set for system booting. For example, when a turn-on command is input and power is supplied, the voice recognition device 1100 copies the O / S stored in the memory 1120 to the RAM 1171 according to a command stored in the ROM 1172. You can boot the system by running O / S. When the booting is completed, the CPU 1171 copies various programs stored in the memory 1120 to the RAM 1171, and executes the programs copied to the RAM 1171 to perform various operations.
  • the GPU 1174 displays a UI screen on an area of the display 1110.
  • the GPU 1174 may generate a UI screen including various objects such as content, an icon, a menu, and the like.
  • the GPU 1174 calculates attribute values such as coordinate values, shapes, sizes, colors, and the like in which each object is to be displayed according to the layout of the screen.
  • the GPU 1174 may generate screens of various layouts including objects based on the calculated attribute values.
  • the screen generated by the GPU 1174 may be provided to the display 1110 and displayed on each area of the display 1110.
  • the GPS chip 1125 may receive a GPS signal from a GPS satellite and calculate a current position of the speech recognition apparatus 1100.
  • the controller 1170 may calculate the user location using the GPS chip 1125 when using a navigation program or when the current location of the user is required.
  • the communication unit 1130 may perform communication with various types of external devices according to various types of communication methods.
  • the communication unit 1130 may include at least one of a Wi-Fi chip 1131, a Bluetooth chip 1132, a wireless communication chip 1133, and an NFC chip 1134.
  • the controller 1170 may communicate with various external devices using the communicator 1130.
  • the communication unit 1130 may receive a utterance table, state information of a device, grammar model information, etc. required for obtaining a grammar model from the outside.
  • the controller 1170 may acquire a grammar model required for speech recognition based on the received information.
  • the Wi-Fi chip 1131 and the Bluetooth chip 1132 may communicate with each other by WiFi or Bluetooth.
  • various connection information such as SSID and session key may be transmitted and received first, and then various communication information may be transmitted and received by using the same.
  • the wireless communication chip 1133 refers to a chip that performs communication according to various communication standards such as IEEE, Zigbee, 3rd Generation (3G), 3rd Generation Partnership Project (3GPP), Long Term Evoloution (LTE), and the like.
  • the NFC chip 1134 refers to a chip operating in a near field communication (NFC) method using a 13.56 MHz band among various RF-ID frequency bands such as 135 kHz, 13.56 MHz, 433 MHz, 860-960 MHz, 2.45 GHz, and the like.
  • NFC near field communication
  • the video processor 1135 may process image data received through the communication unit 1130 or image data stored in the memory 1120.
  • the video processor 1135 may perform various image processing such as decoding, scaling, noise filtering, frame rate conversion, resolution conversion, and the like on the image data.
  • the display 1110 may display image data processed by the video processor 1135.
  • the video processor 1135 may process an image scanned from the probe.
  • the audio processor 1140 may process audio data received through the communication unit 1130 or audio data stored in the memory 1120.
  • the audio processor 1140 may perform various processing such as decoding, amplification, noise filtering, and the like on the audio data.
  • the audio processor 1140 may process audio data corresponding to the image displayed on the display 1110.
  • the controller 1170 may drive the video processor 1135 and the audio processor 1140 to play the corresponding content.
  • the speaker unit 1160 may output audio data generated by the audio processor 1140.
  • the controller 1170 may process the multimedia content displayed on the display 1110 using the video processor 1135 and the audio processor 1140.
  • the user input unit 1145 may receive various commands from the user.
  • the user input unit 1145 may include at least one of a key 1146, a touch panel 1147, and a pen recognition panel 1148.
  • the voice recognition device 1100 may control the voice recognition device 1100 according to a user input received from at least one of the key 1146, the touch panel 1147, and the pen recognition panel 1148.
  • the key 1146 may include various types of keys, such as mechanical buttons, wheels, and the like, which are formed in various areas such as a front portion, a side portion, a rear portion, and the like of the main body exterior of the speech recognition apparatus 1100.
  • the touch panel 1147 may detect a user's touch input and output a touch event value corresponding to the detected touch signal.
  • the touch screen may be implemented by various types of touch sensors such as capacitive, pressure sensitive, and piezoelectric.
  • the capacitive type is a method of calculating touch coordinates by detecting fine electricity generated by the human body of a user when a part of the user's body is touched by the touch screen surface by using a dielectric coated on the touch screen surface.
  • the pressure-sensitive type includes two electrode plates embedded in the touch screen, and when the user touches the screen, the touch panel calculates touch coordinates by detecting that the upper and lower plates of the touched point are in contact with current.
  • the touch event occurring in the touch screen may be mainly generated by a human finger, but may also be generated by an object of conductive material that can apply a change in capacitance.
  • the pen recognition panel 1148 detects a proximity input or touch input of a pen according to the operation of a user's touch pen (eg, a stylus pen or a digitizer pen) and detects a detected pen proximity event or pen. A touch event can be output.
  • the pen recognition panel 1148 may be implemented by, for example, an EMR method, and may detect a touch or a proximity input according to a change in the intensity of an electromagnetic field due to a proximity or a touch of a pen.
  • the pen recognition panel 1148 includes an electromagnetic induction coil sensor (not shown) having a grid structure and an electronic signal processor (not shown) that sequentially provides an AC signal having a predetermined frequency to each loop coil of the electromagnetic induction coil sensor. It may be configured to include).
  • the magnetic field transmitted from the loop coil When there is a pen incorporating a resonant circuit in the vicinity of the loop coil of the pen recognition panel 1148, the magnetic field transmitted from the loop coil generates a current based on mutual electromagnetic induction in the resonant circuit in the pen. Based on this current, an induction magnetic field is generated from a coil constituting a resonant circuit in the pen, and the pen recognition panel 1148 detects the induction magnetic field in a loop coil in a signal receiving state, so that the pen's approach position or The touch position can be detected.
  • the pen recognition panel 1148 may be provided at a lower portion of the display panel 1111 to cover a predetermined area, for example, an area of the display panel 1111.
  • the microphone unit 1150 may receive a user voice or other sound and convert the same into audio data.
  • the controller 1170 may use the user's voice input through the microphone unit 1150 in a call operation or convert the user voice into audio data and store the converted audio data in the memory 1120.
  • the imaging unit 1155 may capture a still image or a moving image under the control of the user.
  • the imaging unit 1155 may be implemented in plurality, such as a front camera and a rear camera.
  • the controller 1170 may obtain external environment information of the user from an image photographed by the imaging unit 1155.
  • the controller 1170 may determine a parameter to be displayed in an optimal state based on external environment information.
  • the controller 1170 may perform a control operation according to a user voice input through the microphone unit 1150 or a user motion recognized by the imaging unit 1155. It may be.
  • the voice recognition device 1100 may operate in a motion control mode or a voice control mode.
  • the controller 1170 may activate the image capturing unit 1155 to capture a user, track a user's motion change, and perform a control operation corresponding thereto.
  • the controller 1170 may output an image and an audio signal according to a motion input of the user sensed by the imaging unit 1155.
  • the controller 1170 may operate in a voice recognition mode that analyzes a user voice input through the microphone unit 1150 and performs a control operation according to the analyzed user voice.
  • the controller 1170 performs voice recognition based on a grammar model finally obtained from the user voice input through the microphone unit 1150, and outputs a control signal for controlling the device according to the voice recognized result. can do.
  • the motion detector 1165 may detect movement of the main body of the voice recognition device 1100.
  • the speech recognition apparatus 1100 may be rotated or tilted in various directions.
  • the motion detector 1165 may detect a movement characteristic such as a rotation direction, an angle, and an inclination by using at least one of various sensors such as a geomagnetic sensor, a gyro sensor, an acceleration sensor, and the like.
  • various external input ports for connecting to various external terminals such as a headset, a mouse, a LAN, or a USB port may be connected to a USB connector in the voice recognition device 1100. It may further include a DMB chip, various sensors, etc. for receiving and processing a digital multimedia broadcasting (DMB) signal.
  • DMB digital multimedia broadcasting
  • the names of the components of the above-described voice recognition device 1100 may vary.
  • the voice recognition apparatus 1100 according to the present disclosure may be configured to include at least one of the above-described components, and some components may be omitted or further include additional components.
  • the method according to an embodiment may be embodied as computer readable codes on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording devices include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

적어도 하나의 디바이스의 상태에 관한 정보를 획득하고, 획득된 정보에 기초하여, 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득하고, 획득된 문법 모델 정보에 기초하여, 음성 인식을 수행하기 위한 문법 모델을 생성하는 음성 인식을 수행하기 위한 문법 모델을 획득하는 방법이 개시된다.

Description

디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치
본 발명은 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치에 대한 것이다.
음성인식은 사용자의 음성을 입력받아 자동으로 문자로 변환하여 인식하는 기술이다. 근래에 들어 스마트폰이나 TV 등에서 키보드 입력을 대체하기 위한 인터페이스 기술로써 음성 인식이 사용되고 있다.
일반적으로 음성인식 시스템은 음향 모델, 문법 모델, 발음 사전을 이용하여 음성인식을 수행할 수 있다. 음성 인식 시스템에서 음성 신호로부터 소정 단어를 음성인식 하기 위해서는 소정 단어에 대한 문법 모델 및 발음 사전 등을 미리 구축하는 것이 필요하다.
본 발명은 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치에 관한 것으로, 자세하게는 음성 인식 결과에 따라 제어 가능한 디바이스의 상태 정보에 기초하여 음성 인식을 수행하는 방법 및 장치에 관한 것이다.
일 실시 예에 의하면, 디바이스의 상태 정보에 따라 문법 모델을 생성함으로써, 음성 인식 시 오인식될 가능성을 줄일 수 있다.
도 1은 일 실시 예에 의한 적어도 하나의 디바이스와 음성 인식 장치를 포함하는 음성 인식 시스템을 나타낸 블록도이다.
도 2는 일 실시 예에 의한 음성 인식 장치에서 문법 모델을 생성하는 프로세스를 나타낸 예시도이다.
도 3은 일 실시 예에 따른 음성 인식부(300)의 일 예를 나타낸 블록도이다.
도 4는 일 실시 예에 따라 문법 모델을 획득하는 방법을 나타낸 순서도이다.
도 5는 일 실시 예에 의한 문법 모델을 획득하는 방법을 더 상세히 나타낸 순서도이다.
도 6은 일 실시 예에 의한 초음파 장치를 제어하기 위한 문법 모델을 획득하는 방법의 일 예를 설명하기 위한 예시 도면이다.
도 7은 일 실시 예에 의한 초음파 장치에서 문법 모델을 획득하는 방법을 나타낸 순서도이다.
도 8은 일 실시 예에 의한 초음파 장치의 스테이트의 일 예를 나타낸 예시 도면이다.
도 9는 음성 명령에 따라 가전 기기를 제어하기 위한 문법 모델을 획득하는 일 예를 설명하기 위한 예시 도면이다.
도 10 및 도 11은 일 실시 예에 의한 문법 모델을 획득하는 음성 인식 장치의 내부 구성을 나타낸 블록도이다.
일 실시 예에 의한 음성 인식을 수행하기 위한 문법 모델을 획득하는 방법에 있어서, 적어도 하나의 디바이스의 상태에 관한 정보를 획득하는 단계; 상기 획득된 정보에 기초하여, 상기 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득하는 단계; 및 상기 획득된 문법 모델 정보에 기초하여, 상기 음성 인식을 수행하기 위한 문법 모델을 생성하는 단계를 포함한다.
더하여, 상기 적어도 하나의 디바이스의 상태에 관한 정보는 각 디바이스의 작동 상태, 상기 각 디바이스의 제어가 가능한지 여부, 상기 각 디바이스의 장착 또는 연결된 위치에 관한 정보 및 상기 각 디바이스에서 수행 가능한 작업(operation) 중 적어도 하나를 포함한다.
더하여, 상기 문법 모델 정보는 상기 디바이스의 상태에 관한 정보에 기초하여 문자열이 대입될 수 있는, 적어도 하나의 패턴 정보를 포함하고, 상기 문법 모델을 생성하는 단계는 상기 패턴 정보에 대입될 문자열을 결정하기 위한 발성 테이블을 획득하는 단계; 상기 발성 테이블로부터, 상기 디바이스의 상태에 관한 정보에 따라 상기 패턴 정보와 대응되는 문자열을 적어도 하나 획득하는 단계; 상기 획득된 문자열을 상기 문법 모델 정보에 포함된 상기 패턴 정보에 대입함으로써, 상기 디바이스에 대한 문법 모델 정보를 획득하는 단계를 포함한다.
더하여, 상기 생성된 문법 모델에 기초하여 음성 인식을 수행하는 단계를 더 포함한다.
더하여, 상기 방법은 적어도 하나의 디바이스의 상태가 변경될 때마다, 상기 디바이스의 상태에 관한 정보를 획득하고, 상기 획득된 정보에 기초하여 상기 문법 모델 정보를 획득하고, 상기 획득된 문법 모델 정보에 기초하여 상기 문법 모델을 생성한다.
더하여, 상기 디바이스에 대한 문법 모델 정보는 상기 디바이스가 프로브인 경우, 상기 프로브에 대해 설정된 앱 또는 프리셋, 또는 상기 프로브의 종류에 따라, 상기 프로브의 초음파 장치에서 수행 가능한 제어 명령어에 대한 문법 모델 정보를 포함한다.
일 실시 예에 의한 음성 인식을 수행하기 위한 문법 모델을 획득하는 장치는 적어도 하나의 디바이스의 상태에 관한 정보를 획득하고, 상기 획득된 정보에 기초하여, 상기 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득하는 수신부; 및 상기 획득된 문법 모델 정보에 기초하여, 상기 음성 인식을 수행하기 위한 문법 모델을 생성하는 제어부를 포함한다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.
도 1은 일 실시 예에 의한 적어도 하나의 디바이스와 음성 인식 장치를 포함하는 음성 인식 시스템을 나타낸 블록도이다.
일 실시 예에 의한 음성 인식 시스템(110)는 음성 인식을 수행하는 음성 인식 장치(110)와 적어도 하나의 디바이스(120, 130, 140)를 포함할 수 있다. 음성 인식 장치(110)는 사용자의 음성에 대하여 음성 인식을 수행하고, 음성 인식을 수행함으로써 획득된 문자열에 기초하여 디바이스를 제어할 수 있다. 구체적으로, 음성 인식 장치(110)는 음성 인식 결과 획득한 문자열에 기초하여 디바이스를 제어하기 위한 제어 신호를 적어도 하나의 디바이스(120, 130, 140)로 전송할 수 있다. 그리고, 사용자의 음성 명령에 기초하여 전송된 제어 신호에 따라 디바이스(120, 130, 140)가 작동할 수 있다.
음성 인식 장치(110)는 적어도 하나의 디바이스(120, 130, 140)로부터 각각의 디바이스의 상태에 관한 정보를 수신할 수 있다. 음성 인식 장치(110)는 각각의 디바이스의 상태가 변경되면, 변경된 상태에 관한 정보를 수신할 수 있다. 그리고, 음성 인식 장치(110)는 수신된 정보에 기초하여, 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득하고, 문법 모델 정보로부터 음성 인식을 수행하기 위한 문법 모델을 생성할 수 있다. 음성 인식 장치(110)는 적어도 하나의 디바이스의 상태가 변경될 때마다 음성 인식 시 이용될 문법 모델을 새로 생성할 수 있다.
문법 모델은 각 단어에 대한 출현 확률 정보를 포함하는 것으로 음성 인식 시 이용될 수 있다. 이에 대한 자세한 설명은 도 3에서 설명하기로 한다. 음성 인식 장치(110)에서 음성 인식 수행 시 이용될 수 있는 문법 모델은 현재 제어 가능한 디바이스의 문법 모델 정보에 기초하여 생성될 수 있다. 따라서, 일 실시 예에 의한 음성 인식 장치(110)는 불필요한 문법 모델을 지원할 필요 없이 제어 가능한 디바이스의 문법 모델 정보에 기초하여 음성 인식을 수행함으로써 오인식될 가능성을 최소화할 수 있다. 예를 들면, 불필요한 문법 모델은 음성 인식 장치(110)에 의해 제어될 수 없는 디바이스의 문법 모델을 포함한다.
문법 모델 정보는 디바이스에 대한 명령어 모델을 포함한다. 다시 말하면, 문법 모델 정보는 디바이스를 제어할 수 있는 적어도 하나의 명령어 모델로 구성될 수 있다. 예를 들면, 디바이스가 TV(television)인 경우, 문법 모델 정보는 '볼륨을 키워줘', '다음 채널로' 등의 명령어 모델을 포함할 수 있다. 상술된 명령어 모델은, 음성 인식 장치(110)에서 음성 인식 가능한 명령어들의 문자열을 포함한다.
더하여, 문법 모델 정보의 명령어 모델은 고정된 문자열의 명령어 대신, 디바이스의 상태에 따라 서로 다른 문자열이 삽입될 수 있는 패턴 정보를 포함할 수 있다. 예를 들면, 패턴 정보에는 디바이스의 상태 정보에 기초하여 디바이스의 장착 위치나 디바이스에 설치된 어플리케이션의 식별 정보를 나타내는 문자열이 삽입될 수 있다. 패턴 정보에 삽입될 수 있는 문자열은 음성 명령 시 사용자에 의해 발성될 수 있는 문자열을 포함한다. 디바이스의 장착 위치나 디바이스에 설치된 어플리케이션에 대한 정보는 디바이스의 상태에 따라 변화될 수 있는 정보이다. 음성 인식 장치(110)는 디바이스의 상태 정보에 기초하여 패턴 정보에 삽입할 문자열을 결정하고, 결정된 문자열을 패턴 정보에 삽입할 수 있다. 음성 인식 장치(110)는 패턴 정보에 문자열을 삽입함으로써, 다수의 명령어 모델을 포함하는 각 디바이스에 대한 문법 모델 정보로부터 음성 인식을 위한 문법 모델을 획득할 수 있다.
그리고, 음성 인식 장치(110)는 패턴 정보에 문자열이 삽입된 적어도 하나의 디바이스의 문법 모델 정보를 병합할 수 있다. 그리고, 음성 인식 장치(110)는 병합된 문법 모델 정보의 명령어 모델에 기초하여 각 단어의 출현 확률 정보를 포함하는 문법 모델을 생성할 수 있다. 실시 예에 따라 음성 인식 장치(110)는 디바이스의 문법 모델 정보를 병합하지 않고 각 문법 모델 정보에 대한 문법 모델을 각각 획득할 수도 있다.
각 단어의 출현 확률 정보는 이전 또는 이후 단어의 출현을 조건으로 하는 각 단어의 조건부 출현 확률 정보를 포함할 수 있다. 구체적인 설명은 이하 도 3을 참조하여 더 자세히 설명하기로 한다.
음성 인식 장치(110)는 생성된 문법 모델에 기초하여 적어도 하나의 디바이스를 제어하기 위한 음성 인식을 수행할 수 있다.
도 2는 일 실시 예에 의한 음성 인식 장치에서 문법 모델을 생성하는 프로세스를 나타낸 예시도이다.
도 2의 음성 인식 장치(200)는 문법 모델 생성부(210)와 음성 인식부(220)를 포함할 수 있다. 문법 모델 생성부(210)는 디바이스의 상태 정보에 기초하여 문법 모델을 생성할 수 있다. 구체적으로, 문법 모델 생성부(210)는 디바이스의 상태 정보에 기초하여, 제어 가능한 디바이스의 문법 모델 정보를 획득하여 음성 인식 시 이용되는 문법 모델을 생성할 수 있다. 음성 인식 시 이용되는 문법 모델은 문법 모델 생성부(210)가 제어 가능한 적어도 하나의 디바이스의 문법 모델 정보를 병합하고, 각 문법 모델 정보에 포함된 명령어 모델로부터 각 단어의 출현 확률 정보를 구함으로써 획득될 수 있다.
예를 들면, 제어 가능한 디바이스는, 음성 인식 장치(110)와 유무선으로 연결되어 제어 신호를 수신할 수 있는 상태에 있는 디바이스를 포함할 수 있다. 또는, 제어 가능한 디바이스는, 음성 인식 장치(110) 또는 음성 인식 장치(110)의 사용자의 제어 권한이 존재하는 디바이스를 포함할 수 있다.
또한, 문법 모델 생성부(210)는 각 디바이스의 상태 정보에 기초하여 문법 모델 정보에 포함된 패턴 정보에 삽입할 문자열을 결정하고, 결정된 문자열을 패턴 정보에 삽입함으로써 각 디바이스에 대한 문법 모델 정보를 획득할 수 있다. 그리고, 문법 모델 생성부(210)는 각 디바이스에 대한 문법 모델 정보로부터 음성 인식을 위한 문법 모델을 생성할 수 있다.
음성 인식부(220)는 문법 모델 생성부(210)에 의해 생성된 문법 모델을 이용하여 음성 인식을 수행할 수 있다. 구체적으로, 음성 인식부(220)는 사용자 음성이 입력되면, 문법 모델을 이용하여 음성 인식을 수행할 수 있다. 음성 인식이 수행된 결과에 기초하여, 음성 인식부(220)는 적어도 하나의 디바이스로 디바이스를 제어하기 위한 제어 신호를 출력할 수 있다.
이하 도 3을 참조하여, 음성 인식부(300)가 문법 모델을 이용하여 음성 인식을 수행하는 방법에 대해 구체적으로 설명하기로 한다.
도 3은 일 실시 예에 따른 음성 인식부(300)의 일 예를 나타낸 블록도이다.
도 3을 참조하면, 음성 인식부(300)는 음성 인식을 수행하기 위한 구성 요소로써, 특징 추출부(310), 후보 발음열 검출부(320) 및 언어 선택부(340)를 포함할 수 있다. 특징 추출부(310)는 입력된 음성 신호에 대한 특징 정보를 추출한다. 후보 발음열 검출부(320)는 추출된 특징 정보로부터 적어도 하나의 후보 발음열을 검출한다. 언어 선택부(340)는 각 후보 발음열의 출현 확률 정보에 기초하여, 음성 인식된 최종 언어를 선택한다. 단어의 출현 확률 정보는, 음성 인식이 수행될 때, 음성 인식된 언어에서, 해당 단어가 출현할 확률 정보를 의미한다. 이하에서 음성 인식부(300)의 각 구성 요소에 대해 구체적으로 설명하기로 한다.
특징 추출부(310)는 음성 신호를 수신하면, 실제 화자가 발성한 음성 부분만을 검출하여, 음성 신호의 특징을 나타낼 수 있는 정보를 추출할 수 있다. 음성 신호의 특징을 나타내는 정보는, 예를 들면, 음성 신호가 속하는 파형(waveform)에 따라 입 모양 또는 혀의 위치를 나타낼 수 있는 정보를 포함할 수 있다.
후보 발음열 검출부(320)는 추출된 음성 신호의 특징 정보와 음향 모델(acoustic model, 130)을 이용하여 음성 신호와 매칭될 수 있는 적어도 하나의 후보 발음열(pronunciation variants)을 검출할 수 있다. 음성 신호에 따라 복수 개의 후보 발음열이 검출될 수 있다. 예를 들어, '져', '저' 등의 발음은 비슷하므로, 동일 음성 신호에 대하여 '져', '저' 등의 발음을 포함하는 복수 개의 후보 발음열이 검출될 수 있다. 후보 발음열은 단어 단위로 검출될 수 있으나, 이에 한하지 않고, 후보 발음열은 음운, 음소 단위 등의 다양한 단위로 검출될 수 있다.
음향 모델(330)은 음성 신호의 특징 정보로부터 후보 발음열을 검출하기 위한 정보를 포함할 수 있다. 또한, 음향 모델(330)은 많은 양의 음성 데이터로부터 통계적인 방법을 통하여 생성될 수 있으며, 불특정 다수의 발화 데이터로부터 생성될 수도 있고, 특정 화자로부터 수집된 발화 데이터로부터 생성될 수도 있다. 따라서, 음향 모델은 화자에 따라 음성 인식 시 개별적으로 적용될 수 있다.
언어 선택부(340)는 발음 사전(350) 및 문법 모델(360)을 이용하여 후보 발음열 검출부(320)에서 검출된 각 후보 발음열의 출현 확률 정보를 구할 수 있다. 그리고, 언어 선택부(340)는 각 후보 발음열의 출현 확률 정보에 기초하여, 음성 인식된 최종 언어를 선택한다. 구체적으로, 언어 선택부(340)는 발음 사전(350)을 이용하여 각 후보 발음열과 대응되는 단어를 결정하고, 문법 모델(360)을 이용하여 결정된 각 단어의 출현 확률 값을 구할 수 있다.
발음 사전(350)은 후보 발음열 검출부(320)에 의해 검출된 후보 발음열과 대응되는 단어(word)를 획득하기 위해 필요한 정보를 포함할 수 있다. 발음 사전(350)은 각 단어의 음운변화 현상에 따라 획득된 발음열로부터 구축될 수 있다.
출현 확률 값은 현재 단어가 출현할 확률 또는, 현재 단어가 특정 단어와 동시에 출현할 확률을 의미한다. 음성 인식부(300)는 출현 확률 값을 이용함으로써 문맥을 고려하여 음성 인식을 수행할 수 있다.
음성 인식부(300)는 발음 사전(350)을 이용하여 후보 발음열의 단어를 구하고, 문법 모델(360)을 이용하여 각 단어에 대한 출현 확률 정보를 구함으로써, 음성 인식을 수행할 수 있다. 이에 한하지 않고, 음성 인식부(300)는 발음 사전(350)을 통해 발음열과 대응되는 단어를 구하지 않고 후보 발음열을 이용하여 문법 모델(360)로부터 출현 확률 정보를 구할 수도 있다.
문법 모델(360)은 단어에 대한 출현 확률 정보를 포함할 수 있다. 출현 확률 정보는 단어 별로 존재할 수 있다. 음성 인식부(300)는 각 후보 발음열에 포함된 단어에 대한 출현 확률 정보를 문법 모델(360)로부터 획득할 수 있다.
음성 인식부(300)는 문법 모델(360)을 이용하여 언어 선택부(340)에서 각 후보 발음열과 대응되는 단어의 출현 확률 정보에 기초하여 음성 인식된 단어를 최종 결정할 수 있다. 즉, 음성 인식부(300)는 출현 확률 정보가 가장 높은 단어를 음성 인식된 단어로 최종 결정할 수 있다. 언어 선택부(340)는 음성 인식된 단어를 텍스트 정보로 출력할 수 있다.
이하 도 4 및 도 5를 참조하여, 일 실시 예에 따라 음성 인식을 수행하기 위한 문법 모델을 획득하는 방법에 대해 상세히 설명하기로 한다.
도 4는 일 실시 예에 따라 문법 모델을 획득하는 방법을 나타낸 순서도이다.
도 4를 참조하면, 단계 S401에서, 음성 인식 장치(110)는 적어도 하나의 디바이스의 상태에 관한 정보를 획득할 수 있다.
음성 인식 장치(110)가 획득할 수 있는 디바이스의 상태 정보는 각 디바이스의 작동 상태, 각 디바이스의 제어가 가능한지 여부, 각 디바이스의 장착 또는 연결된 위치에 관한 정보 및 각 디바이스에서 수행 가능한 작업(operation) 중 적어도 하나를 포함할 수 있다.
단계 S403에서, 음성 인식 장치(110)는 단계 S401에서 획득된 상태 정보에 기초하여 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득할 수 있다.
예를 들면, 음성 인식 장치(110)는 음성 인식 장치(110)와 유무선으로 연결될 수 있고, 음성 인식된 명령어에 따라 제어 가능한 디바이스의 문법 모델 정보를 획득할 수 있다.
단계 S405에서, 음성 인식 장치(110)는 단계 S403에서 획득한 문법 모델 정보에 기초하여 음성 인식을 수행하기 위한 문법 모델을 생성할 수 있다. 구체적으로, 음성 인식 장치(110)는 단계 S403에서 획득한 문법 모델 정보의 패턴 정보에 문자열을 삽입함으로써 각 디바이스의 문법 모델 정보를 획득하고, 획득된 문법 모델 정보로부터 음성 인식을 위한 문법 모델을 생성할 수 있다. 패턴 정보에 삽입될 수 있는 문자열은 단계 S401에서 획득된 상태 정보에 기초하여 결정될 수 있다.
예를 들면, 패턴 정보에 디바이스의 위치에 대응되는 문자열이 대입될 수 있는 경우, 음성 인식 장치(110)는 각 디바이스의 장착 또는 연결된 위치에 관한 정보에 따라 패턴 정보에 삽입될 문자열을 결정할 수 있다. 다시 말하면, 음성 인식 장치(110)는 디바이스의 장착 또는 연결된 위치를 나타내는 문자열을 패턴 정보에 삽입될 문자열로 결정할 수 있다.
도 5는 일 실시 예에 의한 문법 모델을 획득하는 방법을 더 상세히 나타낸 순서도이다.
도 5를 참조하면, 단계 S501에서, 음성 인식 장치(110)는 사용자의 음성 명령에 따라 제어 가능한 디바이스의 상태 정보를 획득할 수 있다.
예를 들면, 디바이스의 상태 정보는 이하 표 1과 같이 구성될 수 있다.
표 1
디바이스 슬롯 ID 설치된 어플리케이션
디바이스 1 Slot 1 Application 1
디바이스 2 Slot 2 Application 1, Application 2
표 1에 따른 각 디바이스의 상태 정보에 따르면, 현재 디바이스 1이 장착된 슬롯은 Slot 1이며, Application 1이 디바이스 1에 설치되어 있다. 디바이스가 슬롯에 장착됨으로써 음성 인식 장치(110)는 제어 신호를 디바이스로 전송할 수 있으므로, 슬롯 정보가 존재하는 디바이스에 대하여 제어 가능한 디바이스로 결정할 수 있다.
단계 S503에서, 음성 인식 장치(110)는 단계 S501에서 획득한 상태 정보에 기초하여 사용자의 음성 명령에 따라 제어 가능한 디바이스의 문법 모델 정보를 획득할 수 있다. 표 1의 디바이스의 상태 정보에 따르면 슬롯 정보가 존재하는 디바이스 1, 2가 음성 명령에 따라 제어 가능하므로, 음성 인식 장치(110)는 디바이스 1 및 2의 문법 모델 정보를 획득할 수 있다. 문법 모델 정보는 음성 인식 장치(110)의 메모리에 저장된 것이거나 외부로부터 획득될 수 있다.
예를 들면, 디바이스의 문법 모델 정보는 이하 표 2와 같이 구성될 수 있다.
표 2
디바이스 문법 모델 정보
디바이스 1 |@Pat1 word1_1 word1_2|word1_3 word1_4|word1_1
디바이스 2 |@Pat1 word2_1|word2_2 word2_3|@Pat2
디바이스 3 |@Pat 1 word3_1|word3_2 word3_3|@Pat2
문법 모델 정보는 표 2와 같이 적어도 하나의 명령어 모델로 구성될 수 있다. 각 디바이스의 명령어 모델은 '|'로 구분될 수 있고 적어도 하나의 문자열로 구성될 수 있다. 또한, 일부 명령어 모델에 포함된 @Pat1 및 @Pat2는 패턴 정보로, 상태 정보에 따라 결정된 문자열이 패턴 정보에 삽입될 수 있다. word1_1, word1_2 … 등은 명령어를 의미하는 문자열을 나타낸 것이다. 예를 들면, word1_1, word1_2 … 등은 '화면 밝게', '전원 끄기' 등의 명령어를 포함할 수 있다.
단계 S505에서, 음성 인식 장치(110)는 발성 테이블을 획득할 수 있다. 발성 테이블은 디바이스의 상태 정보에 따라 결정될 수 있는 각각의 패턴 정보와 대응되는 문자열을 포함한다. 음성 인식 장치(110)는 발성 테이블을 이용하여 문법 모델 정보의 패턴 정보에 삽입하기 위한 문자열을 결정할 수 있다.
예를 들면, 발성 테이블은 이하 표 3과 같이 구성될 수 있다.
표 3
패턴 정보 상태 정보 발성 정보
@Pat1 Slot 1에 장착 슬롯 A
Slot 2 에 장착 슬롯 B
Slot 3 에 장착 슬롯 C
@Pat2 Application 1 설치 어플리케이션 D
Application 2 설치 어플리케이션 E
하나의 패턴 정보와 대응되는 어플리케이션 D, E는 동일한 기능 또는 동일한 사용자를 가지는 어플리케이션일 수 있다. 예를 들어, 어플리케이션 D, E가 음악 재생 기능을 가지는 어플리케이션인 경우, @Pat2를 포함하는 명령어 모델은 음악 재생을 위한 명령어 모델일 수 있다.
단계 S507에서, 음성 인식 장치(110)는 발성 테이블로부터 단계 S501에서 획득된 상태 정보에 따라 패턴 정보와 대응되는 문자열을 획득할 수 있다. 음성 인식 장치(110)는 각 디바이스 별로 패턴 정보에 삽입될 문자열을 획득할 수 있다. 발성 테이블의 발성 정보는 사용자가 음성 명령을 수행하기 위해 발성할 수 있는 문자열로 구성될 수 있다. 예를 들면, 사용자가 Slot 1을 '슬롯 A'로 발성하는 경우, 상태 정보 Slot 1과 대응되는 발성 정보는 '슬롯 A'일 수 있다.
음성 인식 장치(110)가 표 1의 상태 정보에 따라 표 3의 발성 테이블로부터 패턴 정보에 삽입될 문자열을 획득하는 것을 기준으로 이하에서 예를 들어 설명하기로 한다.
구체적으로, 상태 정보에 의하면, 디바이스 1은 Slot 1에 장착되어 있고, Application 1이 설치되어 있는 상태이다. 따라서, @Pat1에 삽입될 문자열은 @Pat1과 Slot 1과 대응되는 '슬롯 A'로 결정될 수 있다. 또한, @Pat2에 삽입될 문자열은 @Pat2 및 Application 1과 대응되는 '어플리케이션 D'로 결정될 수 있다.
또한, 상태 정보에 의하면, 디바이스 2는 Slot 2에 장착되어 있고, Application 1 및 Application 2가 설치되어 있는 상태이다. 따라서, @Pat1에 삽입될 문자열은 @Pat1과 Slot 2와 대응되는 '슬롯 B'로 결정될 수 있다. 또한, @Pat2에 삽입될 문자열은 @Pat2 및 Application 1와 대응되는 '어플리케이션 D'와, @Pat2 및 Application 2와 대응되는 '어플리케이션 E' 로 결정될 수 있다.
디바이스 2의 @Pat2에 삽입될 문자열이 복수 개가 결정되는데, 실시 예에 따라 하나의 패턴 정보에 삽입될 문자열은 상태 정보 또는 발성 정보에 따라서 복수 개가 결정될 수 있다.
하나의 패턴 정보와 대응되는 문자열이 복수 개인 경우, 음성 인식 장치(110)는 패턴 정보에 문자열을 삽입할 때, 하나의 명령어 모델로부터, 각각의 문자열이 패턴 정보에 삽입된 복수 개의 명령어 모델이 생성될 수 있다. 예를 들면, 디바이스 2의 문법 모델 정보 중 |@Pat2 의 명령어 모델에 대하여, |어플리케이션 D 및 |어플리케이션 E의 명령어 모델이 생성될 수 있다.
단계 S509에서, 음성 인식 장치(110)는 단계 S507에서 획득한 문자열을 문법 모델 정보의 패턴 정보에 대입함으로써 각 디바이스에 대한 문법 모델 정보를 획득할 수 있다.
구체적으로, 디바이스 1과 디바이스 2에 대한 문법 모델 정보의 경우, 이하 표 4와 같이 단계 S507에서 획득된 문자열이 삽입된 명령어 모델들을 포함하는 디바이스의 문법 모델 정보가 획득될 수 있다.
표 4
디바이스 1 |슬롯 A word1_1 word1_2|word1_3 word1_4|word1_1
디바이스 2 |슬롯 B word2_1|word2_2 word2_3|어플리케이션 D|어플리케이션 E
단계 S511에서, 음성 인식 장치(110)는 단계 S509에서 생성된 디바이스의 문법 모델 정보를 합쳐, 합친 문법 모델 정보로부터 음성 인식을 수행하기 위한 최종적인 문법 모델을 생성할 수 있다. 예를 들면, 표 5와 같은 최종적인 문법 모델 정보로부터 음성 인식을 수행하기 위한 최종적인 문법 모델이 생성될 수 있다.
표 5
|슬롯 A word1_1 word1_2|word1_3 word1_4|word1_1|슬롯 B word2_1|word2_2 word2_3|어플리케이션 D|어플리케이션 E
구체적으로, 음성 인식 장치(110)는 표 5의 적어도 하나의 명령어 모델을 이용하여 각 단어의 출현 확률 정보를 결정함으로써 최종적인 문법 모델을 생성할 수 있다.
단계 S513에서, 음성 인식 장치(110)는 디바이스의 상태 변경 여부를 감지하면, 단계 S519에서, 감지된 디바이스의 상태에 관한 정보를 획득할 수 있다. 단계 S513에서, 감지될 수 있는 디바이스는 음성 인식 장치(110)에 의해 제어 불가능한 상태에서 제어 가능한 상태로 바뀐 디바이스 또는 제어 가능한 상태에서 제어 불가능한 상태로 바뀐 디바이스를 포함할 수 있다. 또한, 단계 S513에서, 감지될 수 있는 디바이스는 음성 인식 장치(110)에 의해 제어 가능한 상태의 디바이스 중에서, 상태가 변경된 디바이스를 포함할 수 있다.
예를 들면, 음성 인식 장치(110)는 슬롯에 적어도 하나의 디바이스가 장착되거나 탈착되었는지 여부를 감지할 수 있다. 또는, 음성 인식 장치(110)는 적어도 하나의 디바이스에 어플리케이션이 설치되거나 삭제되었는지 여부를 감지할 수 있다.
그리고, 음성 인식 장치(110)는 단계 S503 이하에서, 상술한 바와 같이 단계 S519에서 획득된 상태 정보에 따라 문법 모델을 생성할 수 있다. 따라서, 일 실시 예에 의하면, 디바이스의 상태가 변경될 때마다 새로운 상태 정보에 기초하여 최종적인 문법 모델이 생성될 수 있다.
단계 S515에서, 음성 인식 장치(110)는 사용자의 음성 명령이 입력되면, 최종적인 문법 모델에 기초하여 음성 인식을 수행할 수 있다. 음성 인식 장치(110)는 음성 인식을 수행하는 시점에서의 최종적인 문법 모델에 기초하여 음성 인식을 수행할 수 있다. 음성 인식 시 이용될 수 있는 문법 모델은, 단계 S511에서 생성된 문법 모델뿐만 아니라, 다른 문법 모델을 더 포함할 수 있다. 예를 들면, 음성 인식 시 이용될 수 있는 문법 모델은, 기본적인 음성 인식 시 범용적으로 이용될 수 있는 문법 모델을 포함할 수 있다.
그리고, 단계 S517에서, 음성 인식 장치(110)는 단계 S515에서 수행된 음성 인식 결과에 따라 디바이스를 제어할 수 있다. 다시 말하면, 음성 인식 장치(110)는 음성 인식 결과에 따라 디바이스를 제어하기 위한 제어 신호를 생성하여 디바이스로 전송할 수 있다.
이하 도 6 내지 도 7을 참조하여, 디바이스 상태에 따라 문법 모델을 획득하는 방법의 일 예를 자세히 설명하기로 한다.
도 6은 일 실시 예에 의한 초음파 장치를 제어하기 위한 문법 모델을 획득하는 방법의 일 예를 설명하기 위한 예시 도면이다.
도 6을 참조하면, 초음파 장치(600)는 프로브(620)와, 프로브가 장착될 수 있는 슬롯들(630), 사용자의 음성 명령이 입력될 수 있는 마이크(610)을 포함한다.
프로브(620)는 마이크(610)에서 입력된 사용자의 음성 명령에 따라 제어될 수 있는 상술한 적어도 하나의 디바이스와 같이 기능할 수 있다. 따라서, 일 실시 예에 의하면 프로브(620)별로 문법 모델 정보가 존재할 수 있다.
예를 들면, 표 6과 같이 프로브 식별 ID(identification)별로 문법 모델 정보가 존재할 수 있다.
표 6
프로브 식별 ID 프로브별 문법 모델 정보
53 |@Probe# Abdomen Aorta|Content LVO|@Probe#|Abdomen
6D |@Probe# OB|OB 1stTrimester|@Probe#|Gynecology
61 |@Probe# Smallparts|Vascular Carotid|@Probe#|MSK
그리고, 프로브별로 존재하는 상태 정보는 예시로써 이하 표 7과 같이 구성될 수 있다.
표 7
프로브 식별 ID 슬롯 정보 프리셋
53 1 복부(abdomen) 대동맥(Aorta)
6D 2 복부(abdomen) 일반(general)
더하여, 세부적인 상태 정보 별로 문법 모델 정보가 존재할 수 있다. 초음파 장치(600)의 경우, 초음파 검사 부위를 나타내는 앱(App)과 초음파 장치의 설정 정보를 나타내는 프리셋(Preset) 별로 문법 모델 정보가 존재할 수 있다.
일 예로, 이하 표 8과 같이 App.Preset 별로 문법 모델 정보가 구성될 수 있다.
표 8
App.Preset(앱.프리셋) Abdomen.Aorta(복부.대동맥) Abdomen.General(복부.일반) TCD(trans cranial doppler).General(뇌혈류 초음파.일반)
문법 모델 정보 |SMA|Bifurcation|CA|CIA |Stomach|Hemangioma|Cirrhosis|Mass |PCA|P-COM|PICA|MCA
초음파 장치(600)는 제어 가능한 프로브의 문법 모델 정보에 더하여, 프로브의 상태 정보로부터 획득될 수 있는 앱과 프리셋 정보와 대응되는 문법 모델 정보에 기초하여 음성 인식을 위한 문법 모델을 생성할 수 있다. 예를 들면, 프로브 53에 대한 문법 모델 정보는 표 6에 도시된 프로브 53에 대한 문법 모델 정보와 표 8에 도시된 '복부.대동맥'의 문법 모델 정보를 포함할 수 있다. 마찬가지로, 프로브 6D에 대한 문법 모델 정보는 표 6에 도시된 프로브 6D에 대한 문법 모델 정보와 표 8에 도시된 초음파 장치(600)는 표 7의 상태 정보에 기초하여 '복부.일반'의 문법 모델 정보를 포함할 수 있다.
초음파 장치(600)는 프로브의 문법 모델 정보와, 앱과 프리셋 정보에 따른 문법 모델 정보를 병합하고, 초음파 장치(600)는 패턴 정보에 삽입할 발성 정보인 문자열을 프로브별로 결정할 수 있다. 그리고, 초음파 장치(600)는 결정된 문자열을 패턴 정보에 삽입함으로써 최종적인 문법 모델을 획득할 수 있다.
초음파 장치(600)는 이하 표 9의 발성 테이블을 참조하여 각 프로브에 대한 문법 모델 정보 중 패턴 정보에 삽입할 문자열을 구할 수 있다. 표 9의 발성 테이블은 예시에 불과하며, 다양한 상태 정보에 기초하여 패턴 정보와 대응되는 발성 정보, 즉 문자열이 결정될 수 있다.
표 9
패턴 정보 상태 정보 발성 정보
@Probe# Slot 1 슬롯 A
Slot 2 슬롯 B
Slot 3 슬롯 C
@App Abdomen 복부, Abdomen
OB(obstetrics) 산과, OB
@Preset General 일반
@App_Preset Abdomen.Aorta 복부 대동맥
Abdomen.General 복부 일반
프로브 종류에 따라 스캔 가능한 검사 부위(app)가 결정될 수 있는데, 예를 들어, 6D 프로브의 경우, 산과(OB; obstetrics) app, 부인과의학(gynecology) app, 비뇨기과학(urology) app 등이 스캔 가능하다.
또한, 앱에 따라서 설정 가능한 프리셋(preset)이 결정될 수 있다. 예를 들어, OB 앱의 경우 설정 가능한 프리셋은 임신 초기(1stTrimester)가 있다. 또한, 부인과의학 앱의 경우 설정 가능한 프리셋은 자궁(Uterus), 부속기(adnexa)가 존재한다. 더하여, 비뇨기과학 앱의 경우 설정 가능한 프리셋은 전립선(prostate)가 존재한다.
@App의 경우, 사용하는 프로브 종류에 따라 사용 가능한 제어 명령이 제한적이고, @Preset도 마찬가지로 사용하는 프로브 종류 및 앱(App)에 따라 사용 가능한 제어 명령이 제한적이다. 따라서, 초음파 장치(600)는 프로브별 상태 정보에 따라 사용 가능한 제어 명령에 따라서 음성 명령에 포함될 가능성이 있는 명령어 모델들을 포함하는 문법 모델 정보를 획득할 수 있다.
초음파 장치(600)는 각 프로브의 종류 및 현재 스캔 중인 검사 부위(app)에 기초하여, 현재 명령 가능한 앱 또는 프리셋에 대한 문법 모델 정보를 구하고, 최종적인 문법 모델을 획득할 수 있다. 일 예로, 앱을 선택하는 스테이트인지 프리셋을 선택하는 스테이트인지에 따라서, 초음파 장치(600)는 현재 명령 가능한 앱 또는 프리셋에 대한 문법 모델 정보를 구하고, 최종적인 문법 모델을 획득할 수 있다.
초음파 장치(600)의 각 스테이트에 따라 문법 모델을 획득하는 방법에 관하여 이하 도 7 및 도 8을 참조하여 더 상세히 설명하기로 한다.
도 7은 일 실시 예에 의한 초음파 장치에서 문법 모델을 획득하는 방법을 나타낸 순서도이다.
도 7을 참조하면, 단계 S701에서, 초음파 장치(700)는 기본적으로 설정된 메인 문법 모델에 따라 음성 인식을 수행할 수 있다. 메인 문법 모델은 상술한 범용적으로 사용될 수 있는 문법 모델을 포함할 수 있다. 단계 S701의 상태는 기본적인 상태로써 메인 스테이트로 지칭하기로 한다.
그리고, 단계 S703에서, 프로브 변경 요청에 따라 현재 상태가 프로브 스테이트, 즉 프로브를 선택하고자 하는 상태로 변경될 수 있다. 프로브 변경 요청이란, 현재 출력되고 있는 프로브의 스캔 이미지를 다른 프로브의 스캔 이미지로 변경 요청하는 것을 의미한다. 프로브 스테이트에서는 프로브뿐만 아니라 앱도 함께 선택될 수 있다.
단계 S705에서, 초음파 장치(600)는 현재 제어 가능하거나 슬롯에 장착된 프로브의 문법 모델에 따라 음성 인식을 수행할 수 있다. 예를 들면, 초음파 장치(600)는 표 6에 도시된 프로브별 문법 모델 정보에 기초하여 획득된 문법 모델에 따라 음성 인식을 수행할 수 있다.
음성 인식에 따라 프로브를 선택하는 경우, 초음파 장치(600)의 스테이트는 프로브 스테이트에서 메인 스테이트로 다시 변경될 수 있다. 더하여, 음성 인식에 따라, 프로브뿐만 아니라 앱도 함께 선택될 수 있다.
또한, 단계 S707에서, 스캔 부위 또는 프리셋 결정 요청에 따라 현재 초음파 장치(600)의 상태가 주석(comment) 스테이트, 즉 프리셋 정보를 결정하고자 하는 상태로 변경될 수 있다. 상술한 프리셋 결정 요청은 사용자의 음성 혹은 버튼 입력 또는 소정 알고리즘에 따라 발생된 제어 신호에 따라 발생될 수 있다.
단계 S709에서, 초음파 장치(600)는 현재 선택된 프로브 종류 또는 앱에 기초하여, 프리셋에 대한 문법 모델에 따라 음성 인식을 수행할 수 있다. 예를 들면, 표 8에 도시된 앱.프리셋 문법 모델 정보에 기초하여 획득된 문법 모델에 따라 음성 인식을 수행할 수 있다.
음성 인식에 따라 프리셋 정보가 결정된 경우, 초음파 장치(600)의 스테이트는 주석 스테이트에서 메인 스테이트로 다시 변경될 수 있다.
도 8은 일 실시 예에 의한 초음파 장치의 스테이트의 일 예를 나타낸 예시 도면이다.
도 8을 참조하면, 초음파 장치(600)의 스테이트는 메인 스테이트(810), 프로브 스테이트(820) 및 주석 스테이트(830)를 포함한다. 이에 한하지 않고, 초음파 장치(600)의 스테이트는 초음파 장치(600)의 상태에 따라 다양한 스테이트를 더 포함할 수 있다.
메인 스테이트(810)는 상술한 바와 같이 초음파 장치(600)의 기본적으로 설정된 상태를 의미하며, 음성 인식 시 범용적으로 사용될 수 있는 문법 모델에 따라 음성 인식이 수행될 수 있다. 프로브 스테이트(820) 또는 주석 스테이트(830)가 종료되면 자동적으로 메인 스테이트(810)로 초음파 장치(600)의 상태가 변경될 수 있다.
메인 스테이트(810)에서 인식될 수 있는 음성 명령어 모델은 '프로브 변경(change probe), 텍스트(text), 정지(freeze) 등'을 포함할 수 있다.
프로브 스테이트(820)는 현재 출력 중인 프로브의 스캔 이미지를 변경하기 위한 요청을 수신함에 따라 변경될 수 있는 초음파 장치(600)의 상태이다. 더하여, 예를 들면, '프로브 변경'이란 사용자의 음성 명령이 수신됨에 따라 초음파 장치(600)의 상태가 메인 스테이트(810)에서 프로브 스테이트(820)로 변경될 수 있다. 음성 명령에 따라 출력되는 프로브의 스캔 이미지가 다른 프로브의 스캔 이미지로 변경되면, 프로브 장치(600)의 스테이트는 메인 스테이트(810)로 다시 변경될 수 있다. 프로브 스테이트(820)에서는 프로브 변경과 함께 스캔할 수 있는 부위인 앱도 선택 가능한 상태이다.
프로브 스테이트(820)에서 인식될 수 있는 음성 명령어 모델은 '프로브 1 복부(abdomen) 대동맥(Aorta), 갑상선(Thyroid) 등'을 포함할 수 있다. '갑상선'과 같이 프로브를 식별하는 정보가 포함되어 있지 않은 음성 명령어가 입력되는 경우, 초음파 장치(600)는 '갑상선'을 스캔 중이거나 '갑상선'을 스캔 가능한 프로브를 선택할 수 있다. 또는 초음파 장치(600)는 현재 출력 중인 프로브에 대한 스캔 부위를 '갑상선'으로 변경할 수 있다.
주석 스테이트(830)는 현재 선택된 프로브의 프리셋 정보를 결정하고자 하는 초음파 장치(600)의 상태를 의미한다. 예를 들면, '텍스트'란 사용자의 음성 명령이 수신됨에 따라 초음파 장치(600)의 상태가 메인 스테이트(810)에서 주석 스테이트(830)로 변경될 수 있다. 음성 명령에 따라 현재 선택된 프로브의 프리셋 정보가 결정되면, 프로브 장치(600)의 스테이트는 메인 스테이트(810)로 다시 변경될 수 있다.
주석 스테이트(830)에서 인식될 수 있는 음성 명령어 모델은 '좌측 근위부(Lt Proximal), 방광(Bladder) 등'을 포함할 수 있다.
이하 도 9를 참조하여, 음성 인식 장치에 의해 제어될 수 있는 디바이스가 가전 기기인 경우, 문법 모델을 획득하는 방법에 대해 상세히 설명하기로 한다.
도 9는 음성 명령에 따라 가전 기기를 제어하기 위한 문법 모델을 획득하는 일 예를 설명하기 위한 예시 도면이다.
도 9를 참조하면, 음성 인식 장치(910)에 의해 제어될 수 있는 가전 기기들이 방 1(920) 또는 방 2(930)에 존재한다. 음성 인식 장치(910)는 가전 기기들에 대한 상태 정보를 이하 표 10과 같이 획득할 수 있다.
표 10
가전기기 ID 위치 정보
TV1 1
TV2 2
Audio 1
위치 정보 1, 2는 각각 방 1과 방 2를 의미한다. 방 1과 방 2는 사용자 음성 명령에서 각각 '내 방(my room)', '거실(living room)'로 발성될 수 있다.
음성 인식 장치(910)는 음성 명령에 따라 이하 표 11과 같이 제어 가능한 가전 기기들에 대한 문법 모델 정보를 획득할 수 있다.
표 11
가전기기 ID 가전 기기별 문법 모델 정보
TV1 |@Room TV Power on|TV Power off|@Room TV Volume Up
Audio1 |@Room Audio Power on|Audio Power off|@Room
TV2 |@Room TV Power on|TV Power off|@Room TV Volume Up
음성 인식 장치(910)는 가전 기기들에 대한 상태 정보에 기초하여, 제어 가능한 가전 기기들을 위치 정보가 존재하는 가전 기기들로 결정할 수 있다. 예를 들면, 표 10의 가전 기기의 상태 정보에 기초하여, 음성 인식 장치(910)는 위치 정보가 존재하는 TV1, TV2, Audio1에 대한 문법 모델 정보를 획득할 수 있다.
더하여, 음성 인식 장치(910)는 문법 모델 정보에 포함된 패턴 정보에 삽입될 문자열을 구하기 위하여 각 패턴 정보에 대한 발성 테이블을 획득할 수 있다. 예를 들면, 표 12와 같은 발성 테이블이 획득될 수 있다.
표 12
패턴 정보 위치 정보 발성 정보
@Room 1 내 방(my room)
2 거실(living Room)
그리고, 음성 인식 장치(910)는 발성 테이블과 상태 정보에 기초하여 각 가전기기별로 패턴 정보인 @Room에 삽입될 발성 정보를 결정할 수 있다. TV1과 Audio1의 경우, 위치 정보가 1이므로 @Room에 삽입될 발성 정보는 '내 방'으로 결정될 수 있다. 마찬가지로, TV2의 경우, 위치 정보가 2이므로 @Room에 삽입될 발성 정보는 '거실'로 결정될 수 있다.
마지막으로 음성 인식 장치(910)는 각 패턴 정보에 발성 정보가 삽입된 이하 표 13과 같이 구성된 문법 모델 정보로부터 음성 인식을 수행하기 위한 최종적인 문법 모델을 획득할 수 있다.
표 13
|내 방 TV Power on|TV Power off|내 방 TV Volume Up|내 방 Audio Power on|Audio Power off|내 방|거실 TV Power on|TV Power off|거실 TV Volume Up
이하 도 10 및 도 11을 참조하여, 음성 인식 장치의 내부 구성 요소에 대해 자세히 설명하기로 한다.
도 10 및 도 11은 일 실시 예에 의한 문법 모델을 획득하는 음성 인식 장치의 내부 구성을 나타낸 블록도이다. 도 10 및 도 11의 음성 인식 장치(1000, 1100)는 도 1의 음성 인식 장치(110)와 대응될 수 있다.
도 10 및 도 11에 도시된 음성 인식 장치(1000, 1100)의 구성은, 예를 들어, 휴대폰, 태블릿 PC, PDA, MP3 플레이어, 키오스크, 전자 액자, 네비게이션 장치, 디지털 TV, 손목 시계(Wrist watch), 스마트 글라스(smart glass), 고글형 가상 현실 디스플레이(virtual reality goggles) 또는 HMD(Head-Mounted Display)와 같은 웨어러블 기기(Wearable device) 등의 다양한 유형의 장치에 적용될 수 있다.
도 1의 음성 인식 장치(110)는 도 10 또는 도 11에 도시된 음성 인식 장치(1000,1100)와 같이 단말 장치일 수 있으나, 이에 한하지 않고, 단말 장치로부터 사용자 입력을 수신하여 처리하는 서버 장치일 수 있다. 음성 인식 장치(110)가 서버 장치인 경우, 음성 인식 장치(110)는 외부로부터 수신된 사용자 입력 및 디바이스의 상태 정보에 기초하여 문법 모델을 획득할 수 있다. 그리고, 음성 인식 장치(110)는 획득된 문법 모델을 이용하여 입력된 음성에 대한 음성 인식을 수행하고, 음성 인식된 결과에 따라 디바이스를 제어하기 위한 제어 신호를 전송할 수 있다.
도 10을 참조하면, 음성 인식 장치(1000)는 수신부(1030) 및 제어부(1070)를 포함할 수 있다. 도면들과 후술되어 있는 실시예에서, 음성 인식 장치(1000)에 포함되어 있는 개개의 구성 요소는 물리적 형태 또는 논리적 형태로 분산되어 배치될 수도 있고, 통합될 수도 있다.
수신부(1030)는 외부로부터 디바이스의 상태 정보를 획득할 수 있다. 또한, 디바이스의 상태 정보에 기초하여 음성 명령에 따라 제어 가능한 디바이스의 문법 모델 정보를 획득할 수 있다. 구체적으로, 수신부(1030)는 디바이스의 상태 정보에 따라 음성 인식 장치(1000)에서 인식된 음성 명령에 따라 제어 가능한 디바이스를 결정할 수 있다. 그리고, 수신부(1030)는 제어 가능한 디바이스의 문법 모델 정보를 획득할 수 있다.
제어부(1070)는 수신부(1030)에 의해 획득된 디바이스의 문법 모델 정보에 기초하여 음성 인식을 수행하기 위한 문법 모델을 생성할 수 있다.
그러나 도 10에 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 음성 인식 장치(1000)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 음성 인식 장치(1000)는 구현될 수 있다.
예를 들어, 도 11에 도시된 바와 같이, 일 실시예에 따른 음성 인식 장치(1100)는, 수신부(1130), 제어부(1170), 스피커(1160), 메모리(1120), GPS 칩(1125), 통신부(1130), 비디오 프로세서(1135), 오디오 프로세서(1140), 사용자 입력부(1145), 마이크부(1150), 촬상부(1155) 및 움직임 감지부(1165)를 포함할 수 있다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
디스플레이부(1110)는 표시패널(1111) 및 표시 패널(1111)을 제어하는 컨트롤러(미도시)를 포함할 수 있다. 표시패널(1111)에는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, AM-OLED(Active-Matrix Organic Light-Emitting Diode), PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 표시패널(1111)은 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 디스플레이부(1110)는 사용자 입력부(1145)의 터치 패널(1147)과 결합되어 터치 스크린으로 제공될 수 있다. 예를 들어, 터치 스크린은 표시 패널(1111)과 터치 패널(1147)이 적층 구조로 결합된 일체형의 모듈을 포함할 수 있다.
일부 실시 예에 의한 디스플레이부(1110)는 제어부(1170)의 제어에 따라 스피커부(2460)에 의해 출력되는 오디오 신호와 대응되는 영상을 표시할 수 있다. 디스플레이부(1110)에 의해 표시될 수 있는 영상은 평면 영상뿐만 아니라 3차원 입체 영상도 포함할 수 있다.
메모리(1120)는 내장 메모리(Internal Memory)(미도시) 및 외장 메모리(External Memory)(미도시) 중 적어도 하나를 포함할 수 있다.
내장 메모리는, 예를 들어, 휘발성 메모리(예를 들면, DRAM(Dynamic RAM), SRAM(Static RAM), SDRAM(Synchronous Dynamic RAM) 등), 비휘발성 메모리(예를 들면, OTPROM(One Time Programmable ROM), PROM(Programmable ROM), EPROM(Erasable and Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), Mask ROM, Flash ROM 등), 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나를 포함할 수 있다. 일 실시 예에 따르면, 제어부(1170)는 비휘발성 메모리 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리할 수 있다. 또한, 제어부(1170)는 다른 구성요소로부터 수신하거나 생성된 데이터를 비휘발성 메모리에 보존할 수 있다.
외장 메모리는, 예를 들면, CF(Compact Flash), SD(Secure Digital), Micro-SD(Micro Secure Digital), Mini-SD(Mini Secure Digital), xD(extreme Digital) 및 Memory Stick 중 적어도 하나를 포함할 수 있다.
메모리(1120)는 음성 인식 장치(1100)의 동작에 사용되는 각종 프로그램 및 데이터를 저장할 수 있다. 일 실시 예에 의한, 메모리(1120)에는 발성 테이블, 디바이스별 문법 모델 정보, 디바이스별 상태 정보 및 문법 모델 정보 중 적어도 하나를 임시 또는 반영구적으로 저장할 수 있다.
제어부(1170)는 메모리(1120)에 저장된 정보의 일부가 디스플레이부(1110)에 표시되도록 디스플레이부(1110)를 제어할 수 있다. 다시 말하자면, 제어부(1170)는 메모리(1120)에 저장된 영상을 디스플레이부(1110)에 표시할 수 있다. 또는, 제어부(1170)는 디스플레이부(1110)의 일 영역에서 사용자 제스처가 이루어지면, 사용자의 제스처에 대응되는 제어 동작을 수행할 수 있다.
제어부(1170)는 RAM(1171), ROM(1172), CPU(1173), GPU(Graphic Processing Unit)(1174) 및 버스(1175) 중 적어도 하나를 포함 할 수 있다. RAM(1171), ROM(1172), CPU(1173) 및 GPU(1174) 등은 버스(1175)를 통해 서로 연결될 수 있다.
CPU(1173)는 메모리(1120)에 액세스하여, 메모리(1120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메모리(1120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
ROM(1172)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 예로, 음성 인식 장치(1100)는 턴온 명령이 입력되어 전원이 공급되면, CPU(1173)가 ROM(1172)에 저장된 명령어에 따라 메모리(1120)에 저장된 O/S를 RAM(1171)에 복사하고, O/S를 실행시켜 시스템을 부팅시킬 수 있다. 부팅이 완료되면, CPU(1173)는 메모리(1120)에 저장된 각종 프로그램을 RAM(1171)에 복사하고, RAM(1171)에 복사된 프로그램을 실행시켜 각종 동작을 수행한다.
GPU(1174)는 음성 인식 장치(1100)의 부팅이 완료되면, 디스플레이부(1110)의 영역에 UI 화면을 디스플레이한다. 구체적으로는, GPU(1174)는 컨텐츠, 아이콘, 메뉴 등과 같은 다양한 객체를 포함하는 UI 화면을 생성할 수 있다. GPU(1174)는 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성 값을 연산한다. 그리고, GPU(1174)는 연산된 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성할 수 있다. GPU(1174)에서 생성된 화면은 디스플레이부(1110)로 제공되어, 디스플레이부(1110)의 각 영역에 각각 표시될 수 있다.
GPS 칩(1125)은 GPS(Grobal Positioning System) 위성으로부터 GPS 신호를 수신하여, 음성 인식 장치(1100)의 현재 위치를 산출할 수 있다. 제어부(1170)는 네비게이션 프로그램을 이용할 때나 그 밖에 사용자의 현재 위치가 필요할 경우에, GPS 칩(1125)을 이용하여 사용자 위치를 산출할 수 있다.
통신부(1130)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행할 수 있다. 통신부(1130)는 와이파이칩(1131), 블루투스 칩(1132), 무선 통신 칩(1133), NFC 칩(1134) 중 적어도 하나를 포함할 수 있다. 제어부(1170)는 통신부(1130)를 이용하여 각종 외부 기기와 통신을 수행할 수 있다.
일 실시 예에 있어서, 통신부(1130)는 문법 모델을 획득하는데 필요한, 발성 테이블, 디바이스의 상태 정보, 문법 모델 정보 등을 외부로부터 수신할 수 있다. 그리고, 제어부(1170)는 수신된 정보에 기초하여 음성 인식 시 필요한 문법 모델을 획득할 수 있다.
와이파이 칩(1131), 블루투스 칩(1132)은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행할 수 있다. 와이파이 칩(1131)이나 블루투스 칩(1132)을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩(1133)은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. NFC 칩(1134)은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다.
비디오 프로세서(1135)는 통신부(1130)를 통해 수신된 영상 데이터 또는, 메모리(1120)에 저장된 영상 데이터를 처리할 수 있다. 비디오 프로세서(1135)에서는 영상 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다. 그리고, 디스플레이부(1110)는 비디오 프로세서(1135)에 의해 처리된 영상 데이터를 표시할 수 있다.
예를 들어, 비디오 프로세서(1135)는 영상 데이터가 초음파 영상인 경우, 프로브로부터 스캔된 이미지를 처리할 수 있다.
오디오 프로세서(1140)는 통신부(1130)를 통해 수신된 오디오 데이터 또는, 메모리(1120)에 저장된 오디오 데이터를 처리할 수 있다. 오디오 프로세서(1140)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 예를 들면, 오디오 프로세서(1140)는 디스플레이부(1110)에 표시된 영상과 대응되는 오디오 데이터를 처리할 수 있다.
제어부(1170)는 멀티미디어 컨텐츠에 대한 재생 프로그램이 실행되면 비디오 프로세서(1135) 및 오디오 프로세서(1140)를 구동시켜, 해당 컨텐츠를 재생할 수 있다. 스피커부(1160)는 오디오 프로세서(1140)에서 생성한 오디오 데이터를 출력할 수 있다. 예를 들면, 제어부(1170)는 디스플레이부(1110)에 표시된 멀티미디어 컨텐츠를 비디오 프로세서(1135) 및 오디오 프로세서(1140)를 이용하여 처리할 수 있다.
사용자 입력부(1145)는 사용자로부터 다양한 명령어를 입력 받을 수 있다. 사용자 입력부(1145)는 키(1146), 터치 패널(1147) 및 펜 인식 패널(1148) 중 적어도 하나를 포함할 수 있다.
음성 인식 장치(1100)는 키(1146), 터치 패널(1147) 및 펜 인식 패널(1148) 중 적어도 하나로부터 수신된 사용자 입력에 따라서 음성 인식 장치(1100)를 제어할 수 있다.
키(1146)는 음성 인식 장치(1100)의 본체 외관의 전면부나 측면부, 배면부 등의 다양한 영역에 형성된 기계적 버튼, 휠 등과 같은 다양한 유형의 키를 포함할 수 있다.
터치 패널(1147)은 사용자의 터치 입력을 감지하고, 감지된 터치 신호에 해당하는 터치 이벤트 값을 출력할 수 있다. 터치 패널(1147)이 표시 패널(1111)과 결합하여 터치 스크린(미도시)을 구성한 경우, 터치 스크린은 정전식이나, 감압식, 압전식 등과 같은 다양한 유형의 터치 센서로 구현될 수 있다. 정전식은 터치 스크린 표면에 코팅된 유전체를 이용하여, 사용자의 신체 일부가 터치 스크린 표면에 터치되었을 때 사용자의 인체로 야기되는 미세 전기를 감지하여 터치 좌표를 산출하는 방식이다. 감압식은 터치 스크린에 내장된 두 개의 전극 판을 포함하여, 사용자가 화면을 터치하였을 경우, 터치된 지점의 상하 판이 접촉되어 전류가 흐르게 되는 것을 감지하여 터치 좌표를 산출하는 방식이다. 터치 스크린에서 발생하는 터치 이벤트는 주로 사람의 손가락에 의하여 생성될 수 있으나, 정전 용량 변화를 가할 수 있는 전도성 재질의 물체에 의해서도 생성될 수 있다.
펜 인식 패널(1148)은 사용자의 터치용 펜(예컨대, 스타일러스 펜(stylus pen), 디지타이저 펜(digitizer pen))의 운용에 따른 펜의 근접 입력 또는 터치 입력을 감지하고 감지된 펜 근접 이벤트 또는 펜 터치 이벤트를 출력할 수 있다. 펜 인식 패널(1148)은, 예로, EMR 방식으로 구현될 수 있으며, 펜의 근접 또는 터치에 의한 전자기장의 세기 변화에 따라 터치 또는 근접 입력을 감지할 수 있다. 상세하게는 펜 인식 패널(1148)은 그리드 구조를 가지는 전자 유도 코일 센서(미도시)와 전자 유도 코일 센서의 각 루프 코일에 순차적으로 소정의 주파수를 가지는 교류 신호를 제공하는 전자 신호 처리부(미도시)를 포함하여 구성될 수 있다. 이러한 펜 인식 패널(1148)의 루프 코일 근방에 공진회로를 내장하는 펜이 존재하면, 해당 루프 코일로부터 송신되는 자계가 펜 내의 공진회로에 상호 전자 유도에 기초한 전류를 발생시킨다. 이 전류를 기초로 하여, 펜 내의 공진 회로를 구성하는 코일로부터 유도 자계가 발생하게 되고, 펜 인식 패널(1148)은 이 유도 자계를 신호 수신 상태에 있는 루프 코일에서 검출하게 되어 펜의 접근 위치 또는 터치 위치가 감지될 수 있다. 펜 인식 패널(1148)은 표시 패널(1111)의 하부에 일정 면적, 예를 들어, 표시 패널(1111)의 표시 영역을 커버할 수 있는 면적을 가지고 마련될 수 있다.
마이크부(1150)는 사용자 음성이나 기타 소리를 입력 받아 오디오 데이터로 변환할 수 있다. 제어부(1170)는 마이크 부(1150)를 통해 입력되는 사용자 음성을 통화 동작에서 이용하거나, 오디오 데이터로 변환하여 메모리(1120)에 저장할 수 있다.
촬상부(1155)는 사용자의 제어에 따라 정지 영상 또는 동영상을 촬상할 수 있다. 촬상부(1155)는 전면 카메라, 후면 카메라와 같이 복수 개로 구현될 수도 있다. 일 실시 예에 의한 제어부(1170)는 촬상부(1155)에 의해 촬영된 영상으로부터 사용자의 외부 환경 정보를 획득할 수 있다. 제어부(1170)는 외부 환경 정보에 기초하여 최적의 상태로 디스플레이될 수 있도록 하는 파라미터를 결정할 수 있다.
촬상부(1155) 및 마이크부(1150)가 마련된 경우, 제어부(1170)는 마이크부(1150)를 통해 입력되는 사용자 음성이나 촬상부(1155)에 의해 인식되는 사용자 모션에 따라 제어 동작을 수행할 수도 있다. 예컨대, 음성 인식 장치(1100)는 모션 제어 모드나 음성 제어 모드로 동작할 수 있다. 모션 제어 모드로 동작하는 경우, 제어부(1170)는 촬상부(1155)를 활성화시켜 사용자를 촬상하고, 사용자의 모션 변화를 추적하여 그에 대응되는 제어 동작을 수행할 수 있다. 예를 들면, 제어부(1170)는 촬상부(1155)에 의해 감지된 사용자의 모션 입력에 따라 영상과 오디오 신호를 출력할 수 있다. 음성 제어 모드로 동작하는 경우 제어부(1170)는 마이크부(1150)를 통해 입력된 사용자 음성을 분석하고, 분석된 사용자 음성에 따라 제어 동작을 수행하는 음성 인식 모드로 동작할 수 있다.
구체적으로, 제어부(1170)는 마이크부(1150)를 통해 입력된 사용자 음성을 최종적으로 획득된 문법 모델에 기초하여 음성 인식을 수행하고, 음성 인식된 결과에 따라 디바이스를 제어하기 위한 제어 신호를 출력할 수 있다.
움직임 감지부(1165)는 음성 인식 장치(1100)의 본체 움직임을 감지할 수 있다. 음성 인식 장치(1100)는 다양한 방향으로 회전되거나 기울어질 수 있다. 이 때, 움직임 감지부(1165)는 지자기 센서, 자이로 센서, 가속도 센서 등과 같은 다양한 센서들 중 적어도 하나를 이용하여 회전 방향 및 각도, 기울기 등과 같은 움직임 특성을 감지할 수 있다.
그 밖에, 도 11에 도시하지는 않았으나, 실시예에는, 음성 인식 장치(1100) 내에 USB 커넥터가 연결될 수 있는 USB 포트나, 헤드셋, 마우스, LAN 등과 같은 다양한 외부 단자와 연결하기 위한 다양한 외부 입력 포트, DMB(Digital Multimedia Broadcasting) 신호를 수신하여 처리하는 DMB 칩, 다양한 센서 등을 더 포함할 수 있다.
전술한 음성 인식 장치(1100)의 구성 요소들의 명칭은 달라질 수 있다. 또한, 본 개시에 따른 음성 인식 장치(1100)는 전술한 구성요소들 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다.
일 실시 예에 의하면, 디바이스의 상태 정보에 따라 문법 모델을 생성함으로써, 음성 인식 시 오인식될 가능성을 줄일 수 있다.
일 실시 예에 의한 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.
비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.

Claims (14)

  1. 음성 인식을 수행하기 위한 문법 모델을 획득하는 방법에 있어서,
    적어도 하나의 디바이스의 상태에 관한 정보를 획득하는 단계;
    상기 획득된 정보에 기초하여, 상기 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득하는 단계; 및
    상기 획득된 문법 모델 정보에 기초하여, 상기 음성 인식을 수행하기 위한 문법 모델을 생성하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 적어도 하나의 디바이스의 상태에 관한 정보는
    각 디바이스의 작동 상태, 상기 각 디바이스의 제어가 가능한지 여부, 상기 각 디바이스의 장착 또는 연결된 위치에 관한 정보 및 상기 각 디바이스에서 수행 가능한 작업(operation) 중 적어도 하나를 포함하는, 방법.
  3. 제1항에 있어서, 상기 문법 모델 정보는
    상기 디바이스의 상태에 관한 정보에 기초하여 문자열이 대입될 수 있는, 적어도 하나의 패턴 정보를 포함하고,
    상기 문법 모델을 생성하는 단계는
    상기 패턴 정보에 대입될 문자열을 결정하기 위한 발성 테이블을 획득하는 단계;
    상기 발성 테이블로부터, 상기 디바이스의 상태에 관한 정보에 따라 상기 패턴 정보와 대응되는 문자열을 적어도 하나 획득하는 단계;
    상기 획득된 문자열을 상기 문법 모델 정보에 포함된 상기 패턴 정보에 대입함으로써, 상기 디바이스에 대한 문법 모델 정보를 획득하는 단계를 포함하는, 방법.
  4. 제1항에 있어서,
    상기 생성된 문법 모델에 기초하여 음성 인식을 수행하는 단계를 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 방법은
    적어도 하나의 디바이스의 상태가 변경될 때마다, 상기 디바이스의 상태에 관한 정보를 획득하고, 상기 획득된 정보에 기초하여 상기 문법 모델 정보를 획득하고, 상기 획득된 문법 모델 정보에 기초하여 상기 문법 모델을 생성하는, 방법.
  6. 제1항에 있어서, 상기 디바이스에 대한 문법 모델 정보는
    상기 디바이스가 프로브인 경우, 상기 프로브에 대해 설정된 앱 또는 프리셋, 또는 상기 프로브의 종류에 따라, 상기 프로브의 초음파 장치에서 수행 가능한 제어 명령어에 대한 문법 모델 정보를 포함하는, 방법.
  7. 음성 인식을 수행하기 위한 문법 모델을 획득하는 장치에 있어서,
    적어도 하나의 디바이스의 상태에 관한 정보를 획득하고, 상기 획득된 정보에 기초하여, 상기 적어도 하나의 디바이스에 대한 문법 모델 정보를 획득하는 수신부;
    상기 획득된 문법 모델 정보에 기초하여, 상기 음성 인식을 수행하기 위한 문법 모델을 생성하는 제어부를 포함하는, 장치.
  8. 제7항에 있어서, 상기 적어도 하나의 디바이스의 상태에 관한 정보는
    각 디바이스의 작동 상태, 상기 각 디바이스의 제어가 가능한지 여부, 상기 각 디바이스의 장착 또는 연결된 위치에 관한 정보 및 상기 각 디바이스에서 수행 가능한 작업(operation) 중 적어도 하나를 포함하는, 장치.
  9. 제7항에 있어서, 상기 문법 모델 정보는
    상기 디바이스의 상태에 관한 정보에 기초하여 결정될 수 있는 적어도 하나의 패턴 정보를 포함하고,
    상기 수신부는, 상기 패턴 정보에 대입될 문자열을 결정하기 위한 발성 테이블을 획득하고,
    상기 제어부는, 상기 발성 테이블로부터, 상기 디바이스의 상태에 관한 정보에 따라 상기 패턴 정보와 대응되는 문자열을 적어도 하나 획득하고, 상기 획득된 문자열을 상기 문법 모델 정보에 포함된 상기 패턴 정보에 대입함으로써, 상기 디바이스에 대한 문법 모델 정보를 적어도 하나 획득하는, 장치.
  10. 제7항에 있어서, 상기 디바이스에 대한 문법 모델 정보는
    상기 디바이스가 프로브인 경우, 상기 프로브에 대해 설정된 앱 또는 프리셋, 또는 상기 프로브의 종류에 따라, 상기 프로브의 초음파 장치에서 수행 가능한 제어 명령어에 대한 문법 모델 정보를 포함하는, 장치.
  11. 제7항에 있어서, 상기 제어부는
    상기 생성된 문법 모델에 기초하여 음성 인식을 수행하는, 장치.
  12. 제7항에 있어서, 상기 제어부는
    적어도 하나의 디바이스의 상태가 변경될 때마다, 상기 디바이스의 상태에 관한 정보를 획득하고, 상기 획득된 정보에 기초하여 상기 문법 모델 정보를 획득하고, 상기 획득된 문법 모델 정보에 기초하여 상기 문법 모델을 생성하는, 장치.
  13. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  14. 제1항 내지 제7항 중 어느 한 항에 있어서, 하드웨어와 결합되어 상기 방법을 실행시키는 컴퓨터 프로그램.
PCT/KR2014/009482 2013-10-08 2014-10-08 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치 WO2015053560A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201480067289.7A CN105814628B (zh) 2013-10-08 2014-10-08 用于基于装置信息来执行语音识别的方法和设备
US15/093,323 US10636417B2 (en) 2013-10-08 2016-04-07 Method and apparatus for performing voice recognition on basis of device information

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361888149P 2013-10-08 2013-10-08
US61/888,149 2013-10-08
KR10-2014-0135971 2014-10-08
KR1020140135971A KR102274317B1 (ko) 2013-10-08 2014-10-08 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/093,323 Continuation US10636417B2 (en) 2013-10-08 2016-04-07 Method and apparatus for performing voice recognition on basis of device information

Publications (1)

Publication Number Publication Date
WO2015053560A1 true WO2015053560A1 (ko) 2015-04-16

Family

ID=52813330

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/009482 WO2015053560A1 (ko) 2013-10-08 2014-10-08 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2015053560A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112425157A (zh) * 2018-07-24 2021-02-26 索尼公司 信息处理装置和方法以及程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003202890A (ja) * 2001-12-28 2003-07-18 Canon Inc 音声認識装置及びその方法、プログラム
US20040267518A1 (en) * 2003-06-30 2004-12-30 International Business Machines Corporation Statistical language model generating device, speech recognizing device, statistical language model generating method, speech recognizing method, and program
KR20080001873A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 음성 인식을 이용한 저장물 관리 장치 및 방법
KR20120037136A (ko) * 2010-10-11 2012-04-19 동국대학교 경주캠퍼스 산학협력단 음성인식 스케쥴 관리장치, 관리방법 및 그 기록매체
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003202890A (ja) * 2001-12-28 2003-07-18 Canon Inc 音声認識装置及びその方法、プログラム
US20040267518A1 (en) * 2003-06-30 2004-12-30 International Business Machines Corporation Statistical language model generating device, speech recognizing device, statistical language model generating method, speech recognizing method, and program
KR20080001873A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 음성 인식을 이용한 저장물 관리 장치 및 방법
KR20120037136A (ko) * 2010-10-11 2012-04-19 동국대학교 경주캠퍼스 산학협력단 음성인식 스케쥴 관리장치, 관리방법 및 그 기록매체
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112425157A (zh) * 2018-07-24 2021-02-26 索尼公司 信息处理装置和方法以及程序

Similar Documents

Publication Publication Date Title
WO2017039142A1 (en) User terminal apparatus, system, and method for controlling the same
WO2015133782A1 (ko) 컨텐츠 분석 방법 및 디바이스
WO2014112777A1 (en) Method for providing haptic effect in portable terminal, machine-readable storage medium, and portable terminal
WO2017126863A1 (ko) 안테나 장치 및 이를 포함하는 전자 장치
WO2014157846A1 (en) Portable terminal, hearing aid, and method of indicating positions of sound sources in the portable terminal
WO2018182279A1 (en) Method and apparatus for providing augmented reality function in electronic device
WO2016052874A1 (ko) 영상과 관련되는 리마크 정보 제공 방법 및 그 단말
WO2011059202A2 (en) Display device and method of controlling the same
WO2016093518A1 (en) Method and apparatus for arranging objects according to content of background image
KR102274317B1 (ko) 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치
WO2012169679A1 (ko) 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
WO2017164567A1 (en) Intelligent electronic device and method of operating the same
WO2018048163A1 (en) Electronic apparatus and method of controlling the same
WO2015072787A1 (ko) 전자 장치가 외부 디스플레이 장치와 화면을 공유하는 방법 및 전자 장치
WO2018070624A2 (en) Mobile terminal and control method thereof
WO2014137176A1 (en) Input apparatus, display apparatus, and control methods thereof
WO2018093005A1 (en) Mobile terminal and method for controlling the same
WO2016114432A1 (ko) 영상 정보에 기초하여 음향을 처리하는 방법, 및 그에 따른 디바이스
WO2018034436A1 (en) Electronic apparatus and method of operating the same
WO2016122240A1 (en) Electronic apparatus and method of setting network of audio device
WO2016182361A1 (en) Gesture recognition method, computing device, and control device
WO2015178661A1 (en) Method and apparatus for processing input using display
WO2019156408A1 (ko) 전자 장치 및 그 동작 방법
WO2018164534A1 (ko) 휴대 장치 및 휴대 장치의 화면 제어방법
WO2014042474A2 (en) Method and system for executing application, and device and recording medium thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14852418

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14852418

Country of ref document: EP

Kind code of ref document: A1